精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當(dāng)前位置:CIO新聞中心 → 正文

人力資源的大數(shù)據(jù)之道

責(zé)任編輯:cres |來源:企業(yè)網(wǎng)D1Net  2017-07-20 17:22:31 原創(chuàng)文章 企業(yè)網(wǎng)D1Net

2017 CIOC全國(guó)CIO大會(huì)7月20日在青海·西寧盛大舉辦,來自全國(guó)的300余位CIO共聚一堂,最接地氣的觀點(diǎn)、最實(shí)用的實(shí)戰(zhàn)經(jīng)驗(yàn)、最前沿的技術(shù)、最新的產(chǎn)品在此匯聚,碰撞出屬于CIO的精彩火花。
 
以下為現(xiàn)場(chǎng)速記。
 

職品匯創(chuàng)始人(原大街網(wǎng)首席科學(xué)家) 龔才春
 
龔才春:謝謝!各位領(lǐng)導(dǎo)、各位朋友,下午好!我是職品匯的龔才春,剛才說到,如果你泄漏了50條個(gè)人隱私數(shù)據(jù)就有可能入刑。我跟大家說一個(gè)更可怕的消息,今年2017年我們要抓5000人,希望各位CIO在這方面引起注意。在這里我跟大家講一講大數(shù)據(jù)之道。2011年我們大家開始接觸大數(shù)據(jù),到現(xiàn)在6年多的時(shí)間過去了,我相信我們?cè)谧拿恳晃粚?duì)大數(shù)據(jù)都非常了解,所以大數(shù)據(jù)的概念我們?cè)谶@里就不需要再講了。
 
大數(shù)據(jù)之道可能大家還沒有聽說過,“道”這個(gè)詞最早提出來的是老子,老子說“道可道,非常道;明可明,非常明”。其實(shí)道就是自然規(guī)律,大數(shù)據(jù)我們已經(jīng)知道了,大數(shù)據(jù)里面有什么規(guī)律呢?其實(shí)我今天想跟大家分享的,就是解釋一下大數(shù)據(jù)里面的規(guī)律。很多朋友都問過我,有傳統(tǒng)行業(yè)和互聯(lián)網(wǎng)行業(yè)的朋友都問一個(gè)問題,他說龔博士你是做大數(shù)據(jù)的,我們公司也有很多數(shù)據(jù)積淀,數(shù)據(jù)量非常大,我想挖掘一些價(jià)值出來,我應(yīng)該從哪里著手。其實(shí)我今天的報(bào)告就是回答這個(gè)問題的,當(dāng)你對(duì)大數(shù)據(jù)還不是特別了解的情況下,我們?cè)趺辞腥胱龃髷?shù)據(jù)的分析挖掘。
 
大數(shù)據(jù)主要包括這么幾個(gè)技術(shù),第一是數(shù)據(jù)采集,第二是數(shù)據(jù)存儲(chǔ),第三是數(shù)據(jù)的并行計(jì)算,第四是大家比較關(guān)心的大數(shù)據(jù)的分析與挖掘,第五是大數(shù)據(jù)的展示,第六是大數(shù)據(jù)的隱私保護(hù)和法律問題。從這幾個(gè)方面來講,其實(shí)從大數(shù)據(jù)的采集看,我們的八爪魚等各個(gè)系統(tǒng)都做得不錯(cuò),大家用到很多工具展示大數(shù)據(jù)的結(jié)果。在這里有一個(gè)問題,一直到現(xiàn)在沒有誰能夠總結(jié)出規(guī)律,那就是大數(shù)據(jù)的分析與挖掘。在大數(shù)據(jù)的分析與挖掘中,一直沒有一個(gè)通用的模型能夠在任何的場(chǎng)景下分析出我們的數(shù)據(jù)價(jià)值。在現(xiàn)在是沒有這樣的大數(shù)據(jù)的產(chǎn)品的,我相信在未來的很長(zhǎng)時(shí)間之內(nèi),也不會(huì)有這樣的產(chǎn)品。也就是說,大數(shù)據(jù)的分析和挖掘要做成通用產(chǎn)品是不可能的。但是在大數(shù)據(jù)的分析與挖掘有沒有共性的東西呢?我們把這個(gè)共性的東西就稱為“大數(shù)據(jù)之道”。
 
我今天跟大家分享幾個(gè)方面的內(nèi)容,第一是解釋什么叫大數(shù)據(jù)之道,第二是我們職品匯這家公司是怎么做大數(shù)據(jù)分析與挖掘的。我們先講大數(shù)據(jù)之道,這里提到王道、帝道和霸道,其實(shí)在帝道之前還有一個(gè)道,我們稱之為皇道。王道、皇道、帝道、霸道就是統(tǒng)治老百姓的規(guī)律和方法,其實(shí)皇道被中國(guó)的皇帝所破壞了,皇帝推崇的就是打戰(zhàn),把炎帝打敗,打敗之后推行的就是帝道,把皇道去掉了,所以我們這邊講的帝道是講什么內(nèi)容呢?在古代就是好民之所好,惡民之所惡,老百姓喜歡什么我們就應(yīng)該喜歡什么,老百姓討厭什么我們就應(yīng)該討厭什么,帝道推崇的就是以德服人,無為而治。
 
帝道是誰廢除的呢?我們覺得帝道推崇的就是堯舜,但是后來被廢除了,后來推崇的是王道。王道就是一心行仁,澤及百姓。在這里王道做得最好的,其實(shí)就是周武王,周武王就叫做以禮治國(guó)、有為而治,王天天想著怎么統(tǒng)治老百姓,統(tǒng)治老百姓的是想著怎么讓老百姓舒服一點(diǎn)、爽一點(diǎn)點(diǎn),爽是我今天聽到最多的一個(gè)詞。
 
之后就是霸道,最典型的是商鞅,商鞅變法的所有策略和內(nèi)容都是霸道,所謂的霸道就是讓秦國(guó)快速成為春秋包括戰(zhàn)國(guó)的一個(gè)霸主,追求的就是短、平、快。我們現(xiàn)在翻譯霸道就是依法治國(guó),再翻譯一下其實(shí)就是國(guó)家的恐怖主義,類似于國(guó)民黨的白色恐怖、共產(chǎn)黨的紅色恐怖就是霸道。
 
接下來,我們?cè)倏匆豢此鼈冇惺裁礃拥膮^(qū)別。再來講一講帝道,其實(shí)是強(qiáng)調(diào)道德素養(yǎng),強(qiáng)調(diào)長(zhǎng)治久安。也就是說,帝道講的就是長(zhǎng)遠(yuǎn)的永久的去解決問題。第二個(gè)就是王道,王道強(qiáng)調(diào)的是禮義廉恥,所以王道強(qiáng)調(diào)的是可持續(xù)發(fā)展,就是科技治國(guó)。最后霸道強(qiáng)調(diào)的是短、平、快的解決問題。包括很多都跟我們的大數(shù)據(jù)、IT、CIO沒有一毛錢關(guān)系,我們?cè)偻罂匆豢矗@些到底是帝道、還是王道、還是霸道,基本上看上去科教興國(guó)算是王道,其它的應(yīng)該都算是霸道。所以其實(shí)都是講究短、平、快的出結(jié)果,尤其是我們的計(jì)劃生育,就是希望在短期之內(nèi)出結(jié)果,就搞計(jì)劃生育,后來發(fā)現(xiàn)不行了。
 
我們步入正題,在大數(shù)據(jù)里面,什么是王道、擺到、帝道。我相信我們的很多公司剛剛開始做大數(shù)據(jù)的時(shí)候,都還是想出效果的,我們就行一行霸道,霸道我們這邊用了一個(gè)詞叫做“數(shù)字”,大數(shù)據(jù)公司的霸道就是數(shù)據(jù),在什么情況下你都能想到數(shù)據(jù)的時(shí)候,你可能就很短、平、快的解決你的問題,這就是我們說的霸道。第二再往上就是大數(shù)據(jù)的王道,這個(gè)可能大家都聽說得很多,大數(shù)據(jù)這個(gè)概念在中國(guó)2011年興起的時(shí)候,我相信大家都聽到一個(gè)詞,在現(xiàn)在數(shù)據(jù)是王道,這個(gè)詞我相信無數(shù)人說過。大數(shù)據(jù)的王道就是數(shù)據(jù),所以你要積累數(shù)據(jù)、分析數(shù)據(jù)、挖掘數(shù)據(jù),這是我們所說的大數(shù)據(jù)的王道。最后我們公司要持續(xù)發(fā)展,我們要行大數(shù)據(jù)的帝道,就是數(shù)學(xué)。一個(gè)問題只有在數(shù)學(xué)上解決了,這個(gè)問題才叫做從根本上解決了。所以在這里我們的總結(jié)就是,大數(shù)據(jù)的霸道是數(shù)字,大數(shù)據(jù)的王道是數(shù)據(jù),大數(shù)據(jù)的帝道是數(shù)學(xué)。
 
好像還是很深?yuàn)W,下面就以我們公司自己的例子跟大家講一講,什么叫做大數(shù)據(jù)的霸道、什么叫王道、什么叫帝道。我們公司叫職品匯,這應(yīng)該是我們公司的一個(gè)使命,讓天下沒有欺騙。我們公司做的業(yè)務(wù)可以簡(jiǎn)單理解為人力資源行業(yè)的背景調(diào)查,當(dāng)然我們的背景調(diào)查跟其它公司做的背景調(diào)查不完全相同。我們的背調(diào)是用計(jì)算機(jī)完成的,而不需要人工的參與。在這種情況下,我們就要收集幾乎所有人的數(shù)據(jù),我們來判斷這個(gè)人的背景是真實(shí)的背景。剛才說到泄漏50條數(shù)據(jù)要入刑,我這里包括所有中國(guó)人的都有,如果我們公司出現(xiàn)數(shù)據(jù)泄漏,可能會(huì)更加的嚴(yán)重。
 
我說一下我們公司的業(yè)務(wù),現(xiàn)在在人力資源這一塊都在做招聘,我們的招聘網(wǎng)站是不去對(duì)這些方面進(jìn)行把關(guān)的,每個(gè)HR可以隨意在上面發(fā)布招聘職位,每個(gè)候選人可以隨意投遞簡(jiǎn)歷,而且這個(gè)簡(jiǎn)歷都是候選人自己寫的,沒有人在中間做把關(guān)。正是這種錯(cuò)誤的商業(yè)邏輯,更多的是鼓勵(lì)大家造假,因?yàn)槟阍旒僭蕉啵惆l(fā)現(xiàn)你得到的利益更多。在這種模式下,我們招聘網(wǎng)站的招聘職位基本上每天大概在1千萬左右,其中有60%到70%的招聘本身是虛假的。我們?cè)倏纯次覀兊暮?jiǎn)歷,在中國(guó)互聯(lián)網(wǎng)上有簡(jiǎn)歷的人大概是1.5億左右,官方給的數(shù)據(jù)是85%的簡(jiǎn)歷涉及造假,當(dāng)然我們認(rèn)為這個(gè)數(shù)據(jù)可能還不止85%。包括后面畢業(yè)生的簡(jiǎn)歷,可能這一塊是最不靠譜的,我們拿一個(gè)畢業(yè)生的簡(jiǎn)歷來看一看,基本上不用看,除了姓名、手機(jī)、郵箱地址之外,性別這些可能會(huì)造假。
 
我們介紹一下大數(shù)據(jù)這一塊是怎么做的,這是我們整體上的一個(gè)公司的計(jì)算架構(gòu),分為三大塊。最左邊是數(shù)據(jù)來源,當(dāng)然有一點(diǎn)點(diǎn)變形,我們有4類數(shù)據(jù)來源。第一類是申請(qǐng)使用權(quán)威數(shù)據(jù),包括公安、教育、人力等等數(shù)據(jù)都會(huì)申請(qǐng)使用。第二類是合作共享,我們開發(fā)了獵頭管理系統(tǒng)、HR管理系統(tǒng),讓獵頭和HR來使用,我們也正在開發(fā)虛假簡(jiǎn)歷的識(shí)別系統(tǒng),這些系統(tǒng)都是免費(fèi)提供給HR使用的。在使用過程中,HR也會(huì)留下他的數(shù)據(jù),我們現(xiàn)在掌握了1.5億的數(shù)據(jù),大概是5000萬人的數(shù)據(jù),這個(gè)也是通過合作共享的方式獲取到的數(shù)據(jù)。第三類是通過網(wǎng)絡(luò)采集的數(shù)據(jù),我們今年定的目標(biāo)就是采集30億份簡(jiǎn)歷,當(dāng)然也包括其它數(shù)據(jù)的采集,我們后面會(huì)更加詳細(xì)的去說。第四類數(shù)據(jù)是候選人必須到我們的網(wǎng)站授權(quán),在這種情況下授權(quán)也會(huì)給我們留下數(shù)據(jù)。中間就是我們的數(shù)據(jù)分析的過程,包括定級(jí)、解析以及各種各樣的比對(duì),實(shí)際上這就是我們公司做的分析和挖掘。最后其實(shí)就是出具的個(gè)人征信報(bào)告,當(dāng)然我們的個(gè)人征信報(bào)告是在職場(chǎng)上的個(gè)人征信報(bào)告,你天天在外面有男女不同的關(guān)系,那些東西我們不是特別關(guān)心。
 
最后我們開始講我們的霸道,我們把什么問題都能夠歸結(jié)到一個(gè)數(shù)字的時(shí)候,你可能就把這個(gè)問題想清楚了。舉個(gè)例子,大家看過奧斯卡評(píng)獎(jiǎng),奧斯卡是干什么的,對(duì)全世界最好的電影,24項(xiàng)里面都找出一個(gè)最好的,到最后歸結(jié)為一個(gè)數(shù)字。胡潤(rùn)排行榜其實(shí)就是把全世界的人誰有多少錢,把這個(gè)錢變成一個(gè)數(shù)字來描述一下,給這個(gè)數(shù)字一個(gè)排序。我們這邊也有各種各樣的數(shù)字,最右邊的就是一個(gè)職品分,有一點(diǎn)點(diǎn)類似于大家看到的芝麻征信分一樣,這實(shí)際上就是我們把這個(gè)人在職場(chǎng)上的表現(xiàn)或者這個(gè)人的優(yōu)秀程度或者這個(gè)人的可信程度,我們用這么一個(gè)數(shù)字來標(biāo)志,這就是我們把這個(gè)人的信用問題變成一個(gè)數(shù)字。這個(gè)中間的人脈關(guān)系,就是說這個(gè)人的人脈有多廣,或者他認(rèn)識(shí)多少牛逼的人,就是用了這么一個(gè)人脈關(guān)系的分來計(jì)算,把它變成一個(gè)數(shù)字。
 
如果我們把我們的問題都能夠變成一個(gè)個(gè)數(shù)字,并且計(jì)算出來這個(gè)數(shù)字,你會(huì)發(fā)現(xiàn)在大數(shù)據(jù)的時(shí)候,你就完成一個(gè)很重要的工作。我們也列了在職場(chǎng)這一塊需要計(jì)算的各種各樣的數(shù)字,你會(huì)發(fā)現(xiàn)HR看一個(gè)人的時(shí)候,我只需要看這個(gè)人在一個(gè)維度上的數(shù)字就行了。你做一個(gè)大數(shù)據(jù)項(xiàng)目的時(shí)候,你要想一想這個(gè)大數(shù)據(jù)項(xiàng)目最終歸結(jié)到計(jì)算幾個(gè)數(shù)字嗎?如果能夠歸結(jié)出來,也許你離成功就接近一半了。這就是職品匯的霸道。
 
我們?cè)倏纯赐醯溃簿褪钦f我們有哪些數(shù)據(jù)呢?這些是我們自有的數(shù)據(jù),我有1.5億份簡(jiǎn)歷數(shù)據(jù),上面肯定有你的姓名和手機(jī)號(hào)碼,這些都屬于粉絲。而且我們也有物流地址,這上面有你的姓名、你家在什么地方、你公司在什么地方。而且稍微分析一下,我可以找到薛蠻子的5個(gè)女人,這是非常隱私的,這些數(shù)據(jù)都在我們這兒。這就是我們整理的數(shù)據(jù),當(dāng)然整理我們的數(shù)據(jù)的過程中,我們還要進(jìn)行一些分析和處理。剛才有一位老總說數(shù)據(jù)要進(jìn)行很多清洗和很多工作,我們現(xiàn)在對(duì)數(shù)據(jù)基本上是不清洗的。在大數(shù)據(jù)時(shí)代我們要有三個(gè)意識(shí),需要做一些觀念上或者思維方式上的變更。第一是全樣思維,我們?cè)谛?shù)據(jù)年代講究的是抽樣,我去抽樣來看看怎么樣,我想看看今天男女比例是什么樣的,我就看第一排有多少男同志和多少女同志,我就知道男女比例。但是在大數(shù)據(jù)時(shí)代我們從來不抽樣,我們要的是全樣,對(duì)應(yīng)我們?cè)跀?shù)據(jù)采集的時(shí)候,我們采集的就是所有的數(shù)據(jù),我們也不能夠清洗數(shù)據(jù)。
 
第二是容錯(cuò)思維,容錯(cuò)思維對(duì)應(yīng)到小數(shù)據(jù)里面,我們就是要做數(shù)據(jù)的清洗,這些數(shù)據(jù)可能是不準(zhǔn)確的、不精確的甚至是錯(cuò)誤的,我們就應(yīng)該想辦法把它去掉。這是在小數(shù)據(jù)年代我們經(jīng)常做的事,在大數(shù)據(jù)年代我們要求別這么做,錯(cuò)誤有錯(cuò)誤的理由,它為什么會(huì)錯(cuò)呢,它是有它的理由的,它存在肯定有一個(gè)道理,我們不應(yīng)該把這些噪音去掉。同時(shí)在你這個(gè)階段你認(rèn)為是噪音,在其它應(yīng)用場(chǎng)景下可能是正常的數(shù)據(jù)。
 
舉一個(gè)例子,如果我們要做說話人識(shí)別的時(shí)候,我要識(shí)別這句話可能是誰說的,那么用得最多的就是“恩、呢、嗎”這些詞。如果我們要分析這個(gè)人說話的內(nèi)容表示什么含義,這些副詞就不重要了,最重要的是動(dòng)詞、名詞、形容詞,這些都在語音的領(lǐng)域里面,只是兩個(gè)不同的場(chǎng)景,它需要的數(shù)據(jù)就完全不同。所以在大數(shù)據(jù)年代,我們不需要去掉任何數(shù)據(jù),這就是我們所說的容錯(cuò)的思維。
 
這是我們其它的一些數(shù)據(jù),基本上我們中國(guó)的教師在網(wǎng)上有簡(jiǎn)歷的,我們都有簡(jiǎn)歷。中國(guó)誰買過什么車,這些數(shù)據(jù)我們基本上有十分之一。大家發(fā)表過什么論文,基本上我們有掌握90%的人發(fā)的論文。其它的這些老賴是540萬,一直到現(xiàn)在一共公布761萬人,我們現(xiàn)在已經(jīng)采集到700萬人,基本上我們的數(shù)據(jù)量采集還是非常全的,包括人人網(wǎng)的數(shù)據(jù),這些我們基本上全部拿過來了。工商的幾乎所有數(shù)據(jù)我們都有,學(xué)歷認(rèn)證這一塊我們現(xiàn)在庫(kù)里面是75萬,其實(shí)我們能夠驗(yàn)證5000萬人的學(xué)歷,而且這個(gè)學(xué)歷認(rèn)證和教育部的學(xué)信網(wǎng)學(xué)歷認(rèn)證是不完全相同的,高職院校之前的他驗(yàn)證不了,我們這個(gè)是不受影響的。
 
這是我們的權(quán)威數(shù)據(jù),包括公安、運(yùn)營(yíng)商的數(shù)據(jù),這是稍微標(biāo)準(zhǔn)的數(shù)據(jù)。銀行的數(shù)據(jù)、網(wǎng)貸黑名單、金融風(fēng)控的數(shù)據(jù),包括運(yùn)營(yíng)商的數(shù)據(jù)。從數(shù)據(jù)上講,我們作為一個(gè)大數(shù)據(jù)公司,我們也會(huì)收集整理我們的數(shù)據(jù),這就是我們今年定的目標(biāo),我們還要收集哪些數(shù)據(jù)。
 
最后一個(gè)是講我們的帝道,其實(shí)帝道就是我們說的數(shù)學(xué)。我們到最后強(qiáng)調(diào)的是你把你的什么事情能夠用一個(gè)數(shù)學(xué)模型表示出來,也許你就在根本上解決了這個(gè)事情。我怎么判斷一個(gè)人的簡(jiǎn)歷虛假或者怎么解釋一個(gè)人信用分,中間就是我們的各種各樣的計(jì)算方法,這邊是結(jié)果。我們隨便舉兩個(gè),第一個(gè)自行提交材料,如果我要向別人證明我是中科院計(jì)算所的博士,最簡(jiǎn)單的是把論文給大家看,大家就知道我真的是中科院計(jì)算所的博士,這種屬于自行提交材料,當(dāng)然還有各種各樣的論證方式。這邊是我們?cè)跀?shù)學(xué)上計(jì)算一個(gè)人的評(píng)分,這個(gè)人的職品分905分是怎么打出來的,這是需要計(jì)算的,就有一個(gè)計(jì)算模型。這是我的個(gè)人經(jīng)歷,我是碩士是在山東大學(xué)上的,為什么要從山東大學(xué)到中科院去呢?我個(gè)人可能認(rèn)為中科院比山東大學(xué)好一點(diǎn)。
 
這些計(jì)算出來之后,我就形成一個(gè)有向圖,而我們手上有1.5億份簡(jiǎn)歷,中間2000多份簡(jiǎn)歷中就有從一個(gè)學(xué)校到另外一個(gè)學(xué)校的。而中國(guó)的學(xué)校只有3千所,這個(gè)圖是非常稠密的圖,很好分析和挖掘。我們形成這么一個(gè)有向圖之后,我們就在這個(gè)有向圖上進(jìn)行分析挖掘,這個(gè)分析挖掘的算法我就不在這里跟大家說了,大家可以參考谷歌的算法。我可以算出來究竟中國(guó)哪所大學(xué)是最好的,大學(xué)的排名就這么出來的。
 
這是中國(guó)公司的排名,中國(guó)有8千萬家公司,到底哪家公司最好,騰訊好還是哪家公司好,我們也會(huì)對(duì)這些公司進(jìn)行排名。這是職位的定級(jí),我們就不用看了。到最后實(shí)際上這就是一個(gè)統(tǒng)一的模型,我們不僅僅要對(duì)中國(guó)所有高校對(duì)計(jì)算級(jí)算出到底誰好誰差,對(duì)中國(guó)8千萬家公司算出誰好誰差,中國(guó)有9.2億從業(yè)者,在座都是這9.2億人中的佼佼者,這些人到底誰最厲害、誰的信用不好,我們也是要進(jìn)行計(jì)算的。這里我們有一個(gè)迭代的模型,我們認(rèn)為好的學(xué)校的人會(huì)去好的公司,好的公司的人可能會(huì)來自比較好的學(xué)校的人或者來自比較牛的人,這四者之間進(jìn)行一個(gè)迭代。這個(gè)模型是可以收斂的,一收斂以后,每個(gè)人的分就出來了,這個(gè)分不依賴于你平時(shí)的信息,只要我們把這個(gè)網(wǎng)絡(luò)構(gòu)建好了,我們這個(gè)分就能夠算出來,而且它不依賴于其它的個(gè)人信息。
 
所以這邊有一個(gè)征信模型,我們的征信模型其實(shí)很簡(jiǎn)單,每一個(gè)人的信用狀況怎么樣取決于他的朋友是什么樣的朋友,也就是說你的信用狀況可以等同于你的朋友的信用狀況的一個(gè)平均值,這樣把你的所有朋友加起來,你的信用分就算出來了。我今天跟大家分享的內(nèi)容大概就是這些,謝謝各位!

關(guān)鍵字:大數(shù)據(jù)

原創(chuàng)文章 企業(yè)網(wǎng)D1Net

x 人力資源的大數(shù)據(jù)之道 掃一掃
分享本文到朋友圈
當(dāng)前位置:CIO新聞中心 → 正文

人力資源的大數(shù)據(jù)之道

責(zé)任編輯:cres |來源:企業(yè)網(wǎng)D1Net  2017-07-20 17:22:31 原創(chuàng)文章 企業(yè)網(wǎng)D1Net

2017 CIOC全國(guó)CIO大會(huì)7月20日在青海·西寧盛大舉辦,來自全國(guó)的300余位CIO共聚一堂,最接地氣的觀點(diǎn)、最實(shí)用的實(shí)戰(zhàn)經(jīng)驗(yàn)、最前沿的技術(shù)、最新的產(chǎn)品在此匯聚,碰撞出屬于CIO的精彩火花。
 
以下為現(xiàn)場(chǎng)速記。
 

職品匯創(chuàng)始人(原大街網(wǎng)首席科學(xué)家) 龔才春
 
龔才春:謝謝!各位領(lǐng)導(dǎo)、各位朋友,下午好!我是職品匯的龔才春,剛才說到,如果你泄漏了50條個(gè)人隱私數(shù)據(jù)就有可能入刑。我跟大家說一個(gè)更可怕的消息,今年2017年我們要抓5000人,希望各位CIO在這方面引起注意。在這里我跟大家講一講大數(shù)據(jù)之道。2011年我們大家開始接觸大數(shù)據(jù),到現(xiàn)在6年多的時(shí)間過去了,我相信我們?cè)谧拿恳晃粚?duì)大數(shù)據(jù)都非常了解,所以大數(shù)據(jù)的概念我們?cè)谶@里就不需要再講了。
 
大數(shù)據(jù)之道可能大家還沒有聽說過,“道”這個(gè)詞最早提出來的是老子,老子說“道可道,非常道;明可明,非常明”。其實(shí)道就是自然規(guī)律,大數(shù)據(jù)我們已經(jīng)知道了,大數(shù)據(jù)里面有什么規(guī)律呢?其實(shí)我今天想跟大家分享的,就是解釋一下大數(shù)據(jù)里面的規(guī)律。很多朋友都問過我,有傳統(tǒng)行業(yè)和互聯(lián)網(wǎng)行業(yè)的朋友都問一個(gè)問題,他說龔博士你是做大數(shù)據(jù)的,我們公司也有很多數(shù)據(jù)積淀,數(shù)據(jù)量非常大,我想挖掘一些價(jià)值出來,我應(yīng)該從哪里著手。其實(shí)我今天的報(bào)告就是回答這個(gè)問題的,當(dāng)你對(duì)大數(shù)據(jù)還不是特別了解的情況下,我們?cè)趺辞腥胱龃髷?shù)據(jù)的分析挖掘。
 
大數(shù)據(jù)主要包括這么幾個(gè)技術(shù),第一是數(shù)據(jù)采集,第二是數(shù)據(jù)存儲(chǔ),第三是數(shù)據(jù)的并行計(jì)算,第四是大家比較關(guān)心的大數(shù)據(jù)的分析與挖掘,第五是大數(shù)據(jù)的展示,第六是大數(shù)據(jù)的隱私保護(hù)和法律問題。從這幾個(gè)方面來講,其實(shí)從大數(shù)據(jù)的采集看,我們的八爪魚等各個(gè)系統(tǒng)都做得不錯(cuò),大家用到很多工具展示大數(shù)據(jù)的結(jié)果。在這里有一個(gè)問題,一直到現(xiàn)在沒有誰能夠總結(jié)出規(guī)律,那就是大數(shù)據(jù)的分析與挖掘。在大數(shù)據(jù)的分析與挖掘中,一直沒有一個(gè)通用的模型能夠在任何的場(chǎng)景下分析出我們的數(shù)據(jù)價(jià)值。在現(xiàn)在是沒有這樣的大數(shù)據(jù)的產(chǎn)品的,我相信在未來的很長(zhǎng)時(shí)間之內(nèi),也不會(huì)有這樣的產(chǎn)品。也就是說,大數(shù)據(jù)的分析和挖掘要做成通用產(chǎn)品是不可能的。但是在大數(shù)據(jù)的分析與挖掘有沒有共性的東西呢?我們把這個(gè)共性的東西就稱為“大數(shù)據(jù)之道”。
 
我今天跟大家分享幾個(gè)方面的內(nèi)容,第一是解釋什么叫大數(shù)據(jù)之道,第二是我們職品匯這家公司是怎么做大數(shù)據(jù)分析與挖掘的。我們先講大數(shù)據(jù)之道,這里提到王道、帝道和霸道,其實(shí)在帝道之前還有一個(gè)道,我們稱之為皇道。王道、皇道、帝道、霸道就是統(tǒng)治老百姓的規(guī)律和方法,其實(shí)皇道被中國(guó)的皇帝所破壞了,皇帝推崇的就是打戰(zhàn),把炎帝打敗,打敗之后推行的就是帝道,把皇道去掉了,所以我們這邊講的帝道是講什么內(nèi)容呢?在古代就是好民之所好,惡民之所惡,老百姓喜歡什么我們就應(yīng)該喜歡什么,老百姓討厭什么我們就應(yīng)該討厭什么,帝道推崇的就是以德服人,無為而治。
 
帝道是誰廢除的呢?我們覺得帝道推崇的就是堯舜,但是后來被廢除了,后來推崇的是王道。王道就是一心行仁,澤及百姓。在這里王道做得最好的,其實(shí)就是周武王,周武王就叫做以禮治國(guó)、有為而治,王天天想著怎么統(tǒng)治老百姓,統(tǒng)治老百姓的是想著怎么讓老百姓舒服一點(diǎn)、爽一點(diǎn)點(diǎn),爽是我今天聽到最多的一個(gè)詞。
 
之后就是霸道,最典型的是商鞅,商鞅變法的所有策略和內(nèi)容都是霸道,所謂的霸道就是讓秦國(guó)快速成為春秋包括戰(zhàn)國(guó)的一個(gè)霸主,追求的就是短、平、快。我們現(xiàn)在翻譯霸道就是依法治國(guó),再翻譯一下其實(shí)就是國(guó)家的恐怖主義,類似于國(guó)民黨的白色恐怖、共產(chǎn)黨的紅色恐怖就是霸道。
 
接下來,我們?cè)倏匆豢此鼈冇惺裁礃拥膮^(qū)別。再來講一講帝道,其實(shí)是強(qiáng)調(diào)道德素養(yǎng),強(qiáng)調(diào)長(zhǎng)治久安。也就是說,帝道講的就是長(zhǎng)遠(yuǎn)的永久的去解決問題。第二個(gè)就是王道,王道強(qiáng)調(diào)的是禮義廉恥,所以王道強(qiáng)調(diào)的是可持續(xù)發(fā)展,就是科技治國(guó)。最后霸道強(qiáng)調(diào)的是短、平、快的解決問題。包括很多都跟我們的大數(shù)據(jù)、IT、CIO沒有一毛錢關(guān)系,我們?cè)偻罂匆豢矗@些到底是帝道、還是王道、還是霸道,基本上看上去科教興國(guó)算是王道,其它的應(yīng)該都算是霸道。所以其實(shí)都是講究短、平、快的出結(jié)果,尤其是我們的計(jì)劃生育,就是希望在短期之內(nèi)出結(jié)果,就搞計(jì)劃生育,后來發(fā)現(xiàn)不行了。
 
我們步入正題,在大數(shù)據(jù)里面,什么是王道、擺到、帝道。我相信我們的很多公司剛剛開始做大數(shù)據(jù)的時(shí)候,都還是想出效果的,我們就行一行霸道,霸道我們這邊用了一個(gè)詞叫做“數(shù)字”,大數(shù)據(jù)公司的霸道就是數(shù)據(jù),在什么情況下你都能想到數(shù)據(jù)的時(shí)候,你可能就很短、平、快的解決你的問題,這就是我們說的霸道。第二再往上就是大數(shù)據(jù)的王道,這個(gè)可能大家都聽說得很多,大數(shù)據(jù)這個(gè)概念在中國(guó)2011年興起的時(shí)候,我相信大家都聽到一個(gè)詞,在現(xiàn)在數(shù)據(jù)是王道,這個(gè)詞我相信無數(shù)人說過。大數(shù)據(jù)的王道就是數(shù)據(jù),所以你要積累數(shù)據(jù)、分析數(shù)據(jù)、挖掘數(shù)據(jù),這是我們所說的大數(shù)據(jù)的王道。最后我們公司要持續(xù)發(fā)展,我們要行大數(shù)據(jù)的帝道,就是數(shù)學(xué)。一個(gè)問題只有在數(shù)學(xué)上解決了,這個(gè)問題才叫做從根本上解決了。所以在這里我們的總結(jié)就是,大數(shù)據(jù)的霸道是數(shù)字,大數(shù)據(jù)的王道是數(shù)據(jù),大數(shù)據(jù)的帝道是數(shù)學(xué)。
 
好像還是很深?yuàn)W,下面就以我們公司自己的例子跟大家講一講,什么叫做大數(shù)據(jù)的霸道、什么叫王道、什么叫帝道。我們公司叫職品匯,這應(yīng)該是我們公司的一個(gè)使命,讓天下沒有欺騙。我們公司做的業(yè)務(wù)可以簡(jiǎn)單理解為人力資源行業(yè)的背景調(diào)查,當(dāng)然我們的背景調(diào)查跟其它公司做的背景調(diào)查不完全相同。我們的背調(diào)是用計(jì)算機(jī)完成的,而不需要人工的參與。在這種情況下,我們就要收集幾乎所有人的數(shù)據(jù),我們來判斷這個(gè)人的背景是真實(shí)的背景。剛才說到泄漏50條數(shù)據(jù)要入刑,我這里包括所有中國(guó)人的都有,如果我們公司出現(xiàn)數(shù)據(jù)泄漏,可能會(huì)更加的嚴(yán)重。
 
我說一下我們公司的業(yè)務(wù),現(xiàn)在在人力資源這一塊都在做招聘,我們的招聘網(wǎng)站是不去對(duì)這些方面進(jìn)行把關(guān)的,每個(gè)HR可以隨意在上面發(fā)布招聘職位,每個(gè)候選人可以隨意投遞簡(jiǎn)歷,而且這個(gè)簡(jiǎn)歷都是候選人自己寫的,沒有人在中間做把關(guān)。正是這種錯(cuò)誤的商業(yè)邏輯,更多的是鼓勵(lì)大家造假,因?yàn)槟阍旒僭蕉啵惆l(fā)現(xiàn)你得到的利益更多。在這種模式下,我們招聘網(wǎng)站的招聘職位基本上每天大概在1千萬左右,其中有60%到70%的招聘本身是虛假的。我們?cè)倏纯次覀兊暮?jiǎn)歷,在中國(guó)互聯(lián)網(wǎng)上有簡(jiǎn)歷的人大概是1.5億左右,官方給的數(shù)據(jù)是85%的簡(jiǎn)歷涉及造假,當(dāng)然我們認(rèn)為這個(gè)數(shù)據(jù)可能還不止85%。包括后面畢業(yè)生的簡(jiǎn)歷,可能這一塊是最不靠譜的,我們拿一個(gè)畢業(yè)生的簡(jiǎn)歷來看一看,基本上不用看,除了姓名、手機(jī)、郵箱地址之外,性別這些可能會(huì)造假。
 
我們介紹一下大數(shù)據(jù)這一塊是怎么做的,這是我們整體上的一個(gè)公司的計(jì)算架構(gòu),分為三大塊。最左邊是數(shù)據(jù)來源,當(dāng)然有一點(diǎn)點(diǎn)變形,我們有4類數(shù)據(jù)來源。第一類是申請(qǐng)使用權(quán)威數(shù)據(jù),包括公安、教育、人力等等數(shù)據(jù)都會(huì)申請(qǐng)使用。第二類是合作共享,我們開發(fā)了獵頭管理系統(tǒng)、HR管理系統(tǒng),讓獵頭和HR來使用,我們也正在開發(fā)虛假簡(jiǎn)歷的識(shí)別系統(tǒng),這些系統(tǒng)都是免費(fèi)提供給HR使用的。在使用過程中,HR也會(huì)留下他的數(shù)據(jù),我們現(xiàn)在掌握了1.5億的數(shù)據(jù),大概是5000萬人的數(shù)據(jù),這個(gè)也是通過合作共享的方式獲取到的數(shù)據(jù)。第三類是通過網(wǎng)絡(luò)采集的數(shù)據(jù),我們今年定的目標(biāo)就是采集30億份簡(jiǎn)歷,當(dāng)然也包括其它數(shù)據(jù)的采集,我們后面會(huì)更加詳細(xì)的去說。第四類數(shù)據(jù)是候選人必須到我們的網(wǎng)站授權(quán),在這種情況下授權(quán)也會(huì)給我們留下數(shù)據(jù)。中間就是我們的數(shù)據(jù)分析的過程,包括定級(jí)、解析以及各種各樣的比對(duì),實(shí)際上這就是我們公司做的分析和挖掘。最后其實(shí)就是出具的個(gè)人征信報(bào)告,當(dāng)然我們的個(gè)人征信報(bào)告是在職場(chǎng)上的個(gè)人征信報(bào)告,你天天在外面有男女不同的關(guān)系,那些東西我們不是特別關(guān)心。
 
最后我們開始講我們的霸道,我們把什么問題都能夠歸結(jié)到一個(gè)數(shù)字的時(shí)候,你可能就把這個(gè)問題想清楚了。舉個(gè)例子,大家看過奧斯卡評(píng)獎(jiǎng),奧斯卡是干什么的,對(duì)全世界最好的電影,24項(xiàng)里面都找出一個(gè)最好的,到最后歸結(jié)為一個(gè)數(shù)字。胡潤(rùn)排行榜其實(shí)就是把全世界的人誰有多少錢,把這個(gè)錢變成一個(gè)數(shù)字來描述一下,給這個(gè)數(shù)字一個(gè)排序。我們這邊也有各種各樣的數(shù)字,最右邊的就是一個(gè)職品分,有一點(diǎn)點(diǎn)類似于大家看到的芝麻征信分一樣,這實(shí)際上就是我們把這個(gè)人在職場(chǎng)上的表現(xiàn)或者這個(gè)人的優(yōu)秀程度或者這個(gè)人的可信程度,我們用這么一個(gè)數(shù)字來標(biāo)志,這就是我們把這個(gè)人的信用問題變成一個(gè)數(shù)字。這個(gè)中間的人脈關(guān)系,就是說這個(gè)人的人脈有多廣,或者他認(rèn)識(shí)多少牛逼的人,就是用了這么一個(gè)人脈關(guān)系的分來計(jì)算,把它變成一個(gè)數(shù)字。
 
如果我們把我們的問題都能夠變成一個(gè)個(gè)數(shù)字,并且計(jì)算出來這個(gè)數(shù)字,你會(huì)發(fā)現(xiàn)在大數(shù)據(jù)的時(shí)候,你就完成一個(gè)很重要的工作。我們也列了在職場(chǎng)這一塊需要計(jì)算的各種各樣的數(shù)字,你會(huì)發(fā)現(xiàn)HR看一個(gè)人的時(shí)候,我只需要看這個(gè)人在一個(gè)維度上的數(shù)字就行了。你做一個(gè)大數(shù)據(jù)項(xiàng)目的時(shí)候,你要想一想這個(gè)大數(shù)據(jù)項(xiàng)目最終歸結(jié)到計(jì)算幾個(gè)數(shù)字嗎?如果能夠歸結(jié)出來,也許你離成功就接近一半了。這就是職品匯的霸道。
 
我們?cè)倏纯赐醯溃簿褪钦f我們有哪些數(shù)據(jù)呢?這些是我們自有的數(shù)據(jù),我有1.5億份簡(jiǎn)歷數(shù)據(jù),上面肯定有你的姓名和手機(jī)號(hào)碼,這些都屬于粉絲。而且我們也有物流地址,這上面有你的姓名、你家在什么地方、你公司在什么地方。而且稍微分析一下,我可以找到薛蠻子的5個(gè)女人,這是非常隱私的,這些數(shù)據(jù)都在我們這兒。這就是我們整理的數(shù)據(jù),當(dāng)然整理我們的數(shù)據(jù)的過程中,我們還要進(jìn)行一些分析和處理。剛才有一位老總說數(shù)據(jù)要進(jìn)行很多清洗和很多工作,我們現(xiàn)在對(duì)數(shù)據(jù)基本上是不清洗的。在大數(shù)據(jù)時(shí)代我們要有三個(gè)意識(shí),需要做一些觀念上或者思維方式上的變更。第一是全樣思維,我們?cè)谛?shù)據(jù)年代講究的是抽樣,我去抽樣來看看怎么樣,我想看看今天男女比例是什么樣的,我就看第一排有多少男同志和多少女同志,我就知道男女比例。但是在大數(shù)據(jù)時(shí)代我們從來不抽樣,我們要的是全樣,對(duì)應(yīng)我們?cè)跀?shù)據(jù)采集的時(shí)候,我們采集的就是所有的數(shù)據(jù),我們也不能夠清洗數(shù)據(jù)。
 
第二是容錯(cuò)思維,容錯(cuò)思維對(duì)應(yīng)到小數(shù)據(jù)里面,我們就是要做數(shù)據(jù)的清洗,這些數(shù)據(jù)可能是不準(zhǔn)確的、不精確的甚至是錯(cuò)誤的,我們就應(yīng)該想辦法把它去掉。這是在小數(shù)據(jù)年代我們經(jīng)常做的事,在大數(shù)據(jù)年代我們要求別這么做,錯(cuò)誤有錯(cuò)誤的理由,它為什么會(huì)錯(cuò)呢,它是有它的理由的,它存在肯定有一個(gè)道理,我們不應(yīng)該把這些噪音去掉。同時(shí)在你這個(gè)階段你認(rèn)為是噪音,在其它應(yīng)用場(chǎng)景下可能是正常的數(shù)據(jù)。
 
舉一個(gè)例子,如果我們要做說話人識(shí)別的時(shí)候,我要識(shí)別這句話可能是誰說的,那么用得最多的就是“恩、呢、嗎”這些詞。如果我們要分析這個(gè)人說話的內(nèi)容表示什么含義,這些副詞就不重要了,最重要的是動(dòng)詞、名詞、形容詞,這些都在語音的領(lǐng)域里面,只是兩個(gè)不同的場(chǎng)景,它需要的數(shù)據(jù)就完全不同。所以在大數(shù)據(jù)年代,我們不需要去掉任何數(shù)據(jù),這就是我們所說的容錯(cuò)的思維。
 
這是我們其它的一些數(shù)據(jù),基本上我們中國(guó)的教師在網(wǎng)上有簡(jiǎn)歷的,我們都有簡(jiǎn)歷。中國(guó)誰買過什么車,這些數(shù)據(jù)我們基本上有十分之一。大家發(fā)表過什么論文,基本上我們有掌握90%的人發(fā)的論文。其它的這些老賴是540萬,一直到現(xiàn)在一共公布761萬人,我們現(xiàn)在已經(jīng)采集到700萬人,基本上我們的數(shù)據(jù)量采集還是非常全的,包括人人網(wǎng)的數(shù)據(jù),這些我們基本上全部拿過來了。工商的幾乎所有數(shù)據(jù)我們都有,學(xué)歷認(rèn)證這一塊我們現(xiàn)在庫(kù)里面是75萬,其實(shí)我們能夠驗(yàn)證5000萬人的學(xué)歷,而且這個(gè)學(xué)歷認(rèn)證和教育部的學(xué)信網(wǎng)學(xué)歷認(rèn)證是不完全相同的,高職院校之前的他驗(yàn)證不了,我們這個(gè)是不受影響的。
 
這是我們的權(quán)威數(shù)據(jù),包括公安、運(yùn)營(yíng)商的數(shù)據(jù),這是稍微標(biāo)準(zhǔn)的數(shù)據(jù)。銀行的數(shù)據(jù)、網(wǎng)貸黑名單、金融風(fēng)控的數(shù)據(jù),包括運(yùn)營(yíng)商的數(shù)據(jù)。從數(shù)據(jù)上講,我們作為一個(gè)大數(shù)據(jù)公司,我們也會(huì)收集整理我們的數(shù)據(jù),這就是我們今年定的目標(biāo),我們還要收集哪些數(shù)據(jù)。
 
最后一個(gè)是講我們的帝道,其實(shí)帝道就是我們說的數(shù)學(xué)。我們到最后強(qiáng)調(diào)的是你把你的什么事情能夠用一個(gè)數(shù)學(xué)模型表示出來,也許你就在根本上解決了這個(gè)事情。我怎么判斷一個(gè)人的簡(jiǎn)歷虛假或者怎么解釋一個(gè)人信用分,中間就是我們的各種各樣的計(jì)算方法,這邊是結(jié)果。我們隨便舉兩個(gè),第一個(gè)自行提交材料,如果我要向別人證明我是中科院計(jì)算所的博士,最簡(jiǎn)單的是把論文給大家看,大家就知道我真的是中科院計(jì)算所的博士,這種屬于自行提交材料,當(dāng)然還有各種各樣的論證方式。這邊是我們?cè)跀?shù)學(xué)上計(jì)算一個(gè)人的評(píng)分,這個(gè)人的職品分905分是怎么打出來的,這是需要計(jì)算的,就有一個(gè)計(jì)算模型。這是我的個(gè)人經(jīng)歷,我是碩士是在山東大學(xué)上的,為什么要從山東大學(xué)到中科院去呢?我個(gè)人可能認(rèn)為中科院比山東大學(xué)好一點(diǎn)。
 
這些計(jì)算出來之后,我就形成一個(gè)有向圖,而我們手上有1.5億份簡(jiǎn)歷,中間2000多份簡(jiǎn)歷中就有從一個(gè)學(xué)校到另外一個(gè)學(xué)校的。而中國(guó)的學(xué)校只有3千所,這個(gè)圖是非常稠密的圖,很好分析和挖掘。我們形成這么一個(gè)有向圖之后,我們就在這個(gè)有向圖上進(jìn)行分析挖掘,這個(gè)分析挖掘的算法我就不在這里跟大家說了,大家可以參考谷歌的算法。我可以算出來究竟中國(guó)哪所大學(xué)是最好的,大學(xué)的排名就這么出來的。
 
這是中國(guó)公司的排名,中國(guó)有8千萬家公司,到底哪家公司最好,騰訊好還是哪家公司好,我們也會(huì)對(duì)這些公司進(jìn)行排名。這是職位的定級(jí),我們就不用看了。到最后實(shí)際上這就是一個(gè)統(tǒng)一的模型,我們不僅僅要對(duì)中國(guó)所有高校對(duì)計(jì)算級(jí)算出到底誰好誰差,對(duì)中國(guó)8千萬家公司算出誰好誰差,中國(guó)有9.2億從業(yè)者,在座都是這9.2億人中的佼佼者,這些人到底誰最厲害、誰的信用不好,我們也是要進(jìn)行計(jì)算的。這里我們有一個(gè)迭代的模型,我們認(rèn)為好的學(xué)校的人會(huì)去好的公司,好的公司的人可能會(huì)來自比較好的學(xué)校的人或者來自比較牛的人,這四者之間進(jìn)行一個(gè)迭代。這個(gè)模型是可以收斂的,一收斂以后,每個(gè)人的分就出來了,這個(gè)分不依賴于你平時(shí)的信息,只要我們把這個(gè)網(wǎng)絡(luò)構(gòu)建好了,我們這個(gè)分就能夠算出來,而且它不依賴于其它的個(gè)人信息。
 
所以這邊有一個(gè)征信模型,我們的征信模型其實(shí)很簡(jiǎn)單,每一個(gè)人的信用狀況怎么樣取決于他的朋友是什么樣的朋友,也就是說你的信用狀況可以等同于你的朋友的信用狀況的一個(gè)平均值,這樣把你的所有朋友加起來,你的信用分就算出來了。我今天跟大家分享的內(nèi)容大概就是這些,謝謝各位!

關(guān)鍵字:大數(shù)據(jù)

原創(chuàng)文章 企業(yè)網(wǎng)D1Net

電子周刊
回到頂部

關(guān)于我們聯(lián)系我們版權(quán)聲明隱私條款廣告服務(wù)友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權(quán)所有 ©2010-2024 京ICP備09108050號(hào)-6 京公網(wǎng)安備 11010502049343號(hào)

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 澜沧| 崇信县| 哈巴河县| 女性| 塔城市| 庄河市| 三门峡市| 遂宁市| 砚山县| 唐河县| 都昌县| 灵宝市| 神池县| 米林县| 来安县| 阳原县| 常宁市| 定日县| 南雄市| 陵川县| 郯城县| 中江县| 班玛县| 印江| 泾阳县| 巴南区| 芒康县| 中西区| 罗甸县| 汝城县| 新沂市| 吉木乃县| 徐水县| 米脂县| 永泰县| 大方县| 泸西县| 永川市| 府谷县| 伽师县| 仲巴县|