“道”最早是由老子提出,“道可道,非常道;明可明,非常明”,其意就是要遵循自然規律。顧名思義,大數據之道,就是要找出大數據里面的規律。
當前,隨著大數據時代的深入發展,人們對大數據的了解正逐漸深入,大數據主要包括以下幾個方面:第一是數據采集,第二是數據存儲,第三是數據并行計算,第四是大數據的分析與挖掘,第五是大數據的展示,第六是大數據隱私保護和法律問題。
前不久,在青海西寧舉辦的2017年CIO大會上,職品匯創始人(原大街網首席科學家) 龔才春在演講中說到:"在大數據的分析與挖掘中,一直沒有一個通用的模型能夠在任何的場景下分析出我們的數據價值。在現在是沒有這樣的大數據的產品的,我相信在未來的很長時間之內,也不會有這樣的產品。也就是說,大數據的分析和挖掘要做成通用產品是不可能的。但是在大數據的分析與挖掘有沒有共性的東西呢?我們把這個共性的東西就稱為“大數據之道”。"為解釋大數據之道的真正內涵,龔才春博士先后提到王道、帝道、霸道等涵義,從黃帝到堯舜,再到商鞅,再講到如今的依法治國,無一不體現西歐那個王道到霸道的歷史變遷和進化。
在大數據的世界里,何為王道、帝道、霸道?正如龔博士所言:“大數據公司的霸道就是數字,在什么情況下你都能想到數據的時候,你可能就很短、平、快的解決你的問題,大數據的王道就是數據,所以你要積累數據、分析數據、挖掘數據,這是我們所說的大數據的王道。公司要持續發展,要行大數據的帝道,就是數學。一個問題只有在數學上解決了,這個問題才叫做從根本上解決了。所以我總結就是,大數據的霸道是數字,大數據的王道是數據,大數據的帝道是數學。”
數字:大數據的霸道
在大數據時代,當企業將面臨的問題都歸結到一個數字的時候,就可以輕易的弄清問題幷解決問題。例如,眾所周知的奧斯卡獎和胡潤排行榜,奧斯卡獎就是把全世界的電影,從24項里選擇一個最好的,好與不好,都最終歸結到一個數字商。同理,胡潤排行榜也是如此,把全世界的人誰有多少錢,把這個錢變成一個數字來描述一下,給這個數字一個排序。
當前的職品匯也是如此:把個人在職場商的表現、個人的優秀程度和可信度用一個數字來表示,把人的信用問題變成了一個簡單的數字,不管這個人的人脈有多廣,能力有多強,成就有多大,最好都變成了一個數字。當你把有的問題都變成了一個個數字,幷計算出來這個數字,你就會發現,在運用大數據時候,你就完成了一個很重要的工作。尤其是在職場上,需要面對各種各樣的數字,而HR在看一個人的時候,只需要看這個人一個維度商的數字即可。在做大數據項目的同時,將大數據項目最終歸結到幾個數字,那么,你離成功就接近了一半。這就是大數據的霸道。
數據:大數據的王道
在大數據時代下,人們需要做一些觀念上和思維方式上面的變更。需要有兩個意識:第一是全樣思維,在小數據年代,講究的抽樣,而大數據時代,抽樣已經被淘汰,不僅不需要抽樣,而是要全樣,在數據采集的時候,采集的就是所有的數據,不能夠對數據進行清洗;
第二是容錯思維,容錯思維對應到小數據里面,就是要做數據的清洗,這些數據可能是不準確的、不精確的甚至是錯誤的,因此,要想辦法把它去掉,這是在小數據年代常見的做法,雖然在大數據時代也是這樣做,但是要轉變一下方式,在清除錯誤數據的同時,要找出數據錯誤的原因和理由,錯誤數據的存在也有一定的道理,當你的數據在這一個場景是錯誤的,換一個場景可能就是正常的數據了。在大數據時代,只要是兩個不同的場景,需要的數據就完全不同,因此,在大數據時代,不需要去掉任何數據,這就是所謂的容錯思維。
數學:大數據的帝道
在大數據時代,企業或個人把面臨的問題用數學模型表示出,從而解決面臨的問題,這就是大數據的帝道。職品匯就是通過一系列的數學模型來判斷個人簡歷是否真實和個人信用分等問題。如果通過建立數學模型來進行判斷,龔才春博士也以中國大學的排名舉例說到:“如果我要向別人證明我是中科院計算所的博士,最簡單的是把論文給大家看,大家就知道我真的是中科院計算所的博士,這種屬于自行提交材料,當然還有各種各樣的論證方式。這邊是我們在數學上計算一個人的評分,這個人的職品分905分是怎么打出來的,這是需要計算的,就有一個計算模型。這是我的個人經歷,我是碩士是在山東大學上的,為什么要從山東大學到中科院去呢?我個人可能認為中科院比山東大學好一點。這些計算出來之后,就形成一個有向圖,而我們手上有1.5億份簡歷,中間2000多份簡歷中就有從一個學校到另外一個學校的。而中國的學校只有3千所,這個圖是非常稠密的圖,很好分析和挖掘。我們形成這么一個有向圖之后,我們就在這個有向圖上進行分析挖掘,這個分析挖掘的算法可以參考谷歌的算法,通過一些列對的計算就可以算出來究竟中國哪所大學是最好的,大學的排名就這么出來的。”
中國公司的排名也是如此,中國總共有8000萬家公司,到底哪家是最好的?通過數學模型就可以計算出來:中國有9.2億從業者,這些人的信用評分可以計算出來,由此產生一個迭代的計算模型,一般而言,優秀的從業者會進入優秀的公司。此外,個人的信用狀況也取決于他的朋友是什么樣的朋友,也就是說個人信用狀況等同于朋友信用狀況的一個平均值,由此建立一個數學分析模型,通過迭代模型計算,就可以計算出誰是中國最好的公司。
結語:
總而言之,不管是大數據的王道、霸道還是帝道,歸根結底,都是要對大數據進行采集,挖掘、分析和整理。大數據的本質幷不在于數據本身,而且要對數據進行有效的分析和運用,從龐大的數據中找到對自身有用的數據,big data的真正涵義在“right data”。將分散的數字采集成為數據,再將整理好的數據建立數學模型進行分析運用,這就是大數據從霸道到王道,最早實現帝道的真諦所在。未來,隨著大數據時代的發展,大數據必將成為企業發展必不可少的重要工具,如何實現大數據的帝道,這是廣大企業要思考的問題。