作者:桑文鋒
題目的觀點是我在吳軍的某本書上看到的,當時內心咯噔了一下。我一直在思考到底什么是大數據,這句話直中要害。這么牛的觀點,我一般不太相信是一個人直接領悟出來的,背后一定會有其它來源依據,今天終于被我找到了。在看《暗時間》時,里面討論了一些信息論相關的內容,于是就嘗試搜索信息論和不確定性的關系,結果發現香農說了這么一句話:“信息是用來消除不確定性的東西”。信息論的鼻祖果然比鼻祖,一句話解釋了信息。
去年我在看《硅谷百年史》時,順便研究了從二進制到計算機的演變過程,當時有一個問題:二進制都可以用電路來表示,那么怎么證明兩者是等價的呢?結果我順著這個問題發現香農的碩士論文就是寫的這個東西。想想我自己的碩士論文,只能說人和人還是有差別的。
我本科和研究生都是計算機專業,并沒有學過《信息論》,這門課應該是通信專業的必修課。我猜想信息和不確定性這個疑問,對通信專業的學生來說,根本就不是這個問題。當然,通信專業的學生可能也不能很好的理解大數據。有時間我會把這門課自學一下,來消除一下我對熵這種概念的恐懼,至少現在還沒邁過這個坎。
什么是不確定性?比如來說,你不知道回家的路上是不是擁堵,這就是一種不確定性。如果通過打開百度地圖查看實時路況,你就知道了結果。這樣,百度地圖就給你提供了信息,從而消除了這種不確定性。顯然,大數據只是信息的一種,既然信息是用來消除不確定性的,大數據自然就是消除不確定性的了。我思考這個問題,還是為了搞清楚大數據本身的價值。我的職業生涯都是建立在其之上,可不想它本身是站不住腳的。
從消除不確定性的視角來解釋大數據的價值,就直接很多。我把數據的價值歸結為兩點,一是驅動決策,比如產品怎么改進更好,運營活動開展的效果如何;二是驅動產品智能,比如個性化推薦、精準廣告等,現在都統稱為 AI,都是將準備好的數據套上一定的策略算法,將結果反饋到產品上,讓產品具有學習能力,即智能。對于以上這兩點,大數據分別消除了決策的不確定性,和針對個體提供服務的不確定性。