上圖為北大國家發展研究院教授、法律經濟學中心聯席主任薛兆豐。
由學習型中國促進會主辦的“第十五屆學習型中國-世紀成功論壇”于2014年12月11日-13日在北京舉辦。上圖為北大國家發展研究院教授、法律經濟學中心聯席主任薛兆豐。薛兆豐表示,互聯網是過去10年完全想象不到的巨大的變化。怎么去幻想,怎么去想象都不過分。
以下為薛兆豐演講實錄
薛兆豐:各位大家好!前面我們聽了大數據、互聯網的解釋,聽了他們的應用,互聯網是過去10年完全想象不到的巨大的變化。怎么去幻想,怎么去想象都不過 分。有一些非常小的數據給大家一個參考,在今天,所有的數字化的數量在全部資源過去所有資源的98%,10年前是25%,只有25%是數字化的,其他的信 息都是紙張、唱片、膠卷等信息,到今天發展得非常快,98%的數量是數字化的,我們生活已經完全數字化了。今天一天上傳到Youtoo,就超過以前整整 50年拍攝的數量。大家可以想象這個數字怎么爆炸!隨著我們生活越來越數字化,我們計算機就的沒有邊界了,今天所有的聽眾來聽關于大數據關于互聯網應用已 經不是第一次了,我今天跟大家講的內容是有一個反思,反過來問,最后邊界在哪?計算機能做什么而計算機又不能做什么?這個故事要從非常古老的山洞預言,這是伯拉圖做的,他說我們人類有沒有反思過?如果我們是一群被鐵鏈綁的人,從來你的臉都是看著那個墻,這時候你看到的那個墻是你知道全部的時間,而這時候真 實世界是發生在你背后的,有真的移動的人,真的桌子、椅子、動物,他們都在一個火炬的光源的前面移動過,而你看到的僅僅是那幅墻!你會怎么理解這個世界? 你永遠不知道真的世界是怎么樣的!你看到的只是一個平面。你不知道它背后發生了什么事情!他說,我們哲學家,或者我們的知識分子,我們的人類有一個本事, 跳出鎖鏈的人,能夠看到背后真的發生了什么事情的人,他需要聯想,需要機器做不到的事情。我們古代說我們觀察的天象有兩個文明,一個是巴比倫文明,他們非 常精確的記載了所有星座的移動,這是最早的大數據。它從中預測到哪個星什么時候出現?有大量的書記載。這是一種文明,非常精準知道哪個星什么時候出去!另 外一種是幻想的文明,我們看到天這是一個鍋,有一個賬篷,撐著四個頂,天是有邊的,如果你走到那個邊就會掉下去。他能想象一個我們看到這個圖,這個墻背后 想象成跟這個墻反映出來的現象不同的世界。這里是人和機器有不同的地方,就是研究人工智能、機器語言和機器學習,最后他們問的邊界的問題,人和機器差別在哪里。這是人這個人怎么樣,這是描述性的,如果我漲價,銷量會變得怎么樣?大家可以做測試,還有一個語言是虛擬語氣,不是每一種文字都有專門的虛擬語氣, 如果我是你,情況會怎么樣?如果雞不叫天會不會亮?這是人類獨特的特點,是機器做不到的。
現在許多機器學習,他們說機器能夠學習,能夠處理大量的數據,剛才有一位演講者說人有多少特征描述?我的回答是無數個。給一個蘋果給你,請你描述這個蘋果,你會問,用什么角度?因為有無數個角度,有形狀、顏色、甜度、厚度,現在指標很多,傳統銀行描述一個客戶存貸款變量有幾十個,現在發展為幾百個。阿里 巴巴的變量有上萬個。他怎么用這些指標?我們說有了這些數據,我們有了大量的數據,一天產生量是過去50年產生的量,機器是可以學習的,你可以探索,找當 中所有的關系,但是機器做不到的是電量。
剛才那只貓可以彈鋼琴,它在鋼琴上跑十年,邏輯上能跑出一首莫札特的曲子,但是還是由人來決定到底這個維度對,還是那個維度對!所以機器學習有一個重大的缺陷,它能提出許多的相關性。頭發長是藝術家,但是因果關系無法判斷。只有人才在當中掂量哪個因素是重要的。我們所有學管理的都在背后解釋他為什么這么成功?是他營銷做的 好?他平臺做的好嗎?他有高瞻遠矚嗎?有無數的理由,最近我聽過一個理由他說,阿里巴巴早做都是虧的,后面做才是賺錢的,最重要的原因是從小抱著計算機長 大的那些人,相信計算機的人開始賺錢了,畢業出來賺錢,開始買東西了,其他都不重要!我們看到阿里巴巴成功的數據,整個大經濟的狀況,所有這些數據放在這 里的時候,那么多的因果關系你挑哪個這是機器做不到的。
第三,人會欺騙。這也是獨有的。我們說互聯網的時代是一個嶄新的時代,但是我們有沒有想過以前有電報的時候大家有沒有想過這是新的時代?我們有電話的時候, 這又是很新的時代!其實,誰都沒有電話,只有很少人有的時候,你確實是比別人高一點,但是人人都有電話的時候你就不會比別人快多少!這時候我們要回歸一個 本質,最終決定勝負的是你能不能建立非常牢固可靠的人與人之間的信任關系。在街上我看到一個騙子,他問我要錢我不會給他,如果他給我打電話我就會給他了 嗎?如果他有一個ID我就會給他了嗎?我們有許多的策略,開始的時候我們喜歡說上了網就完全不一樣了!其實你看阿里巴巴,我給他們做經濟顧問好幾年,其中 一個重要的領域就是網規,建立人與人的信任很容易啊!實際上,人的聰明程度遠遠超過機器的,他會利用它,然后會出現職業的差評師。包括他在社交網絡里面轉 發什么樣的貼子,是不是專門專發不靠譜的貼子,這些都會被記錄。
第四,還有人需要激勵。我們外面經常談到的是到了互聯網就是大數據,所有人都是共享的,有些大公司都喜歡說他們是全資共享的,真拿出共享的資料是有限 的,我們發現最后資源特別是數據資源,特別是經過人工判斷的,經過因果關系判斷的數據是很貴的,不會隨便給你的,哪怕是一個大公司,別說你是一個外人,就 是內人也不是每個部門都同樣能夠得到這些數據的,不同的部門把數據都鎖的死死的,其中一個部門是用數據最好的,是最多人愿意向他提供的,就是小貸!我要這 個客戶資料是能夠創造利潤的,你不告訴我們,就會虧錢的。在一個大公司里也不是人人都得到相同的數據的使用程度的。
大數據不是還大,而是要求活,要從具體的業務出發,以具體的業務作為導向。很多人認為大數據非常廉價,比如說服務器、云,我最近自己買了云服務器,每個 月我覺得速度不夠快,本來20美金,現在漲到40美金,我自己用來做非常簡單的工程,40美金的服務器,我的學生說,40塊錢很貴了,你這個運轉速度比 Facebook創建的時候所運轉的服務器還好。很便宜,面粉多的時候肉就貴,機器越便宜的時候,人的判斷人的因果關系,人的電量就越貴。
第三,大數據必須人才非常專業。現在全美國我知道若干幾個不到10個有專門的大數據處理的,實際上都是跨行業的人才!大數據需要的人才有非常深的,比如 他是黑客,對技術非常了解,他數據專家,他清理數據的能力非常強,建模能力非常強,他溝通能力非常強,他跟建模的人和商業使用的人溝通能力非常強,還有純粹商業模式。這五個領域是不同的領域,有人是非常深的,但是更需要是兩三個領域跨領域,這時候因為溝通的成本是最貴的,如果你能找到一個人互相溝通的話, 一個人才有若干個本領,他一個人腦袋里就可以溝通,這是非常有用的人才。其實并不是全部開放的,越是原始的數據,一放出去就全沒了,覆水難收,顆粒度越細 的數據敏感度越強,經過加工實際是需要產權保護的,所以企業在使用的過程中,開發大數據的項目過程中需要注意保護自己的數據。
最關鍵的一點數據是變化的,技術總是在變化的,最后我們回到人的本質。我們要看人能做什么?什么是機器不能做的?只有人才能做的?最后所有要解決的問題還是回到信任建立。謝謝大家!