時下,最熱的話題不是大數據,而是“世界杯”。即便如此,“世界杯”上也難回避大數據的身影。今年的世界杯賽事,德國隊已經把傳感器裝到了每一位隊員的身上,也裝到了足球上面。一場比賽下來就有6000萬條記錄。一個球員的控球時間、傳球數量、奔跑速度、奔跑長度,這些全部都被記錄下來。這告訴我們:數據是人為的現象,一切的數據都是人為收集的。在我們城市的大街小巷都布滿了攝影頭,它們就是一個個數據的采集員。而采集到的這些數據最后的目的還是用到“科技改變人的生活”上。因此,大數據雖然高端大氣,但卻與我們的生活緊密相連。作為中國創新活力的沃土——中關村創業講壇上再次聚焦大數據,為大家解讀大數據的奧妙,暢想大數據的未來。
最近一段時間以來,巴西“世界杯”可以說是最為社會廣泛關注的一個熱點。一份來自奧地利維也納經濟大學研究人員的公報聲稱,通過對網上博彩公司的長期賠率、各球隊的歷史表現和近期球員傷病情況的統計分析,他們預測巴西隊問鼎世界杯勝算較大,奪冠幾率為22.5%,緊跟其后的是阿根廷15.8%、德國13.4%。雖然奪冠頭號熱門巴西已經被德國擋在決賽門外,但并未封殺大數據在預測方面的可信度。例如,美國微軟的必應搜索在前不久開始進行的八分之一決賽前,成功預測了巴西、哥倫比亞、荷蘭、哥斯達黎加、法國、德國、阿根廷、比利時八支球隊的晉級。
這些類似電子“章魚保羅”的預測,其依據就是如今IT界三大技術趨勢之一的“大數據”。
“云計算”方興未艾,“大數據”又悄然興起。如今,三大技術趨勢正在重塑IT世界———云計算、移動互聯網、大數據正在不斷提供令人驚嘆的新價值。為幫助創業者充分理解大數據的業務價值,中關村創業講壇從2013年起就開展了多次關于大數據的培訓活動。7月4日,第108期中關村創業講壇再次聚焦大數據,特別邀請了微軟高級程序員、通聯數據首席研究員、《數據之巔》作者涂子沛和知名數據專家、神州數碼工程院院長謝耘,帶領大家一起認識大數據、暢想大數據的未來。
大數據是什么?
在本屆世界杯上,德國隊把傳感器裝到了每一個隊員和足球上,一場比賽下來就有6000萬條記錄,包括球員的控球時間、傳球數量、奔跑速度、奔跑長度。
這個例子完美地詮釋了這樣的說法:數據是人為的現象,一切的數據都是人為收集的。
數據有三個來源:一是測量,二是記錄,三是計算。正是因為所有的數據都是收集來的,所以,建設好大數據一定需要頂層設計。
首先我們要弄清什么是數據
“在前信息時代數據意味著對客觀世界的測量,它是一個有根據的數字。進入了信息時代之后,數據的內涵發生了深刻的變化,包括音頻、視頻在內的信息都統稱為數據。特別是現在,我們整個城市都布滿了攝像頭,每個人身上都可能帶有好幾臺智能設備,這個時候產生的大量數據和以前的數據是不一樣的。以前的數據是結構化的數據,處于終端的數據,現在的數據屬于非結構化的數據,沒有辦法用固定的字段來完成描述的數據。隨著數據內涵的不斷擴大,容量的不斷增加,也就引發了大數據時代的到來。”據此,涂子沛給出了自己關于大數據的定義:傳統的小數據+現代的大記錄。現代的大記錄是指音頻、視頻,它的來源是源于記錄事件,而傳統數據是來源于測量事件。
“以前數據都是和具體的應用綁在一起的,數據服務于應用,應用必須采集這些數據。但是今天大量的數據出現可能沒有特定的目的。比如攝影,以前覺得這個景點特別好,才照一張留個紀念。現在則是拿著相機隨處拍。”謝耘進一步解釋到,隨著技術和產品不斷的進步,從而導致整個計算資源、通訊資源、存儲資源成本大幅度降低,所以才會產生大量的數據。
傳統的數據管理是按照一個一個應用把數據管起來,在大數據時代大量的數據產生的時候是沒有明確應用的,但是這個數據的價值絕不僅僅在于這一點的應用。到底我們應該怎么管理這個數據?“管好數據才能用好數據。”謝耘認為,傳統的方式是采集數據后會進入到各種應用系統,但是各個系統相互之間沒有關聯,數據也沒有辦法交換。雖然為了交換數據能夠建立交換平臺,但依然是傳統的交換方式。“如果我們按照人、企業或城市,按照一個一個主體界定的范圍,把這些數據依據彼此之間反應的邏輯管理起來,整個系統的建設將會發生根本性的變化。”
大數據的過去
“數據對生活當中的作用由來已久。”涂子沛以美國為例介紹說,美國在建國制定《憲法》時就強調用數據來管理,最典型的例子是每十年要進行一次人口普查,然后按照這個地區人口的多少去分配議員。美國南北戰爭中著名的將軍謝爾曼當時表示,“我要切斷后勤,不要補給,帶著6萬人打到東海岸去。”兵馬未動、糧草先行,沒有補給怎么打仗?他當時就是根據人口普查的數據,哪個地方有多少頭牛、多少匹馬、多少家禽,把部隊分成五路大軍,然后在地圖上計算部隊走到這里糧食能不能夠支持到最后。后來證明這些數據非常有用,6萬人一個多月所向披靡,很快到達了目標。謝爾曼在自己的回憶錄中寫到,“這場戰爭瀕臨結束之后種種事件證明,沒有數據我贏不了。”
除了在政治和軍事上的影響外,涂子沛還給大家列舉了大數據在文化生活中的一個典型案例———大家知道美國熱播的電視劇《紙牌屋》是大數據推動的結果。其實,大數據真正驅動的第一部影片是《亂世佳人》。1936年,一本名叫《亂世佳人》的小說迅速走紅,但好萊塢對此卻很遲疑,因為之前以南北戰爭為題材的電影,部部虧本,而小說版權方要價卻很高。在此背景下,美國第一個具有現代意識的數據大師蓋勒普做了兩年調查,發現這本書的流行程度僅次于《圣經》。好萊塢著名制片人塞爾茲尼克為此信心大增,高價買下電影版權。
接下來,電影時長、演員選取、黑白還是彩色、廣告如何設計等重要問題都完全按照蓋勒普調查的數據進行。蓋勒普甚至計算出,這部電影將是有史以來最賣座的電影,觀影人數將達5650萬。他還建議,影片的廣告要突出“書”,小說的粉絲將是其巨大的潛在觀眾群體。結果,影片上映后,場場爆滿,最后一共售出了5997萬張電影票,而當時美國人口為1.3億,至今仍是美國有史以來最賺錢的電影。
大數據的現在
看了歷史再來看今天——大數據給我們生活帶來了什么樣的影響?
我們會發現我們生活中傳感器無處不在。傳感器在干什么?傳感器在收集數據。一句話就是萬物皆聯、無處不計算。比如:埋在土里面根據土壤的濕度、結合空氣的溫度,能夠確定花壇或草地什么時候開始澆水或者澆多少水。還有Google的無人駕駛汽車,也是大數據驅動的。首先是街景式的收集數據,然后才有無人駕駛汽車到路面。
那么,這個時代我們在干什么?涂子沛說,我們沿著這樣的路徑在前進———從數據到信息到知識再到智能。
我們未來的世界是什么樣子?“數據之巔是通向智能社會,大數據的興起標志著社會向智能化的社會邁進和轉型。大數據的未來是數據驅動世界,軟件定義世界,自動化接管世界,數據正成為智能世界的土壤。我們新的文明將在這塊土壤之下延伸,開放數據就是土壤上的河流,河流流過之處就會孕育起發達的數據文明。”涂子沛如此描繪自己眼中的數據未來。
大數據的未來
“今年年初我參加了一個讀書會,一位朋友問我:能不能設計一個系統,把一位局長的材料信息全放在系統里,然后系統就能告訴我這個人能不能當副部長,以后能不能當部長?當時我給他的回答是:‘如果一件事情沒有人知道該怎么做的話,計算機也不會替你做。’”謝耘通過親歷的事例告訴大家,大數據確實引發了我們對智能的無限遐想,但計算機核心還是在做計算,但凡能變成計算的問題,計算機都可以解決。相反,上述的問題如果沒人能夠把它當做計算問題的話,給計算機灌多少數據都沒有用,是解決不了的。
“我認為,能夠實現的所謂智能還是能觀察到、測量到、分析到的人的智能活動。智能未來的發展如果總結成一句話,就是讓輔助人類體能和智能的工具,都和人逐步無縫連接起來。而不是說我們造一臺機器,讓它和我們擁有同樣的智能,最后來挑戰我們。”謝耘向大家描述了智能的未來。
對于智能,他認為具體還是機制模仿和機制替代。什么是機制模仿?就是按照人的大腦做事的方式做,比如:下棋,計算機可以挑戰世界冠軍并獲勝。什么是機制替代?就是某個事情,人是怎么做的可能不知道,但是可以用另外一套機制來實現同樣的效果。比如,用手寫識別的過程代替人眼識別漢字的過程。
未來想要制造一臺和人一樣的機器,這個夢想還是非常遙遠的,至少從近幾十年來的科學實踐證明是不太靠譜的。涂子沛提出,未來可實現的是通過向機器“喂取”數據,讓機器產生智能,自動地為人類完成任務。謝耘也從IT產業迎來了第二個關鍵性的轉變(即基礎技術平臺主宰整個產業發展的階段已經結束了,真正主宰未來產業發展的將會是應用)。這個大的時代背景下提出,未來智能發展的過程是智能機制+知識、數據實現演變的過程。計算機的優勢是邏輯計算和存儲,人的優勢是抽象推理和形象顯現。未來的系統會把這兩個結合在一起,結合的基點就是構建不同主體的虛擬映像利用大數據存在,使得我們的服務器全面服務于不同的映像,服務于人、服務于企業、服務于城市,從而讓我們的生活更美好。