人類創造的物理世界有多大,我們有衡量的概念,但是人類創造的數字世界到底有多大,相信這個概念還不夠具體。
在大多數人的印象中,數據就是數字,或者必須是由數字構成的,其實不然,數據的范疇比數字要大得多,信息、現象、數據、狀態和知識都可以是數據的一部分。
人類創造的物理世界的一切都可以是數據,在互聯網上傳播的文字、圖片和視頻是數據;工廠里所有的檔案、尺寸、記錄是數據;文物上的尺寸、年代、工藝也是數據。地球甚至宇宙存在的空間和時間也都可以是數據,小到一個粒子,大到一個星球的運行軌跡和生命周期。
一、人類創造數據的歷史
雖然數據本身是客觀存在的,但是它的范疇是隨著文明的進程不斷變化和擴大的。在計算機出現之前,數據大概相當于數字的記錄,極少部分的信息,比如行星軌跡、力學原理等,會被用數據的方式記錄并運算。
在計算機出現之后,以語言和文字形式存在的內容成為了全世界各種信息處理中最重要的數據,也是全世界通信領域和信息科技產業的核心數據。這其中也包括我們的信件、電話、電子郵件、圖片、聲音、視頻、互聯網網頁,以及各種社交產品中由用戶產生的內容。
在移動互聯網普及之后,我們人類的活動本身,開始被數據化,比如我們的行為模式、我們的社會關系、我們每天的活動、位置信息、消費及購物習慣等。這些數據由于涉及個人隱私,大部分儲存與少數商家手中,但是從亞馬遜的個性化商品推薦服務,到金融理財產品的定制化設計,基于個人數據的商用從未停歇。
在萬物互聯時代,越來越多的物理硬件,將會由傳感器收集、采集數據,并通過物聯網絡傳輸回平臺側。連接點數將會千倍萬倍于目前的以人為主要連接點的網絡,而產生的數據,也變得更加實時,更加完備,更加龐大。
在萬物互聯時代,大數據的幾個重要特征,將會被成倍放大,并最終形成特殊的應用場景及商業模式。本文就將針對這部分內容進行探討。
二、物聯網大數據三個被放大的特征
1.數據的體量將會成倍增加
正如移動互聯網時代,核心網絡節點從PC轉換為人一樣,在萬物互聯時代,無數的物理硬件將成為核心網絡節點,數據來自無數自動化傳感器、自動記錄設施、生產監測、環境監測、交通監測、安防監測等;來自自動流程記錄,刷卡機、收款機、電子不停車收費系統,互聯網點擊、電話撥號等設施以及各種辦事流程登記等。
由于連接數的增加、不間斷的數據收集、存儲、回傳,以及更高清的圖片和視頻應用,都會讓數據的體量有驚人的爆發。
比如Google街景服務,每輛車每天產生的數據將達到1TB,加入分三個拷貝,一年就是1PB,而目前最大容量的存儲硬盤不過是10TB。
在萬物互聯的場景下,每天都會有大量的終端在進行類似Google街景這樣的數據回傳,而大數據的理念,要求數據盡可能的龐大且非刻意收集。
伴隨著物聯網技術的成熟,產業的爆發,各種隨身設備、物聯網和云計算、云存儲等技術的發展,萬物將都被聯網,物的所有軌跡都可以被記錄,一切皆被數字化,因此產生的數據,可以想象,比之今天,會有多大量級的增加。
數據的存儲,數據的計算與挖掘技術,都將成為萬物互聯場景下,大數據應用的核心能力。
2.數據的及時性特征將會被放大
在互聯網甚至是移動互聯網時代,數據的及時性并沒有那么重要,大量的統計結果是基于過往數據的挖掘而產生的,這些不及時的數據意義也是非常巨大的。
Google利用不同地區人們的搜索習慣,成功預測了流行疾病的爆發,Facebook利用了網民在無壓力情況下瀏覽網頁、評論、點贊、社交言論的情況,成功預測了美國各州總統大選的結果。都屬于利用過往大數據的成功應用案例。
但是在萬物互聯場景下,由于物聯網可以實現微量數據的不間斷回傳,人們對于數據的及時性需求將越來越旺盛,無等待服務將被更多的行業提供,從而產生更多的應用場景。
比如在智慧交通上,百度、高德等地圖廠商,已經可以通過智能手機的數據回傳,動態監控整個城市的交通情況,從而為用戶提供實時的路況信息。
目前這種路況信息已經取代了傳統的交通廣播模式,能夠實現個性化的關注出行路線的路況,并根據交通情況,自動設計、自動更改。
目前,在物聯網應用領域,缺乏一個類似Iphone之于移動互聯網一般里程碑似得產品。而大多數人都將此寄希望于無人駕駛,因為人類如果能將汽車,這樣一個工業時代最終要的個人產品進行智能化、數字化,那么將極大的帶動其他產業物聯網化的發展。
而無人駕駛的前提,除了提前將整個街區數字化以外,不間斷的數據回傳也非常重要。在物聯網環境下,隨著車與更多物品連接起來,將會形成更大范圍的網絡效應,交通這個生態也將進一步豐富起來。
3.數據的完備性將得到極大程度的豐富
在大數據時代,數據格式變得越來越多樣,涵蓋了文本、音頻、圖片、視頻、模擬信號等不同的類型;數據來源也越來越多樣,不僅產生于組織內部運作的各個環節,也來自于組織外部。
例如,在交通領域,北京市交通智能化分析平臺數據來自路網攝像頭/傳感器、公交、軌道交通、出租車以及省際客運、旅游、化危運輸、停車、租車等運輸行業,還有問卷調查和地理信息系統數據。
4萬輛浮動車每天產生2000萬條記錄,交通卡刷卡記錄每天1900萬條,手機定位數據每天1800萬條,出租車運營數據每天100萬條,電子停車收費系統數據每天50萬條,定期調查覆蓋8萬戶家庭等等,這些數據在體量和速度上都達到了大數據的規模。
數據的完備性,尤其是跨界數據的交叉運用,將會產生意想不到的應用場景。
亞馬遜正是此中高手,更加完備的數據,讓亞馬遜在個性化推薦的時候,并不用如沃爾瑪一樣思考為什么買啤酒的用戶會買尿不濕,他們只是通過統計學發現數以百計的類似關聯現象,配合更多諸如年齡、消費習慣、性別等標簽數據,將結論直接用于精細化營銷。
物聯網大數據的故事還有很長很長,數據的爆發只是一個開始,我們如何收集海量的數據,如何儲存,如何設定算法,如何運用機器智能實現自動運算,如何將運算的結果用于預測未來或者更多的商業場景,最后如何確保我們的數據安全。
這里的每一個步驟,都是一個細分領域,我們在大數據應用的路上,也才剛剛起步。