最近在微信圈流行的段子:一個客戶撥打了披薩店的電話,還沒說要什么披薩,僅僅告知了他的會員卡號,店員從系統中就知道了他所有個人信息。包括地址、電話、身高體重、醫療記錄、過敏史、家里幾口人、家里人的健康狀態、房貸、個人信用,最后還包括他現在騎著摩托車撥打電話的GPS定位。并針對他目前這些信息定向推銷店內減肥的、低糖的、夠他家庭6人份的披薩,還指出他最好用現金支付,因為他信用卡已經超支。
以上這些信息我們都知道,是我們在工作、生活中一個一個產生的,但是是存儲在餐飲、醫療、電信、交通、金融等各種領域服務器中,相互不會聯通。這個段子的寓意在于告訴我們,如果這些數據之間聯通了,我們要怎樣去面對?就工作來說,披薩店工作效率提高了、針對性提高了、效益也提高了;對顧客來說,不能亂花錢了、減少浪費了、錢用的合理了、健康指標也提高了。當然,我們也會預想一些關于個人隱私被赤裸裸展現的負面影響,基本沒有隱私了。
在大數據信息時代下,這些信息以及之間的關聯性將會對我們工作、生活還有思維方式帶來怎樣的改變?
一、什么是大數據?
我們都知道,目前工作、生活接觸數據最多的是結構化數據和非結構化數據。結構化數據就是能用數字和統一結構來表示的,例如一份文字報告、一份銀行賬單;非結構化數據就包括圖像、聲音等。數據量的大小也從剛開始用的1KB、1MB、1GB、1TB到現在的1PB、1EB、1ZB、1YB。他們之間都是1024倍的關系。而大數據就是從1PB開始算的。這個級別關系是什么概念?我舉簡單的例子:1PB相當于50%的全美學術研究圖書館藏書信息內容;5EB相當于至今全世界人類所講過的話語;1ZB如同全世界海灘上的沙子數量總和;1YB相當于7000位人類體內的微細胞總和。而現在我們這個數據爆炸的時代每分鐘有多少數據?每分鐘蘋果網站13000多個應用被下載、微博上發布98000信息、6600張新照片上傳到flickr網站、全球發出1.68億條Email、69.5萬條新狀態在Facebook上更新、淘寶網站10680個新訂單、1840多張票從12306網站生成。
二、大數據的特點
維克托?邁爾-舍恩伯格和肯尼斯?克耶編寫的《大數據時代》中提出:“大數據”的4V特點:Volume(數據量大)、Velocity(輸入和處理速度快)、Variety(數據多樣性)、Value(價值密度低)。自此后,凡提到“大數據”特點的文章,基本上采用了這4個特點。
(一)數據體量巨大(Volume):從TB級別,躍升到PB級別乃至EB級別;到目前為止,人類生產的所有印刷材料的數據量是200PB,而歷史上全人類說過的所有的話的數據量大約是5EB。現在我們每分鐘數據量是多少呢?每分鐘有13000+個iPhone應用下載、Skype上37萬+分鐘的語音通話、微博上發布98000+新微博、上傳6600張新照片到flickr、發出1.68億+條Email、Facebook上更新69.5萬+條新狀態、YouTube上上傳600+新視頻、淘寶光棍節10680+個新訂單、12306出票1840+張。
(二)數據類型繁多(Variety):大數據不僅局限于結構型數據,也包括非結構型數據,比如:文字,圖像,音頻,視頻,記錄,遙感。這種類型的多樣性也讓數據被分為結構化數據、半結構化和非結構化數據。相對于以往便于存儲的以文本為主的結構化數據,越來越多的非結構化數據的產生給數據處理提出了更高的要求。數據來源多:企業內部多個應用系統的數據、互聯網和物聯網的興起,帶來了微博、社交網站、傳感器等多種來源。數據類型多:保存在關系數據庫中的結構化數據只占少數,70~80%的數據是如圖片、音頻、視頻、模型、連接信息、文檔等非結構化和半結構化數據。關聯性強:數據之間頻繁交互,比如游客在旅行途中上傳的圖片和日志,就與游客的位置、行程等信息有了很強的關聯性。
(三)價值密度低(Value):以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。價值密度的高低與數據總量的大小成反比。如何通過強大的機器算法更迅速地完成數據的價值“提純”是目前大數據洶涌背景下亟待解決的難題。挖掘大數據的價值類似沙里淘金,從海量數據中挖掘稀疏但珍貴的信息;價值密度低,是大數據的一個典型特征。
(四)處理速度快(Velocity):1秒定律。大數據是時間敏感的,必須快速識別和快速響應才能適應業務需求這是大數據區分于傳統數據挖掘技術最顯著的本質特征。在2020年全球數據使用量將會達到35.2ZB,如此海量的數據面前,處理數據的效率就是計算機發展的生命。實時數據流處理的要求,是區別大數據引用和傳統數據倉庫技術,BI技術的關鍵差別之一;1s是臨界點,對于大數據應用而言,必須要在1秒鐘內形成答案,否則處理結果就是過時和無效的。
三、為什么現在才提出大數據?
盡管“大數據”這個詞直到最近才受到人們的高度關注,但早在1980年,著名未來學家托夫勒在其所著的《第三次浪潮》中就熱情地將“大數據”稱頌為“第三次浪潮的華彩樂章”。《自然》雜志在2008年9月推出了名為“大數據”的封面專欄。從2009年開始“大數據”才成為互聯網技術行業中的熱門詞匯。世界著名的管理咨詢公司麥肯錫公司通過各種網絡平臺記錄的個人海量信息看到了商業價值,于是投入大量人力物力進行調研,在2011年6月發布了關于“大數據”的報告,該報告對“大數據”的影響、關鍵技術和應用領域等都進行了詳盡的分析。麥肯錫的報告得到了金融界的高度重視,而后逐漸受到了各行各業關注。這也是最早將大數據進行應用的公司。
為什么現在才提出大數據呢?還有一個主要原因是大數據本身在突破兩個限制條件方面的發展。一是存儲本身的發展。從針孔、到軟盤、再到硬盤。存儲設備越來越小,容量越來越大。單塊硬盤已經能夠達到6TB,卻只有錢包大小。相繼的發展就是目前的云存儲,只要有硬盤,想要多大就多大。二是計算的發展。CPU處理器由原先的5000次每秒到現在33.86千萬億次每秒的天河二號計算機。但是不是每個企業、行業都能買得起這種宇宙級的計算機。現在的發展是云計算。自從有了云計算服務器,“大數據”才有了可以運行的軌道,才可以實現其真正的價值。有人就形象地將各種“大數據”的應用比作一輛輛“汽車”,支撐起這些“汽車”運行的“高速公路”就是云計算。最著名的實例就是Google搜索引擎。面對海量Web數據,Google于2006年首先提出云計算的概念。支撐Google內部各種“大數據”應用的,正是Google公司自行研發的云計算服務器。在分布式云計算出現之后“大數據”才凸顯其真正價值。
為什么大數據必須和云計算要捆綁?舉個簡單的例子。現在我們看自己的個人銀行賬單。只能看到1年內的。因為超過1年的賬單不是找不到了,而是傳統計算機服務器需要花1天的時間從數據庫中將數據計算出來。而我們在電腦前連1分鐘都不想等。
四、目前大數據在全球的發展情況
2012年3月,美國政府啟動“大數據研究和發展倡議”計劃。這是繼“信息高速公路”后的又一重大科技戰略部署。美國政府將大數據視為“未來的新石油”并將對其研究上升為國家意志。2010年1月,英國政府的數據開放網站正式出臺,2010年5月卡梅倫上臺之后正式提出“數據權”的概念,2011年4月主要部門宣布“我的數據”新項目,旨在落實和強化數據權。繼美英之后,國際上德國、法國、日本、加拿大和新西蘭等國家也開始了各自國家的大數據發展戰略規劃。
中國,在2015年8月31日,國務院下發了《關于印發促進大數據發展行動綱要》國發〔2015〕50號,從國家戰略層面已經開始新的部署和建設。目前,我國互聯網、移動互聯網用戶規模居全球第一,擁有豐富的數據資源和應用市場優勢,大數據部分關鍵技術研發取得突破,涌現出一批互聯網創新企業和創新應用,一些地方政府已啟動大數據相關工作。2014年,江蘇省經信委下發《關于印發江蘇省云計算與大數據發展行動計劃的通知》蘇經信軟件〔2014〕328號;2016年初,江蘇省政府辦公廳下發《關于開展消防大數據平臺建設應用的通知》蘇政辦發〔2016〕2號,標志著江蘇大數據建設將涉及消防安全領域。
五、大數據在各個行業系統內的發展
(一)在國家政府方面:典型的就是決策用數據說話,告別了“拍腦袋”方式。荷蘭的阿姆斯特丹共有40多萬戶家庭,二氧化碳排放量占全國的三分之一。為了改善環境問題,該市啟動了WestOrange和Geuzenveld兩個項目,通過節能智慧化技術,降低二氧化碳排放量和能量消耗。啟動智能大廈項目,在未給大廈的辦公和住宿功能帶來負面影響的前提下,將能源消耗減小到最低程度,同時在大樓能源使用的具體數據分析的基礎上,使電力系統更有效地運行。在國內,安徽蕪湖整合了77個政府部門10.8億數據,將100多項審批流程化。辦事大廳的窗口由8—10個減少到2—3個,減少審批程序的時間,提高了辦事效率,減少了排隊等候的情況。同時結合人臉聲紋識別技術,民眾只需帶身份證就可以辦理業務。在社會管理信息化方面,移動電信等大數據分析可以進行人流監控,能提前預知人流情況,并根據數據變化啟動相應管理預案,從而避免如外灘踩踏之類的事件發生。在佛山,通過產業云平臺,可在統一設計標準的同時節省整個產業鏈的成本,以幫助中小企業降低運營成本,使其投資能集中在核心制造優勢上,而不是花費在采購等環節上。
(二)在醫療方面:蘋果教父喬布斯是世界上第一個對自身所有DNA和腫瘤DNA進行排序的人。為此,他支付了高達幾十萬美元的費用。他得到的不是樣本,而是包括整個基因的數據文檔。醫生按照所有基因按需下藥,喬布斯開玩笑說:“我要么是第一個通過這種方式戰勝癌癥的人,要么就是最后一個因為這種方式死于癌癥的人。”雖然他的愿望都沒有實現,但是這種獲得所有數據而不僅是樣本的方法還是將他的生命延長了好幾年。在加拿大多倫多的一家醫院,針對早產嬰兒,每秒鐘有超過3000次的數據讀取。通過這些數據分析,醫院能夠提前知道哪些早產兒出現問題并且有針對性地采取措施,避免早產嬰兒夭折。這是大數據在基因方面的發展,將來在疾病預防、嬰兒出生、罕見病治療、遠程診治等方面會有更深的發展,也許將來給你看病和動手術的就是一臺超級計算機了。
(三)在能源方面:智能電網現在歐洲已經做到了終端,也就是所謂的智能電表。在德國,為了鼓勵利用太陽能,會在家庭安裝太陽能,除了賣電給你,當你的太陽能有多余電的時候還可以買回來。通過電網收集每隔五分鐘或十分鐘收集一次數據,收集來的這些數據可以用來預測客戶的用電習慣等,從而推斷出在未來2~3個月時間里,整個電網大概需要多少電。有了這個預測后,就可以向發電或者供電企業購買一定數量的電。因為電有點像期貨一樣,如果提前買就會比較便宜,買現貨就比較貴。通過這個預測后,可以降低采購成本。根據全國風力、潮汐數據,可以更高效的計算出在哪里放置的風力發電機和潮汐發電機最好。
(四)在零售業方面:銷售公司通過從Twitter和Facebook上收集社交信息,向客戶提供差異化服務,保留兩類有價值的客戶:高消費者和高影響者。企業也根據監控情況分析,銷售哪些商品、貨品擺放位置、以及何時調整售價,此類方法已經幫助某領先零售企業減少了17%的存貨,同時在保持市場份額的前提下,增加了高利潤率自有品牌商品的比例。并通過接受免費服務,讓用戶進行口碑宣傳,這是交易數據與交互數據的完美結合,使業務服務更具有目標性,減少運營成本,提高收益。
(五)在電視媒體行業:例如對于體育愛好者,追蹤電視播放的最新運動賽事幾乎是一件不可能的事情,因為有超過上百個賽事在8000多個電視頻道播出。雖然,現在移動iOS和Android設備快速發展,但如果廣告商將巨額廣告投放在沒人看的頻道也是浪費。現在可以根據追蹤所有運動賽事的應用程序RUWT,不斷地分析運動數據流來讓球迷知道他們應該轉換成哪個臺看到想看的節目,在電視的哪個頻道上找到,并讓他們在比賽中進行投票。
(六)在體育方面:現在美國NBA職業籃球賽,專業籃球隊會通過搜集大量數據來分析賽事情況,然而他們還在為這些數據的整理和實際意義而發愁。通過分析這些數據,可否找到兩三個制勝法寶,或者至少能保證球隊獲得高分?在每場比賽過后,教練只需要上傳比賽視頻。接下來,來自Krossover公司團隊的大學生將會對其分解。等到第二天教練再看昨晚的比賽時,他只需檢查任何他想要的——數據統計、比賽中的個人表現、比賽反應等等。通過分析比賽視頻,毫不夸張地分析所有的可量化的數據。
(七)在公路交通方面:目前洛杉磯政府在I-10和I-110州際公路上建立了一條收費的快速通道。施樂公司統計,如果司機支付給收費站錢,他必須保證車速每小時45英里左右。如果交通開始擁堵,私家汽車的支付價格將上升,以減少他們進入,而將車道用于高占用率的車輛,例如公共汽車和大巴車。另一個項目ExpressPark,目標是告訴人們離開房子時,在哪能找到停車場和花費金額。這樣政府可通過大數據引導駕駛人員在該通道上的行駛情況,保證交通暢通,并將停車場車輛吞吐量告知用戶。
目前,大數據應用在行業系統中應用的比例,最多的行業是零售(24%)、金融(17%)、城市(14%)、醫療(8%)、體育(6%)、教育(4%)、電信(4%),當然還有航空制造業、社交娛樂、影視、農業等(其他)領域。2014年麥肯錫統計美國醫療行業通過大數據就獲得潛在價值超3000億美元,歐洲政府利用大數據節省開支超1000億歐元,未來在全球的交通運輸、電力、醫療健康等7大領域,大數據將會撬動超過3萬億美元的經濟價值。2014年IDC預測,未來全球大數據市場將以每年超過30%的速度在增長,而我國更快,預計將超過50%。堅持創新驅動發展,加快大數據部署,深化大數據應用,已成為穩增長、促改革、調結構、惠民生和推動政府治理能力現代化的內在需要和必然選擇。
六、大數據給我們工作和生活帶來的變革
我們常聽到“啤酒與尿布”理論。原因是沃爾瑪超市分析發現,男顧客在購買嬰兒尿片時,常常會順便搭配幾瓶啤酒來犒勞自己,于是推出了啤酒和尿布捆綁促銷手段。這說明,將來我們去商店買東西的時候,會越來越被捆綁的東西所打動,而不是在超市中從東到西全部逛一遍。
在美國明尼蘇達州一家塔吉特門店,通過分析顧客購買孕前需要的一些產品,分析出一個高中生已經懷孕,并向她住所寄去嬰兒產品優惠券。而這個高中生老爸卻跑到他們店面投訴,一番解釋后,老爸回家了解了情況,果然女兒懷孕,并打了電話道歉。也許將來我們在家會收到越來越多我們需要的廣告業務,而且有可能我們看的電視廣告、網絡視頻和網站廣告都是為我們量身定制的。當你收到嬰兒用品廣告的同時,而你的隔壁鄰居卻收到殯葬業的服務廣告。
而在國內,電商玩得更科幻,“看人下刀”。電商網站可以根據你平時常購品牌、退貨率、接受價格區間、講價次數、投訴率等分析,給你假貨你能接受不。如果你同類產品消費傾向絕對大部分在100~200元品牌,系統就判定你沒用過大牌真品,在后臺將你備注:低風險,發的貨有30%幾率是高仿貨。如果在你購買記錄里多次購買品牌,就自動分配真品。
2009年,Google通過分析5000萬條美國人最頻繁檢索的詞匯,將之和美國疾病中心在2003年到2008年間季節性流感傳播時期的數據進行比較,并建立一個特定的數學模型。最終google成功預測了2009冬季流感的傳播甚至可以具體到特定的地區和州。這是最早使用大數據分析的案例,而現在我們已經可以通過更多數據和方式分析這個冬天會發生什么。今年冬天,各位再去買羽絨服的時候就會發現,今年的羽絨服會比以前厚,顏色比以前深。因為今年氣象大數據顯示是寒冬,所以羽絨服廠家產品定位也進行了改變。
七、大數據對消防行業帶來什么樣的變革
(一)火災預防方面:在美國紐約,目前是最早將大數據應用在消防方面的。據統計,紐約大約有100萬棟建筑物,平均每年約有3000棟會發生嚴重的火災。紐約消防部門將可能導致房屋起火的因素細分為60個,諸如是否是貧窮、低收入家庭的住房,房屋建筑年代是否久遠,建筑物是否有電梯等。除去危害性較小的小型獨棟別墅或聯排別墅,分析人員通過特定算法,對城市中33萬棟需要檢驗的建筑物單獨進行打分,計算火災危險指數,劃分出重點監測和檢查對象。目前數據監測項目擴大到2400余項,諸如學校、圖書館等人口密集度高的場所也涵蓋了。盡管公眾對數據分析和防范措施的有效性之間的關系心存疑慮,但是火災數量確實下降了。
因為火災和犯罪一樣,是結果性數據。就是說,你可能采取了能想到的預防措施,并一直實時監控,他還是會發生火災和爆炸。將火災和醫療對比,我們天天體檢,也不可能防止癌癥發生,而且目前大數據顯示,我們每年兩次的體檢和降低癌癥發病率、死亡率沒有任何關系。但是,我們能通過體檢提前發現我們不舒服的地方是否有其他病變。如果是,我們可以提前治療這些小病、延長生命,防止良性腫瘤變成惡性腫瘤。
消防工作也是一樣。根據海恩法則,每一起嚴重事故的背后,必然有29次輕微事故和300起未遂先兆以及1000起事故隱患。當然,這是國外統計數據,和我國國情、我國數據會有差異。
我們常說的火災事故,主要有兩個方面。一是火災的發生。這個是我們常說的不能預防的,從火災調查情況來看,能看到火災原因有各種各樣,這是我們防都防不過來的。如果我們將來通過大數據運算將火災原因逐漸量化,并更深入的分析,也許能逐漸減少和預防部分起火因素。至少目前的防雷措施已經減少很大一部分雷擊發生火災的概率。在這個起火原因方面需要很長時間的發展,也許會像避雷針的發展一樣,經歷了250年。當然將來的科技可能將時間縮短到25年。其中最值得發展的是電氣火災預防,可能將來我們的漏電保護能夠檢測到每個線路的溫度變化,并在發生短路前就斷電,防止火災。而另一個方面就是火災發生后造成的損失。能夠引起我們重視的火災都是人員傷亡多、過火面積大、財物損失大和難以短時間撲滅的火災。這個方面的預防,是我們從人類誕生,會使用火的時候,就開始了。發展到現在,我們從建筑結構、人員密集程度、易燃易爆物存放、管理制度等各個方面,都進行了越來越細化的發展。只要采取了越來越有效的措施,就能把火災發生后的損失降到最低。而這個方向,就是我們消防大數據火災預防所主攻的方向。將來能夠和紐約一樣,知道哪些單位危險等級高,哪些轄區需要經常檢查。還有將系統對外開放后,公眾和企業可以進行自我改良,降低危險等級。更多我們沒有監管過的單位進入系統后,也會使數據結果越來越準確,對全社會的促進也越來越大。
(二)滅火救援方面:在滅火救援、隊伍管理、提升工作質效方面都有顯著應用。當建筑發生火災后,建筑內的人可以根據手機APP應用或接受到消防逃生短信第一時間逃離災害現場,而各個消防救援力量第一時間可以快速集結,最近的消防巡邏車輛、醫療人員會快速抵達,而且沒有交通擁堵的限制。指揮員還可以根據現場情況對危化品、放射性物質進行快速分析,確定當時風向,火災發展趨勢,避開密集人群,計算調用現有的水源和用水量,并在救援過程中發生坍塌和爆炸前撤離,而且有可能在指揮員到達現場前就將以上信息掌握,成竹在胸,將高效救援和低損失做到極致。
(三)執勤訓練方面:我們也可以利用大數據在軍事訓練和考評考核進行應用。通過提取消防指戰員生理數據,科學規劃膳食、睡眠、訓練等,提高訓練針對性和效率,有效減少訓練受傷情況發生。通過建立合理的人才儲備數據應用平臺,將各個部門和個人管理變得抽象化數據化,完善績效考核制度、合理制定人才資源發展方向,合理制定工作目標。
大數據越來越發展,對我們的工作、生活和思維方式也逐漸改變,制度也會越來越完善。未來憧憬很美好,現在消防大數據,我們才剛剛起步。