“大數據”是從英語“Bigdata”一詞翻譯而來,過去常說的“信息爆炸”、“海量數據”等等已經不足以描述這個新出現的現象,“大數據”一說就在近幾年嶄露頭角,并首先為全球各大IT企業所重視。這些企業基于自身的商業目標,對“大數據”做出了各種解釋,其中有一條已成共識:“大數據是指無法在一定時間內用常規軟件工具對其內容進行抓取、管理和處理的數據集合。”
人類的判斷、決心和行為需要依靠智慧,而這些智慧需要外部信息的不斷輸入,在未經處理以前,這些外部信息常常被叫作數據。不僅人群產生數據、機器產生數據、數據自身也產生數據,所有的天然和人造物體任何時間都在產生大量數據。而今天的信息社會發展得如此之快,近年來人類能夠獲取和存儲的數據量正在急劇增長,其數量和復雜程度都達到人類難以應對的地步,但是洶涌而來的數據并不可怕,人們發現一旦它們得到充分利用,我們的智慧或許能夠得到量子躍遷般的提升。
那么,有著如此神奇魅力的“大數據”到底是什么?它的與眾不同之處在哪里?前景又會如何呢?
今天情景
這是個平常的上班日,你出門時照例先看天氣預報再聽交通廣播。當然你懂的,能不能心情很爽地準時在辦公室亮相可不僅取決這些。你無法知道的是,來路上那位出租車司機昨晚被人“碰瓷”詐了五百元,一早就脾氣很壞;今天空氣懸浮顆粒中花粉比例突然增高,你的過敏體質將會強烈反應;而你在途中查看iPhone找到一款滿意的相機打算出差回來去下單,卻不知道因為水災,明天那款“泰國制造”的優惠折扣就要取消……
未來情景
X年后也是這一天。出門前你的手持設備已經收到了今天的天氣、這一刻出行方式和路線的最佳方案(以后根據獲取的新數據每分鐘更新一次),包括要帶好抗過敏藥和餐巾紙的提醒。當你接近那輛出租車時,你被建議再等大約3分半鐘可以換一輛(物聯網報告剛剛監測到前面那位駕駛員有輕度的異常操作行為,需要繼續觀察);而當你長時間盯著那個型號相機的畫面時,一個專題討論組和微博的搜索和文本挖掘已經在“云”上自動完成,對其供應鏈模型分析的結論是,因產地水災近期現貨出現緊缺的概率高達87%……
上述對未來的描繪不是科幻電影中的場景,也不是商業廣告中的宣傳,而是即將發生在我們身邊的事實。能夠幫助我們提高智慧的各種數據本來都存在,而隨著信息技術的發展,我們會有越來越多的設備和方法記錄下人和自然界事物的各種行為,“大數據”由此產生。而那些每分鐘更新的“萬寶全書”則是分析這些數據而產生的智慧,它將為人們帶來更加美好的生活。
何謂大數據
IBM公司把大數據概括成了三個V,即大量化(Volume)、多樣化(Variety)和快速化(Velocity)。這些特點也反映了大數據所潛藏的價值(Value),或許可以認為,這四個V就是大數據的基本特征。
當然,大數據首先是數據量大。過去常用的千字節(KB)容量今天已像人民幣的分幣,人人口中已經是兆(MB)和吉(GB),專業的則在大談太(TB),甚至是拍字節(PB)。這從一個側面表明,數據容量增長的速度大大超過了硬件技術的發展速度,以至于引發了數據存儲和處理的危機。
然而,大數據不只是大。海量數據的危機并不單純是數據量的爆炸性增長,它還牽涉到數據類型的改變。原來的數據都可以用二維表結構存儲在數據庫中,如常用的Excel軟件所處理的數據,稱之為結構化數據。但是現在更多互聯網多媒體應用的出現,使諸如圖片、聲音和視頻等非結構化數據占到了很大比重。有統計顯示,全世界結構化數據增長率大概是32%,而非結構化數據增長則是63%,預計至2012年,非結構化數據占有比例將達到互聯網整個數據量的75%以上。用于產生智慧的大數據,往往是這些非結構化數據。
如果說大數據的特點是海量和非結構化,那也是不全面的。大數據帶來的挑戰還在于它的實時處理。在當今快速變化的社會經濟形勢面前,把握數據的時效性,是立于不敗之地的關鍵。
智慧城市的“大腦”
如果將智慧城市比喻為人,將組成智慧城市感知功能的傳感器比作人的五官,將連接傳感器的網絡比作神經,將控制和存儲信息的云技術比作中樞,那么大數據就是智慧城市的大腦。
交通
當前,出行難問題對各大城市來說都迫在眉睫亟待解決。在信息技術的蓬勃發展時期,人們利用先進的傳感技術、網絡技術、計算技術、控制技術、智能技術,對道路和交通進行全面感知。例如在路面放置傳感器,在路口安裝監控視頻,在車輛上配置全球定位系統(GPS),可以對每一條道路實時監控,對每一輛車進行控制,以提高交通效率和交通安全性。可是,如果要實現右上圖表中的“未來情景”,上述技術僅僅達到“中樞神經”的控制層面,遠沒有發揮“大腦”的智慧。
大數據下的智慧交通,就是融合傳感器、監控視頻和GPS等設備產生的海量數據,甚至與氣象監測設備產生的天氣狀況等數據相結合,從中提取出我們真正需要的信息,及時而準確地推送給我們,并且這些信息不是簡單地告訴我們到達目的地的幾條路徑或是顯示各種路況信息,而是直接提供最佳的出行方式和路線,從而省卻了我們在多個信息中做出選擇的麻煩。
醫療
醫療健康問題是城市快節奏生活下人們普遍關注的焦點。以往,我們總是在發現自己生病時看病就醫,而且到了醫院還要掛號、求診、配藥,大多數情況下還需要排隊等候,容易形成就醫難的困境。如今,由于電子醫療記錄時代的來臨,電子病歷正逐漸為各大醫療機構所采用。在去醫院前,可以通過網上預約掛號;在就醫時,僅使用一張IC卡就能付費;醫生還可以將問診過程中的記錄,病人的化驗單、拍片等診斷數據輸入電腦以備隨時調用。
這些技術大大提高了醫療機構的工作效率,也使得病人有了良好的就醫體驗。然而,美國著名的醫療健康組織KaiserPermanente又往前多走了一步,該組織通過將下屬所有醫療機構的電子病歷記錄標準化,形成多方位***度的大數據。這些需要在同一時間分析的眾多因素包括病人基本資料、診斷結果、處方、醫療保險情況和付款記錄等數據。將這些不同的數據綜合起來,Kaiser的決策支持軟件將提供給醫護人員完整的病人歷史,并選擇最佳的醫療護理解決方案。
社會安全
每個市民的切身利益都與社會安全相關,當中的問題包括災害天氣、環境污染等城市的小毛小病,也有如火災和犯罪等各種重大突發狀況。這些層出不窮的安全問題無時無刻不在考驗著城市的應急體系。幸好,我們有先進的信息技術支撐,確保當安全問題發生時,能第一時間發現,并且快速啟動相應的應急預案來處理。
美國的紐約市在2003年3月建立了市民求助熱線311電話中心,至今已經接聽了1億多個電話,日接待量達到5萬多個。該系統能夠向市民提供3600多個門類的信息和解答,可以用180種語言回答問題,其中有垃圾如何分類、下雪天學校何時停課、是否有恐怖襲擊……。但該熱線除了直接解決各種問題外,還有個重要的功能――為城市收集信息。每一通電話都被記錄、并在地圖上標記出來,以方便深入分析。其實,城市中每天所產生的數據不僅包含熱線電話的記錄,還包含其他與社會安全相關的數據,如社交網站上的信息、道路監控設備的信息等。城市管理者可以通過對數據的分析,察覺哪里出了什么樣的問題,并安排處理它們的優先順序;市民則能知道怎么去規避危險,在突發事件發生的情況下自己該做什么。所以,如何用好這些大數據,對城市管理者和市民來說都很重要。
科技創新的“種子”
產業轉型升級依賴于科技創新,而科技創新又是一個螺旋上升的過程,這個過程萌芽于科學發現,生長于成果轉化,收獲于產業發展,產業發展又需要有新的科學發現來打破舊有的模式來獲得重生。在這樣一個往復循環的過程中,科學發現就成了科技創新的原點。
一直以來,科學發現主要基于實驗和理論。在古代,人們利用自然法則來觀察未知的世界。到了17世紀,以牛頓為代表的科學家試圖對新現象做出預測,并且通過實驗對各種假設進行檢驗。而現在,隨著計算機性能的不斷提高,研發人員可以精確求解大規模方程組,從而探索一些無法運用實驗法和理論法的領域,例如氣候建模和星系形成等。可是,這些研究正在被大數據淹沒,數字信息從各種各樣的傳感器、工具和模擬實驗那里源源不斷地涌來,令數據的組織能力、分析能力和儲存能力捉襟見肘。因而,在數據量快速增長之時,必須重新考慮科學研究發現的一整套方法。圖靈獎得主、已故科學家吉姆?格雷針對這種情況提出了科學研究的“第四范式”。這第四種范式同樣要用到性能強大的計算機,差別在于研發人員不是根據已知的規則編寫程序,而是從各種各樣的數據入手。他們用程序對海量數據進行挖掘,尋找隱藏在其中的關聯;實際上,就是利用程序去發現未知的規律。2009年以來,微軟研究院的科學家們致力于對第四范式和大數據的研究。有一個案例說明了他們的研究成果:[page] 在20世紀80年代,有一家醫院發現收治的充血性心力衰竭病人在節假日期間會飆升,他們只是注意到這一現象卻沒有深入研究。20年后,微軟研究院對此現象及大量數據開發出了一套分析方法,可以相當準確地預測一名充血性心力衰竭病人在出院后的30天內會不會再次入院。其做法不是編一個程序對某個醫生的提問進行分析,也不是對可能會有多少病人做一個總體的估計,而是來自一種“機器學習”的方法――利用程序對大數據進行分析挖掘的過程。這個大數據包括約30萬名患者的數萬個數據點。通過分析結果不同病例之間的差異,計算機能夠“得知”最有可能再次住院的病人的特征。借助這個程序,醫生在收治一個新病人時,把他的數據特征輸進去就可以判斷他“再進宮”的可能性。這樣的預測工具能在改善病人健康狀況的同時,還能省去一大筆醫療費用.
除“機器學習”以外,科學研究的第四范式還發展了另一種眾包研究模式,使得科學發現不再是專業學者埋頭于實驗室的苦差事,而是全球科學家、學生和感興趣的民眾都可以參與的大眾活動。谷歌公司在這個領域做了許多工作,他們開發了Google.org――這是一個利用谷歌在信息技術處理數據方面特長建立的全球公眾都能夠參與的科學研究平臺。從2008年11月起,Google.org啟動了名為“流感趨勢”的項目,使用一種復雜的算法,對關于流感的網絡搜索進行跟蹤,從而對流感在人群當中傳播的方式做出估計。其后,Google.org還組織了地球引擎項目,將大量的衛星圖像和數據開放給公眾,讓每個人都可以對氣候影響下的水源變化和沙漠化進行跟蹤研究。這些項目都在尋求一種“長尾效應”,用來解決過去一直無法展開研究的科學難題。
對社會科學的研究,大數據可能帶來更為巨大的積極影響。由于每次觀察和量度都必然會影響對象的行為,長期以來以人及其社會聯系為對象的社會科學一直面臨難以嚴密和精準的困難。多年前超市POS機開始使用,就使得商場得以進行數據挖掘,從而發現隱秘的消費規律;而目前微博和手機的普及、社交網絡的廣泛應用使得以往幾乎不可能完成的一些人群活動規律研究成為可能。例如人群在物理上如何移動?人又何以“群分”?而全球無數監視器無時無刻不在把它的所見一網打盡。一旦快速廉價的圖像分析技術突破,人群的許多細微感情、動作和行為都能夠被觀察分析,這將是研究發現行為規律、大大提升社會管理水平的大好機會,當然也給保護隱私和個人信息安全提出巨大挑戰。
盡管利用大數據的科學發現工作目前還只是一種設想,尚未出現實證的證明,但在大數據背后隱含的智慧力量是任何科學創新工具所不能比擬的,它賦予了科技發展一種全新的生命力,猶如深埋在創新土壤里的種子,等待未來的某一天結出豐碩的果實。
產業升級“助推器”
大數據作為智慧城市的“大腦”正在悄然改變著人們的日常生活。與此同時,大數據也給城市的產業發展創造了前所未有的機遇。不管是在制造業還是服務業中,大數據在信息化技術革命之時,又將再一次推動產業轉型升級,為新的經濟發展方式開創變革契機。
制造業
我們的制造業已在向信息化和自動化的方向發展。在產品的設計、生產和銷售中,越來越多的企業使用如計算機輔助設計(CAD)、計算機輔助制造(CAM)等軟件,數控機床、傳感器等設備,物料需求計劃(MRP)、企業資源計劃(ERP)等系統。這些信息技術的應用在很大程度上提高了工作效率和產品質量,為人們帶來了日益豐富的物質享受。
然而,人的需求是無限和潛在的。制造業目前所面臨的挑戰就是在整個產業信息化之后,如何提升獲取和開拓需求的能力,從而創造出更有價值的商品。如今,企業管理信息系統中存儲的信息,各種工業傳感器和數控設備中產生的數據,匯集到一起形成了大數據,將以提高生產效率為目標的信息化制造業轉變成了以掌握用戶需求為目標的智慧化制造業。例如,日本小松公司的挖掘機安裝了GPS定位系統,在實時監控車輛運行情況的同時,還根據挖掘機每個月的工作時間,統計全年的工作情況,由此判斷下一年度的市場需求。此外,我們還可以在產業鏈的各個環節中汲取大數據用之不盡的動力:從產品開發、生產和銷售的歷史大數據中找到創新的源泉,從客戶和消費者的大數據中遇見新的合作伙伴,以及從售后反饋大數據中發現額外的增值服務。大數據為制造業的創新轉型――無論是精益化提升還是服務化轉型,提供了新的路徑和方式。
服務業
傳統的服務業有著悠久的歷史。當信息時代到來的時候,服務業就衍化出現了兩種形態:一種是信息技術與服務業相結合的信息服務業,另一種是應用信息技術改造傳統服務業而來的服務業。前者包括計算機軟件服務、通信服務、信息咨詢服務等,后者包括信息化改造后的商業、金融業、旅游業等。大數據恰恰就在這兩者之間起到牽線搭橋的作用,一方面它使得信息服務業從提供軟硬件技術服務升級到提供智慧解決方案,另一方面它將改變現有的服務業業態模式,將關注點轉向數據。
在信息服務業,耳熟能詳的例子要數多家網絡公司收集用戶的網頁點擊行為來提供有針對性的推送服務了,但這些企業并不輕易使用自己收集到的數據。可能是出于對企業秘密的保護和對用戶隱私問題的謹慎,他們沒有充分利用大數據來挖掘巨大的價值。
在零售業,美國的沃爾瑪公司很早就開始利用日常交易數據的關聯分析來贏得競爭優勢。例如2005年卡特里娜颶風來襲之前,沃爾瑪就從手電筒和電池的銷售數據中分析出餡餅將在未來熱銷,將兩者的關聯歸因為颶風來襲時導致停電使得方便食用的餡餅會受青睞。
在金融業,銀行可以從大量數據中發現信用卡欺詐和盜用,保險公司通過大數據能夠找出可疑的權利要求,理財網站從統計的消費數據中來預測宏觀的經濟趨勢。
在旅游業,企業致力于旅游預訂數據的處理,如微軟的Bing搜索引擎,能夠根據其存儲的機票歷史數據,幫助用戶決定購買航班的最佳時間和最優惠價格。
上述的例子有些或許還稱不上大數據的應用,但對數據利用的成果已經初見端倪。可以預見,以大數據為源動力,服務業將獲得更多的商業機會。
大數據我們“hold”得住嗎
信息技術的發展創造了大數據,也改變了大數據。終有一天,大數據不再是信息存儲和處理的瓶頸,而是開啟智慧的鑰匙。在大數據茁壯成長的今天,我們需要對它更多地關心呵護,需要有專業園丁來對它精心照料,需要有醫生為它治病除害,還要關注它的生存環境。
人才為大數據“澆水施肥”
大數據的一個挑戰是人才的培養。例如僅美國就面臨14萬至19萬分析和管理人才缺口,以及150萬具備理解和基于大數據研究做出決策的經理和分析師人才缺口。當前,能讓大數據對商業更有利和更有價值的分析和管理人才還很有限。因而我們還要建立大數據相關的人力資源儲備。
新安全觀為大數據“殺蟲除害”
技術的進步為大數據的存儲與處理掃清了障礙。但對大數據來說,更為重要的問題是個人隱私等信息安全問題能否得到解決。這里所說的安全問題不同于以往的信息安全問題,而是一種新的安全觀。這種新安全觀需要在大數據的利用時找到開放和保護的平衡點。例如涉及個人隱私的數據,既要能夠深入挖掘其中給人類帶來利益的智慧部分,又要充分保護隱私數據不被濫用,損害到個體的利益。國外的做法通常是設置安全機制,采用第三方信息安全審計,并對數據的使用作了明確的規定。
物聯網和云計算為大數據“開荒翻土”
大數據可以來自方方面面,從生活中的購物交易,到工業上的生產制造;從社交絡媒體信息,到在線視頻圖像資料;從企業的信息管理系統,到政府部門的電子政務,都有著大量的數據產生。隨著物聯網和云計算產業的蓬勃發展,大數據的價值還會進一步顯現。物聯網時代,成萬上億計的網絡傳感器被嵌入到現實世界的各種設備中,如移動電話、智能電表、汽車和工業機器中,用來感知、創造并交換數據,無處不在的傳感網絡帶來了無處不在的數據,這些數據正日益成為與實物資本和人力資源同等重要的生產要素。同時,云計算為物聯網所產生的海量數據提供了存儲的空間,并使得實時在線處理成為可能。近幾年,IBM、甲骨文、微軟、SAP、谷歌等IT企業不僅在全球部署了多個數據中心,還花費了150億美元收購了專攻數據管理和分析方面的軟件企業。較早行動起來的IBM在2005年-2009年間就投入120億美元,創立了6個達4000員工的全球分析中心。不難發現,當人們還在熱衷于物聯網和云計算概念炒作的時候,全球領先的IT企業們已經開始把注意力轉向物聯網和云計算產業背后的大數據,其潛在的價值正在被逐漸挖掘。“大數據比物聯網、云計算更重要”的判斷也許有點夸張,但是可以肯定的是:云計算不單是提供云存儲等服務,對大數據的智能化處理不僅是云計算的題中之義,更是其核心與關鍵。
任何機遇都稍縱即逝。大數據在產業界已不再是新鮮事物,大數據的這塊蛋糕正在被全球跨國企業切分。但從另一角度看,大數據所產出的財富也不是一家企業或者一個解決方案所能囊括的。信息泛在的時代數據無處不在,無論是有意還是無意,人們時刻都在創造著大數據。我們要看到“大數據”所蘊藏的智慧價值,它如同虛擬世界的智慧基因,正等候我們去解密,只有掌握了“大數據”分析處理技術,我們才可能讓它成為智慧城市的“大腦”、產業升級的“助推器”和科技創新的“種子”,使之造福人類。