6月7日消息,據國外媒體報道,IBM今日宣布發布名為“數據科學實驗”( Data Science Experience)的通用數據平臺。其寄希望于通過該平臺整合各個不兼容系統中獨立存儲的數據,從而對這些數據進行深入分析。
數據科學家,有人也稱之為硅谷的統計學家,其潛力毋庸置疑。但目前對其作用不乏出現了一些失望。這個問題并不是關于大數據本身,而是相關技術的實用性。簡單的說,我們最先設計的系統能夠執行特定的任務,進行特定的數據分析,隨后發現我們想讓它做的更多,作用更大。當需求明確起來時,會發現最大的問題是系統的兼容性。
而現在IBM發布的通用平臺就是用于解決不同系統的兼容性問題,通過整合不同系統、各種格式的數據,有助于公司進行管理,或參與市場競爭。
通用平臺的重要性
歐洲核研究組織CERN一直以來是世界上最大的科研機構之一。它曾經發現了反物質的分離,近期正在進行希格斯玻色子的相關研究。這里的工作與六個諾貝爾獎的誕生有關。
然而,當蒂姆·伯納斯·李(Tim Berners-Lee)于1980年在那里工作時,他注意到該研究中心有一個非常棘手的問題。世界各地的研究人員來到這里進行科學實驗,并記錄下他們的結果。但是,這些實驗結果被以不同的格式存儲在不同的系統中,使得相互之間難以共享。
因此,李于1989年11月創建了三個著名協議:HTTP、URL以及HTML,創建了關于文檔的通用平臺。最終這三個協議構成了現有互聯網的基石,使得我們能夠以前所未有的方式共享信息,在很多方面最終改變了世界。
盡管如此,李在回憶錄中還是承認這種網絡的缺點:雖然它能夠以前所未有的方式使人與人進行溝通,但是對于機器與機器之間的通信卻做得很少。換句話說,它讓我們呢的思想能夠自由流動,但我們的數據卻依舊被困在各自的系統中。
數據的問題
現在的每個組織在數據上都存在類似CERN在上世紀80年代所遇到的問題。他們通過各個系統收集數據,由不同的部門管理,很多系統有幾十年的歷史,所應用的計算環境也完全不同。
諸如一個典型的零售企業,其有各自獨立的采購、銷售、庫存以及市場業務。所有的這些業務在與真實世界交互的過程中,都在不斷地產生和存儲數據。理想情況下,這些系統應當是緊密集成的,一個業務產生的新數據可以影響到另外業務的決策。
但事實上,不同的業務之間很難無縫對接、攜手共進。這些系統往往以不同的格式存儲信息,這使得人們很難獲得數據的全部價值,譬如現實中營銷活動的相關數據會影響網站和商店的客流量,但是作為決策者經常需要將其從系統中提取出來加載到分析表格中。
實際上,我們有了分析海量數據并獲得相應決策的工具。屈臣氏所使用的高級認知系統可以利用大數據進行學習,指導相應的行動決策。但對于這些工作的共性前提是,需要訪問不同系統的信息數據。
建立綜合數據環境
這一切并不是說,我們處理數據的方式在過去十年并沒有真正的進步。于2003年上線的Hadoop可以將數據分散存儲在成千上萬個世界各地的服務器中,并將其看作一個數據集進行分析。而2014年發布的星火系統,可以幫助人們實時分析數據。但是,目前不同系統的兼容性仍是數據分析面臨的最大問題。
讓我們回到零售業的例子,假設我們能夠實時的營銷活動建立一個采購預測模型,將其與庫存系統的數據整合到一起,使我們能夠避免缺貨或是庫存過多。看起來很簡單,但是由于數據分散在各個獨立的系統中,所以很難實現。
這也是IBM的數據科學實驗這個通用平臺所要解決的問題。IBM副總裁羅伯·托瑪斯(Rob Thomas)、大數據革命一書的作者告訴我,“今天數據科學是一項個人項目。我們現在所做的就是要把它變成一項團隊項目,各個獨立的組織可以共同創建、分析以及共享數據。”
可以說,IBM數據科學家在實現李對互聯網所做的工作,只不過處理對象從文檔換成了數據。將分布于世界上的各個孤島數據整合到單一的系統環境,使人們更有效的工作。
管理的挑戰
美國意識流文學作家,諾貝爾文學獎獲得者威廉·福克納(William Faulkner)曾寫道,“過去的從未消逝,它甚至并沒有過去。”在計算機技術發展的過程中,各種新老技術交織存在。我們呢并不是重新構建技術,而是停滯在一個個技術的頂端,這些技術羅列開來,仿佛精心制作的俄羅斯套娃。
當我們嘗試將新老系統進行結合,但隨之而來的問題是管理措施顯得更加落后。我們設計開發的計算機系統很大程度上反映了當時的組織形式和思維方式。一旦平臺建立,技術壁壘被打破,我們的管理思維在很大程度上受到自身的限制。
今天,我們生活在一個語義經濟環境中,信息在整個市場上自由流動。各色設備和傳感器令人眼花繚亂,也讓我們能夠在現實世界自由互動。但我們往往希望按照計劃行事,希望世界有序運行。
當代創新大師史蒂夫·布蘭克(Steve Blank)經常說,與客戶的第一次接觸沒有任何商業計劃。但我們都停留在規劃思維的定勢,傾向于用歷史數據來預測事態發展,隨后根據預測結果進行決策分析。經常會在會議室里就決策討論數月,也會糾結于工作為什么不能按照計劃進行,無法掌控。
很顯然,這種心態站不住腳。從技術層面,我們需要采取諸如貝葉斯的方法策略。雖然并不期望預測的結果完全正確,但可以讓大數據幫助我們減少錯誤的發生。大數據并不是靈丹妙藥,但它的確可以幫助我們把這個世界看的更加清晰。