大數據無疑是2012年最火的高科技詞匯,但鮮有關于企業如何利用大數據的信息。最近,ZDNet美國記者采訪了福特(Ford)公司——一家以大量數據為驅動并且數據豐富的公司,談一談關于這家復興的美國汽車制造商如何在真實世界中利用大數據分析,以及大數據將在未來帶來的各種可能性。
福特公司的大數據分析負責人名叫John Ginder,他在福特研究中心(Ford Research)管理著系統分析和環境科學(Systems Analytics and Environmental Sciences)團隊。Ginder表示,福特公司在2000年中期瀕臨破產的經歷,以及2006年首席執行官Alan Mulally的上任,改變了這家老牌汽車公司向一家數據公司的發展,他們擁有大量可用于為消費者、普通大眾以及福特公司自身帶來價值和利益的數據。
危機與機遇
福特公司大數據分析負責人John Ginder
Ginder表示:“過去十年,我們經歷了一個非常困難的時期,當時我們失去了近半數的員工,整個公司瀕臨滅亡。這促使著人們以不同的視角思考問題,考慮一些以前我們沒有考慮過的問題。我們更愿意考慮分析型的解決方案、模擬以及一些創新方法。這使得我們受益匪淺。”
早在20世紀90年代,福特公司就已經開始認真考慮是否使用分析工具,當時服務器和存儲越來越偏移,很多華爾街的公司都在向世界展示利用數據建模可以實現什么。福特公司內部開始出現各種分析小組,包括后來成為Ginder研究中心的小組、市場部單獨的小組、福特信貸(Ford Credit)部門的小組。
盡管如此,所有這些分析小組都把精力集中在一些非常具體的任務上,例如福特信貸部門的風險分析,或者像研究中心那樣做更為抽象的科學工作,而且這些都被稱之為核心的業務驅動力。但是接下來,福特“瀕臨死亡”的經歷“幫助打開了人們的思想,并制造了恐慌感”,Ginder這樣回憶到。他說,福特公司高層開始互相問,“我們做什么?好吧,來問問這些人。”這讓分析技術有機會走進福特并扮演重要的角色。
與此同時,另一個因素開始發揮作用——新任CEO的到來。
Ginder表示:“2006年Alan Mulally來到福特,每周他都要與手里拿著各種圖表的直接匯報人開會,‘如何達到我們的目標?從量上來說,我們達到既定的標準了嗎,還是沒有達到,沒有達到的話理由是什么?’這樣層層細化,鼓勵公司內部這樣一種數據驅動的方法。”
福特的大數據
現在,分析已經深入福特公司的文化當中,大數據分析的興起,為這家汽車制造商帶來了全新的機遇。
Ginder表示:“我們認識到自己內部所產生的大量數據,從業務運營、到車輛研究再到我們客戶在互聯網上存的數據——所有這些東西對于我們來說都是巨大的機會,可能要求一些新的專門的技術或者平臺來進行管理。我們的研究機構正在師徒使用Hadoop,嘗試將所有這些數據來源結合起來。我們意識到,我們只是觸到了冰山的一角。”
談到大數據,福特公司的另一項重要資產就是該公司正在追蹤生產開發環節和產品本身的大量有用數據。
他指出:“我們的生產基地安裝了一流的儀器,我們的車輛經過良好的檢測,并且一直處于閉合的控制系統中,每輛車都有很多傳感裝置……到目前為止,大多數信息都還只是在車輛中的,但是我們考慮是否有可能獲取這些數據,更好地了解汽車運轉的狀態,消費者使用汽車的方法,并且將這些信息反饋到我們的設備流程中,幫助優化用戶的體驗。”
當然,大數據包括很多,不僅僅是利用大多數公司都試圖掌控的各種數據來源。大數據是關于結構化和非結構化數據,結構化數據是大多數公司數據庫(以及福特公司所說的,在車輛內部和裝配生產線上安裝的傳感器)中的傳統數據,非結構化數據是在互聯網上可以自由獲得的數據,從像美國data.gov網站上暴露的公共數據,到Twitter上的消費者數據。將兩者融合,再加上分析,這就是大數據。
Ginder表示:“大數據的基本設想是,數據的量只增不減,我們能夠以新的方式將外部數據與我們自己的內部數據結合起來,更好地預測或者獲得對于生產設計的更好洞見,這其中有很多很多機會。”
福特還嘗試著挖掘非結構化數據在消費者智能方面的信息。Ginder表示:“我們認識到,在互聯網上的數據對于了解我們的客戶或者潛在客戶所想所需以及他們的態度是非常有幫助的,這樣我們可以做一些圍繞互聯網上的博客文章、評論和其他類型內容的情感分析。”
這種事是很常見的,很多財富500強企業都在做著類似的事情。然而,有另一種方式,福特公司正在利用來自網絡和自身的非結構化數據來影響該公司對于未來車輛銷售的預測。
Ginder解釋說:“我們利用Google Trends工具,它可以衡量搜索詞的普及程度,以幫助告知我們自己內部的銷售預測,再加上我們自己的內部數據,可以進一步完善這一預測。這是對于我們銷售預測的一種補充。以前,我們只是看上周出售的情況,現在加上了搜索字詞的流行度……這樣我們仍然只是浮于表面,我認為未來我們還有更多的事情要做。”
大數據仍然需要更好的工具
之所以福特認為他們只是觸及到了大數據的表面,那是因為相關的工具仍處于初期階段。盡管2012年關于大數據的討論熱烈一場,但是仍然很少有交鑰匙的商業工具來幫助大公司做到這一點。Ginder和他的小組主要依賴于像Hadoop這樣的開源工具來管理大量數據集,用R Project做數據分析,以及其他一些開源應用做數據挖掘和文本挖掘。
雖然這些類型的工具是非常強大并且是可擴展的,但還需要技術嫻熟、訓練有素的數據庫專業人士和程序員來操作它們。大數據的另一個承諾是,非技術人員最終將能夠利用自然預言工具來訪問這些龐大的數據集。這些未來的“數據科學家”并不一定需要知道如何將SQL查詢串在一起,但是他們更像是業務分析師,知道如何提出關鍵的問題,以便及時發現數據的價值所在,來調整企業思考問題的方式。
然而,Ginder認為這是一種未來的狀態,還有數步之遙。“我很期待我們最終能都到這么美好的一天。但現在我們還沒有足夠的能力、沒有足夠的工具來實現這個目標。我們有自己的專家致力于研究相關的工具,開發我們自己的使用場景并應用到特定問題中。但這是一種我們希望達到的未來的狀態,數據科學家——而不是計算機科學家——會介入并尋找可能以前的關聯,這是一個美好的藍圖,但是我們現在還做不到。”
但好消息是,一旦開發出了相關工具,福特公司將步入大數據的新時代,Ginder很愿意看到福特公司與更大型的團體分享數據。
他說:“我們需要讓這個團體中的每個人都可以訪問這些數據和工具,當然,其中一些數據是專有的,可一旦它在我們手中,我認為我們會發現一些以前沒有想象過、可能比開始設想得更有利更重要的應用或者用途。我相信,這將為我們帶來巨大的新機遇。”
在這一點上,Ginder估計一旦大數據工具就緒,福特公司將在大數據方面有所作為。
“我們將越來越多地接收來自車輛攝像機的數據……還有什么是我們可以利用[相機中的]數據能做的,我們能夠將高比特率的數據與其他類型傳感器信號結合起來幫助告知各類應用。現在我們已經在車輛上安裝了傳感器,獲得溫度、壓力、適度、局部污染物濃度(排氣管排出物),除此之外我們還可以怎么利用這些傳感器。這對我們來說是一個有待開發的領域。你能更好地進行天氣預報嗎?你能更好地預測交通情況嗎?你能幫助哮喘患者遠離某些地區嗎?你能控制車內氣流嗎?”
在這一點上,不難看出為什么像Ginder這樣癡迷大數據的人,會對大數據分析的未來充滿激情,即使現在我們仍然在蹣跚學步的階段。
Ginder說:“以前我們從來沒有得到過這些數據,也不具備足夠的計算能力來處理這些數據,殺手級應用也許是我們還沒有真正參與其中的原因之一。”