大數據無疑是時下炙手可熱的流行詞匯,然而,我們鮮少看到具體大數據如何帶來收益,和具體如何實現的例子,這是怎么回事呢?
多年來,在經歷了幾個通信和投行的大數據相關早期實施項目后,我認為這個新興技術的收益主要在于:實現對復雜系統更為精準的剖析,例如股票市場或供應鏈。(投行成為最早一批應用大數據分析的行業之一,可謂毫不意外。對利用技術提升效率,創造效益更為敏銳的商業模式,往往也是更賺錢的。)
在投行的日常工作中,為了精準地選擇投資機會、選購股票,有大量對文檔處理的需求,例如新聞簡報,財務報表。如果人工進行,工作量過于龐大。因此助理分析師們往往簡化他們的預測分析過程,并使用電子表格來完成絕大部分工作。通過大數據技術,投行可以整合各種信息,減少可能的(簡化分析帶來的)風險,從整體上帶來更優越的分析和預測能力。
公司如何通過大數據賺錢
通過大數據平臺,股票經紀和投資經理們可以聚合各種來源的非格式化數據,輔助判斷哪些公司值得投資。所謂‘非格式化數據’包括如公司新聞,產品評論,供應商數據,價格變化,將這些信息以所謂“大數據”形式整合,通過建模,幫助股票經紀決策買入或售出股票。
有些采用如上方式進行投資預測的公司,很注重節約實施成本,例如使用云平臺(如AWS),先從很小數量的服務器開始,隨著獲益增長,逐步提高投入。一位我認識的分析師,從一家大投行離職創業后,在不到六個月的時間內,僅僅使用非常有限的投入,創立了一個盈利良好的大數據交易系統。
即便在傳統制造領域,大數據仍然可以提升預測能力。我曾經擔任過顧問的某歐洲一線汽車制造廠商,通過建立一個鋼材交易成本的分析系統,選擇更好的時機,以更優價格買入原材料。這個系統由開源Java框架Hadoop創建,整合了多個供應商的共計15Tb的數據,在兩年內為該公司節省了1600萬美元。
這個項目的成功主要有兩個原因:首先,公司有足夠的信息為所有的供應商建模;其次,該項目節省的原材料成本超過了實施這個項目的費用。
公司為何因為大數據虧錢
然而,并非每個大數據項目都會這樣成功。公司在大數據項目上以虧損告終的概率,有時和成功的概率相差無幾。大數據項目失敗的早期癥狀有很多種,最常見的問題如:
步子邁太大:大數據并不需要一筆巨大的預算,如果懷著巨大的投入將帶來巨大回報的預期開始一個大數據項目,往往會產生問題。在正式開始前,明智的做法是,嘗試用有限的投入,在小范圍內測試這個技術是否確實能帶來預期的收益。按這樣的節奏,一個項目可以按部就班地隨著收益逐步提高,而逐步擴大投入規模,確保收益始終大于投入。
低估人力投入:在開始實施一個大數據系統前,問自己一個簡單的問題:這個項目是否可以不需要持續的人工支持來運作?如果答案是,需要人工支持,那么建議停止項目。建立這樣一個項目往往意味著百萬級的損失,無法在有利潤情況下保持維護和運行。
迷信自然語言處理:大數據有個經常聽到的功能是,通過自然語言處理,將各種領域的各種數據處理成直接可讀可理解的形式。這聽起來確實很贊,但是在實際應用中,往往不盡如人意。自然語言處理仍然存在許多妨礙應用的限制,主要由于人工智能的發展還不夠--而且在可見的10年內,這個情況可能不會有很大改觀。
現代大數據項目具備巨大的節約成本的潛力,其效果對于過去的數據處理方式而言有如童話。但需要謹記的是,在投入時間和資源到大數據項目之前,首先要確認你的項目是收益大于成本的。只有傻瓜才會匆匆對一個點子一見鐘情并傾其所有。
作者Marco Visibelli是一位曾經工作于IBM,后離職創建Kuldat的數據科學家,他的公司主營運用大數據來為銷售和市場分析潛在獲益機會。