云計算從提出到進化出完善的 PaaS、IaaS 和 SaaS 架構,再到被市場廣泛接受,用掉了將近十年。而大數據概念從知名學者舍恩伯格提出到現在,剛剛不到三年,最常見的用途不過是為碎片化的營銷渠道提供參考坐標。大數據的潛力和商業能量顯然還沒被充分挖掘出來。
就大數據的應用場景和未來的發展趨勢,我們采訪了星圖數據 (Syntun) 的創始人谷熠。
產品經理出身的谷熠曾在 SaaS 企業級軟件行業工作十多年,主要為企業客戶開發數據類和信息類產品;他的合伙人之一,也是星圖數據的首席數據官 (CDO) 曾在市場研究行業做調研類工作。隨著從業年限的逐漸增加,兩個人慢慢發現了傳統數據收集方法的落后和不全面。
由于經由人工獲取的有效數據本身就非常有限,在后續進行數據處理時,就不得不采用樣本推總的思路。而事實上,建立在這個邏輯上的統計處理很可能會因為樣本不夠全面而導致比較大的誤差。在大數據的幫助下,這些誤差和不可控因素的勢力范圍有可能進一步縮小,從而為更加明智的決策和及時深度的洞察創造條件。
谷熠眼中的大數據 (Big Data) 更像是 Mass Data。星圖團隊自主搭建了獨立的服務器,并開發了一套大數據供應鏈系統。從數據的采集、解析、存儲、清洗到后期的數據標準化、建模和自學習,整個流程只需很短的時間就能跑完。公開網絡環境下的電商交易數量、成交金額、客戶評價等數據,星圖都可以通過自己的采集系統收錄進來;緊接著是對源數據進行分門別類,即解析。解析完成后,這些初步處理過的數據會被快速清洗,那些有潛在使用價值的數據會被長久保存下來。而標準化、建模和自學習才是星圖真正擅長的重頭戲——他們根據數據的種類和行業區別開發了一系列分析算法來對已有的數據進行多方位和多角度的解讀,這也是輸出最終結果的最后步驟。
以星圖目前的計算能力,每天大約有 5TB 容量的數據進入星圖的自有數據庫,每分鐘可以完成六千條左右的數據處理。與那些互聯網巨頭相比,這個速度還基本構不成威脅。而數據的價值并不能簡單地從容量這個維度上來看。數據內部的精巧結構、關聯關系和廣度、時效性等指標都能反映自身的價值。用電商行業來舉例,這里的數據可以分為相對穩定的用戶數據和隨時發生變化的時序數據。對于網上零售行業的從業者而言,這兩類數據的重要意義不言而喻。前者能告訴你顧客是誰,有哪些特點,后者則會告訴你和同行相比到底賣得怎么樣。于是,中小賣家就有了審時度勢的機會,依托于大數據的市場反饋能迅速做出決策和響應,免于因信息閉塞而決策失誤。
從另一個角度看,電商行業的用戶和交易數據被阿里、京東等平臺型巨頭持有,這些數據是相互獨立、互不開放的。其實割據在互聯網的很多細分領域都已經稀松見慣,而星圖卻打算用這樣一套數據供應鏈系統打破數據層面的割據,通過對全網數據的挖掘,反映真實的電商運行情況。媒體和電商分析師們又多了一個客觀的視角。
在零售以外的領域,大數據的魔力并沒有減弱。比如,在占據國民經濟主體地位的制造業,利用大數據的用戶和市場研究結果,產品設計人員可以及時了解消費者對功能和外觀的喜好,獲知他們在使用中的具體困惑,反過來影響產品設計之初的具體方案。這就避免了采購浪費和供應鏈臨時調整的麻煩,產品方案一旦確定即可大規模投入生產。在谷熠看來,歐美等發達工業國家的先進之處在于供應量的柔性管理能力——市場反應不達預期,可以迅速停止生產或改用備選方案,非常機動靈活。有了大數據的支撐,中國的制造業脈搏能更加有條不紊,逐漸改變過去低水平重復建設的生產模式。
談到大數據,另一個無法回避的永恒話題是用戶隱私。
在采訪中,創始人谷熠并沒有對此顧左右而言他。星圖在數據積累早期就在內部建立了一個用戶信息分級機制,能夠有效預防隱私泄露情況的發生。
事實上,互聯網的使用者幾乎一定會在網絡上留下些許痕跡,隱私本質上是一個度的概念。如果不貢獻任何數據,這個商業世界的很多美好事物將永遠不會出現。大數據的想象空間正是在對用戶數據的合理使用基礎上建立起來,隨之而來的便利、智能和自動化也應該讓大數據的參與創造者盡快享用到。
到那時,數據反哺農業、制造業乃至服務業的愿景才會一步步實現。