對于大數據相關的技術,CIO應該從外部引入還是在公司內部自行開發?這個問題沒有簡單明了的答案。但是,有一個原則是必須遵循的,即從增強公司競爭力的角度來進行選擇。在之前的文章里,專家們認為,在做出大數據技術買入抑或自建的決策前,CIO們要比以往任何時候都更加重視對業務端的影響。而在本文中,我們將具體討論買入或自建的決策依據。
Stephen Laster是位于紐約的McGraw-Hill Education集團的首席數字館(chief digital officer),其最主要的工作就是基于數據來對業務進行提升。Laster領導著一個由數據科學家和工程師組成的團隊,負責制定并實施公司的e-learning和教育技術戰略。換句話說,該團隊負責McGraw-Hill Education的數字化學習產品。
Laster團隊的一個重要工作為學生提供高效、便捷的系統交互界面。在最近幾年中,系統處理了多達40億次的交互。
“對于特定的學生,我們能夠獲知其對概念的理解程度,知道他們還需要在方面加以努力,然后靈活地調整其學習路徑,最終讓學生們對知識形成整體的把握。”Laster說。
正因如此,Laster并不是大數據這個詞的擁躉。相反,他更看重小數據的作用。為了為學生提供個性化的應用,該團隊對數據進行實時分析,預測客戶行為并構建具有自學習能力的小算法。
當Laster面臨買入還是內部自建的問題時,他首先是了解市場差異化的機會,而不是基于項目本身 – 否則得出的結論將是自己從零開始構建。比如,針對關系數據庫管理系統的IT戰略,Laster是這樣考慮的:“雖然看似已經沒什么問題,但是為了服務的差異化,我們決定開發人工智能和算法。”
Laster及其團隊一直都從業務產出入手進行思考:“首先,在教學和客戶的學習方面,我們的目標是什么?然后,我們再回到技術的層面進行決策。”
“一旦確定了目標,我們會進一步分解,然后逐個調查,看市場上是否有現成的解決方案?”Laster說:“如果有現成的產品,我們就購買或引入開源方案。如果沒有的話,就自行構建之。”
最終,基于多年學術和工程研究成果,McGraw-Hill開發了一個名為LearnSmart的應用程序接口。Laster認為,這是真正能夠推動企業前行的方案。
Palo Alto市的首席信息官Jonathan Reichental認為,像McGraw-Hill這樣通過自建而非買入方式,在應用層形成差異化的市場優勢,是對本文主題的關鍵啟示。“如果你是CTO,為市場提供服務,通常情況下你都是自建而非買入。”Reichental說:“但是,如果是面向企業內部提供服務,可能用SAP或者第三方產品是更適合的。”
構建面向用戶的應用有助于消除和整合之前十多年間我們構建的各類最終被證明為失敗的系統。
買入也可以形成差異化的優勢
但是,Tagged.com(位于舊金山的社交媒體網站)的聯合創始人和首席技術官Johann Schleier-Smith認為,有時候買入是正確的選擇。他與另一創始人Greg Tseng在10年前(與Facebook同時期)創立Tagged.com,當時大數據還沒有大行其道。“我們用同樣的數據庫來同時支撐在線事務處理和業務分析。”
Schleier-Smith認為,如今的技術領域更加細分,比如NoSQL數據庫、分析平臺和開源的Apache社區。市場的擴充影響了Tagged公司的技術架構發展,該公司每月收集1000億個數據事件,導致超過50TB的數據量加入到其PB級的存儲集群中。其工程師團隊基于各種開源技術進行工作,比如Linux、Apache Kafka、Apache Spark和內存數據分析引擎。
同時,Tagged也采用了商業化的技術,比如EMC的Greeplum和Vertica。對于那些可以針對特定類型的查詢(尤其是交互式查詢)的高性能數據庫技術,Schleier-Smith認為:“我們認為是值得買入的,因為能形成我們差異化的競爭優勢。”
自建或買入?為什么不是租用呢?
另一家位于舊金山的創業公司ContextLogic則采用了10年前還不存在的方法。既不買入也不自行開發,ContextLogic從一家云計算廠商處租用服務,以此來管理其日志文件。
ContextLogic是社交購物推薦引擎Wish.com的技術供應商,后者據稱日活躍用戶數達110萬,其中96%的用戶是通過移動設備進行訪問。這種模式下,對在線事件的抓取和記錄是及其重要的,主要針對用戶點擊流,比如某用戶是如何找到在線購物車的。所有的這些數據(每天大概有4000萬到5500萬需要記錄的事件),都被保存下來供以后的分析用。
“數據的規模以及其時序性,使得日志分析非常有意思。”ContextLogic的聯合創始人和工程運維負責人Danny張說:“這就是我眼中的大數據。”
隨著公司的發展,日志數據的規模和重要性也日漸提升。“日志記錄和分析對我來說是最基本的工作,也是大數據分析最重要的步驟。”張表示。這些數據蘊含了客戶的購物偏好,是搜索引擎算法開發和ContextLogic業務決策的基礎所在。由于發展迅猛,很難有外部的解決方案能夠跟上其腳步,因此張傾向于自行開發的路線。但是,他同時也選擇了大數據服務提供商Treasure Data來管理日志數據,后者基于亞馬遜的AWS為客戶提供Hadoop平臺。對此,張的解釋是:“日志和我們的發展速度沒關系,無論如何,我們都是以同樣的方式來做這部分工作。”
而且,張還表示,租用基于云的數據管理服務其實也是一種成本優化。工程師們不用再為數據的規模而頭疼,可以專注在數據的分析上。
“我們沒有坐等完美的解決方案從天而降,問題依然是問題,會一直存在下去。”張說:“我們只是碰巧選擇了Treasure Data,作為一種問題應對的方法。”