Facebook分析主管Ken Rudin表示,Hadoop編程框架可能是“大數(shù)據(jù)”運(yùn)動(dòng)的代名詞,但對(duì)于公司從大規(guī)模存儲(chǔ)的非結(jié)構(gòu)化信息中得到商業(yè)洞見的需求,Hadoop不是唯一的工具。
“有很多普遍的大數(shù)據(jù)信念需要被質(zhì)疑,”Rudin說,“問題是,Hadoop是一種技術(shù),但大數(shù)據(jù)不是關(guān)于技術(shù)的,大數(shù)據(jù)是關(guān)于業(yè)務(wù)需求的。”
“實(shí)際上,大數(shù)據(jù)應(yīng)該包括Hadoop和關(guān)系型數(shù)據(jù)庫和任何其他適合手頭任務(wù)的技術(shù)。”他補(bǔ)充說。
Facebook的商業(yè)模式依賴于對(duì)其超過10億社交媒體用戶的用戶資料和活動(dòng)數(shù)據(jù)的處理,以提供有針對(duì)性的廣告。但是,“對(duì)于我們的所要做的,Hadoop并不總是最好的工具。”Rudin說。
例如,在Hadoop中對(duì)一個(gè)數(shù)據(jù)集做廣泛的探索性分析是有意義的,但關(guān)系型存儲(chǔ)對(duì)于進(jìn)行運(yùn)營(yíng)分析的發(fā)現(xiàn)更好。
Rudin表示,Hadoop對(duì)于在一個(gè)數(shù)據(jù)集中尋找最低水平的細(xì)節(jié)也不有好處,但關(guān)系型數(shù)據(jù)庫對(duì)于存儲(chǔ)轉(zhuǎn)化和匯總的數(shù)據(jù)更有意義。
“結(jié)論是,為你的任何需求使用正確的技術(shù)。”他說。
Rudin還有另外一個(gè)假設(shè),即分析大數(shù)據(jù)的單純行為提供有價(jià)值的見解。“問題是為無人問津的問題想出更加輝煌的答案,”他說,“要弄清楚什么是正確的問題仍然是一門藝術(shù)。”
Facebook一直專注于聘用合適的員工來運(yùn)行其分析業(yè)務(wù),不僅要擁有統(tǒng)計(jì)博士學(xué)位,還要精通業(yè)務(wù)。
“當(dāng)你面試的時(shí)候,不要只關(guān)注‘我們?cè)趺从?jì)算這個(gè)指標(biāo)’”Rudin說,而是要給他們一個(gè)商業(yè)案例研究,并問他們哪些是最重要的指標(biāo)。
企業(yè)還應(yīng)該嘗試培養(yǎng)“人人分析,”Rudin表示。
Facebook運(yùn)行一個(gè)內(nèi)部“數(shù)據(jù)營(yíng)(data camp)”,一個(gè)兩星期教導(dǎo)員工分析的計(jì)劃。Rudin說,產(chǎn)品經(jīng)理,設(shè)計(jì)師,工程師,甚至財(cái)務(wù)部門工作人員都出席。“人人參與其中的意義,你給大家一個(gè)數(shù)據(jù)的共同語言,他們可以用來討論問題和難題。”他說。
Facebook還動(dòng)搖了統(tǒng)計(jì)人員和業(yè)務(wù)團(tuán)隊(duì)的組織。如果統(tǒng)計(jì)人員保持獨(dú)立,他們往往“坐在那里等待來自業(yè)務(wù)領(lǐng)域的請(qǐng)求并回應(yīng)他們”,而不是主動(dòng)的。但是,如果統(tǒng)計(jì)人員被放置到業(yè)務(wù)單位,“你會(huì)發(fā)現(xiàn)多個(gè)團(tuán)體試圖冗余地解決問題。”他說。
Facebook已經(jīng)采用“嵌入式”的模式,把分析師放在業(yè)務(wù)團(tuán)隊(duì),但他們向更高級(jí)別的分析師報(bào)告,這有助于避免重復(fù)勞動(dòng)。