開始于部分web服務(wù)商所進行的分析大數(shù)據(jù)的浪潮正在波及到一般企業(yè)。這是因為,即使目前條件還不完善,但是為了保持競爭力并維持正常的營業(yè)狀態(tài),要充分利用大數(shù)據(jù)。在此情況下,下面本文將介紹企業(yè)的情報最高負責人所要必須掌握的有關(guān)大數(shù)據(jù)的5項內(nèi)容。
第一,形勢要求企業(yè),抓緊掌握好大數(shù)據(jù)。
分析大數(shù)據(jù),最初是由google、雅虎及twitter等美國的web服務(wù)供應商開始做起來。這是因為上述這些企業(yè)有必要最大限度地利用來自用戶的信息資源。但是,從目前趨勢看,我們認為,即便是一般企業(yè)也為了保持競爭力并使企業(yè)運營正常進行,將來有一天就要把大數(shù)據(jù)很好地利用起來。
在美國GigaOM調(diào)研主管Jo Maitland 指出美國目前有些企業(yè)盡管其企業(yè)規(guī)模小,但它卻擁有大量的數(shù)據(jù),比如對沖基金公司就擁有大量的數(shù)據(jù)。另外,美國的咨詢公司McKinsey and Company最近預測,認為再過幾年,包括公共機構(gòu)、健康管理、零售業(yè)、制造商圈在內(nèi)的廣泛的各業(yè)界通過對大數(shù)據(jù)進行分析,將會獲取相應的財務(wù)利潤。
提供HadoopLinux發(fā)行版的美國雅虎Hortonworks最高技術(shù)責任者(CTO)Eric Baldeschwieler也說,目前正在形成一種高潮,要認識到掌握大數(shù)據(jù)乃是企業(yè)的必備項目。這種趨勢具有普遍意義,它適用于諸多領(lǐng)域的顧客。這是因為,收集交易信息并對它進行分析,將會使企業(yè)更深入地了解顧客的消費趨勢走向。因為這些數(shù)據(jù)除了可以運用于新產(chǎn)品開發(fā)和新型服務(wù)外,也對用最快的速度來解決今后可能發(fā)生的問題,提供方便。
第二,對企業(yè)有用的信息和數(shù)據(jù),普遍存在于任何事物中。
可能有的人覺得,目前手頭里還沒有一個最重要的可參考的大量數(shù)據(jù);但是,我們可以說,你就可以掌握這些數(shù)據(jù)的日子很快就會到來。上述Baldeschwieler指出,你所要的大數(shù)據(jù),其實不過是通過“收集各處分散的數(shù)據(jù)而形成”。
比如說,server上的計算機操作日志文件夾(log file)可能就是大數(shù)據(jù)。Server就會告訴每個人他所要查閱的不同領(lǐng)域的不同部門的內(nèi)容。通過跟蹤這些數(shù)據(jù)即可知道顧客究竟需要什么。分析操作日志這件事本身雖然很早就有,但是,在新形勢下,它將在更高的水平上進行分析,其分析精密度將會進一步得到提高。
與此同時,取自于傳感器上的數(shù)據(jù)也將會成為大數(shù)據(jù)。最近幾年來,有些證券分析師也早已開始談?wù)撃切┝畠r的感應器如何同網(wǎng)絡(luò)連接起來,連續(xù)發(fā)出數(shù)據(jù)信息,以便了解“物”的流通和消耗過程,即“物”的網(wǎng)絡(luò)化現(xiàn)象。現(xiàn)在,我們就可以設(shè)想一下,這些數(shù)據(jù)可以來自于車輛、橋梁以及飲料的自動售貨機所提供的信息。 美國微軟Kevin Dallas指出,IT行業(yè)設(shè)備的真正價值在于,使它收集數(shù)據(jù)并對所收集的信息進行分析,以便提高商業(yè)效率。
第三,要具備有關(guān)大數(shù)據(jù)的新的專業(yè)知識。
美國Forrester Research分析師James Kobielus說,在引進大數(shù)據(jù)分析系統(tǒng)時最重要的一件事,是要招募那些通曉分析數(shù)據(jù)工具的使用方法的專業(yè)人才。
大數(shù)據(jù)對實體數(shù)據(jù)(solid deta)的模型有著相互依存關(guān)系。正因為如此,上述James Kobielus又指出,企業(yè)必須把企業(yè)工作的重心放在數(shù)據(jù)科學上。關(guān)于這方面的人才,我們需要的是統(tǒng)計學挖掘方面以及文本挖掘?qū)I(yè)和心理專業(yè)的人才。因為,即便是那些熟悉商業(yè)智能工具的證券分析師,也未必能具有這些上述技能。
當然,也有可能目前缺乏掌握這些技能的專業(yè)人才。據(jù)悉,截止2018年,美國具有高度分析技能的專業(yè)人才將會缺少14萬到19萬人。除此以外,還會缺少具有分析并充分利用大數(shù)據(jù),高效決策的經(jīng)理人和證券分析師,其空缺人數(shù)將會達到150萬人
另外,還有一項必備的技能是,為了保存和分類數(shù)據(jù),要具備對所需要的大量的硬件進行管理的能力。前述James Kobielus還指出,管理100臺服務(wù)器和管理10臺服務(wù)器是兩碼事,不可同日而語。我們建議,雇用若干各當?shù)卮髮W和研究所出身的計算機管理人才。
第四,大數(shù)據(jù)沒有必要事前編制。
假如CIO能熟練地掌握一項技術(shù),即針對商業(yè)智能數(shù)據(jù)倉庫EDW,制訂一套嚴密的詳細計劃,那么,對他來說運用大數(shù)據(jù)將并非是難事。換而言之,大數(shù)據(jù)的相關(guān)法則即為首先收集好數(shù)據(jù),而后再考慮如何運用和充分利用這些數(shù)據(jù)。
而關(guān)于與商業(yè)智能數(shù)據(jù)庫相關(guān)的數(shù)據(jù),在收集數(shù)據(jù)之前,則有必要設(shè)計出數(shù)據(jù)日志來。關(guān)于這一點,美國MapR主管銷售的Jack Norris認為,它意味著有必要事先掌握所要尋找的對象。他又指出,之所以這樣做,是為了防止使數(shù)據(jù)一般化,從而失去數(shù)據(jù)。如果自己原來的想法有了變化,那么事后要對數(shù)據(jù)進行分析,那就為時已晚了。
Jack Norris進一步指出,我們可以把大數(shù)據(jù)的知識庫當做一種廢棄物存放地來理解,而必要時可以再拿過來進行分析,有許多企業(yè)甚至并不知道需要找什么內(nèi)容,只有等到收集數(shù)據(jù)之后才開始明白要做什么。
第五,大數(shù)據(jù)并不等同于Hadoop。
有不少人認為,大數(shù)據(jù)即是對Hadoop進行數(shù)據(jù)分析的平臺。而上述James Kobielus則認為,毫無疑問,Hadoop即為多數(shù)企業(yè)所重視的與企業(yè)預算和人才招聘相關(guān)的軟件技術(shù);但是,企業(yè)也有可能最終使用另外一種產(chǎn)品。
美國的法律咨詢的大公司LexusNexus最近將本公司的分析平臺-HPCC Systems公開。我們要知道LexusNexus這家企業(yè)非常擅長大數(shù)據(jù)分析。而且,美國企業(yè)MarkLogic也把自己用于非結(jié)構(gòu)性數(shù)據(jù)的數(shù)據(jù)庫-MarkLogic Server,同大數(shù)據(jù)聯(lián)結(jié)起來。而且最近,比如像服務(wù)器系統(tǒng)日志文件,用于對機器所產(chǎn)生的數(shù)據(jù)進行搜索和分析的Splunk也是目前人氣很高的。美國企業(yè)Monash Research的Curt Monash也指出,Splunk將有可能可以利用取自服務(wù)器系統(tǒng)日志文件的任何一項數(shù)據(jù)。