《企業網D1Net》5月16日訊
#1你應該考慮大數據
大數據分析始于大型Web服務提供商,如谷歌、雅虎和Twitter,這些公司需要最大化地利用其用戶所產生的數據。大型企業則需要大數據分析以保持競爭力。
你也許是一家真正的小公司,并且擁有大量的數據。GigaOm大數據研究部主任Jo Maitland表示一個小的對沖基金可能擁有TB級的數據。 咨詢公司麥肯錫最近的一份報告預計在未來幾年中,為數眾多的行業——包括衛生保健,公共部門,零售,制造——將從數據分析中獲益。
從雅虎剝離的公司Hortonworks的首席技術官Eric Baldeschwieler表示,Hadoop和大數據是大勢所趨。Hortonworks提供一個Hadoop的發行版。它適用于各種龐大的客戶。對交易數據的收集和分析,將讓組織更深入地了解他們客戶的喜好。這可以用來更好地了解產品和服務的創新,并讓組織更迅速地糾正出現的問題。
#2有用的數據可以來自任何地方
你也許不認為你有PB級的數據值得分析,但你需要這么做,即使你沒準備。“大數據是收集過去“掉在地上”的數據。”Baldeschwieler說。
大數據可能是您服務器的日志文件。例如,服務器保留每個人登錄網站、訪問什么頁面的記錄。跟蹤這些數據可以了解你的客戶正在尋找什么。雖然日志數據分析不是什么新東西,但是大數據可以做到令人目不眩暈的新粒度級別。
另一個數據源是傳感器的數據。多年來,分析家們一直在說物聯網,廉價的傳感器連接到互聯網,提供持續的使用數據。它們可能來自汽車、橋梁或蘇打水機。微軟Windows Embedded總經理 Kevin Dallas說:“設備的真正價值是他們捕捉數據、分析信息、驅動業務效率的能力。
#3您將需要新的大數據的專業知識
根據Forrester的分析師James Kobielus,當設立一個大數據的分析系統時,你最大的障礙是尋找合適的人才,知道如何使用工具來分析數據。
Kobielus說大數據依賴于堅實的數據建模,組織將必須致力于數據科學。他們必須聘請統計建模者、文本挖掘人才、專門從事情緒分析的人。這可能是和如今精通于商業智能工具的分析師所知道的不一樣的技能組合。
這樣的人可能會供不應求。麥肯錫估計,到2018年,美國就有可能面臨140,000至190,000名具有深刻分析能力的人才短缺,以及150萬知道如何使用大數據分析來做出有效決策的經理和分析師的短缺。
Maitland指出,你需要的另一種技能是管理大量具有存儲和分析數據能力的硬件。管理100臺服務器與10個服務器從根本上是不同的。您可能需要從本地大學或研究實驗室聘請一些超級管理員。
#4大數據并不需要事先組織
習慣于嚴格地規劃每一種將進入企業數據倉庫(EDW)的數據的CIO,可以對大數據的設置松一口氣。這里的規則是,先收集數據,然后擔心你將如何使用它。
有了數據倉庫,你必須先奠定了數據架構,然后才可以開始在數據本身鋪設。“這基本上意味著你必須事先知道你正在尋找什么。”MapR營銷副總裁Jack Norris說。因此,“你是在平面化數據,并且失去一些粒度。”他說, “后來,如果你改變了主意,還是希望做一個歷史分析,你已經限制了你自己。”
“你可以使用一個大數據倉庫作為數據的傾倒場所,并在上面運行分析,接著發現數據間的關系。” Norris說。許多組織可能在他們過濾完數據之前不知道他們在尋找什么。“所以這種’自由’是件大事。”他說。
#5大數據不僅僅是關于Hadoop的
當人們談論大數據,大多數時間他們指的是Hadoop數據分析平臺。Kobielus指出在許多組織中“Hadoop是一個熱門的倡議,預算和人都分配給它。”然而,歸根結底,你可能會使用其他軟件。
最近,法律研究巨頭LexusNexus公司對大數據分析沒有懈怠,將其自身的分析平臺HPCC系統進行開源。 MarkLogic還配備了自己的非結構化數據的數據庫——the MarkLogic Server ,用于大數據風格的工作。另一個獲得青睞的工具是Splunk的搜索引擎,它可以用于搜索和分析機器產生的數據,比如從服務器產生的日志文件。 “不管你從日志中可以提取什么數據,Splunk可以提供幫助。” Monash研究的Curt Monash指出。(Vivian 編譯)