目前,大量企業擁有海量的客戶信息,包括在線交易記錄及社交媒體數據等。但是,成功的關鍵是要能夠從不同渠道和來源的數據中洞察價值,而具備收集并分析這些數據能力的企業將在競爭中擁有顯著優勢。
但是,數據的非結構化已經成為企業的重大挑戰。企業已經熟悉收集和分析結構化數據,如傳統的銷售年報信息。目前,許多企業都困惑于如何收集和分析更多類型的多結構化數據,如網絡日志、無線電射頻識別(RFID)、傳感器網絡、社交網絡、互聯網文本和文件、互聯網搜索索引、詳細通話記錄、醫療記錄、攝影檔案、視頻檔案以及電子商務交易數據等。
由于這些數據的結構問題及大數據類型的復雜關聯,導致無法應用現有的傳統技巧進行大數據分析。這為企業帶來了新的任務,需要開發一套全新方法,不僅能夠處理傳統數據,而且可以便捷地分析和應用這些新興數據,而不是僅僅進行儲存。
迷思一:大數據是針對數據量和數據增長量而言
這種說法并不完全正確。的確,大數據包括海量的以指數速度增長的傳統業務數據,也包括web應用、傳感器網絡、社交網絡、基因組、視頻、照片等新渠道生成的各種數據。同時,大數據還很復雜,進行收集、儲存、管理和分析的難度極大。
目前,兩種類型的數據都在不斷增長。據IDC集團出版的《2011年十大預測》報告稱:“企業正被淹沒在信息海洋里,卻仍渴望獲得更多信息,這也為大數據分析和管理帶來了巨大機遇。”該報告指出,企業的愿望終將實現。“全球數據總量(digital universe)將擴張近50%,達到約1.8 澤它字節(約合2萬億Gb)。作為參考,專家們預計1澤它字節相當于長度高達3600萬年高清視頻文件產生的數據量。”
迷思二:企業應淘汰并更換現有分析系統以應對大數據時代到來
錯誤,沒有必要!建立大數據分析能力需要人才、流程和技術的完美組合。如果企業尚未發掘現有商業智能環境的價值,在啟用大數據分析平臺前需率先解決該問題。當傳統業務數據分析被賦予大數據的視野,才能實現大數據分析的真正價值,帶來透明和全面的業務觀點,從而創造出業務迅猛發展的機會。
首先,企業應制定計劃,明確應用大數據分析要達成的業務目標。依據這些目標,企業應部署適用的硬件和軟件以應對挑戰。根據一線員工的需求部署商業智能解決方案,幫助他們做出最佳決策。在采用正確的技術支持后,企業用戶和數據科學家能夠迅速收集和分析新的數據源,發掘業務需要的洞察力。
迷思三:大數據只對谷歌、Facebook和亞馬遜這樣的高科技公司才有意義
無論是互聯網公司、財富500強、或者小型企業,都與大數據的爆炸式增長息息相關。無論所在行業或企業規模,數據分析已經成為當前重要的業務需求。現今,在企業運營中若無法從業務數據中獲得真正的洞察,是絕不可行。全球主要市場的企業正在實現新一代高級分析應用的轉型,通過全新方式應用海量的傳統數據和新型數據,提供更深入、更智慧的洞察力。而且,企業的競爭優勢取決于在商業環境中管理和分析所有關鍵數據的能力,以及幫助企業做出最佳決策的洞察力。
迷思四:數據科學家和大數據分析是2012年的IT界時尚
大數據分析絕非一時狂熱,這點毋庸置疑。正如O'Reilly Media創始人Tim O'Reilly所言:“我們正在開創迷人的數據驅動應用新世界,這是一個任由我們塑造的世界 。”目前,數據科學家已經成為獨立的職業,奮戰在塑造這個商業新世界的最前線,精通數據的專家將成為新時代中的重要成員。
數據科學家必須對數據充滿好奇,擁有專心鉆研的態度,積極進取并善于批判性思考。他們具有對業務流程的深刻理解,同時融合數學、統計學,以及使用Excel、SQL和分析工作臺等技能。目前,市場對擁有技術能力及商業意識的專業人才需求量巨大。
迷思五:大數據的價值取決于Hadoop及同類軟件的技術處理能力
沒有任何單一技術能夠滿足所有需求。根據企業努力解決的業務問題,建立大數據分析能力需要人才、流程和各種技術的完美組合,而最關鍵的是釋放這些數據的商業價值。這將需要復雜的分析應用,其中包括數字營銷優化、欺詐偵測和預防,以及和社交網絡分析等。
Hadoop在大數據技術庫中擁有一定價值及重要位置。Hadoop既是框架,更是實現多結構數據過濾、轉化及整合的優異平臺,類似于未搭載引擎或車身的跑車底盤。采用這種架構,Hadoop可以支持迭代及實時數據探索和分析,快速發現新數據及數據的變化模式。
成功的關鍵
成功的關鍵在于能夠整合企業既有傳統業務數據和新型數據。通過開放訪問整個企業生態系統并整合各種來源的數據,企業可以應用大數據分析對客戶進行超級全面的分析,進一步改善客戶服務和銷售業績。