企業網D1Net 2012年5月3日 多年來,知識管理的目標一直是從多個角度提供有效的決策所需的洞察力、提取并集成信息的能力。企業決策考慮的不僅是如收入、雇員薪金或商業貸款利率之類的問題,還需要考慮究竟有哪些因素應該可以影響決策,比如在哪方面投資營銷資金,投資多少,或是否拓展新的地域市場。
在過去,收集和儲存信息的成本限制了企業獲取全面信息以及構架企業整體經營體系的能力。然而,數字化信息的自動收集和廉價的存儲已消除了對數據訪問的障礙。如今,有大量的數據可供人們訪問,但相關的數據庫卻已達到了分析信息能力的極限。
一、大數據三個要素:批量化,多樣化
高速化現在出現了新的解決辦法來處理所謂的“大數據”.大數據在數量上并沒有確切的定義,但它又延伸了自己的領域,即使相關數據庫不再能夠有效地分析數據,我們也不必擔心。該解決方案以分解數據為基礎,發送子集進行分析,然后重新組合的結果就會輸出大數據的一些組件的定義,包括Apache Hadoop.
然而,批量化不是唯一定義大數據的維度。 “品種也是一個因素,因為許多不同類型的數據在分析時可能是相關聯的,”Gartner研究副總裁Mark Beyer(馬克·拜爾)表示,“隨著文件信息人快速增長和社會媒體的繁榮,企業需要的是能夠分析結合的信息,包括結構化的關系型數據庫和文字處理文檔、視頻、圖片、博客和tweets等非結構化內容。”
高速化是大數據的第三個因素。它不僅要求有大量的數據,它還要求必須經常對數據進行快速處理。此外,速度本身可以有所不同。以兩個人點擊進入網站為例,如果數據隨著時間的推移而被逐漸收集,那么一些用戶會在一定的時間內產生更多的數據。“速度的變化會影響分析的結果,”Beyer補充道,“尤其是當事件的數據模型是特定的的時候。”
此外,在大量的數據被分析處理時,相關信號中會出現大量的噪音。 “你需要進行反復的測試來找出可能一開始就被忽略了的東西,因為數據分析的每個類型都是不斷發展地,”Beyer表示。“一個人的信息對另一個人而言可能是噪音,這意味著弄清楚每個信息消費者的需要是非常重要的。”大數據的工作之一就是實時過濾無用信息,這就是兩者之間的區別。
企業在處理大數據方面還是不成熟的,但他們有動力和信心。據Beyer表示,處理大數據的能力將成為IT領域未來十年里最重要的基礎設施變化。而且,它對知識管理具有重大影響。
二、正在發展的大數據
大數據在企業中的應用正在快速增加。例如,建立商業智能(BI)解決方案時,一個行之有效的方法是運用大數據技術來存儲、處理和檢索信息。這種做法將提高商業智能產品中的大數據能力的知名度和可用性。
世紀90年代中期,Expedia.com率先進軍在線旅游行業,并成為了世界領先的在線旅游網站。該公司提供全方位的服務,包括預訂機票、預訂酒店、游船與汽車租賃,和參與旅游地區的特別活動的機會。其網站為26個國家提供當地語言信息,每年訪問Expedia網站的特殊用戶超過75萬人。因此,和訪問與交易相關的數據量迅速增加,而Expedia公司便利用大數據來分析其需求。
的分析重點是客戶服務和預訂,以及衡量其營銷活動的有效性。該公司每月收集幾十TB的使用數據,它的數據庫包含約200千兆字節的信息量?,F在,根據一個可行的技術組合,Expedia可以存儲、分析數據和獲得結果,從而指導整個公司的決策。
三、大數據分析目標
副總裁兼總經理Joe Megibow表示,“我們結合了包括Hadoop的分布式存儲在內的許多不同技術,來拓展更廣闊的分析視野。”Expedia的分析項目中的一個關鍵因素是SAS(sas.com)分析平臺。 “利用SAS(軟件即服務)分析,我們可以從廣泛分析的大型數據集中提取有用的數據子集。”
分析使Expedia公司可以知道客戶的喜好和對不同的營銷渠道的有效性的評價。幾年來,Expedia在利用SAS分析時,越來越從大數據中受益,交易和通過數據點擊量和社會化媒體輸入量都在不斷增長。“利用SAS分析和其他分析大量數據的技術變得更容易了,”Megibow補充道。在過去的一年中,Expedia已經開展了大規模的客戶行為分析,隨著時間的推移,Expedia的發展模式將有助于分析其營銷效果和客戶反應之間的因果關系。
分析工作的一個重要目標是要尋找廣告和什么相聯系,它以何種方式投資、促使客戶在其網站上從訪客轉化為客戶。 “大多數用戶需要訪問多次才能完成交易,”Megibow指出,“而這個大容量數據存儲和分析會在特定時間或較長時期內,提供給我們關于客戶行為的重要見解。”
過去幾年里,大數據技術在分析可行的任務方面已經有了實質性的進展。 “我們總是想辦法解決有關大數據的疑問,但在過去,技術還無法幫助我們實現分析目標,提取大量數據可能需要一整天,而分析則可能需要數月?,F在,我們可以用不到一個小時的時間處理完大數據集,并且根據時間表來運用SAS分析。