大數據分析在理論上聽起來不錯,但實踐操作卻非易事。Cloudera公司是電子垃圾回收領域的先驅,公司的產品經理Eva Andreasson表示,大數據分析面臨技術的局限和存儲成本,以及應對不同系統的挑戰。
Andreasson在悉尼舉辦的“YOW! 開發者大會”上說,Hadoop下的不同工具能更好地應對各種挑戰,并列舉了衛生和零售業的實際案例。
Andreasson曾與美國一家兒童醫院開展過合作,該家醫院需要對其數據進行實質分析。
該醫院的監測系統不斷地獲得患者的呼吸系統、心臟速率、血壓等數據。可惜的是,該家醫院僅能將患者的關鍵數據儲存到手術或治理后三天。
Andreasson說,“在醫院的重癥監護病房里,有很多嬰兒及患者不知道該如何溝通,醫生只能通過監測系統獲得所有信息。試想,如果你是醫院里一名無法溝通的患者,在手術后治療出現了不適反應,該怎么辦?”
醫院的另一個問題是,研究數據存儲在不同的系統當中,難以在短時間內有效整合,這往往導致臨床醫師要獲得特定信息需等待很長時間。
Andreasson還強調:“醫生們明白兒童急診的最常見原因是哮喘。他們也做過大量不同渠道的研究,也擁有20年的其他外部研究數據。但是他們沒有一套系統能夠為研究小組有效匯集數據,數據總是存儲在不同的系統內。”
醫院應用Hadoop平臺可應對這些挑戰,而且能節省部分開支。Andreasson說,從硬件建設到軟件安裝,Hadoop平臺只需醫院用不到三個處理器來運行原來的傳統數據管理系統。
醫院每周大約可處理50GB的監測數據,并有2TB的容量接受所有研究數據的同時訪問。而Apache Sqoop系統可用于在相關數據庫和Hadoop之間進行數據轉換。
Solr是一款全文搜索的開源系統。工作人員正在使用Solr進一步探索它的各種數據集和文件。而Impala作為一款查詢工具,用來做實時監測數據分析和研究病人的健康狀況發展趨勢。
Andreasson說,“幾星期內,研究人員就能改變流程,讓患者的看護時間更長。他們發現,護士與患者接觸的時間多幾個小時,患者就能恢復得更好。安裝完這一系統幾個月內,醫院就能減少與哮喘相關疾病的數量。”
Andreasson還提到另外一個在線零售商的案例,和兒童醫院類似,該零售商以前只能存儲客戶交易六個月以來的有限數據量。
“如果存儲時間能夠達到一年、兩年乃至五年,就能顯示哪類客戶在一段時間內減少購買或停止購買其產品。”Andreasson補充說,“Hadoop就能做到這一點,它能提供半年、一年乃至五年的數據,因為它是一個線性的可擴展平臺。”
該零售商還記錄著點擊該網站的每個訪問者記錄,訪問者點擊網站上特定板塊的時間,并加強了多類型數據集之間的相關性。
通過使用Flume,每個日志事件在生成之時就會被消耗掉,并發布到Hadoop分布式計算文件系統。然后系統會創建表格比較點擊率最高的產品和最暢銷的產品。
“在上述案例中,有一項產品不在‘最暢銷產品’之列,但數據顯示用戶經常點擊這個產品。這意味著什么?你可以通過添加有助商業開發的數據集,獲得新的見解。”
“我們看到,小孩踢的足球大受歡迎,但它并沒有在我們的購物清單上。那我們要做些什么來獲得更多的收入呢?也許這個產品定價出了問題,在購物者看到價格信息后沒有購買就離開網頁了,當然也可能有其他原因。”