大數據(Big data)近年來快速成長,根據麥肯錫全球研究中心在2011年5月發表的全球大數據研究報告指出,全球資料量光是在2010年就增加了70億GB,相當于4千座美國國會圖書館典藏數據的總和。
如何產生、消費和儲存大數據,已經成為近年來企業IT應用的重要趨勢。如在eBay上,平均每天有將近1億名用戶查詢商品數百萬次,更有上百萬件商品在在線交易,導致eBay數據庫每天新增的數據,超過1.5兆筆,每天增加的數據量超過50TB,這些大數據如果沒有作進一步的分析應用,勢必會影響eBay的企業營運。
應用大數據 提高企業競爭力
至于制造業,其實也會產生許多大數據,但宇清數字智能總經理郭仲仁指出,許多企業卻不見得會重新檢視這些信息,其實只要經過大數據技術分析,透過細微的觀察分析及萃取,就可能從中找到提高生產力及縮短產品交期的信息。
如晶圓代工、面板等產業,都會碰到等待時間不能超過特定時間的壓力,偏偏有30~40%的機器,會有這方面的問題。如果有任何一種等待因素需要有三個共同部門負責,結果其實就可能不會有人負責,唯有讓每一種等待因素都能被該負責的部門看到,才會有人愿意進一步的去分析每一種因素的相關數據。
郭仲仁認為,如果能找到一種大數據的分析方法,能夠混和資料采礦過程,搜集相關資料掌握下游如何影響上游,進行相關分析,讓客戶找到重點,并找到真正可以操作的KPI,才會有很大的機會,找到改善的重點及方法,而這也才是大數據分析應用的價值所在。
擴展企業IT架構 駕馭大數據
企業如果能夠駕馭大數據,自然能夠提升競爭力,但戴爾企業解決方案市場開發經理陳毅達指出,目前的資料,卻已經超越傳統數據庫或現有數據管理工具能夠處里的范圍。因為在爆炸性的數據增長過程中,結構性數據的成長相當緩慢,反觀非結構性的數據,包括視訊、網頁、智能型手機、消費數據、位置數據、財務服務數據,以及社會媒體數據等,陳毅達指出,至少有80%的數據,屬于非結構化數據,大約500萬億個文文件,而且數據量每兩年增加一倍。
但目前的數據庫解決方案,卻主要是用來設計儲存結構化數據,除了只能針對已知問題的回答速度進行優化外,架構本身往往就決定了內容形式,對于新數據型態與新問題,都有適應上的困難,加上擴展成本高昂,企業勢必得尋求不同以往的數據處理解決方案,才能面對爆炸性的資料增長。
優化大數據 創造數據價值
事實上,數據成長的速度,確實相當驚人。根據IDC統計,數字世界的信息容量將會從2009年的0.8ZB,在2020年成長到35ZB,等于每15秒就成長1PB,年復合成長率高達40%,而且這些數據數據不僅巨大而且不同,如何優化數據,方便且容易的搜尋到所需要的信息,也變得更加困難。
麗臺科技新事業處軟件產品部業務副總經理萬蕙如指出,前各產業平均數據儲存量,以證券投資、銀行居首,其次則是制造業、通訊媒體、國營事業、政府機構等,整個產業生態,需要更快速實時獲取針對特定商業工作項目或流程的綜合細部信息。
因為在信息暴增的時代,企業營運所面對的挑戰,包括一直在更新的大量數據、更快速響應大量終端用戶的需求,多數工作者都需要迅速且有效率地查詢正確信息,如何能更實時正確地傳遞關鍵信息,以加強特定作業流程的產出與績效,已是當前企業IT部門必須面對的問題。
萬蕙如認為,企業想要優化大數據,應該要考慮信息搜尋技術的新世代應用。如Search-Based Applicatioin(SBA),是一種使用最新進的搜索暨索引(Search and Index)技術作為結構、半結構和非結構信息,匯整分析功能開發之基底平臺的應用軟件,這種信息分析的新方法,可同時提供支持特定工作或流程,而量身訂做的定量和定性數據圖表分析,可全面強化企業日常業務實時決策的準確性。
應用虛擬化技術 提升大數據處理效能
除了信息搜索技術外,虛擬化技術在大數據時代,也變得更加重要。事實上,虛擬化環境目前面對的最主要挑戰之一,其實就是大數據時代的來臨,讓數據的儲存及備份,變得更加困難。但群暉科技軟件開發部經理張成鈺指出,大數據對虛擬化儲存,是挑戰也是機會,只要能克服數據保護效率,做好多重復制的環境布署操作,仍能提供非常完整的數據保護虛擬環境。
張成鈺表示,虛擬化的好處之一,就是IT資源的處理效能可以更好,因為再強的實體主機,運作效能還是有上限,其實儲存設置也有強大的運算能力,可以分散運算工作,用來解決虛擬化環境的效能瓶頸。
要強化虛擬環境操作的效能,張成鈺指出,除了產品應該專為虛擬環境量身打造,完整支持主流的虛擬化解決方案外,主要的虛擬儲存進階功能,也相當重要,如儲存設備就需要面對傳輸效能的問題。張成鈺指出,固態硬盤(SSD)可讓虛擬化儲存在面對大數據的挑戰時,提供效能提升的重要幫助。如藉由安裝SSD進行快取,可大幅提升讀取效能,關鍵在于系統是否無須在成本與效能上妥協,使用少量的SSD,即可達到效能升級。
善用云端服務 處理大數據
事實上,在大數據時代,企業不僅要考慮數據的儲存及應用,傳輸技術也非常重要,尤其在云端運算時代,許多企業會將數據存放在云端,如果云端端服務業者,無法提供高質量的數據傳輸服務,企業就很難實時存取資料,用來作進一步的規劃。
恩悌悌業務部資深副理林志鴻指出,如果企業選擇將數據儲存在各地分公司或企業總部機房,勢必會有人力、物力及金錢方面的投資成本,但如果將數據放在云端,在大數據時代,就需要大帶寬,才能縮短傳輸時間,如NTT在2012年正式啟用的ASE海纜,配合這幾年在香港、東京、新加坡及馬來西亞投資的機房建設,才能提供亞太地區所需要的高速數據傳輸服務。
此外,云端服務業者在數據派送服務的優化技術,也會影響大數據的應用。林志鴻表示,類似Youtube、PPS的串流技術,許多云端服務業者已經開始提供,可以提高傳輸效率,縮短數據傳輸的時間,可以減輕對帶寬的壓力。
駕馭大數據應用的關鍵技術
大數據不只是需要儲存及傳輸,也需要做更深入的分析,才能讓大數據更多的價值。淡江大學統計系副教授陳景祥指出,有沒有必要使用全部資料,是許多企業可以思考的問題。思考的方向首先就是成本,而且除了有形的金錢成本外,時間及人力資源等無形成本,也都需要一并考慮;其次是精確度會受到多少影響,造成的決策風險會有多高,最后則是軟硬件方面的限制,是否真的有足夠的能力使用全部數據,進行統計分析。
陳景祥強調,企業若要進行數據探勘,一定要先有目標設定,光是只有數據,是無法透過數據探勘獲得所需要的信息。其他還要考慮的重點,還包括目前的科技限制,軟硬件及人力時間成本等。值得注意的是,企業得到資料探勘結果后,并不是到此為止。陳景祥強調,數據探勘只是輔助,并非全部自動化,后續還是需要人力來執行歸納分析,才能真正發揮大數據的價值。