大數據(Big data)近年來快速成長,根據麥肯錫全球研究中心在2011年5月發表的全球大數據研究報告指出,全球資料量光是在2010年就增加了70億GB,相當於4千座美國國會圖書館典藏資料的總和。
如何產生、消費和儲存大數據,已經成為近年來企業IT應用的重要趨勢。如在eBay上,平均每天有將近1億名用戶查詢商品數百萬次,更有上百萬件商品在線上交易,導致eBay資料庫每天新增的資料,超過1.5兆筆,每天增加的資料量超過50TB,這些大數據如果沒有作進一步的分析應用,勢必會影響eBay的企業營運。
DIGITIMES舉辦之「大數據煉金術」論壇活動,於1/17在臺北六?;蕦m盛大舉辦。多位產學專家專業演講,逾400名聽眾報名參加!
應用大數據 提高企業競爭力
至於制造業,其實也會產生許多大數據,但宇清數位智慧總經理郭仲仁指出,許多企業卻不見得會重新檢視這些資訊,其實只要經過大數據技術分析,透過細微的觀察分析及萃取,就可能從中找到提高生產力及縮短產品交期的資訊。
如晶圓代工、面板等產業,都會碰到等待時間不能超過特定時間的壓力,偏偏有30~40%的機器,會有這方面的問題。如果有任何一種等待因素需要有三個共同部門負責,結果其實就可能不會有人負責,唯有讓每一種等待因素都能被該負責的部門看到,才會有人愿意進一步的去分析每一種因素的相關數據。
郭仲仁認為,如果能找到一種大數據的分析方法,能夠混和資料采礦過程,蒐集相關資料掌握下游如何影響上游,進行相關分析,讓客戶找到重點,并找到真正可以操作的KPI,才會有很大的機會,找到改善的重點及方法,而這也才是大數據分析應用的價值所在。
擴展企業IT架構 駕馭大數據
企業如果能夠駕馭大數據,自然能夠提升競爭力,但戴爾臺灣分公司企業解決方案市場開發經理陳毅達指出,目前的資料,卻已經超越傳統資料庫或現有資料管理工具能夠處里的范圍。因為在爆炸性的資料增長過程中,結構性資料的成長相當緩慢,反觀非結構性的資料,包括視訊、網頁、智慧型手機、消費資料、位置資料、財務服務資料,以及社會媒體資料等,陳毅達指出,至少有80%的數據,屬於非結構化資料,大約500萬億個文檔,而且資料量每兩年增加一倍。
但目前的資料庫解決方案,卻主要是用來設計儲存結構化資料,除了只能針對已知問題的回答速度進行優化外,架構本身往往就決定了內容形式,對於新資料型態與新問題,都有適應上的困難,加上擴展成本高昂,企業勢必得尋求不同以往的資料處理解決方案,才能面對爆炸性的資料增長。
優化大數據 創造資料價值
事實上,資料成長的速度,確實相當驚人。根據IDC統計,數位世界的資訊容量將會從2009年的0.8ZB,在2020年成長到35ZB,等於每15秒就成長1PB,年復合成長率高達40%,而且這些數據資料不僅巨大而且不同,如何優化資料,方便且容易的搜尋到所需要的資訊,也變得更加困難。
麗臺科技新事業處軟體產品部業務副總經理萬蕙如指出,前各產業平均資料儲存量,以證券投資、銀行居首,其次則是制造業、通訊媒體、國營事業、政府機構等,整個產業生態,需要更快速即時獲取針對特定商業工作項目或流程的綜合細部資訊。
因為在資訊暴增的時代,企業營運所面對的挑戰,包括一直在更新的大量資料、更快速回應大量終端用戶的需求,多數工作者都需要迅速且有效率地查詢正確資訊,如何能更即時正確地傳遞關鍵資訊,以加強特定作業流程的產出與績效,已是當前企業IT部門必須面對的問題。
萬蕙如認為,企業想要優化大數據,應該要考量資訊搜尋技術的新世代應用。如Search-Based Applicatioin(SBA),是一種使用最新進的搜索暨索引(Search and Index)技術作為結構、半結構和非結構資訊,匯整分析功能開發之基底平臺的應用軟體,這種資訊分析的新方法,可同時提供支援特定工作或流程,而量身訂做的定量和定性資料圖表分析,可全面強化企業日常業務即時決策的準確性。
應用虛擬化技術 提升大數據處理效能
除了資訊搜索技術外,虛擬化技術在大數據時代,也變得更加重要。事實上,虛擬化環境目前面對的最主要挑戰之一,其實就是大數據時代的來臨,讓資料的儲存及備份,變得更加困難。但群暉科技軟體開發部經理張成鈺指出,大數據對虛擬化儲存,是挑戰也是機會,只要能克服資料保護效率,做好多重復制的環境布署操作,仍能提供非常完整的資料保護虛擬環境。
張成鈺表示,虛擬化的好處之一,就是IT資源的處理效能可以更好,因為再強的實體主機,運作效能還是有上限,其實儲存設置也有強大的運算能力,可以分散運算工作,用來解決虛擬化環境的效能瓶頸。
要強化虛擬環境操作的效能,張成鈺指出,除了產品應該專為虛擬環境量身打造,完整支援主流的虛擬化解決方案外,主要的虛擬儲存進階功能,也相當重要,如儲存設備就需要面對傳輸效能的問題。張成鈺指出,固態硬碟(SSD)可讓虛擬化儲存在面對大數據的挑戰時,提供效能提升的重要幫助。如藉由安裝SSD進行快取,可大幅提升讀取效能,關鍵在於系統是否無須在成本與效能上妥協,使用少量的SSD,即可達到效能升級。
善用云端服務 處理大數據
事實上,在大數據時代,企業不僅要考量資料的儲存及應用,傳輸技術也非常重要,尤其在云端運算時代,許多企業會將資料存放在云端,如果云端端服務業者,無法提供高品質的資料傳輸服務,企業就很難即時存取資料,用來作進一步的規劃。
臺灣恩悌悌業務部資深副理林志鴻指出,如果企業選擇將資料儲存在各地分公司或企業總部機房,勢必會有人力、物力及金錢方面的投資成本,但如果將資料放在云端,在大數據時代,就需要大頻寬,才能縮短傳輸時間,如NTT在2012年正式啟用的ASE海纜,配合這幾年在香港、東京、新加坡及馬來西亞投資的機房建設,才能提供亞太地區所需要的高速資料傳輸服務。
此外,云端服務業者在資料派送服務的優化技術,也會影響大數據的應用。林志鴻表示,類似Youtube、PPS的串流技術,許多云端服務業者已經開始提供,可以提高傳輸效率,縮短資料傳輸的時間,可以減輕對頻寬的壓力。
駕馭大數據應用的關鍵技術
大數據不只是需要儲存及傳輸,也需要做更深入的分析,才能讓大數據更多的價值。淡江大學統計系副教授陳景祥指出,有沒有必要使用全部資料,是許多企業可以思考的問題。思考的方向首先就是成本,而且除了有形的金錢成本外,時間及人力資源等無形成本,也都需要一并考量;其次是精確度會受到多少影響,造成的決策風險會有多高,最後則是軟硬體方面的限制,是否真的有足夠的能力使用全部資料,進行統計分析。
陳景祥強調,企業若要進行資料探勘,一定要先有目標設定,光是只有資料,是無法透過資料探勘獲得所需要的資訊。其他還要考量的重點,還包括目前的科技限制,軟硬體及人力時間成本等。值得注意的是,企業得到資料探勘結果後,并不是到此為止。陳景祥強調,資料探勘只是輔助,并非全部自動化,後續還是需要人力來執行歸納分析,才能真正發揮大數據的價值。