大數據(Big Data)近年來已成為業界最炙手可熱的話題之一,在大數據時代,企業不僅需要提升儲存容量與數據管理能力,更重要的是,要設法從龐大、多元格式的數據海洋中,挖掘出數據的極致價值,進而創造新的商業機會與營運決策。
國立臺北商業技術學院教授鄒慶士指出,大數據是個大議題,大家其實都還在學習階段,但可以確定的是,對電腦而言,最有價值的東西已經不再是硬體,而是數據,許多產品及應用也都是以數據為基礎,才能進一步產生重大價值。
鄒慶士指出,大數據的主要應用,仍是以數據探勘為主,但跟過去相比,特點在於數據量變得非常大,但大數據不見得數大就是美,容量大小還可以靠技術來解決,整理的時間則因為變得非常長,已經成為數據分析的困擾。鄒慶士認為,唯有從數據分析的本質開始思考,才能真正深入大數據這個議題。
鄒慶士甚至認為,就像Web 1.0是建立網站,Web 2.0則是經營網站,現在的大數據應用,應該要進入「大數據2.0」的時代。在「大數據1.0」的時代,數據是靠IT科技來建立,後來則是透過統計領域或機器學習模式,來建立模式,但現在需要的是達到視覺化及詮釋數據的能力。鄒慶士認為,在大數據1.0,需要的是掌握新技術與系統,但在大數據2.0,需要培育新型數據分析人才。
若從數據探勘角度來思考,為了要讓大數據發揮價值,以數據為基礎來做決策,首先要注意的是,數據探勘是一個跨領域的科學,涉及統計、AI、Machine Learning等,必須將來自於不同領域的數據收集起來後,才能整合調理得出結論。
鄒慶士將跨產業的數據探勘過程,簡化成三個步驟,分別是數據預先處理(Data Preprocessing)、數據探勘(Data Mining)及後處理(Postprocessing),其中又以第一個階段花最多的時間,鄒慶士表示,前置處理非常重要,才不會在後面產生問題,導致「垃圾進、垃圾出」的數據輸出結果。
至於第二階段的主要工作,分別是預測(Predictive)、群集(Cluster)、關聯、異常等管理為主。但回到數據分析的根本,鄒慶士認為,第一步要先做到數據有感(Data sensitive),才知道該怎麼對待數據;第二步是數據混搭(Data mashups),要懂很多不同的模式,知道每一個模式建模的特性,最後才能落實想法,先後完成模型混搭(Models mashups)及雛型化工具(Prototyping tools),再一步步放大,但一定要建立在商業理解上。
鄒慶士還將大數據的屬性分成四類,第一類是名目尺度(nominal),如身分證號碼、眼色、郵遞區號,特徵是僅能比較異同;第二類是順序尺度(ordinal),如排名、年級、高度等,特稱是能夠分別順訊;第三類是區間指度(interval),如日期、溫度等,特徵為有絕對零點,差異或距離都有其意義;第四類為比例尺度(ratio),如長度、時間、次數等,特徵為有自然零點,比率有其意義。
鄒慶士強調,每一類的處理方式都不同,運算的方式也因此會有適用的領域,不能隨便亂用。數據集類型則分為三種,分別是記錄數據(如數據矩陣、文件或交易數據)、圖形數據(如全球資訊網或分子結構)及有序數據(如時間、次序、間或基因序列數據等),鄒慶士指出,大數據時代要面對的數據不只一種,而是多元的數據來源。
大數據時代的數據來源,其實是充斥在每個領域,包括推文串流、網頁伺服器記錄等。鄒慶士指出,其實重點不在找數據,而是如何混搭各方來源數據,進行混模加值。
因此,鄒慶士建議,面對大數據時代,企業要練就數據柔術(Data Jiujtsu),好的數據人才,不能只是懂科技,而是要涉獵許多領域,才有辦法將大問題分解成小問題,不用立即處理海量數據,做到小處著眼,反覆加值,以機敏彈性的流程,逐步邁向目標。
鄒慶士指出,R工具的出現,就是要因應前述的需求,目前已有5,000多個套件,而且支持開放源,所有的演算邏輯都是公開的,可以藉此了解其他工程師的思維。
但在使用工具解決大數據的問題時,鄒慶士認為要注意三個議題,分別是撰寫有效率的程式,提高執行速度;將數據儲存在外部,以避免記憶體受限的問題;運用專門的統計程序,以有效率的方式分析大量數據。
但不管是什麼工具,都會一直不斷地在演化,鄒慶士指出,要特別注意工具的發展,工作才會有效率。此外,大數據分析要能伸縮自如,可大可小,數據分析的思維,一定要回到數據本身的屬性,如紛絲團經營指標最佳權重,數據欄位超過90個,所以在開始進行大數據分析時,第一個步驟反而是刪除不必要的欄位。
鄒慶士指出,活化大數據應用價值的關鍵,主要是加強個人與組織的數據分析思考能力,唯有將數據、程式及人的智慧加以整合,才會產生價值。企業還必須要能活化顧客留下的數據軌跡,因為價值的關鍵在於應用。