引言:當前,隨著大數據時代的來臨,要如何運用既有優勢,同時克服將到來的挑戰呢?專家指出,硬軟件整合是的機會,但業界的思維必須轉型,要從純硬件的代工制造業,轉為有能力針對特定應用,產生最佳的硬軟件整合方案,而這也正是面對大數據時代的主要挑戰。
以云計算為例指出,要做出成績,但這幾年在并沒有明顯成果,其中一個原因就是因為用舊思維做高科技,包括不懂軟件,以至於只會做硬件,軟件賺不了錢;太依賴代工、賣硬件,不會做服務;只會人云亦云、依樣畫大餅,要靠政府補貼才有競爭力。
云計算雖然已經幫大數據鋪好路,但要應用大數據,需要三種人才,分別是能夠解決具件問題的領域專家、理解大數據方法論的數據科學家,以及開發系統和應用程式的電腦專家。此外,還需要兩種技術,分別是能夠大數據分析及大數據系統。
參考國外案例,為了在大數據時代搶得先機,有的是比數據量大,如Google、Facebook、Amazon等,但多半以數字、文字、圖片為主,如何蒐集與運用聲音、影像、專業知識,便成為其中的關鍵;另一種方式,則是設立大數據研究機構,培養設計學程、整合跨領域人才等;也有企業透過設置比武擂臺的方式,提供數據或問題,用獎金為誘因,吸引專家投入;或是研發與販售大數據技術。
至於面對大數據時代的機會與挑戰,目前還有很多尚未利用大數據解決的問題,業界不要好高騖遠,應該要找尋適合耕耘的題目,但業界必須要由OEM/ODM,轉型為附加價值更高的解決方案提供業者,利用硬件設計的優勢,優化大數據的的軟件及應用。
但目前的大數據高級人才相當短缺,各先進國家都在加強訓練人才,因此一定要提供高薪機會,才能吸引人才;而因為大數據的技術層次高,必須讓大學發揮創新與整合的功能,尋求跨領域團隊合作的可能。
值得注意的是,由於應用和數據的價值日益提高,想要取得并不容易,反觀系統軟件很多都已開放原始碼,很大方的提供給識貨的人來用。洪士灝認為,需要組一個團隊來創造擴大價值,善用人家的技術和軟件,學會如何建構系統,并找尋高價值的應用,把這些進階的系統軟件和硬件整合在一起,將應用好好做出來,就是的機會。
整合難度非常高,因為效能好壞差很多,一看就明白,必須了解應用的特性,如數據量及存取模式,或是解決關鍵的效能瓶頸,如磁碟機、網路及處理機等。
了解大數據的應用特性更是重要。洪士灝指出,要提高處理效率,必須善用分散式處理與 computation-data co-location。由多臺機器組成叢集,提高運算量和儲存數據量;裝置分散式檔案系統如HDFS;盡可能在同一節點讀取數據、計算、儲存結果;在每個節點提供足夠的運算能量;利用高速網路進行不同節點間必要的數據交換等。
值得注意的是,大數據的每個應用都有其特性,必須全系統面進行效能分析,才能達到預期目標。儲存及網路都可能是瓶頸,但微軟卻在2012年創下1分鐘內完成1.47TB的世界記錄,而且使用的機器是之前的記錄保持人雅虎的四分之一,卻只要三分之一的搜尋時間。
大數據的讀寫常常都是瓶頸,過去都是用更多的磁碟、更多的交換器來解決,但也導致耗電等問題。如果能把數據放在記憶件,不但性價比要比放到磁碟上省很多,而且可以省不少時間,尤其是數據如果是在TB等級,放在記憶件會比放在磁碟上,來得更有意義。此外,異質運算值得重視,甚至連GPU也可拿來做大數據分析。
其實目前仍有許多大數據分析的需求,如醫學影像分析、異質運算系統軟件與效能工具、建構臺大計資中心高效能大數據叢集、國科會大數據先導計畫、植物工廠及資安監控與數據分析,都是大數據分析可以發揮的空間。
D1Net評論:
總而言之,大數據的應用或計算其實并不復雜,主要的挑戰是數據量太大,如果能設計出加速的方法,就會很有價值。產業其實對軟硬件整合并不陌生,在終端設備上也有表現不錯的業者,但對於大數據的應用與研究方才起步,缺乏跨領域的團隊與經驗,唯有改變想法,用軟件研發的思維,才能掌握先機,迎接大數據的挑戰。
原文鏈接:http://www.thebigdata.cn/YeJieDongTai/13967.html