近年來,我國大數據政策頻頻發布,2014年“大數據”的概念首次正式寫入《政府工作報告》,其后的2015年是大數據政策頂層設計年、2016年政策細化落地,國家發改委、環保部、工信部、國家林業局、農業部等均推出了關于大數據的發展意見和方案,2017年,大數據產業的發展正從理論研究加速進入應用時代,大數據與前沿科技的結合也越來越緊密。2017年,習近平明確要求實施國家大數據戰略,加快建設數字中國。隨著一系列利好政策的發布,大數據創業公司不斷涌現,風險投資等機構也在追逐這個行業。大數據領域的創新創業變為常態,形成了大數據領域創新的力量。
大數據作為一種不會枯竭并且不斷增值的重要的資源,是經濟社會發展的重要推力,市場前途不可限量。從2014到2020年我國大數據市場規模不斷擴大,其中2017-2018年正是市場高速成長期,大數據龍頭企業較多,小微企業也分得龐大市場中的一杯羹。大數據產業整體蓬勃,未來向好。
二、開源推動大數據技術創新
開源,就是開放源碼,意味著免費和自由的進行二次開發,如當下最為廣泛使用的hadoop生態系統。開源大數據技術是一種新一代技術和構架,它以成本較低、以快速的采集、處理和分析技術,從各種超大規模的數據中提取價值。通過開放式的平臺,吸引全球開發者集智共謀技術發展,開源將成為大數據技術創新的主要模式。目前,大數據分析處理流程中所使用的關鍵技術幾乎都源自開源模式。
開放源代碼對人工智能、區塊鏈等前沿科技都具有重要影響力。源代碼與這些高技術的結合點頗多,創新創業機會較多,研發項目在不斷涌現。
國際上較受歡迎的開源大數據項目:
1.OpenCog和OpenCogPrime
2018年尖端技術潮流的一個典型例子——OpenCog項目被設計為面向虛擬和機器人功能的體系結構。用Python、C ++和Linux上Scheme 編寫,與匹配一般智能和超越人類級別的目的相聯系。還致力于實現其更加實際的研究和開發目標,同時精簡其開源產品以實際應用。
2.Hyperledger
Hyperledger是在2015年由Linux基金會建立的,該項目最終目標是提供一系列開源的區塊鏈和其他有用元素的工具箱。作為一個頂尖的科技趨勢,區塊鏈在2018年的最熱門領域中備受矚目,Gartner將其列入今年企業的最高戰略趨勢。
3.Kubernetes
Kubernetes是一個開源系統,專為部署自動化和容器化應用程序的管理而設計。隨著谷歌的播種,該系統現在處于云原生計算基金會的管理之下。Kubernetes最引人注目的,是它與Docker合作密切。Kubernetes也得到了廣泛和高調的推動,被Pivotal、Red Hat、OpenShift和IBM等公司支持。
4.TensorFlow
TensorFlow也許是最知名的開源項目,谷歌是該項目的主要倡導者,現已衍化為一個軟件庫,可以用于編程和數據流的目的,為廣泛的用例提供服務。該項目還涉及當前的熱門技術趨勢,即機器學習,雖然這項技術并非是一個新事物,但隨著在追求一系列不同結果時變得越來越受歡迎,這種技術一直在獲得牽引力。
5.Vault
Vault是開源項目另一熱點領域,提供了一種在傳輸過程中加密數據的工具,并且除了對其它信息進行一般安全管理之外,還越來越關注GDPR的相關修訂。Vault的制造商還強調撤銷功能是最大的亮點,有效保護有價值的數據。隨著信息安全問題的不斷加劇,Vault已成為十分重要的開源項目。
我國較突出的開源大數據項目:
1. 百度——希望獲得開發者青睞的 “PaddlePaddle”
2016年9月1日,國內第一個機器學習開源平臺PaddlePaddle誕生。
PaddlePaddle 能在多 GPU,多臺機器上進行并行計算。相比現有深度學習框架,PaddlePaddle 對開發者來說有易用性、快速等優勢。許多資深開發者認為PaddlePaddle 的設計理念與 Caffe 十分相似,懷疑是百度對標 Caffe 開發出的替代品。業內對 PaddlePaddle 的總體評價是“設計干凈、簡潔,穩定,速度較快。
2. 騰訊——面向企業的 “Angel”
Angel 將成為PaddlePaddle 之后、BAT 發布的第二個重磅開源平臺。Angel 是面向機器學習的分布式計算框架,它為企業級大規模機器學習任務提供解決方案,可與 Caffe、TensorFlow 和Torch 等業界主流深度學習框架很好地兼容。“Angel 采用多種業界最新技術和騰訊自主研發技術使得 Angel 性能大幅提高,達到 Spark 的數倍到數十倍,能在千萬到十億級的特征維度條件下運行。”
3. 阿里巴巴——猶抱琵牌半遮面的 DTPAI
阿里在2015 年就宣布了數據挖據平臺 DTPAI , DTPAI 將集成阿里巴巴核心算法庫,包括特征工程、大規模機器學習、深度學習等等。其次,與百度、騰訊一樣,阿里也很重視旗下產品的易用性。阿里 ODPS 和 iDST 產品經理韋嘯表示,DTPAI 支持鼠標拖拽的編程可視化,也支持模型可視化;并且廣泛與MapReduce、Spark、DMLC、R 等開源技術對接。
4. 山世光——大陸學界碩果僅存的 SeetaFace
SeetaFace 基于 C++,不依賴于任何第三方的庫函數。作為一套全自動人臉識別系統,它集成了三個核心模塊,即:人臉檢測模塊、面部特征點定位模塊以及人臉特征提取與比對模塊。 SeetaFace 將供學界和工業界免費使用。它的開源,有望幫助大量有人臉識別任務需求的公司與實驗室,在它們的產品服務中接入 SeetaFace,大幅減少開發成本。
三、開源大數據的發展趨勢
開源讓越來越多的項目可以直接采用大數據技術,不斷的推動著大數據的創業創新,賽智時代分析師認為未來開源大數據將向以下三個方向發展:
1.容器技術愈受歡迎
容器技術能夠使代碼在任意環境中快速地 “接入并運行”,降低企業時間和資金成本。其速度和靈活性能夠決定促使業務成功開展。
2.Hadoop與Spark應用增加
據福瑞斯特研究顯示,Hadoop正以32.9%的速度增長。由于其可以降低企業成本且可以快速改進,很多企業表示會繼續擴大相應的技術應用,所以未來Hadoop將會更加普及。而另一位后起之秀Spak在迭代計算上具有比Hadoop更高的效率并且數據集操作類型的開發更廣泛,未來的廣泛應用也是指日可待的。
3. 智能開源技術的應用更深入
人工智能正慢慢普及,全新的智能開源解決方案將改變人們和系統交互的方式,轉變由來已久的工作觀念,加深行業大數據的應用。
目前,我國開源產品較國外來講水平不是很高,更多的時候國內的企業還只是開源的使用者和借鑒者,還沒有到發明創造的階段。雖說技術的發展是全球化的,技術開發的交互性促進了技術的不斷突破,然而我們卻不能過分依賴于“拿來主義”,賽智時代分析師認為,抵制以低成本換來高性能的產品或系統的誘惑,加大我國創業團隊的研發投入,保持持續的自主創新才能穩定國家產業的發展。