“大數據”這個概念大約是從2011年開始火起來的,如果從Apache Hadoop項目的正式啟動算起,海量數據的分布式存儲、管理和計算技術已有10年的歷史。這10年里,創業圈逐漸流行起一種通病,但凡創業必稱“大數據”,似乎每個創業項目都會多少與之關聯。大數據到底是什么?它是一項技術、一個產業還是一種思維方式?當越來越多的人將興趣轉移到AI、VR上時,也許是時候重新審視大數據的價值了。
在IT領域,一項技術的價值得以驗證并實現往往需要走完四個階段:技術原創、開源、產業化和廣泛應用。在這個過程中,新技術的使用從互聯網巨頭企業蔓延到整個互聯網領域,并隨著其產業生態的日臻完善,最終應用到更廣泛的社會和行業領域。“大數據”也不例外,它經歷了底層技術的興起和發展、產業生態的構建,正逐步滲透到每個企業的數據化戰略之中。只有把握整條脈絡,窺探“大數據”的全貌,才能理解這項技術的緣起和未來。
技術篇
移動互聯網時代,數據量呈現指數級增長,其中文本、音視頻等非結構數據的占比已超過85%,未來將進一步增大。Hadoop架構的分布式文件系統、分布式數據庫和分布式并行計算技術解決了海量多源異構數據在存儲、管理和處理上的挑戰。
從2006年4月第一個Apache Hadoop版本發布至今,Hadoop作為一項實現海量數據存儲、管理和計算的開源技術,已迭代到了v2.7.2穩定版,其構成組件也由傳統的三駕馬車HDFS、MapReduce和HBase社區發展為由60多個相關組件組成的龐大生態,包括數據存儲、執行引擎、編程和數據訪問框架等。其生態系統從1.0版的三層架構演變為現在的四層架構:
底層——存儲層
現在互聯網數據量達到PB級,傳統的存儲方式已無法滿足高效的IO性能和成本要求,Hadoop的分布式數據存儲和管理技術解決了這一難題。HDFS現已成為大數據磁盤存儲的事實標準,其上層正在涌現越來越多的文件格式封裝(如Parquent)以適應BI類數據分析、機器學習類應用等更多的應用場景。未來HDFS會繼續擴展對于新興存儲介質和服務器架構的支持。另一方面,區別于常用的Tachyon或Ignite,分布式內存文件系統新貴Arrow為列式內存存儲的處理和交互提供了規范,得到了眾多開發者和產業巨頭的支持。
區別于傳統的關系型數據庫,HBase適合于非結構化數據存儲。而Cloudera在2015年10月公布的分布式關系型數據庫Kudu有望成為下一代分析平臺的重要組成,它的出現將進一步把Hadoop市場向傳統數據倉庫市場靠攏。
中間層——管控層
管控層對Hadoop集群進行高效可靠的資源及數據管理。脫胎于MapReduce1.0的YARN已成為Hadoop 2.0的通用資源管理平臺。如何與容器技術深度融合,如何提高調度、細粒度管控和多租戶支持的能力,是YARN需要進一步解決的問題。另一方面,Hortonworks的Ranger、Cloudera 的Sentry和RecordService組件實現了對數據層面的安全管控。
上層——計算引擎層
在搜索引擎時代,數據處理的實時化并不重要,大多采用批處理的方式進行計算。但在SNS、電子商務、直播等在線應用十分普及的今天,在不同場景下對各類非結構化數據進行實時處理就變得十分重要。Hadoop在底層共用一份HDFS存儲,上層有很多個組件分別服務多種應用場景,具備“單一平臺多種應用”的特點。例如:Spark組件善于實時處理流數據,Impala實現諸如OLAP的確定性數據分析,Solr組件適用于搜索等探索性數據分析,Spark、MapReduce組件可以完成邏輯回歸等預測性數據分析,MapReduce組件可以完成數據管道等ETL類任務。其中最耀眼的莫過于Spark了,包括IBM、Cloudera、Hortonworks在內的產業巨頭都在全力支持Spark技術,Spark必將成為未來大數據分析的核心。
頂層——高級封裝及工具層
Pig、Hive等組件是基于MapReduce、Spark等計算引擎的接口及查詢語言,為業務人員提供更高抽象的訪問模型。Hive為方便用戶使用采用SQL,但其問題域比MapReduce、Spark更窄,表達能力受限。Pig采用了腳本語言,相比于Hive SQL具備更好的表達能力。
在結構化數據主導的時代,通常使用原有模型便可以進行分析和處理,而面對如今實時變化的海量非結構化數據,傳統模型已無法應對。在此背景下,機器學習技術正慢慢跨出象牙塔,進入越來越多的應用領域,實現自動化的模型構建和數據分析。除了Mahout、MLlib、Oryx等已有項目,最近機器學習開源領域迎來了數個明星巨頭的加入。Facebook開源前沿深度學習工具“Torch”和針對神經網絡研究的服務器“Big Sur”;Amazon啟動其機器學習平臺Amazon Machine Learning;Google開源其機器學習平臺TensorFlow;IBM開源SystemML并成為Apache官方孵化項目;Microsoft亞洲研究院開源分布式機器學習工具DMTK。
產業篇
一項技術從原創到開源社區再到產業化和廣泛應用往往需要若干年的時間。在原創能力和開源文化依然落后的中國,單純地對底層技術進行創新顯然難出成果。盡管如此,在經濟轉型升級需求的驅動下,創業者大量采用C2C(Copy to China)的創業模式快速推動著中國大數據產業的發展,產業生態已初步成型。
產業基礎層
如果說數據是未來企業的核心資產,那么數據分析師便是將資產變現的關鍵資源。以數據流通及人才培養和流通為目標,社區、眾包平臺、垂直媒體、數據交易平臺是數據產業發展壯大的土壤。
社區大數據技術社區為產業建立了人才根基。社區天然具備社群和媒體屬性,自然吸引了眾多專業人才。正基于此,開源中國社區(新三板掛牌企業)和Bi168大數據交流社區同時開展了代碼托管、測試、培訓、招聘、眾包等其他全產業鏈服務。
眾包人力資本的高效配置是產業發展的必要條件。Data Castle類似于硅谷的Kaggle,是一家數據分析師的眾包平臺??蛻籼峤粩祿治鲂枨?、發布競賽,由社區內眾多分析師通過競賽的方式給予最優解決方案。
垂直媒體 36大數據、數據猿、數據觀等大數據垂直媒體的出現推動了大數據技術和文化的傳播。它們利用媒體的先天優勢,快速積累大量專業用戶,因此與社區類似,容易向產業鏈其他環節延伸。
數據交易平臺數據交易平臺致力于實現數據資產的最優化配置,推動數據開放和自由流通。數據堂和聚合數據主要采用眾包模式采集數據并在ETL之后進行交易,數據以API的形態提供服務。由于保護隱私和數據安全的特殊要求,數據的脫敏是交易前的重要工序。貴陽大數據交易所是全球范圍內落戶中國的第一家大數據交易所,在推動政府數據公開和行業數據流通上具有開創性的意義。
IT架構層
開源文化為Hadoop社區和生態帶來了蓬勃發展,但也導致生態的復雜化和組件的碎片化、重復化,這催生了IBM、MapR、Cloudera、Hortonworks等眾多提供標準化解決方案的企業。中國也誕生了一些提供基礎技術服務的公司。
Hadoop基礎軟件 本領域的企業幫助客戶搭建Hadoop基礎架構。其中,星環科技TransWarp、華為FusionInsight是Hadoop發行版的提供商,對標Cloudera CDH和Hortonworks的HDP,其軟件系統對Apache開源社區軟件進行了功能增強,推動了Hadoop開源技術在中國的落地。星環科技更是上榜Gartner 2016數倉魔力象限的唯一一家中國公司。
數據存儲/管理2013年“棱鏡門”后,數據安全被上升到國家戰略高度,去IOE正在成為眾多企業必不可少的一步。以SequoiaDB(巨杉數據庫)、達夢數據庫、南大通用、龍存科技為代表的國產分布式數據庫及存儲系統在銀行、電信、航空等國家戰略關鍵領域具備較大的市場。
數據安全大數據時代,數據安全至關重要。青藤云安全、安全狗等產品從系統層、應用層和網絡層建立多層次防御體系,統一實施管理混合云、多公有云的安全方案,并利用大數據分析和可視化展示技術,為用戶提供了分布式框架下的WAF、防CC、抗DDoS、攔病毒、防暴力破解等安全監控和防護服務,應對頻繁出現的黑客攻擊、網絡犯罪和安全漏洞。
通用技術層
日志分析、用戶行為分析、輿情監控、精準營銷、可視化等大數據的通用技術在互聯網企業已有相當成熟的應用。如今越來越多的非互聯網企業也在利用這些通用技術提高各環節的效率。
日志分析大型企業的系統每天會產生海量的日志,這些非結構化的日志數據蘊含著豐富的信息。對標于美國的Splunk,日志易和瀚思對運維日志、業務日志進行采集、搜索、分析、可視化,實現運維監控、安全審計、業務數據分析等功能。
移動端用戶行為分析為提升產品用戶體驗,提高用戶轉化率、留存率,用戶行為分析是必不可少的環節。TalkingData和友盟等企業通過在APP/手游中接入SDK,實現對用戶行為數據的采集、分析與管理。大量的終端覆蓋和數據沉淀使得這類企業具備了提供DMP和移動廣告效果監測服務的能力。GrowingIO更是直接面向業務人員,推出了免埋點技術,這一點類似于國外的Heap Analytics。
網站分析百度統計、CNZZ及締元信(后兩者已與友盟合并為友盟+)等產品可以幫助網站開發運營人員監測和分析用戶的點擊、瀏覽等行為,這些公司也大多提供DMP和互聯網廣告效果監測服務。
爬蟲 網頁爬蟲是一種快速搜索海量網頁的技術。開源的爬蟲技術包括Nutch這樣的分布式爬蟲項目,Crawler4j、WebMagic、WebCollector等JAVA單機爬蟲和scrapy這樣的非JAVA單機爬蟲框架。利用這些開源技術市場上出現了很多爬蟲工具,其中八爪魚的規模和影響力最大,該公司也基于此工具推出了自己的大數據交易平臺數多多。
輿情監控 智慧星光、紅麥等互聯網輿情公司利用網絡爬蟲和NPL技術,為企業用戶收集和挖掘散落在互聯網中的價值信息,助其完成競爭分析、公關、收集用戶反饋等必要流程。
精準營銷/個性化推薦以完整的用戶標簽為基礎,精準營銷、個性化推薦技術在廣告業、電商、新聞媒體、應用市場等領域得到廣泛應用。利用SDK植入、cookie抓取、數據采購和互換等途徑,TalkingData、百分點、秒針、AdMaster等眾多DSP、DMP服務商積累了大量的用戶畫像,并可實現用戶的精準識別,通過RTB技術提高了廣告投放的實時性和精準度。將用戶畫像及關聯數據進一步挖掘,利用協同過濾等算法,TalkingData、百分點幫助應用商店和電商平臺搭建了個性化推薦系統,呈現出千人千面的效果。另一家利用類似技術的典型企業Everstring則專注于B2B marketing領域,為用戶尋找匹配的企業客戶。
數據可視化 可視化是大數據價值釋放的最后一公里。大數據魔鏡、數字冰雹等公司具備豐富的可視化效果庫,支持Excel、CSV、TXT文本數據以及Oracle、Microsoft SQL Server、Mysql等主流的數據庫,簡單拖曳即可分析出想要的結果,為企業主和業務人員提供數據可視化、分析、挖掘的整套解決方案及技術支持。
面部/圖像識別面部/圖像識別技術已被廣泛應用到了美艷自拍、身份識別、智能硬件和機器人等多個領域。Face++和Sensetime擁有人臉識別云計算平臺,為開發者提供了人臉識別接口。漢王、格靈深瞳和圖普科技則分別專注于OCR、安防和鑒黃領域。
語音識別/NLPNLP(自然語言處理)是實現語音識別的關鍵技術。科大訊飛、云知聲、出門問問、靈聚科技、思必馳等企業已將其語音識別組件使用在智能硬件、智能家居、機器人、語音輸入法等多個領域。小i機器人和車音網則分別從智能客服和車載語控單點切入。
行業應用層
每個行業都有其特定的業務邏輯及核心痛點,這些往往不是大數據的通用技術能夠解決的。因此,在市場競爭空前激烈的今天,大數據技術在具體行業的場景化應用乃至整體改造,蘊藏著巨大的商業機會。然而受制于企業主的傳統思維、行業壁壘、安全顧慮和改造成本等因素,大數據在非互聯網行業的應用仍處于初期,未來將加速拓展。
數據化整體解決方案非互聯網企業的數據化轉型面臨著來自業務流程、成本控制及管理層面的巨大挑戰,百分點、美林數據、華院數據等服務商針對金融、電信、零售、電商等數據密集型行業提供了較為完整的數據化解決方案,并將隨著行業滲透的深入幫助更多的企業完成數據化轉型。
電子政務政府效率的高低關系到各行各業的發展和民生福祉,電子政務系統幫助工商、財政、民政、審計、稅務、園區、統計、農業等政府部門提高管理和服務效率。由于用戶的特殊性,電子政務市場進入門檻高,定制性強,服務難度大。典型的服務商包括龍信數據、華三、國雙、九次方等。
智慧城市智慧城市就是運用信息和通信技術手段感測、分析、整合城市運行核心系統的各項關鍵信息,從而對包括民生、環保、公共安全、城市服務、工商業活動在內的各種需求做出智能響應。華三、華為、中興、軟通動力、大漢科技等公司具備強大的軟硬件整合能力、豐富的市政合作經驗和資源積累,是該領域的典型服務商。
金融大數據技術在金融行業主要應用在征信、風控、反欺詐和量化投資領域。聚信立、量化派結合網絡數據、授權數據和采購數據為諸多金融機構提供貸款者的信用評估報告;閃銀奇異對個人信用進行在線評分;同盾科技倡導“跨行業聯防聯控”,提供反欺詐SaaS服務;91征信主打多重負債查詢服務;數聯銘品搭建第三方企業數據平臺,提供針對企業的全息畫像,為金融和征信決策做參考。通聯數據和深圳祥云則專注于量化交易。
影視/娛樂中國電影的市場規模已居全球第二,電影產業的投前風控、精準營銷、金融服務存在巨大的市場空間。艾曼、藝恩基于影視娛樂行業的數據和資源積累,抓取全網的娛樂相關信息,提供影視投資風控、明星價值評估、廣告精準分發等服務。牧星人影視采集演員檔期、性別、外形、社交關系、口碑以及劇組預算等數據,為劇組招募提供精準推薦。
農業 大數據在農業主要應用在農作物估產、旱情評估、農作物長勢監測等領域。由于農業信息資源分散、價值密度低、實時性差,服務商需要有專業的技術背景和行業經驗。典型企業包括太谷雨田、軟通動力、武漢禾訊科技等。行業整體數據化程度低、進入門檻高。
人才招聘我國人才招聘行業缺乏對人才與職位的科學分析,沒有嚴謹的數據體系和分析方法。E成招聘、北森、搜前途、哪上班基于全網數據獲取候選人完整畫像,通過機器學習算法幫助企業進行精準人崗匹配;內聘網基于文本分析,實現簡歷和職位描述的格式化和自動匹配。
醫療衛生大數據在醫療行業主要應用于基因測序、醫療檔案整合和分析、醫患溝通、醫療機構數據化和新藥研制等環節。華大基因和解碼DNA提供個人全基因組測序和易感基因檢測等服務。杏樹林面向醫生群體推出了電子病歷夾、醫學文獻庫等APP。醫渡云則致力于與領先的大型醫院共建“醫療大數據”平臺,提高醫院效率。
企業轉型篇
盡管技術的日益創新和逐漸完善的產業配套創造了良好的外部環境,只有將“數據驅動”的理念根植于企業本身才能充分發揮大數據的價值。對于一家企業來說,真正的數據化轉型絕不僅僅是互聯網營銷或輿情監控這么簡單,它需要戰略層面的規劃、管理制度的革新和執行層面的堅決。這里提出了數據化轉型的8個步驟,這些建議并沒有必然的時間先后或邏輯關系,藏在背后的大數據理念,或許更加重要。
1.數據全面采集:要求企業采集并存儲企業生產經營中的一切數據,形成企業數據資產的理念。
2.整理數據資源,建立數據標準形成管理:成立數據委員會,建立數據目錄和數據標準,對數據進行分級分權限的管理,實現數據的統一管理和可追溯。隨時了解哪位員工在什么時間點在哪一臺設備上運用何種權限如何使用。
3.建設數據管理平臺:建設具備存儲災備功能的數據中心,以業務需要為引導,定做一套數據組織和管理的解決方案,硬件方面強調魯棒性和可擴展性,沒有必要一開始就投入大量經費。
4.建立海量數據的深入分析挖掘能力:培養非結構化數據的分析處理能力和大數據下的機器學習的能力。
5.建立外部數據的戰略儲備:外部數據對于市場拓展、趨勢分析、競品分析、人才招聘、用戶畫像和產品推薦等意義重大,而網站、論壇、社交媒體和電商平臺上聚集了很多有重要價值的公開數據。
6.建立數據的外部創新能力:企業通過智能終端、傳感網絡、物流記錄、網點記錄和電子商務平臺等等,獲得的第一手數據,很多都可以用于支持在跨領域交叉銷售、環境保護、健康管理、智慧城市、精準廣告和房地價預測等方面的創新型應用。
7.推動自身數據的開放與共享:要充分借助社會的力量,盡最大可能發揮數據潛藏的價值。Netflix曾經公開了包含50多萬用戶和17 770部電影的在線評分數據,并懸賞100萬美元獎勵能夠將Netflix現有評分預測準確度提高10%的團隊。
8.數據產業的戰略投資布局:通過投資的方式迅速形成自己的大數據能力甚至大數據產業布局。
結語
在Gartner的炒作周期曲線上,“大數據”概念已從頂峰滑落到了谷底,產業似乎陷入停滯。但當我們沿著技術起源、產業生態和企業戰略的脈絡重新審視大數據時,我們發現,大數據產業不僅不會停滯,反而將加速滲透到更多行業的各類場景中去,并根植在企業戰略、管理和文化之中。只有當各行各業的企業運營實現數據驅動時,大數據的價值才真正落地,然而這條路還很長。
云計算大數據與智能硬件事業部作為星河互聯的16大事業部之一,對云計算、大數據、智能硬件領域的創新方向和市場機會一直保持著密切關注和深度研究。團隊成員均具備資深專業背景,擁有豐富的互聯網工作經驗。