我們所處的社會已經從IT(Information Technology)時代全面跨入DT(Data Technology)時代,數據滲透到當今每一個行業和業務職能領域,成為關鍵的生產要素之一。從Gartner發布的大數據技術成熟度曲線圖中可以看出,大數據已不在是停留在概念層面,而是正式進入了產業化應用進程中。據統計,僅全球交通、教育、消費、電力、能源、健康與金融等7大重點領域的大數據應用潛在價值就在3.2萬億-5.4萬億元左右,大數據潛在發展空間巨大。
然而,從中國信息通信研究院的另一組數據表明,國內實際的應用情況尚有差距,據統計有44%的企業還沒有大數據部署和應用,24%的部署了但未實現大數據應用,只有1/3的企業初步應用了大數據,是什么制約了大數據的快速普及之路? 中國工程院院士、中國互聯網協會理事長鄔賀銓院士在2017大數據產業峰會上表示:"數據資源的流動性和可獲取性是大數據應用和產業發展的基礎,直接關系到大數據價值的實現情況。"
傳統的統計分析經常是對單一數據源(營銷數據、行政報表、問卷調查、人口普查等)進行深入的追蹤和分析。分析人員對數據的來源和結構有一定的控制和深層的了解。但在大數據時代,數據源是多樣的、多種形態的,海量的數據常常是半結構或無結構的。從數據獲取到最終的數據價值呈現要經歷數據從源頭接入、處理、存儲計算到分析挖掘、應用、服務的完整數據生命周期。這就要求數據科學家和分析師駕馭多樣、多源的數據,將它們梳理后進行挖掘和分析。在這個過程中,數據融合就成為不可或缺的一步。
所謂數據融合,是以產生決策智能為目標將多種數據源中的相關數據提取、融合、梳理整合成一個分析數據集合,實現數據資源的流動和易獲取,從而支撐多樣并呈碎片化的商業智能服務使用。來自賽迪智庫的調研,現實中實施的大數據項目至少有80%的時間和經費花在了數據準備上,其中多源數據的融合是最耗費資源的任務之一。紐約時報也曾報道: “數據科學家把高達80%的時間用于數據準備而不是用來發現新的商業智能”。
伴隨著人們對數據應用價值的不斷渴求,區別于傳統數據統計的需求,用戶對大數據的數據準備有著更高的要求:
第一, 多源。除了眾所周知的數據開放度的影響之外,多源數據融合的另一個瓶頸在于如何打破原有垂直建設系統間的信息孤島、構造統一的整體的數據平臺,把分散但相互有關聯的數據以整體的視角看待和思考并進行管理,并且通過這樣的統一平臺,對上層碎片化的或需要快速迭代的大數據應用進行有效、良好的支撐。比如在數據抓取中,要充分考慮傳統企業已經具備大量系統存在的情況,而對于這些系統在不干擾的情況下,如何能夠把數據準確、高效、實時的拿得出來,快速認清企業有什么樣的數據原材料。這在非常多的尤其是政府、大型企業里面是個很大的挑戰。另外,數據進來之后,因為系統和系統之間的建設時間是不同的,數據的表現形態也是各異的,我們要對這些數據進行橫向之間的處理并且能把這些數據關聯起來,讓分散的數據形成一個整體,這都是數據融合過程中所要解決的問題。
第二, 實時。萬物互聯的趨勢下,人們不僅對于數據的數量,也對數據的時效性提出了愈來愈高的要求,有一組數據表明12%的管理者都能認識到數據對于企業或組織的巨大影響,然而,53%的管理者認為太多的核心信息不能及時獲得。特別是在某些連續性業務運轉的應用場景下,比如通信、金融、安全領域等,需要通過大數據技術對業務數據進行實時同步的收集、整合與挖掘分析,用以指導甚至是隨時根據數據變化而調整業務策略,而不是把業務系統停掉先分析再作出決策。對未來的預測遠比做事后諸葛更能體現大數據的潛在價值。
第三, 海量。在DT時代,數據量急劇爆發,據IDC預測,目前全球每年數據的生產量是 8ZB( 1ZB=1024EB),2020 年將達到 40ZB。我們已經從“傳統互聯網”時代的“線上數據化”階段和“互聯網+”時代的“線下數據化”階段,快速進入了“數據流通時代”,即線上線下全產業實現數據化,數據在產業鏈上下游甚至跨產業流通并創造價值的階段。在這一過程中,目前數據的生產速度和能力遠遠大于我們對其使用和價值變現的速度和能力。對數據業務價值的高期望值和落后的數據集成方案之間的矛盾日漸突出?;ヂ摼W、物聯網、云計算,我們的業務系統每時每刻都在產生著大量的不同來源的數據,如何及時、有效、全面的捕獲到這些數據是另外一個會直接影響數據價值體現的關鍵因素。
多源、實時和海量,是大部分大數據應用中的普遍性要求,特別是在智慧城市等具有跨行業、跨系統、跨職能整合需要的信息化項目中,科學高效的數據融合方案至關重要。前不久,在“2017大數據產業峰會”上,湖北省升級政務云“楚天云”項目就憑借其創新的數據融合模式榮膺“2017年度政務大數據優先應用案例獎”。作為“智慧湖北”建設的核心工程,“楚天云”是目前國內安全等級最高、規模最大、技術領先的省級政務云之一,承載了湖北省的52個省直部門的330個應用系統的各類海量政府核心數據。
在“楚天云”建設之初面對數量龐大的多個系統,數據的流通和融合面臨巨大的難題。在經過充分的調研和技術對比后,“楚天云”選擇了數據交換樞紐平臺的思路,采用目前國內領先的大數據技術廠商—翱旗科技的R7系列產品技術,把數據交換平臺架設于楚天云自身的IaaS云平臺之上,通過數據集成交互技術和數據資產管理技術,消除不同操作平臺、不同類型數據庫、不同結構數據之間的堡壘邊界,真正做到數據層面的互通、整合、聯動,實現了數據間的無障礙互通。同時,通過非侵入式、無代碼圖形化集中管控,為管理者和使用者提供了高度易用性和低成本的管理運維模式。在“楚天云”的后續應用中,將通過建設這一數據交換樞紐平臺,在省級范圍內建立起一種數據大平臺與碎片化應用結合的數據生態系統,構建起從數據產生到數據應用的整套機制,提高數據的活躍度和利用率,讓數據價值得以真正呈現。目前,建成后的“楚天云”數據交換樞紐平臺能夠達到秒級傳輸幾百G的數據量,業務端和數據平臺端數據幾乎同步,完全能夠滿足管理決策者對于海量數據實時交互的需求,使具體業務場景下的效率提升,縮短決策時間,讓大數據價值得以體現。從數據融合角度看,“楚天云”案例,在“智慧政務”領域為其他智慧城市項目提供了可參考借鑒的成功實踐。
作為“楚天云”數據交換樞紐平臺的建設者之一,翱旗科技定位于數據基礎科學研究,并擁有領先自主核心技術,所研發的產品以通用化為基礎、自動化為實現方式、智能化為目標,在“數據采集與融合、數據管理、存儲、挖掘與分析、可視化”整個數據生命周期中形成了獨有的產業閉環。在“楚天云”項目中,翱旗以數據融合為核心思路,基于數據底層技術,針對任何數據類型,通過對數據的實時感知、處理和管理等賦能過程,將繁瑣、復雜、高難度、高風險的數據需求標準化和組件化,能夠完成對省級多源海量數據的融合管理,為“智慧湖北”提供數據層面的完全支撐。除了應用于智慧城市項目中,翱旗科技還進一步把數據融合技術進行了產品化。據悉,2017年4月13日,翱旗科技將正式發布針對大數據領域的系列通用化產品,包括數據集成交互產品和分布式數據庫產品等,能夠把大數據領域的系列技術和服務轉化成標準化、通用化的產品,這在國內尚屬首次。
最近幾年,像翱旗這樣的國內外大數據技術公司開始紛紛將數據處理整合過程中相關技術集合、組合,提升后開發出專門用于數據融合的新工具。應用這些直觀、可視、高效的軟件工具,數據準備過程的工效大大提高,在一定程度上解決了數據融合的技術瓶頸。2016年Gartner公司數據管理和分析軟件工具的評估報告顯示,數據融合處理類自我服務式數據準備軟件(Self-service Data Preparation)已成為發展最快的工具之一。伴隨著大數據應用需求的日益深入和普及,面向解決數據融合問題的通用化技術產品無疑將迎來更多的發展機會。