信息技術經過了計算機、互聯網時代,進入了云計算、大數據、物聯網應用及移動互聯、體感交互技術突破的階段。
鮮明地展現出,新一代信息技術融合、產品軟化、開放與服務等基本特征和趨勢;產生了人的智慧參與、可持續創新,面向服務的頂層設計等新理念。
成為推動社會經濟發展的創新引擎,知識成為社會生產力中最活躍的要素,社會發展到了一個新階段——知識社會,呼喚著新的社會(城市)形態——智慧城市的出現。
大數據
大數據(big data),指無法在一定時間范圍內,用常規軟件工具進行抽取、管理和處理的數據集合;是需要新處理模式才能產生更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
《大數據時代》指出:大數據不能用隨機分析法(抽樣調查)等簡單方法,而是要對所有數據進行分析處理。
大數據分析相比于傳統的數據倉庫應用,具有數據量大、查詢分析復雜等特點。當前的主流的平臺是:并行數據庫、MapReduce,及基于兩者的混合架構。
研究機構(Gartner)對大數據的定義:需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資源。
麥肯錫研究所對大數據的的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。
上述定義綜合起來,揭示了大數據的價值、特點和人們應該做出的相應的改變:即具有更強的決策力、洞察發現力和流程優化能力的信息資源。
大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。
若把大數據比作一個產業,它實現盈利的關鍵是:提高對數據的“加工能力”;通過“加工”實現數據的“增值”。
從技術上看,大數據與云計算的關系就像一枚硬幣的正反面一樣。大數據無法用單臺計算機進行處理,必須依托云計算的分布式架構、分布式數據庫和云存貯、虛擬化技術,對海量數據進行分布式數據挖掘。
大數據的特點, 5V:Volume(大量)、Velocity(快速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。
數據體量巨大,從TB級別,躍升到PB級別;數據類型繁多,包括:網絡日志、視頻、音頻、圖片、文本、地理位置信息等;處理速度快,可從各種類型的數據中,快速獲得高價值的信息(1秒定律)。這是和傳統數據挖掘技術本質的差別;
數據本身價值密度低(不取樣),但是,因量大而價值高,也可以這樣理解大數據的特點:容量,數據的體量決定其價值和潛在信息的多少;種類,數據類型的多樣性,來源多渠道;速度,獲得數據的速度快;處理快可變性,要求處理和有效地管理數據的過程快
數據的體量決定其價值和潛在信息的多少。
大數據的價值 ,同云計算一樣,大數據也是新觀念(價值觀)和思維邏輯轉變的產物。由于數據采集能力(感知手段)和存貯能力的增強,系統可以容易地獲得巨量的數據,并把它保存起來。但麻煩隨之而來。
通常認為:數據價值在于它載有的表面信息,沒有價值的是垃圾。在大量垃圾中找出有價值的數據又變得很困難(存貯量大)。要求人們對數據的價值有新的觀念。
新觀念則看到:巨量數據所具有的潛在價值是所有數據共性信息的價值。巨量數據所具有的潛在價值是所有數據共性信息的價值。
大數據的核心價值是預測,將為人類的生活創造前所未有的可量化的維度,使人們具有更強的決策力、洞察發現力和流程優化能力。
傳統處理方法理解數據的表面信息,獲得數據價值。而大數據是挖掘所有數據的共性信息,得到具有趨勢性和預測性的信息,是增值信息。思維模式轉變的催化劑是新一代信息技術,它能夠應對大數據分析3V的挑戰。
大數據又稱數據礦藏(DATA MINING),中譯為數據挖掘。既說明大數據價值所在,又指出獲得價值的方法 —挖掘。
必須指出:前面出現的“數據”是個泛指的概念。在數據流程中,前端設備產生的內容稱為信息,經轉換(結構化)才稱為數據,存入數據庫;挖掘之后,產生增值信息。
隨著云時代的來臨,大數據越來越的受關注。大數據可視為大量非結構化數據和半結構化數據,這些數據下載到關系型數據庫用于分析時,會花費很多時間和成本。
大數據技術
1.Hadoop
應用最普遍的有:Hadoop,是目前應用最廣泛的大數據技術,特別是針對文本及視頻等非結構化數據。除分布式文件系統之(HDFS)外,伴隨Hadoop同時出現的還有大數據集處理MapReduce架構。
Hadoop是由Apache基金會開發的分布式系統基礎架構。用戶不用了解分布式底層細節,就可開發分布式程序。充分利用集群的威力進行高速運算和存儲。
Hadoop框架核心是:HDFS(分布式文件系統Hadoop Distributed File System)和MapReduce。HDFS為海量數據提供存儲;MapReduce為海量數據提供計算。
Hadoop特點是:高效,通過并行處理加快處理速度,在節點之間動態地移動數據并保證各節點的動態平衡,可處理理PB級數據;
Hadoop框架的核心是:HDFS和MapReduce 。
其特點:高可靠,按位存儲和處理數據的能力值得人們信賴;高擴展性,在可用的計算機集群間分配數據,并完成計算任務的,這些集群可以方便地擴展到數以千計的節點中;高容錯性,能自動保存數據的多個副本,并且自動將失敗的任務重新分配;低成本,可輕松地在Hadoop上開發和運行處理海量數據的應用程序。它可運行在廉價設備
總之,Hadoop是一種分布式數據和計算的框架。特別適于存儲大量的半結構化的數據集。
2.Spark
Spark,專為大規模數據處理而設計的快速通用的計算引擎(加州大學伯克利分校AMP lab )。
擁有Hadoop MapReduce所具有的優點;不同于MapReduce的是:Job中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS,因此能更好地適用于數據挖掘與機器學習等
Spark是與 Hadoop相似的開源集群計算環境,在某些工作負載方面表現得更加優越。換句話說,它啟用內存分布數據集,除了能夠提供交互式查詢外,還可優化工作負載。
Spark 是在 Scala語言中實現的,將 Scala 用作其應用程序框架。
Spark的特點,主要有三個:高級 API 不用關注于集群本身,Spark 應用開發者可以專注于應用所要做的計算本身;運算速度快,支持交互式計算和復雜算法;是通用引擎,可用它來完成各種各樣的運算,包括 SQL 查詢、文本處理、機器學習等,在 Spark 出現之前,我們需要學習各種各樣的引擎來分別處理這些速度運算。
3.NoSQL數據庫
NoSQL數據庫,泛指非關系型的數據庫。隨著互聯網的深入發展,傳統的關系數據庫在應付超大規模和高并發數據方面,已經顯得力不從心,暴露了很多難以克服的問題;因而,非關系型的數據庫由于其本身的特點得到了非常迅速的發展。NoSQL數據庫的產生就是為了解決大規模數據集合、多重數據種類帶來的挑戰,尤其是大數據應用難題。
NoSQL的流行與火起來是近年來的事,但已經開始了第二代的階段。早期,堆棧代碼只能算是一種實驗,然而,現在的系統已經更加的成熟穩定,且技術越來越成熟,以至于原來很好的NoSQL數據存儲不得不進行重寫,這可能就是V2.0版本。
我們生活的時代,相對穩定的數據庫市場中還在出現一些新的技術,而且在未來幾年,它們會發揮作用。
NoSQL數據庫本身就包含了幾種新技術。總體而言,它們關注關系型數據庫引擎的限制,如索引流媒體和高訪問量的網站服務等。在這些領域,NoSQL相較關系型數據庫引擎, 效率明顯更高。
4.內存分析
內存分析,Gartner評選的2012年十大戰略技術之一。內存分析在個人消費電子設備及其他嵌入式設備中的應用得到快速的發展。
隨著越來越多的價格低廉的內存應用于數據中心,如何利用內存分析對軟件進行最大限度的優化就成為關鍵的問題。內存分析以其實時、高性能的特性,成為大數據分析時代下的“新寵兒”。如何讓大數據轉化為最佳的洞察力,也許內存分析就是答案。
集成設備,隨著數據倉庫設備(Data Warehouse Appliance)的出現,商業智能以及大數據分析的潛能也被激發出來。企業將利用數據倉庫新技術的優勢提升自身競爭力。
集成設備將企業的數據倉庫硬件、軟件整合在一起;提升查詢性能、擴充存儲空間,并獲得更多的分析功能;能夠提供同傳統數據倉庫系統一樣的優勢。在大數據時代,集成設備將成為企業應對數據挑戰的一個重要利器。
準確、深入的理解大數據,要從三個層面著手:
理論,是認知的首要途徑。從大數據的定義、特征、價值的理解,探討大數據之所在,洞悉其發展趨勢;從隱私的視角,審視人和數據之間的長久博弈。
技術,是大數據價值體現的手段和進步的基礎。從云、分布式處理、存儲和感知技術的發展,理解大數據從采集、處理、存儲到形成結果的整個過程。
實踐,是大數據的最終價值體現。從互聯網、政府、企業和個人大數據四個方面。展望其的美好景象將實現的藍圖。
大數據應用,是非常廣泛的。如:洛杉磯警察局利用大數據,預測犯罪的發生。google利用搜索關鍵詞,預測禽流感的傳播。統計學家(Nate Silver)利用大數據,預測美國大選結果;麻省理工學院利用手機定位和交通數據,制定城市規劃;梅西百貨根據需求和庫存數據,建立實時定價機制,對多達7300萬種貨品進行實時調價;醫療行業通過大數據,特別是處理海量、非結構化數據數據,調配醫、藥資源和醫保資金管理。
大數據發展趨勢,大數據是信息化浪潮中的一朵浪花。數據的資源化,大數據成為企業和社會關注的重要戰略資源,并成為大家爭奪的新領域。與云計算深度融合,云計算為大數據提供了彈性、可拓展的基礎平臺;大數據技術已開始和云計算技術緊密融合。
物聯網、移動互聯網等也助力大數據產生更大的影響力。
理論的突破,大數據很可能是新一輪的技術革命,隨之興起的數據挖掘、機器學習和人工智能等可能改變數據世界里的很多算法和基礎理論,實現科學技術上的突破。
數據科學和數據產業,數據科學將成為專門的學科。
各大高校將設立專門的數據科學類專業;社會將出現數據產業,催生一批與之相關的新的就業崗位。數據泄露泛濫,未來幾年,數據泄露事件的增長率也許會達到100%,除非數據在其源頭就能夠得到安全保障。
可以預見:未來,大型企業都會面臨數據攻擊,無論他們是否已經做好安全防范。而所有企業,無論規模大小,都需要重新審視今天的安全定義。
總之、大數據像一把雙刃劍,利害同在。
數據管理成核心競爭力,當“數據資產是企業核心資產”的概念深入人心之后,數據管理便有了新的定位。
數據質量是關鍵,企業采用自助式商業智能工具進行大數據處理,面臨的挑戰是數據源帶來大量低質量數據。要理解原始數據與數據分析之間的差距,從而消除低質量數據。
數據生態系統復合化,大數據世界是一個由設備、設施、服務提供商等一系列參與者共同構建的生態系統。今后,這一生態系統的復合化程度逐漸增強。
智慧的天空任創新之翼自由地飛翔;機器學習的基礎上,產生了深度學習,導致今天的AI大爆發,成了這天空中最絢麗多彩的畫卷。然而、學習是人類獨有的能力、是人類社會進步的動力之源。大課堂的目的是;選擇一些有意義、業界關注的課題,營造學習的環境和氛圍,促進安防企業成為學習型組織。
希望大家通過學習,不僅獲得全面正確的知識、信息,感受創新之美。,還能主動地參與其中,迎接頭腦的風暴,碰撞出智慧的火花,激發創新的靈感。智慧的天空任創新之翼自由飛翔。
李仲男,公安部第一研究所研究員
長期從事安防技術研究工作