實現工業4.0或中國制造2025的前提之一是構建智能工廠,其核心要素包括了信息物理系統(CPS),物聯網(IOT),智能認知,社交媒體,云計算與移動,以及M2M。 智能工廠構成了工業4.0的一個關鍵特征。智能工廠將從現在通過中央控制中 的模式轉向通過自行優化和控制其制造流程來實現。
柔性生產的三個方面:
1.人、機器和資源如同在一個社交網絡里自然地相互溝通協作。
2.生產出來的智能產品能夠理解自 己被制造的細節以及將如何用。它們積極協助生產過程,回答諸如“我是什么時候被制造的”“哪組參數應被用來處理我”“我應該被傳送到哪”等等問題。
3.機器和產品之間的數據傳輸將通過使用微處理器、存儲裝置、傳感器和發送器來實現。這些裝置將被嵌入至幾乎所有可想象的機器、待加工產品、材料、智能工具和用于組織數據流的新型軟件,由此實現產品和機器的相互通信并和交換數據。
大數據在智能工業的特征:
——數據的處理方法比數據本身值錢
無論是為促銷產品還是作為戰略目標的方式,大數據已然成為很多公司和機構過度使用的術語。2012年高德納(Gartner)給出德大數據定義里面,特別強調大數據是多樣化信息資產,不僅關注實際數據,而最最重要的是關注大數據處理方法。數據量大還是量小本身并不是判斷大數據價值的核心指標,而數據的實時性(velocity)和多元性(variety)應該對大數據的定義和價值更具直接的影響。
——大數據是多結構化數據:包含人類和機器數據
我們大多數人會認為大數據包含了非結構化數據與結構化數據。我更提倡大數據是“多結構化數據”的說法,無論是自由文本還是關系數據庫等,大數據可以由人類產生的數據足跡與機器自動生產的數據兩大板塊形成。大數據的工具和技術能夠為不同的結構化數據服務。在信息化與工業化融合的過程與商業活動中,我們需要加強機器數據的采集,分析,并且把此項工作作為智能制造的核心工作之一。
——工業大數據的機器數據讓我們的業務變得透明
在現代工業供應鏈中,隨著大數據應用的普及,我們可以感受到了從采購,生產,物流與銷售市場都是大數據的戰場。大數據可以幫助我們實現客戶的分析和挖掘,它的應用場景包括了實時核心,交易,服務,后臺服務等。通過的載體包括了手機,傳感器,穿戴設備,3D打印機和平板電腦等。傳感器數據屬于工業大數據類別之一,從這些機器數據中,我們可以保障生產,滿足法律法規的要求,提升環保,改善客戶服務。通過幫我們找到已經發生的問題做好協助預測相類似問題未來重復發生的幾率與時間。
大數據的挑戰:
1.用理性了解大數據
作為與工業4.0聯系最為緊密的兩化融合任務,中國制造2015其核心是生產過程、產品的智能化,以及互聯網與制造業的融。數據的靈活處理性成為第一個焦點。隨著傳統數據庫(database)和數據倉庫(data warehouse)的運行越來越緩慢,并很難滿足企業業務的發展需要,數據的靈活性就成為了推動大數據技術發展的一個重要推動力。
2.從Hadoop走向數據湖
2015年的大數據領域被看作是“數據湖(data lake)”與“數據藻澤”的狀態之爭。無論學術杰如何去詮釋,其核心是強調一種基于對象的數據存儲方式將收集來的數據以其最原生的格式(多結構化的)存儲下來留作日后使用。“數據湖”具有很高的價值定位,它代表了一種可擴展的基礎架構,非常經濟且超級靈活。
3.自主大數據數據服務成為主流
隨著大數據工具和服務的發展,2015年,IT行業將逐漸緩解發展瓶頸的局面,許多商業用戶和數據科學家將會借助相關工具和服務訪問大量數據。自助服務大數據將成為IT行業的一種趨勢,它允許商業用戶可以通過自助服務接觸大數據。自助服務還可以幫助開發者、數據科學家和數據分析師直接進行數據探索和處理工作。當我們了解大數據的時候,業務的價值和IT的成本是我們主要衡量未來IT的標準,業務價值驅動大數據創新。Hadoop 不再成為我們討論的大數據主題。我們需要了解更多的是業務創新,數據變現和業務場景的探索。
下一代的大數據體系——數據湖:
每個數據項都應有清楚的追蹤,可追溯其源系統以及該數據項產生的時間等信息。2010年 JamesDixon以此理念,創造了數據湖(data Lake)這個術語,當時他打算將數據湖泊作為單一數據源來使用,而多數據源將形成“水景園”。盡管還是最初的構想,如今最普遍的應用是將數據湖泊當做許多數據源的結合。現有數據倉庫在分析能力的缺失,業務對數據獲取能力的提升,高級分析方法的創新是一種必然。
數據湖泊是近十年出現的術語,用來描述數據世界中,數據分析管道的重要組成部分。作為一個信息系統,數據湖泊是大型的基于對象的存儲庫,數據以其原始格式存儲。通過全面的監控和分析,通過數據的分析模型的建立,學習,模擬,行動,最終實現內容認知的智能。 有并行體系以及無需移動數據即可對數據進行計算操作的明顯特點。
特點 1 -數據湖泊是一個并行體系,能夠存儲大數據
數據湖泊的每個數據元素都有獨特的標識符,并有一組擴展的元數據標簽。
數據湖泊以數據源提供數據時的原格式(不論原格式是什么)存儲原始數據。沒有預設的數據模式,每個數據源都可以使用任何模式。由消費者根據自己的目的來理解數據。
特點 2 -數據湖體系無需移動數據即可對數據進行計算操作
通常數據倉庫一方面要清理,一方面還要聚合數據,從而使分析更加容易。但科學家往往也反對這點,因為聚合意味著丟棄數據。你不知道今天或者幾年以后哪些數據會有價值,所以數據湖泊應包含所有數據。數據湖泊使用平坦架構存儲數據。這個理念是建立一個單一存儲區,用來存儲組織內任何人員可能需要分析的所有原始數據。通常人們使用Hadoop對湖泊內的數據進行各種操作,但這個概念比Hadoop要寬泛的多。
總結:
大數據技術自身在快速的發展,從1.0到大數據3.0的數據湖時代,我們要理性的看待大數據,在關注數據量的同時,應該更加重視數據分析的能力和方法。筆者認為,實用分析工具與先進分析理念,真正釋放數字化分析的力量,由人類軌跡產生的數據,與機器自動產生的數據得出洞見,從管理決策推導運營方案,最終實現數據價值提升。
業界有很多大數據的技術公司提供不同的技術,其中也包含了一大堆的開源軟件開發出來的。大數據的成長路徑一定是個長期成長過程。在不同的階段,來打造不同的IT能力,我們倡導的是開放式大數據架構。不僅僅為大的數據集服務,同時企業中業務人員有很多小數據集的分析和探索。在很好滿足業務的不同需求下,大數據一定是一種混搭技術,利用現有的IT投資來達到整個回報的最大化。特別在中國智能制造2025的變革中,數據湖不會是數據倉庫和BI平臺的終結者,但數據湖一定是未來企業數據技術(DT)的核心紐帶,成為引導中國制造2025變革的數字寵兒。
文丨張禮立,盤古智庫學術委員,玖道科技首席戰略官,上海市海外經濟技術促進會理事。