對于制造企業而言,數據貫穿著整個產品生命周期,從客戶需求到概念設計、詳細設計、工藝設計、仿真試驗、生產制造到售后服務全過程。特別是生產制造環節,工廠底層包含了條形碼、二維碼、RFID、工業傳感器、PLC以及SCADA等控制系統,它們無時無刻不在產生數據。然而生產環境中收集的數據多以時間序列模擬流程變量,數據的類型是單一的,很容易建立索引,因此這也是為什么數據僅僅量大是不夠的,我們通常談到的制造業大數據分析是指將不同信息化層級之間的結構性系統數據與非結構性數據結合。
在面對紛雜繁亂的數據時,為創建敏捷的數據平臺企業需要將傳統的數據倉庫結構和方法轉換為一個為靈活性而創建、更加平衡和分散的框架。將數據存儲在企業數據倉庫中顯然是不夠的,而煙囪式的數據集市也存在由于混亂和錯誤而破壞整個系統的風險。事實上,如今大部分企業構建的數據集市都是基于SQL、NoSQL、數據庫、文件系統或類似技術。無論是否為開源、是否為傳統系統,巨大的獨立數據建立在諸如Hadoop這樣的平臺上,能夠達到PB級的數據規模,如果不能加以整合優化,在進行數據分析無疑對企業是一場“災難”。
因此,企業在進行數據分析時,數據架構必須在不同復雜度的多個層次上呈現信息,并劃分不同的信息通道和相應的使用角色,這樣就可以把不同類型的用戶疊加到同一份數據上,讓不同的用戶在他們所熟悉的場景下使用數據。在Teradata描繪的分層數據架構中,依據數據的顆粒度可分為緩沖層、整合層、計算層、匯聚層、展現層和數據實驗室。
其中最底層的緩沖層需要盡可能的反映源系統的表現形式,包括數據類型和結構的沿襲。例如,生產數據和財務數據不能變成文本,否則就會讓數據的真實度過早地被破壞掉。緩沖層的數據可以被企業中大多數的數據工程師或數據科學家所訪問。不同于獨立的數據湖,緩沖層必須是企業級可拓展的,能夠讓成百上千的用戶和進程同時訪問和處理數據。
越往分層數據架構上層走,預定義結構的數據就越多,基于此的分析就越容易被企業中更多的人所理解。當到達展現層后,企業可以提供發布數據的API接口,它們具有結構化、同一版本控制、向下兼容的特性,并提供給任何授權的用戶和應用訪問程序。最后,數據實驗室是用戶自己主導的數據沙盒,用來支持探索實驗和自助服務。
經過分層架構能使企業以數據的最細顆粒度形式分散數據的框架,這使我們能夠審視數據的各種用途并將數據按照不同復雜度級別進行重構。在這里,專業的數據科學家可以對原始數據進行研究,將原始數據和現有數據建立起聯系,編寫初始算法發現更多的模式特征,進而進行整合和結構化處理,從而減少數據重復并確保在不同維度的應用一致性,為今后提升對于數據調整、治理、管理和數據集成能力打下基礎。
《國務院關于印發促進大數據發展行動綱要的通知》中指出,數據已成為國家基礎性戰略資源,大數據產業正成為新的經濟增長點,將對未來信息產業格局產生重要影響。對于企業而言,通過保持細顆粒度的數據在企業內外的敏捷傳播,將是企業應用大數據、將洞察力落地為行動的必要條件之一。