產品概述
Pluto是由西安交大美林數據挖掘研究中心開發的數據挖掘平臺,平臺設計嚴格遵循國際數據挖掘標準CRISP-DM(跨行業數據挖掘過程標準)。Pluto強大的數據挖掘功能將復雜的統計方法和機器學習技術應用到業務數據當中,幫助客戶揭示隱藏在業務系統和企業資源計劃、結構數據庫和普通文件等信息中的模式和趨勢,讓客戶始終站在行業發展的前端。
Pluto具有完備的數據準備、數據處理、模型構建、模型評估、模型管理和結果展現功能,具有系統性、開放性、流程性和服務性等特征。可以幫助企業從業務數據中挖掘規律,并對關鍵問題做出預測,并可以應用模型部署到業務流程中,提高決策效率和執行力。目前已經成功應用于智能電網、制造業、航空航天、政府及公共服務業、電信業務和證券金融等眾多領域。
產品特點
Pluto為多種商業問題和研究問題提供了基本的分析功能,架構如下圖示:
數據挖掘功能架構圖
Pluto以數據挖掘過程為基礎,提供對數據文件、數據庫等數據源的支持。數據挖掘平臺通過數據的清理準備工作,用科學的數據挖掘方法建立模型,最終以圖形或者表格等可視化的方式將數據挖掘的結果展示給用戶,并支持模型參數調優。業務模型可發布為多種服務,供外部系統集成調用。
平臺框架
平臺框架是Pluto數據挖掘平臺的基礎運行環境,主要包括:算法動態注冊、消息通知、數據傳輸、數據存儲、數據緩存等功能。
算法動態注冊
算法動態注冊基于OSGI機制,可以在軟件不停止運行、不重新對源代碼進行編譯的狀態下,將新增算法動態注冊到平臺中,具有良好的擴展性與開放性。
大數據支撐
一方面平臺數據加載與處理采用內存映射文件機制,另一方面平臺算法利用增量學習和優化內存結構的矩陣模型,不僅增強對大數據的處理規模,而且提高了數據挖掘算法的處理效率。
數據緩存
平臺數據預處理節點和模型節點都實現了數據處理結果的緩存功能,從而可以根據需要指定流程從最后一個有緩存數據的節點開始運行,極大的提高了數據挖掘流程的運行效率。
數據源
Pluto數據源支持文件和數據庫,文件支持文本文件(*.txt,*.csv)和Excel文件(*.xls,*.xlsx),數據庫支持oracle(9i、10g、11g)、SqlServler(2005、2008)、DB2、MySql等常用類型,同時支持列式數據庫的接入。
數據預處理
數據預處理主要實現數據的清理準備工作,包括樣本處理和屬性操作。樣本處理包括條件抽樣、簡單抽樣、平衡、匯總和樣本排序等功能,屬性操作包括指定因變量、屬性選擇、屬性變換、離散化、數據集拆分、分箱和數據降維等功能。
領先的數據挖掘算法
Pluto包含經典算法20個和高效的自主算法10個,具體如下表所示:
其中國內獨有的L1/2稀疏迭代算法、視覺聚類算法分別在長流程制造工藝分析和圖形處理方面具有特殊優勢。用戶可以從多種算法中選擇來進行預測、聚類、關聯、分類等操作。Pluto算法支持主流云計算技術框架(Hadoop、Enomalism、Euclyptus等),實現海量數據的分析與挖掘。
模型構建與評估
模型構建是指訓練并得到數據挖掘模型,模型評估幫助用戶對數據挖掘模型的結果進行準確度分析,用戶可根據模型評估結果的滿意度對模型參數進行調優。
豐富的數據可視化
平臺提供了10余種圖形化技術和輸出報告,幫助用戶理解數據間的關鍵性信息,并指導用戶以最便捷的途徑找到問題的最終解決辦法。
模型流程發布
模型流程發布是將數據挖掘模型流程發布為服務,包括Webservice服務和JMS服務,支撐外部系統的數據挖掘分析功能。同時,平臺支持模型流程jar包導出,提供Java Jar API便于將模型流程直接集成到外部系統的開發環境。
模型流程服務管理
模型流程服務管理用于對平臺發布的數據挖掘模型流程服務進行管理,包括服務的權限管理、版本管理和預測評估任務管理等功能。
服務訪問接口
第三方(或外部)系統可以通過調用Webservice服務、JMS服務或直接調用Java Jar API進行數據挖掘分析功能的構建。
安裝與使用環境要求
典型案例
電力行業
采集電力設備基本信息、電網調度、電網負荷、計劃(非計劃)停電等數據,采用數據挖掘的分類、主成分分析、回歸、時間序列等算法,實現電力設備壽命預測、電網負荷預測、電力調度優化、漏電竊電自動診斷、電網用戶行為分析等。
● 國家電網公司運營監控平臺
● 購售電量預測分析
● 電網設備故障預測分析
● 配電網故障預測和搶修效率分析
● 分時和階梯電價模式下電網用戶行為分析
● 居民和非居民用電的用戶行為分析
● 電網物資庫存精益化管理分析等
制造業
針對長流程、復雜工藝的情況,采用L1/2稀疏化算法理論及梯度Boosting算法思想,尋找產品質量“優區”和影響產品質量的關鍵因素,并基于分析結果提出工藝改進策略,提升產品質量。
成功案例:
● 某鋼鐵企業硅鋼產品縱條紋產生關鍵因素分析
● 某鋼鐵企業板材產品抗拉強度分析
● 某刀具切削公司刀具數據庫專家系統
● 某大功率半導體芯片制造商產品質量分析
● 某企業勞動定額預測分析
● 某企業精密鑄造產品工藝質量分析與控制
航空航天
飛行參數記錄系統實時記錄飛機氣動、操穩、發動機、飛控、通導等系統的重要參數,對于保障飛行安全、提高飛行訓練水平和機務維護質量具有非常重要的作用。現有的飛參判讀室在完成飛參數據的存儲和判讀的同時,可以對數據進行統計分析,并進一步深入挖掘飛參數據的知識。
● 規劃設計飛參數據的分析系統
● 建立發動機健康評估體系
● 基于故障處理數據,實現故障診斷和預警分析
政府及公共服務業
根據不同政府職能部門或公共服務業的特征,從Pluto中剝離合適的算法或進行軟件定制化開發,形成符合解決政府及公共服務業實際需求的數據分析系統。
● 某保密局網絡檢測平臺
● 武警部隊某警種綜合統計分析平臺
● 基于氣象數據的風能發電量預測分析
電信業務
隨著移動業務規模的增加,電信運營商逐漸積累大量移動上網用戶的訪問記錄數據,為針對不同特點用戶提供更有針對性的定制化服務,需要對不同用戶的使用特點進行分析刻畫。
● 某電信運營商基于客戶分群特點的定制化服務分析
證券金融
在金融行業同質化競爭日益激烈,各證券公司需要進一步明確目標細分市場,希望通過提供個性化服務,實現差異化戰略,最終在競爭中搶得先機。
● 某證券公司客戶交易行為特征分析