對于企業的業務人員,特別是數據科學家人群來說,Informatica的Intelligent Data Platform不僅是一個智能化的大數據預處理工具,而且可以像業務系統一樣為企業帶來直接的價值。
互聯網企業通常會強調細節和微創新,把產品的某一項功能做到極致,借此牢牢吸引大量用戶。但是企業級廠商則不同,它們更傾向于將產品平臺化。平臺化的好處是可以把盡量多的功能集成在一起,方便部署與管理,而且可以借平臺屏蔽底層架構的復雜性。軟件廠商尤喜平臺化,比如數據保護廠商有數據保護和統一管理平臺,大數據產品廠商有大數據處理通用平臺等。
今年5月,獨立企業數據集成軟件提供商Informatica在一年一度的Informatica World上發布了Intelligent Data Platform。作為下一代數據平臺,Intelligent Data Platform可以在正確的時間提供正確的數據,并通過鋪設一條虛擬數據的高速公路,將人員、位置、設備以更加智能化的方式緊密聯系在一起,為大數據應用提供更好的支持。
提升智能化水平
Intelligent Data Platform包含三大核心:第一,Informatica Vibe虛擬數據機。Vibe是一種嵌入式的數據處理引擎,可以提供針對任何位置、格式或來源的數據的普遍的訪問能力,且支持客戶“一次映射,多次部署”;第二,數據基礎設施。數據基礎設施層能夠在任何規模的環境中系統、連續地交付干凈、安全、互連的數據,從部門級到企業級,從事務數據到大數據,從內部部署到云端皆可;第三,數據智能。Informatica獨創的數據智能層將為客戶重新定位數據基礎設施層所創建的元數據,從而提高數據的可見性,改善決策過程,并提升運營的智能化水平。
Intelligent Data Platform能夠以正確的方式將正確的數據傳遞給相關的人員或發送到正確的位置。Informatica公司大中國區首席產品顧問但彬歸納了Intelligent Data Platform的主要功能:Informatica可以在正確的時間提供最高質量的正確數據;Informatica能夠將數據交付到正確的位置,包括企業內部或云端;Informatica 可以將數據交付給正確的人員,無論是IT人員、分析師、數據管理員,還是業務用戶;Informatica可以將數據交付給正確的設備,包括聯網設備或自動化決策系統;Informatica能以正確的方式交付數據,并確保數據安全可靠、經過授權且已獲得保護。
Intelligent Data Platform在Informatica World 2014大會上一發布,即受到了與會的Informatica的用戶的普遍歡迎。Informatica在大會上展示了一系列Intelligent Data Platform的應用案例,包括自助服務數據集成(Springbok 項目)、數據導向型安全管理(Secure@Source 項目)和360 度全方位業務實體(MDM 10)等。目前,Intelligent Data Platform還沒有完全商品化。之所以在Informatica World 2014提前發布Intelligent Data Platform,Informatica是想在產品正式發布前先聽聽用戶的反饋,然后根據用戶的反饋進一步對Intelligent Data Platform進行完善,再擇機發布商用化的版本。這種在產品正式發布前先與客戶進行交流已經成了Informatica開發新產品的一個慣例。
為數據科學家服務
有業內人士指出,大數據已經發展到一個新的階段,仍然按照傳統商業智能(BI)的思路和方法解決大數據的問題已經不合時宜。傳統BI采用包括數據采集、存儲、處理、分析和呈現等環節在內的縱向數據處理方式,而新的大數據處理和利用方式則是分布式、扁平化的。
傳統的數據處理方式是模式化的,用戶需要什么,廠商就提供什么樣的解決方案,但這些解決方案通常是固定的、不能靈活擴展的。如果用戶提出了新的要求,想在原有系統中增添新功能或進行修改會十分麻煩。而Intelligent Data Platform可以解決這一問題,因為它是一個智能化的平臺,可以為集中到“數據湖”中的各種類型的數據建立相關性,然后再提供給業務應用或通過接口與分析工具銜接。
在進行大數據處理時,傳統的數據庫和分析技術還有用嗎?但彬認為,傳統技術與新技術之間不是誰對誰錯的問題,而是要針對不同的應用選擇適合的技術。比如,銀行常見的商業行為分析仍然可以采用數據庫技術,而一些預測性的大數據挖掘項目則要采用新的大數據處理技術,呈現數據之間的關聯性。
“Intelligent Data Platform給用戶帶來的最大改變是解放了IT人員。原來IT人員既要做業務也要搞技術。未來,我們希望IT人員可以把工作重心放在做開發和系統集成上,而業務人員可以基于Intelligent Data Platform將業務描述得更清楚,并且可以自動生成一些規則。”但彬介紹說。
支撐Intelligent Data Platform的底層技術是Informatica的Vibe虛擬數據機,它也是所有Informatica產品的基礎引擎。在這個引擎之上,Informatica可以幫助客戶進行數據集成,提升數據質量。Intelligent Data Platform是一個集成化的平臺,從IT的角度講,其實施肯定會存在一些挑戰,但它確實能給企業的業務帶來更多價值。“IT人員可以完成數據的抽取和存儲,然后提交數據用于分析。”但彬告訴記者,“但是企業的業務人員或數據科學家可以標記數據的質量、發現問題,從數據中發現更多有價值的東西。所以,我們希望業務人員能借助Intelligent Data Platform更多地接觸和利用數據,而不僅僅是IT人員。”
在推出Intelligent Data Platform的同時,Informatica還提出了“數據湖”的概念。所謂數據湖,就是將不同來源的數據存放在一起,但并不是將未經處理的數據簡單地堆放在一起,而是要將這些數據進行預先處理,建立數據之間的聯系,這更有利于日后的大數據處理。
大數據是業務系統
傳統的數據處理與分析都是IT人員的事,因此IT人員必須掌握豐富的數學知識和計算機技術。但是,大數據的最終目標是為企業業務和應用服務,而IT人員通常不太了解業務,這就造成了大數據技術與應用的脫節。但彬表示,Intelligent Data Platform最理想的使用者是企業的業務人員或數據科學家,因為他們更了解業務需求,可以利用Intelligent Data Platform更好地解讀大數據分析結果。
大數據處理系統是一個IT工具,還是業務系統呢?不同的定位決定了大數據處理系統的不同“命運”。“中國的很多客戶通常將大數據處理系統當成一個IT工具來使用。從IT運維的角度來看,IT人員只負責保證系統的正常運行、開關,雖然偶爾也會編寫一些代碼,但畢竟不能從業務的角度充分利用大數據處理系統。在這種情況下,大數據處理系統只是一個IT支撐和保障系統,而不能直接給企業帶來商業價值。”但彬介紹說,“如果將大數據處理系統當成一個業務系統來對待,那么業務人員就可以利用這個平臺更好地挖掘數據,給業務帶來直接的價值。”
據記者了解,一個具有單一功能的大數據產品可能需要幾十萬元,而一套比較完善的大數據整體解決方案的價格可能達到上千萬元。如果不能充分發揮大數據產品應有的價值,那么對企業來說無疑是一種巨大的浪費。但彬表示:“如果企業只把大數據產品當成一個IT工具,那么可能不會持續地對產品進行升級,也不會購買廠商的專業服務,一旦遇到解決不了的問題,就可能輕易放棄。”
Informatica曾經帶國內某銀行的技術人員去美國與Informatica的客戶交流。讓但彬吃驚的是,美國客戶參與交流的全是公司的業務人員,講的全是業務系統如何運行。參與交流的中國客戶全是技術人員,想了解的是美國企業如何構建一個大數據系統,而不太關心系統如何運行和如何給企業帶來價值。如此強烈的反差給中國的用戶提了一個醒:第一,部署大數據應用應該以業務為中心和出發點;第二,企業最好自己主導大數據系統的部署與應用,因為企業最了解自身的業務需求,可以更充分地利用大數據平臺,提高數據分析的效率。