提到大數據,人們自然而然地會想到與之密切相關的兩個提法,這就是“創新”和“成本”,只有平衡好兩者之間的關系才能將大數據轉化成企業的競爭優勢。創新,雖然大家都認識到大數據的重要性,但很多時候由于成本、技術上的原因,沒有辦法對所有的數據進行分析,很多客戶只能從一年或幾年的客戶數據中抽取出一個月的作為樣本來做分析,而現在,有了像Hadoop這樣的開源平臺,可以讓客戶以節約成本的方式進行全部客戶數據的分析,客戶可以利用這些分析結果進行全面的創新。而對于成本,數據量持續不斷地成倍增長,且復雜性也不斷增加,這一趨勢永遠不會停止,我們很難把所有數據都放在數據倉庫中,隨之而來的是成本很難控制,所以在獲得更多創新的同時,也要兼顧降低數據的成本。
平衡創新和成本是利用大數據首要條件
Informatica提倡的價值主張是要最大化的實現數據的回報率,如果能夠增加數據的價值,降低數據的成本,客戶就能將數據回報最大化,以更低的成本實現新的收入,以及確保其業務具有獨特的競爭優勢。數據價值就是上面提到的創新之路,Gartner 的分析師Neil Chandler 在《21世紀的信息管理》報告中提到:到2015年,那些將高價值、多樣和最新的信息類型及來源集成到統一連貫的信息管理基礎設施的組織,其財務表現將較業內同行優越20%以上。數據價值和數據成本的一升一降之間,最值得關注的就是如何來平衡創新和成本。
先來用實例來說明一下大數據在開發創新產品和服務中的重要作用。第一個例子是美國總統競選,這次奧巴馬的競選團隊中有一位名位Nate Silver的數據科學家,他用Hadoop技術做大數據分析,幫助奧巴馬分析并審視每個洲的競選數據,提前預測結果,這是一個創新,也是政治與科技的完美結合。第二個例子是產品宣傳單的郵寄,很多商場和零銷商都將客戶數據作為自己的秘密武器,利用好了大數據能夠更有針對性的進行產品推銷。比如對于單身女性,如果店家寄一些電子兒童玩具或男性用品宣傳單肯定會被丟掉,而紙張的浪費會增加產品成本。第三個例子是關于“互聯車輛”計劃,一家大型國際汽車制造商,希望在能夠持續收集所有車輛的全部信息,在年底時,把數據傳送到中央Teradata數據倉庫里,利用PowerCenter、CDCT和CEP實現實時數據集成,通過數據分析來預測維修維護和提高燃料效率,電話道路救援和自動調度服務。這些創新的例子,一、兩年前還不是很普遍,但現在由于大數據的出現已經都可以實現。
降低數據管理成本五要素
那么,如何降低和控制成本呢?提起數據倉庫,在業界有一個黃金的時間,就是從凌晨2點到早上8點做ETL。但當數據量越來越大后,很難在6個小時內把這些數據分析處理完成,批量窗口已到極限,SLA處于危險之中,很多企業想控制成本但又感覺力不從心。我們認為,并不是所有的數據都需要放到企業數據倉庫里,也不一定非要在2點到8點這段時間內做數據分析。Informatica建議通過五種方法來降低企業數據管理成本,包括:
第一種,可以把原數據存儲在低成本的商用硬件上,商用硬件不一定是36個CPU的計算機,2或4個CPU的計算機即可滿足大數據分析。將 ETL/ELT 處理轉移到低成本的商用硬件上。
第二種,借助實時數據集成,平滑實現ETL處理;借助高速數據復制,從源系統中卸載處理實時的數據集成。Hadoop不是一個實時的數據集成系統,數據放到Hadoop需要計算幾個小時才會出結果,現在Informatica有一個新的算法,通過高速數據復制和實時數據集成兩種方式降低數據處理成本。高速的數據復制可以從那些大型機或源數據處,高速地把數據復制到ODS或者是企業數據倉庫里;另一個實時的數據集成是Informatica新品PowerCenter大數據版的重要功能,通過實時的數據集成方式,讓用戶不需要把所有的數據都堆積在一起,凌晨2點再統一放到數據倉庫中,而是可以實時地、隨著數據逐漸產生一點一點把數據遷移過來處理。
第三種辦法是讓開發人員通過一次開發,即可實現隨地部署。Hadoop是一個很好的平臺,但缺少對其熟練操作的開發人員,人工成本非常大。Informatica提供給用戶一個可視化的圖形開發工具——Common IDE,通用的IDE可以在傳統的網格上面執行,也可以在Hadoop上面執行,生產效率會提升三倍。這樣還可以把普通開發人員變為Hadoop開發人員,大大降低數據管理成本。
第四種辦法為降低數據管理成本即數據虛擬。Informatica 9.0版本就有Data Service,這實際上就是一個數據虛擬的平臺。數據虛擬在很多方面都很有用,比如BI,以前是把數據放在數據倉庫里,然后BI再從數據倉庫里去抓取數據做分析,現在BI可以直接到源數據中,用數據虛擬辦法把數據提取出來分析。這消除了數據副本,通過數據虛擬化提升數據倉庫能力。
第五種是識別休眠數據,將不活躍的數據歸檔到低成本存儲。Hadoop也可以作為數據歸檔的平臺,但是,Hadoop做數據存儲要對每個數據做3次復制,硬件壓力很大,數據管理成本增加,所以應該把不活躍數據歸檔至更低成本存儲上。我們還能以1:10的壓縮比對數據做很大的壓縮,更有利于數據保護。
PowerCenter大數據版減少新技術風險、降低大數據成本
informatica是數據集成領域的絕對領導者,在Gartner“2012年數據集成工具魔力象限”報告中位居領導者地位。Informatica始終將數據視作尋求創新、增長和效率的一種資產,幫助企業將大數據項目風險降至最低,并協助其實施久經驗證的創新之路。針對大數據的三個維度——容量、種類及速度,Informatica都有相關不同的產品。PowerCenter大數據版是Informatica今年年底即將推出的一款新品,使企業能夠高速、大量、多種類地將社交、移動設備、云以及機器中的數據增加到傳統交易數據中。PowerCenter大數據版通過以下方面減少新技術風險,降低大數據項目的成本:
高速數據存入和提取——跨異構環境進行大數據加載、處理和提取,以優化Hadoop和傳統數據管理基礎設施間的端到端的數據流。
無編碼開發環境——使用Informatica可視化開發環境去除Hadoop中的手工編碼。開發和測量數據流而無需專門的手工編碼,以最大限度提高重用率。
虛擬數據機——允許用戶一次建立轉換邏輯,在Hadoop、傳統ETL網格基礎設施甚至數據聯合應用上任意部署。開發者可在虛擬數據機上只創建一個單一的圖形映射集,且將他們運行在多種數據平臺和部署模型上。
在Hadoop上近乎通用的數據訪問和全面地ETL——使用一個豐富的、預建的ETL庫可靠地訪問多種類型和來源的數據,對運行在Hadoop或傳統網格基礎設施上的交易和交互數據進行轉換。
PowerCenter大數據版為用戶提供了一種業經驗證的創新方法,這種方法是建立在Informatica基于GUI(圖形用戶界面)的開發環境和Informatica在數據集成領域長期領導地位的基礎之上的。PowerCenter大數據版從多方面降低了大數據項目成本,提高生產率,加速創新產品和服務的上市速度,確保了企業大數據之旅安全暢通。
鄭瑋觀點
BI的發展現狀
BI在前幾年比較火,現在隨著大數據的出現依然保持著旺盛需求。BI和ETL是一種很好的競爭,以前BI是從數據倉庫中拿出數據做分析,現在BI可以和Hadoop直接聯系,現在很多新BI的公司覺得并不需要用ETL做數據分析,現在可以之際在Hadoop上做數據分析,BI現在越來越紅。
硬件層面的數據分析:
對于數據分析,現在不僅軟件在進步,硬件上面也在發展,現在有很多內存的數據分析,對于那些沒有PB級別數據的企業,可以選擇這種內存的數據分析。Hadoop存放數據量很大,但數據是放在磁盤里的,數據分析速度會很慢,而把數據放到內存去分析,速度將會非常快,而且因為內存相對來講價格低,所以還可以節約成本,現在很多公司喜歡用內存作分析。
關于大數據的安全性,Informatica在產品設計上的考量點
如Hadoop之類的開源軟件經濟效益好,但存在數據安全性漏洞,特別是金融企業,在應用Hadoop時數據安全性是比較為難的地方。Informatica也在研究如何解決安全問題,解決方案是把Hadoop放在數據虛擬層面中,數據虛擬化可以提供數據安全的功能。
Hadoop和傳統數據倉庫的使用和配合
現在人們比較容易接受的一種說法是,如果數據是非結構、半結構的,一定要用Hadoop;如果是結構性數據的,可以用傳統的數據庫去做數據分析。但我個人覺得這兩種方法是可以交叉使用的。要考慮數據量,還有是否是新建項目,很多客戶已經花大量費用建立了數據庫,而且應用效果良好,沒有必要換掉。許多客戶都是在上馬新項目時用Hadoop來做數據分析。
有關PowerCenter大數據版的培訓課程
從陌生到熟悉這個數據開發,一般來講需要3個月時間,Informatica線下學習課程是一個星期,也可以在網上下載相關的課程。
Informatica產品在醫療行業,特別是中醫的應用
中醫是通過號脈來診治病人,每個病人的體質都不同,這種情況下如何利用大數據呢?中醫的例子非常像DNA的分析。每個人DNA都不一樣,每個人不同的DNA都放在數據庫里面,然后對有關聯的一組DNA做結構數據鏈分析,分析出此類病人容易有癌癥隱患,然后給出一個治療方案,美國一家治療癌癥的醫院,就是用Hadoop把所有容易得癌的DNA找出來,這個過程會很慢長,而應用Informatica大數據平臺可以縮短50%到80%的數據分析時間。相信我們的產品對中醫也會非常有幫助。
大數據技術在中國
一般來講,新科技的發展是從北美洲、歐洲再到亞洲這樣的順序,但對于大數據來講完全不同。亞洲擁有非常自然的大數據問題,從人口方面就可以看,因為人口多,數據量會多,數據的復雜性也會多。比如美國最大電信運營商AT&T移動公司每天的數據處理量是500GB,而中國移動每天數據處理量達到了10TB,各種各樣的大數據問題隨處可見,在美國是小數據的問題,在中國就是大數據。中國的淘寶、阿里巴巴就已經處理過之前在美國從來都沒有碰到過的問題。在中國有很大的大數據的機會,Informatica明年會增加中國的銷售人員。Informatica非常關注中國、日本、印度這3個國家。