越來越多的人開始重視“數據技術(DT )”, 也就是從傳統IT的以事務處理技術為核心,逐步轉向專注于數據本身。“數字化”,“物聯網”和“云計算[注]”讓一切皆可“量化”,所有的系統和設備每時每刻都在產生大量的、不同格式的、混雜的數據。利用好這些數據,可以讓我們更全面的了解我們身處的世界。
利用大數據的關鍵在于縮短業務人員和數據之間的距離。我觀察到國內越來越多的客戶在計劃實施大數據項目,他們其中大多數都有在“小”數據時代建設傳統數據倉庫(Data Warehouse)、數據挖掘(Data Mining)和商業智能(Business Intelligence)的經驗,但由于缺少對大數據思維變革的理解,往往事倍功半。究其原因,主要是忽略了大數據所要處理的,不僅有傳統結構化的高價值密度的業務數據,還包括規模巨大且結構多樣化的低價值密度數據。因此,做大數據分析所采用的分析策略和技術手段,必然有所不同。打個比方,如果我們傳統的結構化數據分析項目主要做的是1+1=2的因果關系分析,那么大數據其實更需要做的是A+B+C+D=?的關聯度分析。換言之,傳統的數據分析項目做的通常是可以預知的事情,提高的是業務管理效率,而大數據探索是要尋找潛在的業務規律,和可能帶來的業務創新。
可視化探索+關聯性分析=“全數據”洞察
在“小”數據時代,做好數據關聯關系分析和因果分析已屬不易。數據很難得到,收集整理過程也往往耗費巨大。從了解需求、建立假設、創建模型,再通過實驗來驗證假設。由于一切都始于假設,這些分析就都有受偏見影響的可能,而且極易導致錯誤。
如果用這樣的方法去做大數據項目,通過數據整合、治理、清洗、建模、挖掘分析和展現的過程,業務用戶距離數據仍然是比較遙遠的。而一旦人們依賴主觀的經驗對低價值大數據進行清洗,必然客觀上會導致數據價值的無辜流失。所以,對于大數據項目來說,如果你能對大數據有基于全數據(而不是清洗后的數據)的可視化探索洞察,就能在理解數據關聯基礎上,更好地進行高效的數據價值發現。甲骨文作為數據管理與業務分析軟件領域的市場領導者,為客戶提供最全面、集成度最高的大數據解決方案,幫助各種規模的企業組織發現大數據的關聯價值,幫助更好制定和調整業務戰略、優化運營、抓住新的市場機遇。甲骨文的大數據信息探索工具Endeca和新一代的面向Hadoop技術的甲骨文大數據發現(Oracle Big Data Discovery, Oracle BDD)是強大的可視化大數據探索工具,是集發現、探索、轉變、挖掘、展現和共享為一體的端到端大數據關聯分析平臺。
汽車行業大數據應用:實現高效售后服務
為了方便大家理解,我這里與大家分享兩個生動的Oracle BDD的應用案例。我們有一個汽車集團的用戶,這個企業的大數據系統非常復雜,匯集了包括零部件采購數據、產成品數據、庫存數據、銷售數據、售后維修維護數據、售后T&M開銷數據、客服中心受理數據、客戶網上投訴數據、多個汽車論壇的互聯網輿情數據等等。
我們的客戶通過Oracle BDD進行大數據探索,可以成功地了解到哪些問題和哪些部件的關聯性高、哪些問題和維修量關聯性高等有價值的信息。當客戶的業務分析師進入BDD的應用界面,首先可以看到所有220個數據屬性(維度)的面貌,包括生產了多少車、有多少車在庫、有多少車在修、花費多少人工在修、各種產成是多少等等。在這些基本信息之外,也會看到各種從非結構化數據中提煉出的“云標簽”屬性,即客戶哪些抱怨比較多、哪些車存在哪些問題,而且是通過不同大大小小的標簽文字來直觀地表達出來,那些大一些的標簽代表發生概率比較高的數據對象。
其中有一個典型的場景,客戶發現一些用戶常常抱怨汽車冒煙的問題,于是就在BDD的搜索框中輸入“冒煙”,BDD實時搜索關聯出所有與冒煙有關的信息,包括冒黑煙冒白煙、哪些車冒煙、哪些用戶投訴汽車冒煙、已有汽車維修記錄中有多少是和冒煙有關的、冒煙車集中在哪個時間段、冒煙和哪些部件有關、導致冒煙的部件是哪些供應商的、維修冒煙車的成本是多少等等一系列關聯的信息結果。通過這些數據,他們可以馬上發現關聯最多的是兩家配件供應商(+本站微信networkworldweixin),在過去一個月左右的時間里,幾個型號的零件,以及類似的客戶抱怨數據。這就讓業務人員迅速將客戶的投訴和配件供應商以及相關零件批次關聯起來。像BDD這種用戶自助式的靈活的關聯探索分析,用其它的大數據分析工具是很難做到的。
醫療大數據應用應用:用大數據破解疑難病癥
我要和大家分享的另外一個Oracle BDD案例,是個醫院大數據項目。這個醫院的大數據系統涵蓋了醫院信息系統HIS和臨床信息系統CIS兩大系統,具體包括了門診管理、收費與帳務管理、醫囑管理、門診電子病歷、臨床記錄與文檔、醫療質量控制、病案管理等二十多個應用子系統,也是包括了結構化、半結構化與非結構化的200多個數據屬性(維度)。我們可以在下面圖片中看到當前消化道科的患者人數為3830人,這些患者住院人次為4160、平均住院天數7.97天、31天再住院人數80、再住院率1.92%。
OracleBDD案例——醫院大數據系統截屏
醫院各科室的業務用戶可以根據訪問權限,方便靈活地以自助的探索形式,通過搜索,關聯、篩選、鉆取等操作來發現自己所關心的數據結果,并實時地形成各種分析圖表。譬如某個醫生遇到了一個罕見 病例,患者可能得了克羅恩病,但這名醫生卻沒有關聯的醫治經驗,BDD可以怎么幫助他呢?醫生只要在BDD的搜索框里輸入克羅恩病,BDD就會搜索尋找出有關聯的所有信息,包括醫院曾經接診過哪些克羅恩病患者、哪些醫生診治過克羅恩病患者、克羅恩病患者做了哪些化驗、醫生都開了什么藥、是否有病情嚴重者住院或手術、這些患者中是否有回診等等。從下圖中你會發現醫院過去曾經接知過31位克羅恩病患者,83%是男性,40歲以上的患者占了87%,100%住院治療,平均14天,住院而且克羅恩病患者的再住院率是2.78%。
醫院大數據系統病例探析分析界面截屏
這些關聯的信息恰恰給了醫生最好的參考,也輔助醫生做出判斷的預測。醫生可以瀏覽所有患者的電子病例和用藥情況做為參考和借鑒。可以說,Oracle BDD正在大大地提高了大數據在醫院門診醫治、醫療質量控制、醫療科研、流行病防治、資源使用效率和醫院的管理水平和效率。
Oracle BDD能夠使大數據關聯性分析化繁為簡,同時還能加快數據價值的獲取速度。BDD還支持地理位置服務和語言情感分析,讓信息的關聯進一步拓展到空間和情感。通過Oracle BDD可讓包括分析團隊和業務用戶在內的更多人員輕松訪問,實現大數據關聯分析的普及化。
如果您正在實施的大數據項目還沒有獲得成效,或是正在計劃實施一個大數據項目,相信您可以從甲骨文大數據解決方案中找到一種便捷有效的方式,從龐雜的大數據系統中獲取有價值的商業洞察。