大數(shù)據(jù)時(shí)代CIO們?cè)诰腿绾问占⒋鎯?chǔ)、分析和展示大數(shù)據(jù)開(kāi)展工作的同時(shí),還被賦予了應(yīng)對(duì)更加困難的挑戰(zhàn)——運(yùn)用數(shù)據(jù)作為驅(qū)動(dòng)業(yè)務(wù)決策的手段的重任。IT組織可以如何利用大數(shù)據(jù)?經(jīng)過(guò)一年左右與專(zhuān)家和CIO們的試探后,我開(kāi)始認(rèn)為這一努力需要CIO們進(jìn)入一個(gè)以往很少有人觸及的領(lǐng)域:電影。
三維方法:數(shù)據(jù)展示的“未來(lái)之路”
最近湯姆·達(dá)文波特在即將出版的關(guān)于分析的書(shū)中清晰地闡述了CIO和商業(yè)智能(BI)組織的工作不是簡(jiǎn)單的展示數(shù)據(jù),而是要以一種能夠影響業(yè)務(wù)決策的方式進(jìn)行展示。在他的關(guān)于展示數(shù)據(jù)最佳方式問(wèn)卷調(diào)查中,達(dá)文波特印象最深的一組把“一個(gè)非常簡(jiǎn)單的財(cái)務(wù)報(bào)告應(yīng)用”做成了一個(gè)視頻。這很可能是未來(lái)之路,他說(shuō),如果你看看我們是如何說(shuō)服做其他事情,購(gòu)買(mǎi)產(chǎn)品,自?shī)首詷?lè)——想想最近大家在YouTube上觀看的所有聰明貓的視頻——除非我們?cè)敢馔ㄟ^(guò)視頻來(lái)溝通分析的結(jié)果,否則它不可能每個(gè)都保持長(zhǎng)久。
這個(gè)案例對(duì)于展示大數(shù)據(jù)技術(shù)特別有說(shuō)服力。一個(gè)簡(jiǎn)單的圖可以用一個(gè)事情繪制另一個(gè)——就像我從代數(shù)課上學(xué)到的。添加顏色也許就能在一個(gè)圖中獲得三個(gè)變量。但是大數(shù)據(jù),正如從PayPal到金融街的首席科學(xué)家們所說(shuō),可能包含上百種變量,并且這些變量正隨著時(shí)間和空間而改變。萬(wàn)能的貓視頻!什么樣的數(shù)據(jù)展示才能弄明白這個(gè)。
當(dāng)然,如果你已經(jīng)知道自己在尋找什么,感謝你那有準(zhǔn)備的頭腦,除了留下與少數(shù)變量相關(guān)的信息,你只是過(guò)濾掉了其他的所有信息。但是如果你不知道自己在尋找什么,如果你已經(jīng)有了上PB的數(shù)據(jù),你希望從中能發(fā)現(xiàn)新的關(guān)系而不是簡(jiǎn)單的為舊觀點(diǎn)提供支撐或反駁的證據(jù),那會(huì)怎么樣?如果你想看到不帶偏見(jiàn)處理數(shù)據(jù)的方式——正如我所知道的,那真是大數(shù)據(jù)分析的最高目標(biāo)(the holy grail)——除了逐字逐句的看,根本沒(méi)有什么其他選擇。但是,怎樣做呢?
我想,這就是為什么要有電影,為什么財(cái)務(wù)業(yè)績(jī)通過(guò)視頻可以給象達(dá)文波特這樣老練的分析家留下如此深刻的印象。電影呈現(xiàn)出三維空間;它讓我們看見(jiàn)時(shí)間的流逝。顏色、紋理甚至聲音的應(yīng)用為我們描繪出了更多的變數(shù)。我們所熟知的世界就是三維的,有聲電影會(huì)被人們當(dāng)作真實(shí)的經(jīng)歷。
現(xiàn)在的CIO們必須讓大數(shù)據(jù)看起來(lái)像那個(gè)真實(shí)的世界,是否所有可用來(lái)表現(xiàn)工具都已存在了?當(dāng)然不是。達(dá)文波特的觀點(diǎn)是他們還相當(dāng)不成熟,但是每個(gè)我們見(jiàn)到的計(jì)算機(jī)制作出的動(dòng)畫(huà)都向我們展示了一條前進(jìn)的道路。詹姆斯·卡梅隆在《阿凡達(dá)》中使用的軟件工具,象Autodesk Maya和Zbrush,都可以找到一種方式進(jìn)入到CIO的組件中。燈光、攝像、開(kāi)始!拿我來(lái)說(shuō),我就期待在電影中的大數(shù)據(jù)。據(jù)我推測(cè)企業(yè)也是一樣在期待。正如另一位哲人所說(shuō),觀察能讓你學(xué)會(huì)很多。
六家創(chuàng)業(yè)公司數(shù)據(jù)可視化分析
1.Ayasdi
Ayasdi來(lái)自印第安語(yǔ),是“尋找”的意思。斯坦福大學(xué)的Gurjeet Singh,Gunnar Carlsson和Harlan Sexton一直在致力于將拓?fù)鋵W(xué)的研究方法應(yīng)用于數(shù)據(jù)分析。在2008年,他們聯(lián)合成立了Ayasdi公司。Ayasdi成立以后,就獲得了DARPA(美國(guó)國(guó)防部高級(jí)研究項(xiàng)目組)350萬(wàn)美元的資助。
Ayasdi的底層使用的是HBase數(shù)據(jù)存儲(chǔ),然后再利用拓?fù)鋽?shù)據(jù)分析技術(shù)和上百種機(jī)器學(xué)習(xí)的算法來(lái)處理復(fù)雜的數(shù)據(jù)集,最終確定數(shù)據(jù)節(jié)點(diǎn)之間的相似度。而對(duì)終端用戶而言,這看起來(lái)更像是一個(gè)數(shù)據(jù)集的拓?fù)鋱D,只是強(qiáng)調(diào)了集群中有關(guān)聯(lián)的數(shù)據(jù)點(diǎn)。
Ayasdi的技術(shù)有一個(gè)重要的特點(diǎn),它不像別的系統(tǒng)需要類(lèi)似搜索查詢式語(yǔ)句,Ayasdi可以自動(dòng)從數(shù)據(jù)中發(fā)現(xiàn)隱藏的模式。Ayasdi的一個(gè)應(yīng)用就是在醫(yī)學(xué)研究領(lǐng)域,Mount Sinai醫(yī)學(xué)院基因與多尺度生物學(xué)系的主任Eric Schadt就帶領(lǐng)一個(gè)團(tuán)隊(duì),利用Ayasdi的技術(shù)進(jìn)行一些疾病的遺傳傾向的研究,而且利用Ayasdi的數(shù)據(jù)分析技術(shù),幫助發(fā)現(xiàn)了乳腺癌的14個(gè)變種。
2.BeyondCORE
實(shí)際上BeyondCore運(yùn)作的基本前提和Ayasdi是相同的——只是展示給用戶顯著相關(guān)的聯(lián)系,而無(wú)需考慮這個(gè)結(jié)果是如何發(fā)現(xiàn)的——雖然BeyondCore使用的是標(biāo)準(zhǔn)化圖表,但是事實(shí)上還提供了另一種選擇:在發(fā)現(xiàn)軟件發(fā)現(xiàn)關(guān)聯(lián)性結(jié)果時(shí),會(huì)讓化身(見(jiàn)圖片)通知用戶。
3.ClearStory
ClearStory擁有一個(gè)獨(dú)一無(wú)二的產(chǎn)品,即使該產(chǎn)品的很多細(xì)節(jié)并沒(méi)有公布。也許只有在產(chǎn)品正式發(fā)布之后,我們才能“一睹真容”。ClearStory將與存儲(chǔ)在數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)和其他來(lái)源的數(shù)據(jù)連接,在數(shù)據(jù)源變化時(shí)進(jìn)行動(dòng)態(tài)的更新,并加入虛擬的數(shù)據(jù)挖掘組件,使用戶分析數(shù)據(jù)并理解信息。在今年3月份,ClearStory獲得了來(lái)自谷歌風(fēng)投、安德里森·霍洛維茨、KhoslaVentures等多家風(fēng)投的青睞,融資金額不詳。
4、Datahero
Datahero是由來(lái)自AsterData的大數(shù)據(jù)分析業(yè)務(wù)骨干ChrisNeumann、寶馬的高級(jí)工程師JeffZabel聯(lián)合創(chuàng)立,該公司尚在起步階段就獲得了100萬(wàn)美元的融資。他們打著“你的數(shù)據(jù)你做主”的口號(hào),試圖彌合大數(shù)據(jù)與普通用戶之間的鴻溝,不僅幫助用戶分析密切相關(guān)的數(shù)據(jù),而且通過(guò)可視化的形式,讓用戶更好地理解這些數(shù)據(jù)。
據(jù)外媒報(bào)道,Datahero是基于瀏覽器的一個(gè)平臺(tái),數(shù)據(jù)的輸出、整理以及解釋都會(huì)在一個(gè)單獨(dú)的窗口完成,而不是通常意義上的借助不同的應(yīng)用。通過(guò)瀏覽器,用戶可以將多種網(wǎng)絡(luò)服務(wù)的信息輸入到Datahero,也可以從公共的數(shù)據(jù)庫(kù)下載報(bào)告,還可以直接在本地把電子表格及文件上傳到Datahero。Datahero會(huì)根據(jù)它的算法自動(dòng)為這些信息歸類(lèi),并給他們加上標(biāo)簽。
5.Platfora
Platfora在Hadpoop的基礎(chǔ)上進(jìn)行數(shù)據(jù)的操作,并為用戶提供一個(gè)簡(jiǎn)單易用的操作平臺(tái)。因?yàn)镠adpoop有很多不同的發(fā)行版,所以Platfora的重點(diǎn)之一就是確保它能在所有的發(fā)行版上運(yùn)行,這樣大大降低了Hadpoop的使用門(mén)檻,讓更多的人能夠體驗(yàn)Hadpoop的技術(shù)優(yōu)勢(shì),實(shí)現(xiàn)真正意義上的“平民化”。
6.Zoomdata
初創(chuàng)公司ZoomData是為數(shù)不多的支持移動(dòng)設(shè)備的數(shù)據(jù)分析公司,它們的數(shù)據(jù)可視化系統(tǒng)能夠?qū)?shí)施的大數(shù)據(jù)流轉(zhuǎn)化為觸屏友好的、藝術(shù)感十足的三維數(shù)據(jù)。蘋(píng)果iPad和Android平板電腦用戶可以用手指縮放數(shù)據(jù)可視化界面,隨著界面縮放的級(jí)別不同,數(shù)據(jù)將實(shí)時(shí)進(jìn)行更新。ZoomData的數(shù)據(jù)可視化技術(shù)支持多種數(shù)據(jù)源,包括社交媒體、企業(yè)應(yīng)用系統(tǒng)以及HadoopHDFS數(shù)據(jù)。