在紐約O’Reilly Strata Conference + Hadoop World期間,EMC公布了EMC Greenplum Chorus 開源代碼,力求與數據科學平臺商Kaggle合作讓企業進一步挖掘大數據的經濟價值。
據McKinsey Global Institute 2011年5月的一份報道《大數據:創新,競爭和產能的下一個前鋒》透露,人才的缺乏導致企業需要利用大數據。這種人才的缺乏被廣泛認為是大數據流行的最大障礙。EMC和Kaggle宣稱已經通過整合GreenplumChorus開始著手解決這種數據專家的短缺,而數據專家們的社交平臺Kaggle囊括了55000多名數據科學家。這一消息有望改變有數據問題的企業尋找和聯系數據專家們的方式。
在傳統的分析進程中,數據科學家面臨面臨著訪問和共享正確數據的挑戰。Greenplum Chorus有助于利用最好的分析應用來培養完整的數據科學生態系統。作為一個協作型的數據科學社交平臺,Greenplum Chorus用戶可以通過單一工具就可以增加產能,減少IT機構的管理負擔,獲得更好的可視性以及更快速地訪問數據。
而Kaggle社區的成員可以選擇通過Chorus來接活。在Chorus界面里,希望參與到Kaggle社區的Chorus用戶會搜索,瀏覽,點擊有興趣合作的Kaggle 社區成員的資料。通過安全整合Chorus和Kaggle API,用戶可以從Chorus Workspaces透露相關信息,并發送安全信息。Kaggle將Chorus作為信息源,并將信息轉發給合適的接收者。一旦Kaggle 社區成員查看過信息后,就可以直接進行回復和細節討論,直至開始項目。
Kaggle和Chorus的整合為該行業帶來了新的機會,方便用戶圍繞大數據實現協作效益,而且便于數據專家們拓展業務。
各公司的數據策略必須具備敏捷性。ECM 的Greenplum OpenChorus項目的目的通過開放Chorus代碼,促進大數據應用和方案的普遍開發。
除了Kaggle以外,大量EMC Greenplum合作伙伴都表示為OpenChorus項目提供支持,而且會將自己的工具與方案與Chorus整合。這些合作伙伴包括:Actuate,ADVIZOR Solutions,Alpine Data Labs,Gnip,Informatica,Pentaho,Pervasive,SAS,Syncsor以及Tableau Software。
總裁引言
Scott Yara ,EMC Greenplum部門負責產品的高級副總
“個人,企業和社區的合作對于大數據分析的成功非常有必要。OpenChorus項目是EMC Greenplum大數據技術,策略和工具的一部分——大數據能幫助客戶深入了解業務和數據經濟價值,所以要把握時機開拓。”“成功取決于協作平臺和大數據時代的問題:數據科學家的供需。現在,有了Kaggle及其有著55000多數據科學家的社區,我們相信我們正在永久性地改變數據科學的分析方式。”
Kaggle CEO Anthony Goldbloom說:“與EMC Greenplum的合作為現有的和未來的Kaggle 社區成員開創了令人驚喜的新機遇。這種合作關系有助于解決數據專家的短缺,公司才能發揮數據的所有價值。”
可用性
Greenplum Chorus源代碼現在已經可以通過OpenChorus項目獲取。Chorus和Kaggle的合作項目有望在2012年11月落地。現在,你就可以下載Chorus,找到你要的數據,將數據可視化,為項目提供資源,分析模式,共享內部情況以及協作,還可以為社區做出自己的貢獻。