科學研究員們對大數據并不陌生。有些科學家可能要把80%到90%的時間用于梳理、校正和收集數據。 在很多情況下,他們甚至還要編寫自己的軟件來執行那些數據項目。但是大數據的商業化已經開始說明這項技術將逐漸成為商業環境所需的重要技術了。
你或許已經聽說過不少關于Apache的開源框架Hadoop的消息,它是一種基于Java的技術,利用谷歌的MapReduce編程模型來處理大數據集。但是如果你想要處理與大數據有關的問題,那你就必須知道上個世紀八十年代末被開發出來的、可讀性極高的Python編程語言。 Python支持Java和Ruby(上個世紀九十年代研發出來的一種通用編程語言),它是全球應用范圍最廣泛的編程語言之一。據Continuum Analytics的總裁Peter Wang稱,增加新的、能夠作為一項服務提供的數據分析工具就可以解決大數據分析中的某些難題。
Continuum Analytics的開發人員對NumPy、SciPy、PyTables和Chaco庫有著深刻地認識,他們正在協助推動Numba和Blaze等開源項目的開發。但是他們也能盈利。 他們主要向投資銀行、對沖基金、好萊塢后期效果制作公司等客戶提供基于Python的大數據分析解決方案,美國國防高級研究項目管理局(DARPA)很快也將采用那些解決方案。
Wang表示,DARPA所面臨的大數據難題與那些存在于標準商業環境中的大數據難題并沒有太大的不同。Wang說:“區別只在于DARPA擁有更多的預算,而且他們愿意在先進技術上花錢。 DARPA以前一直從十多家廠商那里購買分析工具,但是現在,大數據方面的問題并不是出在分析技術本身,而是如何高效地將數據歸攏在一起,然后才能進行數據分析。”
Continuum Analytics為DARPA的項目提供了14位開發員。他們正在開發他們在開發可視化技術中需要使用的語言,尤其注重可擴展性、互動性和可擴展性,同時為非程序員最終用戶提供一種概念模型。 最后一點對于項目的成功非常重要,也是DARPA啟動支持開源Python語言的項目的原因。
Wang表示:“許多傳統的軟件開發語言如C++和Java都源自于計算機科學,而且在以前的數十年里積累了大量的經驗。Python是20年前開發出來的一種腳本語言,但是它最大的特點是這種語言具有很強的可擴展性。科學家們在大約12年前開始使用它來創建庫,之后Python又被用于高性能計算領域。我們開發的是下一代科學Python分析工具,而且還打算將它作為一種軟件型產品提供給企業用戶。”
DARPA目前有大約20個不同的團隊在開發XDATA項目。XDATA項目的目的是為了解決現代企業在大數據上面臨的問題。
Wang表示:“DARPA讓分析師們使用我們的工具。他們需要進行大規模的高級分析工作,但是最新的商業產品并不能滿足那個水平的分析需求,因此他們才選用了Python。”
DARPA稱,它想為用戶們提供一套開源軟件工具,以促成應用數學、計算機科學和數據可視化社區之間的協作,而且這必須是各種最終用戶都能使用的才行。
它說:“如果一切進展順利,它將成為一種允許人們以高效的方式對PB級數據進行大規模分析和可視化處理的系統。我們將在此基礎上提供一種明確的觀點,它是當前必須解決的一個非常大的難題。”
“DARPA的需求也許比這個行業一貫預想得更大一些,但是由于Python以及這種語言已經獲得的投資,投資銀行和其他重要客戶似乎都考慮用Python來處理超大規模的數據。 對于這些人來說,這不過是一場數字游戲而已。”