現在所有人的注意力都集中在人工智能上,似乎VR的火熱帶動了人工智能的發展。最近對全球大學人工智能教育的排名中,中國暫無高校上榜。相比于國際上各大高校實驗室的火熱,國內高校的動作似乎有些偏慢了。就好比加州大學伯克利分校AMP實驗室所開源的Hadoop MapReduce通用并行框架Spark,在開源社區的貢獻下,勢頭只增不減。近日,據外媒報道,Spark將納入機器學習和GPU機制。
機器學習大家都不陌生了,GPU加速其實一直是機器學習的得力輔助,CUDA就是我們眾所周知的GPU加速套件。Databricks是一個基于Apache Spark的商業性云服務平臺。Spark是一個開源集群計算框架,包括機器學習庫、集群管理器、類Jupyter的互動筆記本、儀表板和作業預定。有了Databricks(作服務)后,Spark發展顯著加快且Spark集群不斷向外擴展。Databricks通過簡化對GPU加速型機器學習庫的訪問支持Spark服務。GPU加速器和多個深度機器學習庫集成,理論上可以在本地任何位置實現Apache Spark安裝。但Databricks方面表示,為了避免資源爭用情況給功能的實際使用帶來復雜性影響,其版本目前仍處于調整階段。
Apache Spark不是自動提供并配置GPU加速器的,它是通過建立系統來支持的,早前用戶必須自己搭建。為此,Databricks主動承擔起這些復雜的前期工作。
Databricks方面表示,將通過減少節點之間的資源爭用數量,最大化Spark上GPU集群的性能優勢。這一策略似乎與麻省理工學院的Milk看起來類似,Milk是通過加速并行處理應用程序,與內存相關的操作一律使用批處理,以保證充分利用系統的緩存資源。同樣的,Databricks試圖保證GPU的各項操作不會因為彼此的資源爭用而中斷。另一個比較節省時間的方法是添加直接訪問機器學習庫,這樣就可以把Spark作為數據源。這其中就包括Databrick的TensorFrames,目前Spark已經與TensorFrames打通,同時實現了GPU加速。
出于對Spark的考慮,Databricks調整了眾多基礎設施,創造了一個免費的服務吸引那些仍然持謹慎態度的用戶,包括提供成熟產品中的部分功能。InfoWorld的Martin Heller今年早些時候就曾對該服務做出評價,除了免費之外,他認為該服務很容易使用,門檻不高。
但該領域的競爭還是十分激烈的,尤其是要面對一些巨頭玩家的壓力,比如擁有Azure機器學習的微軟,IBM以及Amazon。如果比燒錢,比免費,小公司難以與大公司競爭;比技術,小公司也不見得擁有多優秀的技術人才。因此,Databricks必須找到方法去保持和擴大服務受眾,專注打磨自己的產品,尤其是要突出產品特色,避免產品同質化。這似乎不僅僅是增加幾個機器學習庫那么簡單了,而是在此基礎上確保使用的便利性,而不是增加其使用復雜度。