新的工具捆綁了數據清理,拖放式編程以及云計算,可以幫助任何熟悉電子表格的人充分利用數據科學的力量。
數據科學可能從來都不是那么容易的,但它正變得越來越容易深入。像“機器學習”、“回歸”和“降維”這樣的術語雖然依然和以往一樣難以理解,但是人們正普遍希望能夠從這些技術中獲得好處,這導致產生了一些很好的工具,它們可以方便的為數據創建生產線,為我們想要尋找的答案提供支持。
這個秘密就類似于制造業的革命。正如標準化的部件幫助啟動了工業革命一樣,各種工具供應商的數據科學家已經開發了一系列非常強大、擁有廣泛適應性的分析例程。他們標準化了接口,使得使用這些可互換的數據科學工具來構建自定義管道變得更加簡單了。
數據科學家過去常常需要絞盡腦汁,因為80%的工作都是通過用Python,Java或他們喜歡的語言來制作自定義例程并準備分析數據的,所以R或SASS中那些復雜的統計工具都可以完成它們的工作。而現在市場上充斥著各種復雜的工具,它們將數百個經過良好設計的例程捆綁到了一個包中,以便為你完成大量重復且令人不快的數據清理和標準化工作。
這些新工具也為熟悉電子表格的人提供了機會。它們不會讓所有的準備工作都消失,但它們會讓事情變得更加容易。無需對數據格式大驚小怪,因為這些工具足夠聰明,可以做正確的事情。通常你只要打開文件就可以開始學習了。
這些工具還為云計算節省了大量成本。過去,數據科學家往往需要更強大的計算機來處理大數據集。而現在我們可以在云中租用更大、更快的機器,在提高處理速度的同時在每月報表完成時將硬件返回到池中,從而節省成本。
對于只需要訓練算法來預測明年趨勢的核心數據科學家和數據分析師來說,這些工具都是一個福音。所有用戶都可以享受使用復雜工具來正確處理數據的樂趣。不過,標準化也為全新的研究團隊深入研究數據科學提供了可能。現在,你不需要掌握R語言或Python編程就可以開始了。
當然,我們仍然需要深入思考統計學和機器學習。這些工具雖然還不能回答關于什么情況下使用神經網絡或聚類算法能夠獲得更好結果的策略性問題,但是它們可以使獲取所有數據變得簡單,并快速嘗試這兩種方法。當每個人能夠更容易的參與工業革命時,正如標準化消除了長期學徒和熟練工匠的需求一樣,這些數據工具也釋放出了越來越多的企業人員轉向復雜的數據分析以尋求進一步指導的潛力。
以下是有助于使數據科學實現民主化的六種工具。
Alteryx
Alteryx平臺的核心是它的設計工具,一個可視化編程IDE,允許用戶拖放圖標,而不是輸入文本程序。Alteryx平臺的目標用戶既包括數據科學家,也包括了普通的“公民用戶”,很好的迎合了那些不想在清理數據和修改數據以進行分析的細節方面遇到麻煩的人。該平臺試圖通過使用其可視化的編程模型來簡化準備工作以“顛覆數據準備中的80/20法則”。你只要將圖標拖放到數據管道中的正確位置,它就可以應用許多標準化的任務,比如按客戶編號來實現分組或連接兩個文件。
Alteryx還提供了許多用于分析數據和繪圖推斷的預定義預測模型。這些看起來像是用于數據處理的圖標,實際上都是相應的R或Python程序,Alteryx為你省去了處理它們的復雜性和基于文本編碼的麻煩。在設計工具中,數據會自己沿著圖標之間的直線流動,你不需要擔心逗號、方括號或其他的編碼問題。
現在,Alteryx平臺正朝著一個更多的以服務器驅動的模式發展,在這個模型中,你構建的代碼將駐留在一個可以擴展到更大數據集的服務器上。如果你的數據需要增強,Alteryx也已經從Dun & Bradstreet或DigitalGlob等公司獲得了商業數據集授權,可以幫你自動填寫表格。
當你在個人PC上完成模型的設計時,Alteryx也提供了將模型發布到中央服務器的基礎設施,然后將圖形化摘要分發給業務中的每一個人。Promote工具會負責將日常生產數據分發給企業中合適的人員,以便他們能夠使用預測建模的結果。
這款設計工具的標價是每位用戶每年5195美元,但是如果想要使用附加的功能,比如包含人口統計數據或空間數據的數據集,則可能會增加33,800美元。中央服務器的起價為58,500美元,此外,Promote還提供了用于協作和連接的額外功能。
Domino
Domino也是圍繞實驗室開始的一個可視化集成開發環境(IDE),能夠通過將圖標和管道連接在一起來構建模型。不同之處在于Domino也對其他工具開放。所有主要的和不太重要的基于Web的IDE都受到了支持,因為系統設計為所有這些IDE都進行了開放。大多數人可能會使用Jupyter或R-Studio,但其他工具,如Apache Zeppelin或SAS的工具也都得到了很好的支持。
Domino大部分的功能都致力于將數據轉換為模型所需的所有基礎設施。Domino的后端會仔細跟蹤各種版本的數據以及在此過程中的所有修訂和實驗。所有這些變更都會被無情地保存并鏈接到結果當中,以確保你可以隨時重新運行和復制結果。它非常強調存儲查詢的準確再現,以便其他人可以在稍后發現并重用該工作。
與單一平臺相比,Domino更像是一個基于Web的云網絡操作系統。該平臺的開放性依賴于一種相對標準的機制,用于將數據存儲在文件中并保持修訂的一致性。幸運的是,磁盤存儲比以往任何時候都要更加便宜。
Domino的主要賣點之一是它的云集成。你的實驗將運行在與他人共享的強大機器池中。如果你碰巧希望將自己的代碼部署到堆棧中,那么底層體系結構將完全圍繞Docker來進行封裝和構建。你可以為你的作業配置最佳大小,并從池中借用硬件,這對于數據科學工作來說是一個很好的解決方案,這些工作通常是斷斷續續的,并且在代碼準備好時以塊的形式進行分派。這是一個很好的解決方案,特別適用于那些在每周、每月或每季度數據準備就緒時才會進行批量處理大部分計算的情況。
Domino的定價是“根據Domino所運行的位置(我們的托管基礎設施、你的私有云或內部環境)而定的年度訂閱”。云選項將根據所消耗的資源對你進行收費。
RapidMiner
RapidMiner是一個將數據轉換為可操作模型的自動化程度更高的工具。它的IDE允許用戶將數據轉換構建為由線來連接的圖標集合的可視化描述。最有用的部分可能是其AutoModel功能,它可以根據你的數據和目標為你組裝許多這樣的圖標。完成之后,你就可以打開模型并調整各個部分了。
有大量的擴展可以用來幫助你處理許多更奇特的挑戰,比如理解從網站上下載下來的非結構化文本。還有許多用于處理時間序列數據的工具,例如用于重建丟失的數據元素以及形成(和測試)對未來的預測的工具。
如果你的數據集較大,RapidMiner也可以滿足你的需求。那些擁有并行解決方案的人可以使用RapidMiner的擁有Hadoop和Hive集成的版本“Radoop”。還有一個基于服務器的解決方案,可以從AWS,Azure或您自己的本地服務器配置云計算機。基于服務器的生態系統促進了與集中的數據和分析存儲庫的協作,這些數據和分析可以安排在生產中交付報告和見解。
每種產品的定價模型都是獨立的。桌面版有一個免費的社區版,但它缺少兩個最吸引人的特性:用于清理數據的TurboPrep和用于生成結果的AutoModel。一個初級版本的價格為每位用戶每年2,500美元起,該版本的數據行數限制為100,000行。更大的數據集和部署更多處理器的能力則需要更高的成本。在辦公場所安裝自己版本的服務器工具起價為15,000美元,但你也可以在RapidMiner的云版本上購買使用時間,起價為每小時6.75美元。
Knime
Knime是一個開源的數據分析平臺,具有一個可視化的IDE,可以將各種數據處理和分析例程鏈接在一起。其核心軟件是免費發布的,但是一些插件和擴展也有相應的商業版本,并且費用主要用于支持開發。你還可以使用在云中或你自己的計算機上運行的服務器版本。
該軟件的基礎是用Java編寫的,所以Knime的許多集成都依賴于Java生態系統。用戶也許會注意到Knime IDE是構建在Eclipse之上的,這使得Java開發人員可能會更加熟悉它。該平臺可以處理所有主要的數據庫(MySQL,PostgreSQL)和云服務(Amazon Athena,Redshift)中的數據以及任何其他具有JDBC兼容連接器的數據。Knime提供了一個與“數據庫內處理”特別緊密的集成,這可以加速你的工作。它還集成了下一代的分布式數據工具,如Apache Spark。
它擁有一個強大的開源社區以支持大量的擴展和工作流程,可以自由使用,修改和定制,其大多數代碼托管在GitHub或Bitbucket上。此外,它還有大量的商業擴展,并提供集成支持。
那些嚴重依賴Google Web應用程序的公司也可能會喜歡更深層次的集成。Knime可以讀取和寫入Google表格中的數據,這也是一種將數據分析引入經常使用Google電子表格的辦公室的潛在有效方式。
其企業服務器產品有三種規格,包括了不同的額外功能。初級版本支持5個用戶和8個核心,每年8500美元起,主要針對分析團隊。而高級版本則允許你將結果分發給組織內的其他人。
Talend
Talend提供了一系列可以在桌面、本地數據中心或云中運行的應用程序。該公司的多層工具可以在轉換數據并進行分析之前使用,它會從各個倉庫和數據庫中收集數據。例如,管道設計器提供了一個可視化設計工具,用于從各種數據源提取數據,然后可以使用標準工具或Python擴展對其進行分析。
其開源版本可以在幾個包中免費獲得,比如open Studio for Data Quality和Stitch數據加載器。云計算版本的起售價為每位用戶每月1,170美元,年度用戶和規模更大的團隊也可享受折扣。價格是按人數計算的,而不是基于消耗的計算資源。而Data Fabric的定價則是通過報價來完成的。
Looker
Looker瞄準的是那些常因太多數據源和太多數據版本而引起混亂的用戶。它的產品創建了一個可靠精確的、受版本控制的數據來源,可以由下游的任何用戶操縱和繪制圖表。從業務用戶到后端開發人員,每個人都可以創建自己的儀表板,其中可以包含根據個人喜好配置的數據和圖表。
該平臺是圍繞著開源世界的許多標準而構建的。數據和代碼可以在Git的控制下發展。儀表板可視化則來自D3。你可以使用LookML來從SQL數據庫中收集數據,LookML是一種類似于常規命令式編程語言的自定義查詢語言。
谷歌最近宣布將收購Looker并將其集成到谷歌云中。這次收購將如何影響該平臺還有待觀察。其價格可按要求進行提供。
其他能夠使數據更容易訪問的工具
上述工具并不是改變我們處理數據方式的唯一選擇。一些其他的工具和平臺也在集成類似的想法。主要的云計算公司也都提供了分析存儲系統中數據的工具。例如,Azure的Databricks提供了用于配置Apache Spark的靈活用戶界面,而Data Factory則提供了一個用于提取,轉換和加載所有數據的可視化工具。
一些工具會更側重于機器學習和其他形式的人工智能。亞馬遜的SageMaker簡化了構建、培訓和部署機器學習流程的工作,在一個開放的市場上提供了100多種算法和模型。H20.ai則提供了他們所謂的“無人駕駛AI”,這是一個使用Apache Spark構建的開源平臺,可以用來簡化模型創建和分析。
以上這些都集中在了一組工具集上,這些工具可以提升我們探索數據的能力,讓我們更清楚地理解所有數字的含義。