有結構、無結構數據的崛起創造了一個蓬勃發展的市場,其價值預計將在 2018 年達到415億美元左右。大數據市場的快速增長造就了大量的供應商的出現,他們都希望能從中獲利。在眾多競爭市場地位的供應商中,有許多旨在幫助組織收集和分析數據的創業公司。CBR(計算機商業評論) 從中選出了10個值得被關注的公司。
1. Confluent
Confluent 公司成立于 2014,已經獲得超過 3000 萬美元的投資,這些投資來自于 LinkedIn、Index Ventures、Benchmark Capital 和 The Data Collective 等投資者。
該公司由 Apache Kafka 的開發者們創立(Apache Kafka是一個實時通訊和大數據流引擎)。其最初創立于 LinkedIn 內部,而后歸入 Apache 軟件基金會旗下,最后分離出來作為一個獨立的公司。Confluent 本質上是 Apache Kafka 軟件的商業提供者和技術支持者。當還在 LinkedIn 的時候,Confluent 已經開始幫助 LinkedIn 全面檢測公司里發生的一切,作為一個實時的 Kafka feed,為 Hadoop、Search、Newsfeed 等數據系統填入數據。
Confluent 專注于構建一個數據流平臺,從而幫助企業獲得實時的企業數據。Confluent 提供的編程語言包括 Java、C 語言和C++,通過其 REST 服務器,可以使用任何網絡連接工具來生成信息、實現通訊。
2. H2O.ai
H2O.ai (曾用名 0xdata)公司成立于 2011,已經獲得了 3360 萬美元的投資,這些投資來自于 Nexus Venture Partners、Paxion Capital Partners 和 Transamerica Ventures 等投資者。
該公司由 Platfora 和 Cliff Click 的聯合創始人 SriSatish Ambati 創立,他還是 Java 虛擬機的領頭開發者。公司創立之初的想法是,讓開發人員和數據學家更簡單輕松地應用機器學習算法。
該公司提供一個開源的機器學習平臺,其設計是為了在使用 Web UI 或者不同的編程環境(如 R、java、python、Scala 、JSON)的同時,也能使用 Hadoop 和 Spark。該平臺支持的數據庫和文件類型包括微軟 Excel、R Studio、和Tableau。H2O可以幫助開發模型培養機器學習能力,從而可以對數據進行解析、獲取和模擬。
最基礎的是,該技術有助于快速創建和應用機器學習算法。
3. AtScale
Atscale 成立于 2013,至今已募集了900萬美元的投資,這些投資來自于 AME Cloud Ventures、Storm Ventures 和 UMC Capital 等投資者。該公司的想法是使用熟悉的商業智能(BI)工具和界面(如 SQL、Tableau)和 Hadoop這樣的技術解決問題,也就是,它們在商業用戶、可視化工具和基礎 Hadoop 平臺間建立橋梁。
其目標是幫助企業對現有數據進行數據分析,而且不需要將數據移入專門的分析工具,因為移入專門的分析工具有時間和金錢成本。
Atscale 由 Hadoop 和 BI 的前員工創立,他們具備把 Hadoop 集群轉變成規模化 OLAP 服務器的能力。另外,Atscale 支持 BI 工具,可以和 SQL 或 MDX 進行信息交流。
4. Interana
把提供事件數據的行為分析作為自己招牌的 Interana 公司幫助企業做數據主導的決策。該公司成立于 2013 年,由首席執行官 Ann Johnson 和首席技術官 Bobby Johnson 聯合創辦,目前完成了 2820 萬美元的融資,其中在由 Index Ventures 領投的 B 輪融資中獲得了 2000 萬美元。
Interana 專注于提供互動分析,幫助企業了解他們客戶的行為和產品使用情況。該公司使用一個專有的數據庫,能讓它快速處理數十億的事件。例如像 Tinder 這樣的公司用它來進行網絡連接故障檢修,測量社交媒體的有效性,以及監測用戶的刷機方式。Tinder 在全公司廣泛使用 Interana,從而改善自己的服務和操作。
5. Tamr
Tamr 結合了機器學習軟件和數據科學。該公司由 Andy Palmer、Mike Stonebrake 等人共同創立,他們都是數據研發的老兵。
Tamr 使用一個可擴展的數據統一平臺,通過機器學習和人工輸入的方式,幫助客戶使用被孤立在不同的數據庫、電子表格、記錄數據、和合作伙伴資源里的數據。
Tamr 一種獲得 4240 萬美元融資,其中在最近的 B 輪融資中得到 2520 萬美元。主要投資者包括 Hewlett-Packard Ventures、Thomson Reuters 和 MassMutual Ventures。簡單來說,Tamr 是一個數據清理的創業公司,旨在清理來自不同資源的數據,從而讓數據更容易被使用。
6. Wavefront
Wavefront 成立于 2013 年,總部設在加利福尼亞的帕洛奧圖,至今已獲得 2050 萬美元投資,這些投資來自于 Sequoia Capital、Sutter Hill Ventures 和 Webb Investment Network 等投資者。
該公司提供一個實時的分析平臺,可以把一個 IT 公司所有系統中的數據抽離出來,通過識別和診斷以預防崩潰。Wavefront 使用了一種查詢語言,從而可以對時間序列數據進行處理,它也允許用戶通過下拉菜單、過濾器和自動生成表格來手工查詢。該技術最初是在 Google 和 Twitter 內部開發,現在正在被 Box、First Data 和 Workday 等公司使用。
7. BlueTalon
BlueTalon 是另一家成立于 2013、總部在加利福尼亞的公司,只不過它位于 Redwood。該公司至今已籌集了 1140 萬美元的投資,這些投資來自于 Data Collective、Signia、Venture Partners 和 Bloomberg Data 等投資者。
BlueTalon 為大數據提供數據中心安全保障,例如 Hadoop、SQL,它主要是對 Hadoop 分布式文件系統使用訪問控制和動態掩蔽實現這一點的。
除了在 Hadoop 上有效,它也能在微軟 Azure 和亞馬遜網絡服務上工作。據 BlueTalon 所言,它允許用戶自定義數據配置設定,這意味著企業用戶和開發人員可以只訪問他們所需要的數據。該公司還提供審核服務,讓用戶知道什么人在什么時候,因為什么原因訪問了什么數據。
8. Cazena
Cazena 雖然只是成立于 2014,但已經從諸如 North Bridge Venture Partners、Growth Equity、Andreessen Horowitz 和 Formation 8 等投資那里籌集了 2800 萬美元。在 2015 七月重新回歸之后,Cazena 帶來了一項叫做 Big Data-as-a-Service 的大數據服務。據該公司表示,將大數據處理轉移到云端的過程只需要輕輕點擊三次。
該公司專注于通過 Data-As-A-Service 大數據服務實現在加密的云端進行大數據處理。它的產品分為 Data Lake、Data Mart 和 Sandbox 三個版本。
為了智能工作,該公司供應和優化了云端基礎設施,其中也包含 Hadoop、Spark、MPP SQL、Search 這樣的數據技術。
另外,Cazena 提供端到端的數據加密技術,企業掌控著靜態和動態秘鑰。
9. DataTorrent
DataTorrent 成立于 2012 年,是這 10 家公司中的老創業公司之一。到目前為止它已募集到 2380 萬美元,其中包括由 Singtel Innov8 領投的1500 萬美元的 B 輪融資 。
該公司專注于實時大數據分析技術,其技術基礎是一個開源的數據流和處理引擎,該公司表示此引擎在 Hadoop 集群中,每秒可以處理數十億的事件。
DataTorrent 支持攝入的數據來源有 Kafka、AWS S3n、HDFS、NFS、JMS等等。
DataTorrent RTS Core 是一個開源的企業級統一的數據流和批量處理引擎。它提供了一整套系統服務,可以幫助開發人員專注于 Business Logic。該公司還提供一個完整的 Hadoop 集成應用的管理控制臺,為熄燈管理提供圖形界面。
10. Databricks
Apache Spark 這項技術如今已經在數據分析界非常流行。而這家公司正是由 Apache Spark 的開發者們在加州大學伯克利分校的 AMPLab 實驗室創立。Databricks 是 Spark 的商業服務和支持提供商。
這幾位開發者想要借助 Spark 在整個社區和眾多廠商(IBM)那里的影響成立 Databricks 。 Databricks 本身也為交互分析、可視化、管理數據,以及協作與集成提供工具。
在 2013 年成立后,它開始用 Spark 幫助客戶進行基于云端的大數據處理。Databricks 已經在兩輪融資里籌集到 4700 萬美元,其中 2014 年 6 月 B 輪融資獲得 3300 萬美元。
該公司與 Spark 的發展緊密聯系在一起,而在最近也公布了三個特征變化。其中一個是開始執行 Tungsten 項目的下一階段從而加速 Spark,他們是通過解決 Java 的記憶處理限制、改善實時數據流系統、將其使用的多種數據結構 API 整合為一個 API 實現加速目的的。