企業需要從大量收集的數據中攫取價值,但很多企業似乎無法找到足夠的數據科學家來做這件事。因此數據科學作為一項服務變呼之而出。
處于如此困境的企業可以把他們的原生數據外包給類似DataScience這樣的公司,這是一家位于加利福尼亞Culver City的創業公司。其分析團隊對數據進行清理并使用復雜的建模工具、國產軟件來提供建議,這樣客戶就可以根據這些建議來改進產品和服務,展他們的客戶群,最終增加收入。
SearchBusinessAnalytics與DataScience的CEO兼創始人Ian Swanson談論關于新興數據科學作為一項服務的發展空間。他談及其數據科學家組成的團隊能夠提供數據分析工具無法提供東西,數據科學驅動收入的方式以及其風險投資公司如何在不到兩年的時間內獲得并發展了一個強大而穩定的數據科學家和數據工程師團隊,而與此同時大量的科技公司卻往往是很艱難地做著同樣的事。
公司們長期以來便利用數據來改善運營效率,但如今越來越多的是強調以新的方式來使用數據連接客戶以促進銷售。那么如今還有哪些新穎的方式可以讓你來使用數據呢?
Ian Swanson:我們擁有的訂閱電子商務公司每年的業務超過十億。我們能夠識別哪些客戶會有在下月離開的風險,他們生命周期的潛力是什么以及如何才能留住他們。生命周期價值是我們連接顧客的核心。很多企業試圖使用瘋狂的Excel數學來解決該問題。我們在細粒度水平進行觀察(很多屬性和特性)以決定一名客戶的生命周期價值。我們可以通過在該屬性上有針對性的投放特定廣告來增加客戶。
數據貨幣化對于你的客戶來說到底有多重要?
Swanson:某些公司將其看得很簡單,即我們要如何銷售數據?而我們看待它的方式是:我們要如何利用數據來增加收入?
我們與一家連接技術公司協作來找出他們的客戶到底是如何使用他們的產品的。企業可能會使用典型群體來了解如何對自己進行營銷,但是這些我們能夠收集在一起的元素顯示了客戶是為什么以及如何使用他們產品的。我們查看了他們所有的數據并雇用了幾個數據科學技師來發掘大多數人是如何使用產品的并決定如何來對產品進行營銷。我們提供建議來幫助客戶支持團隊利用我們客戶能夠控制的東西將顧客從批評者轉變為促進者
我們還可以對一款尚未上馬的產品預測供需,因此一家公司就能夠將其并入他們的財務預測。公司通常會用遙不可及的邏輯來做這件事,但我們會用科學手段來完成。
對于那些將數據科學作為一項服務的公司來說,他們的員工中是否有數據科學家呢?
Swanson:是的,我們所有的客戶都至少會擁有一個。財富500強公司擁有強大的數據科學團隊,但他們可能不會集中在市場營銷和客戶服務以及人力資源上。內部數據科學團隊通常不具有技術或能力完成所有工作。我們是一個75人的團隊,其中70人是數據工程師或數據科學家。
對于這一點,我們非常重視,但是我們也已經在構建知識產權,以處理人們需要解決的問題。我告訴我的團隊,任何你需要用來讓工作變得高效的工具都可以購買。在這樣的環境中,有一些相互并不連貫的工具用于連接,清理,探索,數據角力,建模,但它們結合的并不好。我們已經在內部生產中使用了自己的工具,而且我們將會把它們打包并提供給客戶使用,這樣他們就能使用和我們一樣的工具。
你使用什么類型的基礎設施來支持你所有的數據處理工作?
Swanson:我們是Amazon Web Services的重度使用者,但是我們的技術還可用于Azure,因此我們并不受困于此。根據數據科學工具,如果你考慮一名數據分析師的路徑,它們使用的是R,Python或者Scala語言。我們5%是R語言,大部分是Python,但也處在Scala和Spark的前沿位置。我們建立了真正的預測模型。
數據科學作為一項服務是否成功取決于公司是否以他們最為珍貴的財富(即數據)來信任第三方。你是如何克服這一信任問題和數據安全考量的?
Swanson:數據隱私和安全對我們來說是相當重要的,而且我們并不需要個人身份信息。例如,我不需要知道一名客戶的姓名是Joe Smith,我可能只需要他的用戶ID。因此,我們可以與大型上市公司進行協作。
我們已經通了數據隱私和安全測試,這是由American Express的一個90人的團隊對我們進行審查的(American Express在2011年收購了Swanson的虛擬貨幣公司Sometrics)。還沒有一家客戶因為數據安全方面的考慮而拒絕過我們。
你正在和如此之多的公司競爭,他們雇用了數據科學家,而且在人才資源有限的環境下,你要如何為你的團隊聚攏人才呢?
Swanson:我們在過去一年半籌集了3000萬美元的風險基金,而且當我在和VC公司討論的時候,他們都說我們瘋了,認為我們永遠無法招到合適的人。我們在三個月內證明了我們業務規模的擴張和增長。現在我們一個月可以收到超過1000份求職數據科學職位的簡歷。
我們還會穿梭于各種會議、活動,而且我們開展了DS12,這是一項為期12周的面向學生的數據科學實習項目。它是一個真正的并非入門級數據科學課程,而且我們并不對它收費;我們會支付他們的住宿,而且他們會獲得少量報酬。我們會向其他公司開放該課程,這樣他們也能從中學到東西。這關系到為數據科學領域增值。
像IBM和Microsoft這樣的大型科技公司強調大數據分析,而且他們正在尋求雇用數據科學專家。我可以想象類似這樣的人收購你的公司,從而迅速獲得人才。你是否有被主流科技公司接洽過關于收購的事宜呢?
Swanson:是的,有很多。
對于要如何談論這個問題我必須謹慎——大公司們已經找過我們,而且我們已經拒絕了,而原因是在這一領域中公司眾多,但沒有幾家知道如何去增值。DataScience可以成長為一家大公司。我們的五年愿景是想成為研究,教育,服務和知識產權領域的思想領袖,而在今天這樣的組合并不存在。
博士學位并不是成為數據科學家的前提,你需要成為某項技術,特定業務線的專家,這樣我們的人才混合才是獨一無二的,而且這對于公司才是有價值的。
與此同時,有很多的自助分析工具來協助人們在沒有數據專家幫助的情況下連點成線并作出更好的業務決策。公司需要數據科學家的真諦是什么呢?
Swanson:類似Tableau或Domo的工具對可視化和常識是有好處的,但不適用于影響公司未來的營銷決策。它們是回到過去的一扇窗,但這扇窗并不通向未來。它們可以反映公司當前狀況,但無法給出公司的未來描述。
我們使用模型做的事包括以95%的準確率預測客戶流失。有些客戶想知道這樣的百分比是真的么?但是想想現在人們是如何做出決策的。他們是在一間會議室里看著Excel表格決策的。我們認為要將科學應用到該過程中來。這是與你的直覺和經驗并駕齊驅的另一款武器。