在過去的幾年中,我們已經看到了許多基于建立預測模型的數據產品。這些產品包括從氣象預報到推薦引擎,再到航班起降時刻預測服務,它的預測甚至比航空公司本身更準確 。 但是,這些產品還只是進行預測,而不是告知對此預測結果該采取怎樣的行動。預測技術可以是有趣的,而且具有數學上的優雅性,但我們需要更進一步。這項技術可以幫助我們建立徹底改變整個行業的數據產品,有什么理由不去創建呢?
作為介紹這個過程的開始,我們已經改變了保險業的四部曲方法。 我們把它稱為傳動系統方法,靈感源于新興領域的自駕駛車輛。工程師先是定義一個明確的目標 :他們想要汽車在無人干預地情況下,安全地從A點行駛到B點。成功的預測建模是這一解決方案極為重要的部分;但隨著產品復雜度的提高,它將不再是一個獨立的部分,而是融入到產品銜接中了。一些使用谷歌的自動駕駛汽車的人并不知道,使它它工作的是其背后上百成千種的數據模型和PB級的數據。數據科學家構建的產品日益復雜,他們需要一個系統的設計方法。傳動系統方法不一定是最好或唯一的方法;我們的目的是在數據科學和商業社區之間建立起對話,以推動我們共同的目標。
基于目標的數據產品我們正在進入數據驅動的時代,使用數據不只是為了產生更多的數據(比如預測性數據),而是從數據知道該采取什么行動。這就是傳動系統方法的目的。為了最好的說明這個過程,我們來看一個非常熟悉的數據產品:搜索引擎。回到1997年,AltaVista還是算法搜索世界的王者。雖然它們的模型善于尋找具有相關性的網站,但是用戶最感興趣的結果往往出現在搜索結果中的百頁以后,用戶幾乎不可能訪問到。之后,谷歌來了,以一個簡單的問題改變的在線搜索:用戶搜索的主要目的是什么?
傳動系統方法的四部曲。
谷歌認識到,搜索目的是為了找到最相關的搜索結果;對于其他公司,目的可能是增加利潤、改善客戶體驗、找到機器人的最佳路線,或是對數據中心進行負載平衡。一旦我們定義了目標之后。
第二個步驟是找出系統中可控的輸入 ,即那些可以調整并影響最終的結果的杠桿因素。對于谷歌,他們可以控制搜索結果中的排名。
第三步是思考產生這樣的排名需要什么樣新數據;他們意識到,網頁被鏈接到哪些其它網頁這一隱含的信息可以被用于此目的。
只有這前三個步驟后,我們開始思考建立預測模型 。
我們的目標、可用的杠桿因素、已有的數據加上所需收集的額外數據,決定了我們能建立何種模型。可控杠桿因素和所有不可控因素都將作為該模型的輸入;模型的所有輸出結果將被結合起來預測我們目標的最終情況。
谷歌所用的傳動系統方法中的第四步現在已是高科技歷史的一部分了:拉里·佩奇(Larry Page)和謝爾蓋·布林(Sergey Brin)發明了圖的遍歷算法PageRank,并由此建立了革命性的搜索引擎。但是,你也不是非得發明下一個PageRank才能建立一個了不起的數據產品。我們將介紹一個系統化的步驟四方法,沒有計算機博士學位也照樣能用。
模型裝配線:最優決策組的案例研究從合適的預測模型優化出下一步該如何行動,這可能是公司最重要的戰略決策。對于保險公司,價格政策就是他們的產品,所以一個最優的定價模型之于它們就像是制造裝配生產線之于汽車生產商。保險業有幾百年的預測經驗,但在近十年,保險公司往往對于每名新客戶該收取多少費用無法做出一個商業上最優的判斷。他們的精算師可以建立模型來預測客戶發生事故的可能性和相關索賠的預期值,但是這些模型并不能解決定價問題,所以保險公司只能在結合市場研究的基礎上猜測一個定價。
這種情況在1999年因為一家名為最優決策小組 (ODG)的公司而得到了改變。作為傳動系統方法的一個早期運用,ODG實踐了其中的步驟四——它可以應用于很多廣泛的問題。首先,他們定義了保險公司的目標 :最大化新顧客在一段年限內的利潤凈現值,但同時又要考慮到一些其它因素,例如保持市場份額。就這樣,他們發展出一個優化的定價過程,為保險公司增加了數百萬美元的保底利潤。[ 注:本文的共同作者杰里米·霍華德(Jeremy Howard)創辦了ODG。
ODG 確定的那些保險公司的可控杠桿因素:向每個客戶收取的價格,覆蓋的事故類型,在市場營銷和客戶服務上花的花費,以及如何應對其競爭對手的定價方案。他們也考慮了不可控因素:如競爭對手的戰略、宏觀經濟的情況、自然災害以及客戶的“粘性”。他們還考慮了需要什么樣的額外的數據來預測客戶對于價格變動的反應。為了建立這些數據集,這就有必要持續幾個月地隨機改變成百上千條定價策略。雖然保險公司不愿在這些真實客戶身上做實驗,因為他們顯然會因此失去一些客戶;但在優化定價政策可能帶來的巨大收益面前,他們還是動搖了。最終,ODG開始設計能夠最大化保險公司利潤的模型 。
傳動系統方法第四步:模型裝配生產線。圖形化的數據產品的模型裝配生產線,可將原始數據轉化為下一步的行動。這個建模器將原始數據轉換成稍加提煉的預測數據。
ODG建模器中的第一個組件是一個關于新保單和續單的價格彈性模型(用戶接受一個給定價格的概率)。價格彈性模型反映的是用戶接受保單的概率和保單價格之間的關系。這條曲線從低價時的幾乎肯定接受一直到高價時的幾乎不可能接受。
ODG 建模器第二個組件在考慮能夠接受保單價格的客戶的情況下,把保險公司的利潤和產品價格進行關聯。極低價格下的利潤在考慮第一年的預期索賠加上獲取及維護新客戶的開銷后被計算出,并被顯示為紅色。這兩條曲線相乘將得到一個最終的曲線,顯示了價格與預期收益的對應關系(見下方的預期利潤圖 )。最后的曲線有一個清晰可辨的局部最大值,表明了第一年應當給于用戶的最佳價格。
預期利潤
ODG還建立了客戶忠誠度的模型。這些模型在考慮價格變化和客戶轉投競爭對手公司的意愿的情況下,預測客戶是否會在一年內續保。這些額外的模型結合年度模型將能夠預測未來五年內一個新用戶所能帶來的利潤。
這套新的模型仍不是一個最終答案,因為它只能確定一個給定輸入的結果。“裝配生產線“上下一個”機器“是一個模擬器 ,通過它,ODG可以問“假如……會怎樣”的問題,來觀察杠桿因素是如何影響最終結果的分布的。把可能出現的結果作為一個曲面,預期利潤曲線僅僅是這個曲面的一個切片。要建立整個曲面,模擬器需要在模型上運行大范圍的輸入。操作員可以調整輸入的杠桿因素桿來回答一些特定的問題,比如“如果公司在第一年為客戶提供一個誘惑性的低價,然后在第二年提高價格,將會有何結果?”他們也可以探尋那些對于保險公司來說的不可控因素是如何影響利潤的分布的:“如果經濟崩潰并且客戶失去了他的工作,那會怎樣?如果他的家遭遇了百年一遇的洪水又如何?如果一個新競爭者進入市場,我們公司又不加應對,會對我們的底線造成怎樣的影響?“由于模擬是在每一個政策層面的,保險商可以看到一組給定的價格變動對收入,市場份額,隨著時間的推移和其他指標的影響。
模擬器的結果將被導入優化器 ,它將確定出代表了所有可能結果的曲面中的最高點。優化器不僅找最好結果,它也可以識別那些災難性的后果,并告知如何避免它們。我們已有很多不同的優化技術可供選擇(見下面的邊欄 ),這是一個為人所熟知的領域,已有了強健和易用的解決方案。雖然ODG的競爭對手在找最佳的價格上所用的技術有所不同,但他們推出的同樣是一個具有全局性的數據產品。使用動力傳動系統模型和模型裝配線相結合的重要價值在于,這樣就可以在預測模型和可采取的行動項之間架起了一座橋梁。 CloudPhysics公司的伊爾凡·艾哈邁德(Irfan Ahmed )對預測模型進行了良好的分類,并且描述了整個裝配線過程:
“在需要處理成敗上千個組件模型以了解整個系統的行為的時候,”搜索“的運用是必需的。我把它看成是一個用來揭開帷幕的復雜的機器(整個系統)通過受控的實驗,我們對這個機器的每個重要部分建模,然后模擬的它們之間的相互作用。注意這里的不同層次:各個組件的獨立模型;在一個給定的一組輸入的模擬器重相互捆綁在一起;通過搜索優化器在不同的輸入集合上進行優化迭代。“
邊欄:現實世界中的優化
優化是一個經典的問題,從牛頓和高斯開始直至現今的數學家和工程師們都在對此進行研究。許多優化過程是迭代的,這就像是先走一小步,查看我們的高度,然后再向上一小步,直到我們達到一個無論向哪個方向都無法爬上更高的點。這一爬山方法的危險之處在于,如果步子太小了,我們可能會逗留在山腳下的局部最大值中,這就無法找到可控輸入中的最佳集合。已有很多技術用以避免這個問題,一些是基于統計學并且把對最佳結果的猜測范圍撒得更廣;還有一些是基于自然界中見到系統,像是生物進化或玻璃中的原子冷卻過程。
優化是一個我們在日常生活中都很熟悉的過程,即使我們從來沒有使用過類如梯度下降法或是模擬退火的優化算法。一個最近的TechZing播客提供了一個現實世界中優化的非常好的寫照,這篇播客來自于數據挖掘的競賽平臺Kaggle的共同創辦人。本文的作者之一解釋了一種迭代優化技術,然后主持人說到,“因此,在一定意義上杰里米(Jeremy),你的方法就像是在做一個創業公司—— 先做一些東西出來,然后反復地迭代,迭代,再迭代。”一句話,不管你是一個小型創業公司或者是一家保險巨頭,當我們要決定如何去我們想去的地方的時候,我們都在不自覺地使用優化。
推薦系統中的傳動系統方法讓我們來看看我們如何能夠應用此過程到另一個行業:市場營銷。首先,我們的傳動系統方法應用到一個熟悉的例子,推薦引擎,然后由此建立一個完整的優化營銷策略。
推薦引擎是為人熟知的數據產品例子,它是基于精心打造的預測模型的,但是并不牽涉尋求最佳結果。目前的算法會根據客戶以及和他相似的客戶和購買歷史來預測客戶會喜歡什么樣的產品,像亞馬遜這樣的公司,把每一次交易表示成一個巨大的稀疏矩陣,行是客戶,列是商品。一旦他們有了這種格式的數據,數據科學家就可以應用某種形式的協同過濾來“填寫矩陣”。例如,如果用戶A購買產品1和10,客戶B購買產品1,2,4,10,推薦引擎會建議A買2和4。這些模型能夠不錯地預測客戶是否會喜歡某個給定的產品,但他們推薦的產品往往是顧客已經知道或已決定不買的了。亞馬遜的推薦引擎可能是現有中最好的一個,但很容易就能顯示出它的問題。,以顯示其疣。以下這張截圖是關于在亞馬遜上搜索泰瑞 普萊契(Terry Pratchett)的“Discworld系列中最新圖書后,“購買了此商品的用戶還購買了“這一欄內顯示的內容。
所有的推薦都是同一系列的其他書籍,但是一個很好的假設就是:這些書對于一個搜索了“泰瑞 普萊契(Terry Pratchett)”的客戶都是早就知道了的書。一些預料之外的建議可能會出現在這一欄的第二到第十四頁,但有多少客戶會不厭其煩的一一看下去呢?
除了這種方法,讓我們用傳動系統方法來設計一個改進過的推薦引擎。我們從重新考慮我們的目標開始 。推薦引擎的目的是通過推薦一些如果沒有推薦,用戶可能不會購買,但是又能讓用戶驚喜和興奮的書,以此來推動額外的銷售。我們真正想要的是模擬馬克·約翰遜(Mark Johnson Zite CEO)的體驗 ,他在最近的TOC談話 中關于“客戶推薦體驗到底應該是怎樣的“給了一個極好的例子。他走進斯特蘭德書店在紐約市,并要求一本和托妮·莫里森(Toni Morrison)的“寶貝兒(Beloved)”類似的書。柜臺后面的女孩推薦了威廉·福克納(William Faulkner)的”押沙龍,押沙龍! (Absolom Absolom)”。而在亞馬遜上,一個類似搜索結果中最靠前的都是托妮·莫里森的另一些書和其他一些寫有關種族話題的知名女性作家的作品。斯特蘭德書商的推薦很有才,也很難做到。這個推薦可能更多的是基于莫里森的文筆特質而非和其他作者的表面上的相似性。她透過表面直達本質的推薦將使客戶帶著一本新書回家,并且在今后會一而再,再而三地回到斯特蘭德。
這不是說,亞馬遜的推薦引擎不能做到相同關聯性;可問題是有用的推薦被深深地隱匿在許多推薦項之下,遠在那些和“寶貝兒”有著明顯相似性的書之下。我們的目標是為了避免推薦的過濾泡沫。這一術語最早由禮·帕里澤(Eli Pariser)提出,用來描述個性化的新聞源有這樣一種傾向性:趨于顯示一些只有平淡無奇的大眾觀點的文章或者只是進一步確認讀者已有偏見的文章。
相對AltaVista-Google的例子來說,一個書商可以控制杠桿因素就是推薦排名。必須收集新的數據來生成新的推薦以此帶來新的銷售。這將需要進行許多隨機試驗以收集數據,這些數據需要覆蓋對于大范圍客戶的全方位推薦。
傳動系統過程中的最后一步是建立模型裝配線 。避免推薦泡沫的一種方法是建立一個包含兩種購買概率模型的建模器,分別針對看見推薦和沒有看見推薦的情況。這兩個概率之差就是對于一個給定顧客的推薦的效用函數(見下方推薦引擎圖)。函數值在兩種情況下很低:該算法推薦的是一本挺常見的,已經被客戶拒絕了的書(兩個都是低函數值)或一本即使不推薦,他也會買的書(兩個都是高函數值,亦顯示不出區別) 。我們可以建立一個模擬器來測試我們庫存中種種圖書的效用;或者只是把協作過濾模型(有關相似客戶的交易的模型)的輸出結果重新處理一邊,然后建立一個簡單的優化器,把推薦的圖書按照模擬出的效用來排名顯示。通常來說,當我們選擇一個目標函數來優化時,我們更多強調的是“目biao”而非“功能”。什么是我們數據產品的用戶的目的?我們到底在幫助他做怎樣的選擇?
推薦引擎
優化顧客終身價值
相同的系統方法可以被用來優化整個營銷策略。這可以包括零售商在實際買賣交易之外和其客戶的所有互動:是否做產品推薦,鼓勵客戶了解網上商店的一個新功能,或是發送促銷活動信息。選擇錯誤的代價對于零售商意味著利潤減少(打折銷售并沒有帶動額外的營業額),損失機會成本,(例如主頁上的稀缺性房地產信息,以及推薦欄位被一些用戶不喜歡或者即使沒有推薦也仍然會購買的東西所占據),或是導致客戶的流失(發送了過多無用的電子郵件促銷,導致客戶把所有將來的郵件過濾成了垃圾郵件)。我們將告訴你如何去建立一個優化的營銷策略,來減輕這些影響。
在之前的每個例子中,我們都首先問一個問題:“什么是營銷策略試圖達到的目標?”答案很簡單:我們希望優化每個客戶的終身價值。第二個問題:“有什么杠桿因素 是我們可以加以利用去實現這一目標的?”有不少,例如例如:
我們可以使產品推薦是令人感到驚訝和愉悅的(使用上一節中列出的優化建議)。
我們可以針對顧客并沒完全準備購買或是會去其他商家購買的產品提供量身定制的折扣或特殊的優惠,
我們甚至可以同過客戶關懷電話,關心用戶有多喜歡我們的網站,讓他們覺得他們的意見是有價值的。
我們需要收集怎樣的新數據?不同情況的答案各不相同,在這一步,一些網上零售商正采取創造性的方法。在線時尚零售商的Zafu展示了如何鼓勵客戶參與這個收集過程。賣名牌牛仔布的網站很多,但對于很多女性來說,高檔牛仔褲的服裝是她們從來沒有在網上買過的,因為不試穿的話難找到合適的。Zafu的做法是不讓客戶直接去看衣服,而是用一些簡單的問題作為開始,通過詢問客戶的身型,以及其他牛仔褲的合身情況,和他們的時尚偏好。這些之后,客戶才開始瀏覽Zafu 從庫存挑選出的推薦。數據收集和推薦不再是一個附加功能,他們已經是Zafu的整個商業模式 —— 女式牛仔褲既是數據產品。Zafu可以把他們的推薦調整得就像是他們的牛仔褲一樣的合身,因為他們的系統問了正確的問題。
以目標作為開始迫使數據科學家們開始考慮他們需要為建模器建立哪些額外的模型。我們可以保留我們已有的“相似”模型,以及針對有推薦和沒有推薦情況下的因果關系模型,然后采取分階段的方式來增加我們認為將改善的營銷效果的額外的模型。我們可以添加一個價格彈性模型來測試提供折扣將如何影響用戶購買商品的概率。我們可以對于客戶對針對性差勁的定向廣告的忍耐力構造一個耐性模型:他們什么時候做出調整把我們信息直接過濾成垃圾郵件?(“如果Hulu再給我看一次這個狗糧廣告,我就走人了!”)一種購買順序因果關系模型可以用來識別關鍵的“引入性產品”。例如,一個條牛仔褲往往會和某件上衣搭配著買,或是某系列小說的第一部分往往會導致之后這一系列的整套出售。
有了這些模型后,我們就可以構建了一個模擬器和優化器,在上面運行組合起來的模型,以找出什么推薦將實現我們的目標:推動銷售和改進客戶體驗。
建模器的構造。
數據產品的最佳實踐人們很容易陷入這樣的思維誤區:因為數據往往存儲在一些抽象的地方,比如在一個電子表格中或在云端的數據中,因此數據產品也就是一些抽象的算法。為此,我們希望向你展示基于目標的數據產品是如何已經成為這個有形的世界的一部分的。這些例子最重要的地方是,設計這些數據產品的工程師并不是一開始打造出一個華麗麗的機器人,然后再看看能用它做些什么。他們開始以這樣的目標:“我想要我的車帶我去不同的地方”,然后設計了一個鮮為人知數據產品來完成這一任務。工程師們經常悄悄地在算法應用上非常地領先,因為他們持久地一直在以基于目標的方法思考自己的建模中的種種挑戰。首先開始使用神經網絡的就是專業工程師們,把它們應用到例如裝配生產線的優化設計和質量控制上。布賴恩·里普利(Brian Ripley's)的有關模式識別的開創性著作為很多從20世紀70年代幾乎被人遺忘的工程文件贏得了應有的贊譽,它們包含了許多想法和技術。
當設計一個產品或生產過程中,動力傳動系統模型的集成,模擬和優化的過程,是系統工程師工具包中一個很熟悉的部分。在工程中通常需要把許多的組件模型連接在一起,以便可以對它們一起進行模擬、優化。這些企業有充足的經驗,為其最終產品的每一個部件和系統建造模型,無論他們要造的是一個服務器群或是噴氣式戰斗機。我們可能會有一個機械系統的詳細模型,一個單獨有關熱系統的一個單獨的模型,還有一個是為電氣系統設計的模型,等等。所有這些系統都相互有著至關重要的作用。例如,在電氣系統的電阻產生的熱量會作為一部分輸入導入熱擴散和冷卻模型。這多余的熱量會造成機械部件的變形,產生需要輸入機械模型的壓力。
下面的截圖是從由鳳凰集成設計的模型集成工具中截取的。雖然這張圖來自于一個完全不同的工程學科,但是卻和我們推薦的用來建立數據產品的傳動系統方法非常相似。目標很清晰:建立一個飛機機翼。j翼盒的設計包括諸如跨度,錐度比和掠度這些杠桿因素 。數據存在于機翼材料的物理屬性之中;成本被列在了應用程序的另一個選項卡中。此外還有一個關于空氣動力學性能和機械結構的建模器,它可以被輸入到一個模擬器來產生關鍵翼的輸出,包括成本,重量,升力系數和誘導阻力。這些結果可以用來輸入到一個優化器以建造一個既能正常運作且成本也很劃算的機翼。
鳳凰集成設計的模型集成工具的截圖。
預測性建模和優化在廣泛的活動中變得越來越至關重要,讓我們拭目以待那些能夠擾亂行業的工程師們,雖然這并不會立即出現在數據業務中。“動力傳動系統方法”的靈感, 已經在山景城(Mountain View)的路上了,就是很好的例子 。不再是以數據驅動的,我們現在可以讓數據驅動我們。
設想我們想從舊金山去圣克拉拉(Santa Clara)參加2012年的Strata會議 。就此,我們即可建立一個有關距離/限速的簡單模型來預測到達時間,是需要一把尺和路線地圖就可以做了。如果我們希望有一個更精致的系統,我們可以再建一個交通擠塞情況的模型,然后再來一個預測天氣情況以及天氣對最大安全行駛速度影響的模型。建立這些模型的過程中,你會遇到很多很酷的挑戰,但僅靠它們還不能帶我們到目的地。如今,用一些啟發式的搜索算法來預測不同路線的駕駛時間是件微不足道的事( 模擬器 ),然后可以在考慮例如“避免過橋費”或者“最大化汽油的效用”等限制因素下選擇最短的一個路徑( 優化器 。但是,為什么不想得更大一些?不再只是GPS裝置的女機器人聲音告訴我們該走哪條路線,該在哪里轉彎,如何能造出一輛自己就會做這些決定的汽車?為什么不把用一個物理引擎把仿真和優化引擎捆綁在一起,統統放入汽車的黑盒子里?
讓我們想想這又是傳動系統方法的一個怎樣的應用。我們已經定義了我們的目標 :建立一輛能夠自行駕駛的汽車。杠桿因素是我們都很熟悉的車輛的控制部件:方向盤,油門,剎車等。接下來,我們考慮汽車需要收集什么樣的數據;它需要的傳感器來收集道路數據,還需要攝像頭來檢測道路標志、紅燈或者綠燈,以及意想不到的障礙(包括行人)。我們需要定義我們會用到的模型,例如預測轉向、剎車和加速相應影響的物理模型,以及模式識別算法來把路標轉換成數據 。
正如谷歌自動駕駛汽車項目的一名工程師在最近的一篇“連線”雜志的文章中寫到,”我們每秒鐘要分析和預測世界20次。”這句話中沒有提到的恰恰是這次預測產生的結果。汽車需要使用一個模擬器來檢查它各種可選的行動都會導致怎樣的結果。如果它現在左轉,會不會撞到行人呢?如果在這種天氣條件下以55英里每小時的速度右轉,會不會打滑呢?僅僅預測會發生什么還不夠好。自行駕駛的汽車需要更進一步:在 模擬了所有的可能性后,必須優化模擬結果,挑選出加速、剎車、轉向以及信號燈的最佳組合,從而讓我們安全地抵達圣克拉拉。預測只告訴我們將要發生事故。優化器會告訴我們如何避免事故發生。
改善的數據收集和預測模型是非常重要的,但我們要強調以定義一個清晰的目標作為開始的重要性,而且目標要配以能夠產生行動項的杠桿因素。數據科學已經開始遍及我們生活中的方方面面。由于科學家和工程師變得更善于預測和優化日常問題,他們正在擴大可能性,去優化從我們個人的健康到我們所處的房子和城市的每一樣東西。用來模擬流體動力和湍流的模型被用于改善交通和行人流量 ,其中的杠桿因素就是出口的設置位置以及控制人群的障礙物。這改善了地鐵站的緊急疏散程序,并降低了在有體育賽事期間發生人群踩踏的危險。Nest公司正在設計智能溫控器,它能夠學習房子主人對溫度偏好,然后優化能源消耗。對于汽車交通,IBM和斯德哥爾摩市開展了一個項目來優化交通流量,它把擁塞程度減少了近四分之一,并把城市中心的空氣質量提高了25%。尤為有意思的是,這并沒有必要建立一個新的精心設計的數據采集系統。任何一個在紅綠燈上帶有測量裝置的城市都已經擁有了所有必要的信息,他們缺少的只是從中汲取意義的方法。
在另一個領域,基于目標的數據產品有著改變生活的力量。卡內及梅隆大學(CMU)硅谷分校正進行一個項目以打造數據產品去幫助自然或人為災害中的急救人員。卡耐基梅隆大學硅谷分校的Jeannie Stamberger向我們解釋了許多預測算法在應對災害中的應用,從通過對推特(Twitter)的文本挖掘和情緒分析來確定破壞的程度,到成群的用于偵察和救援的自主機器人,再到幫助多個司法管轄區協調他們反應的物流優化工具。這些災難應用是很好的例子來說明為什么數據產品需要簡單的、設計良好的接口來提出具體的建議。在緊急情況下,一個只是產生更多的數據的數據產品是沒有多大用處的。科學家們現在有預測工具來構建產品以給大家帶來好處,但他們需要意識到,光建立的模型是不夠的,他們還需要提供出優化過的,可以實現的內容作為結果。
數據產品的未來我們介紹了傳動系統的方法以此為設計下一代優異的數據產品提供了一個框架,并描述了這一方法在核心層面上是如何依賴于優化。今后,我們希望看到優化出現在商學院和統計學系的教學中。我們希望看到數據科學家推出的產品在設計時考慮的是用來產生期望的商業成果的。這仍然只是數據科學的初期階段。我們不知道未來還將發展出什么樣的設計方法,但目前,數據科學界有必要圍繞著一個共同的詞匯和產品設計過程,以此來教育他人如何從他們的預測模型中獲得價值。如果不這樣的話,我們會發現,我們的模型只用數據來創建更多的數據,而不是使用數據來創建行動,重塑行業,改變生活。
原文:http://source.yeeyan.org/view/468015_b79