當前位置：大數據 → 業界動態 → 正文

打造數據產品必知秘籍

責任編輯：editor04 作者：董飛 |來源：企業網D1Net 2015-06-26 21:22:53 本文摘自：百度百家

摘要 : 美國首席數據科學家談數據產品實踐，筆者強烈推薦，做產品和技術的都可以細細體會，在萬眾創業的熱潮中做到數據驅動，打磨產品，滿足需求，精益創業。

“當你在深夜遇到系統掛了和數據損壞，有什么辦法可以避免那些痛苦和頭痛？”

這是DJ·Patil在最近的CTO峰會提到的。他是RelateIQ前任產品副總裁，和美國現任首席數據科學家，Patil總結所有產生變革的經驗教訓和失誤。他與RuslanBelkin，目前Salesforce工程副總裁，分享有關打造數據產品中最重要，最突出的失誤和經驗。

常見的錯誤是認為所謂“數據產品”僅指像Twitter或LinkedIn，社交圖譜是一切。其實越來越多的產品都歸入此類，包括硬件，可穿戴和其他任何收集和對用戶有意義的數據。Belkin和Patil的所提供的建議也適用于創業公司的生態系統。

“當你想到數據產品更廣泛，開始意識到即使公司的報表也算數據產品的話，你的視野就打開了。你可以開始創建流程，去了解，制造和規?；?ldquo;那么為什么這么少的公司談論或強調搭建有用的數據產品？回答這個，Patil引用杜克大學著名經濟學教授丹·艾瑞里的話：

誠然，這歸結于搭建大規模的數據產品真的很難。在這Belkin和Patil提供了一些有見地的戰術，讓大家更容易并可以大膽創造新產品。這將改變我們所看到的連接世界的方式。

數據產品需要進行不同的搭建

用原型來做數據產品跟其他一樣開始很容易。但上了規模，就會碰到一堆獨特的挑戰。你必須計劃每一個地方。他們從來沒有一次性或獨立的產品。所以你不能像以前一樣只是構建，測試，回滾和上線。

你必須一開始有非?；镜南敕ǎ簲祿浅墎y的，數據清理將永遠是承擔80％的工作。換句話說，數據是問題所在。

“如果你像LinkedIn在創業初期，他們曾對IBM有4000種說法-IBM，IBM研究中心，軟件工程師，所有的縮寫等”

“試圖及時清理，因為以后需要幾個月的時間去做它。”

面對這種困境，你應該先建立簡單的產品-超級簡單的東西，計數練習，像協同過濾器，只是零和一。所有這些事情將在大規模下執行更難。“如果你試圖建立一個像機器學習那樣野心勃勃的東西，它會在你面前失敗。形成管道（pipe)和保證其他的東西正確，在此基礎之上一步步來。“

以一個強大的方式召回數據

其中的最好的例子也來自于LinkedIn。誰最近瀏覽你的個人資料。這是一種將流量導回到你網站的信息。

“這里的常見錯誤是，讓數據導回是不錯，你就想”讓我們給更多些吧！但是，將數據添加到頁面實際上跟得到的點擊數是成反比的，你必須要找到用戶的合適平衡點。“

決定什么數據暴露給人們不只是多少-這是關于它說什么了。Patil想到把工作推薦給人，比如“嘿，你應該申請這份工作，因為它符合你的技能！”很快意識到這種做法是危險的。

“我們很有可能一不小心推薦一個高級職務的人去申請實習，或加州居民應該搬到愛達荷州工作機會。當這樣的東西發生了，人們就很生氣，它可以很快搞砸你的品牌，你得想想那種特定功能實際上是當用戶看到它的樣子。這就是你要聰明-當它涉及到的數據產品，聰明要比傻瓜智能強很多“。

在這種情況下，聰明的解決方案是換個角度去推薦工作。如果“Bill”是他們想推薦的用戶，不是直接發送推薦工作機會給Bill，而是通過他的社交關系發送短信：推薦Bill這項工作。它使用了完全相同的算法，有一點扭曲，但它處理了強硬相關性的問題。

“如果Bill從他的一個朋友聽到，認為他應該接受一份工作，他仍然可以說，'這是一個垃圾”但是這是罕見的，并且該網站永遠不會被指責，除此之外，我們去收集所有允許使用的數據，弄清楚這個功能怎么回事，使其變的更好。”

我們沒有時間去把它做對，但我們有時間去重做

這是Belkin的最喜歡的名言，強調把事情先做，再嘗試，當你有更多知識去迭代。

像LinkedIn有個人才匹配的產品。當時的想法是，一個公司發布一個職位空缺，最佳適合工作描述的人得到推薦。它已開始很棒直到他們試圖去規?；透鞣N復雜度的出現。

“最后我們不得不復查所有的系統，直到我們能夠理解功能正確結合和合理評估框架。直到我們把所有東西做對，我們才知道如何大規模搭建它“

大量的數據產品需要時間去成熟，并產生你需要的信息讓他們變的更好。

“這可能很辛苦，即使蘋果這樣的公司有時不得不為顧客處理有爭議劣質產品的數據而道歉和推薦競爭對手的應用程序”這個問題會影響公司規模和技術水平。

在LinkedIn中，“你可能認識的人”功能開始于一個工程師的電腦中python腳本。直到2008年該功能推出兩年后，它才開始在平臺上推動流量有效增長。

同樣的事情也發生在Twitter的搜索。這是首次推出為Twitter用戶的實用工具。但直到2013年中期，大家才發現這是流量增長的主驅動力。

從哪里開始

很多人選擇通過建模開始。有些從功能的發現或工程中開始。還有人通過搭建基礎設施去做規?；臻_始。但Belkin認為數據產品只有一個正確的答案和出發點：理解如何評估性能和搭建評估工具。

“迄今每一個公司聊到了最后都沒有一個例外，數據質量差，尤其是監控數據，”他說，“要不就是不完整的數據，缺失監控數據，或者重復監控數據”。

為了解決這個問題，必須投入大量的時間和精力監測數據質量。你需要監控網站的響應時間。你需要把數據質量的bug放在第一優先級。不要害怕因為發現數據質量問題失敗一個部署。但有一件事你不能做：

“如果你有數據質量問題，不要提交到蘋果應用商店”他說。“你必須確保你有完全正確的工具，你所有正在跟蹤的事件，以及通過模式注冊就可以集成到開發過程中。”

為了加強這些經驗教訓，Belkin快速報表查看來開始他的工作會議。他親自一天看20多次，發現它用來討論表面問題和潛力問題要積極快速得多。在成為災難前得到更快的解決。

產品上線前檢查清單

在你推出的數據產品給用戶前，你應該通過這個清單來檢驗：

一-產品要能跑通

早年Belkin曾在網景，并記住CEOJimBarksdale-“你看，如果你每天弄錯運送包裹的1％，在100天內，很大的客戶群就不爽了”的說法，你需要考慮的用戶看到壞的結果的可能性？

把它放到高科技消費產品方面：“如果把黃色信息顯示在他們的新聞源是否能接受，每三個月？半年？九個月？你必須搞清楚什么是可以接受的水平。”

如何應對尷尬的內容和推薦？這是一個需要你注意的問題。不管他們做什么，總有弄砸的時刻。你會做什么？是回滾該版本？你會更改線上數據庫去嘗試正確的東西？唬弄東西修改索引？在系統運行時提升一個等級？所有這一切通常是一個壞主意。你應該提前預料到這種可能性，并制定解決方案就可以立即部署。“

二-它必須為用戶服務

你必須把用戶參考的東西顯示在他面前。他們需要理解所看到的東西是具體的信息-或者是因為他們關注一定的用戶，或采取了一定的行為，甚至可能是因為他們沒有采取行動。

重要的是，你不能把跟用戶之前無關經驗的品牌和產品展現出來。沒有人愿意看到隨機出現的東西。亂入將失去用戶。

例如，一個Twitter的個人資料放在誰關注的人，在你已經知道的情況下會更可能關注他們。這就說到下一個。

三-讓用戶感到安全

“這就是我所說的泰迪熊原則，問問自己，用戶會認為你的產品是很爛的或有害的嗎？它不是必須要那樣，但這些不好用戶體驗可引起長期損壞你的平臺“。

首先，你必須確保不會個人身份信息泄漏。這可不是鬧著玩的，總是有一定的風險，這可能因產品設計或實現一個缺陷而發生。你可能被黑客攻擊，某些數據沒有被加密，這是非常嚴重的。你要力所能及不僅防止這種情況發生，而且傳達良好的設計，不讓這種事情發生的良好用戶體驗。用戶會用最小的蛛絲馬跡以確定他們是否應該信任一個產品。

四-用戶可以自己掌控

這就是你當前用戶設置-特別是當它們涉及到隱私-是非常重要的。你需要思考要做到不強勢的最好辦法，讓他們去清楚選擇，使得用戶有權決定與誰以及何時分享。這通常決定用戶是否能回來訪問。

五-有在美國以外的用戶

很多人沒有意識到大部分用戶生活在美國外。“根據經驗，多達35種語言跟你公司相關。通常，數據在不同的語言中選擇更有限。許多用戶是多語種。如果你沒有額外努力和計劃，你可能無法提供同等質量的服務“

即使你在一個小的創業公司目前缺少資源去思考國際化，你也需要打下基礎去解決這些問題。你不能想象有一個完全英語的龐大產品，然后突然決定推廣到在35+語言。如果你有全球抱負，你必須在成熟之前就要考慮開始分層。

如何組織你的團隊

經常被問這個問題：當你想建立和迭代多個產品的時候，如何組織你的產品和工程團隊？什么是團隊的合理結構？

“這帶來一個很老的爭論：你應該去垂直或水平擴張？哪個是正確的？

“沒有一個通用的標準答案，但有對于你在公司階段的正確答案，它矩陣的形式下圖所示”。

“評估需要在一些指標中做什么-執行，創新，代碼質量，用戶體驗的重要性？跨團隊工作需要什么去平衡構建和擴展的速度？”

一般來說，垂直整合的團隊，當涉及到執行或創新時以速度取勝。大家與外部關系更融洽因為團隊跟業務目標保持一致。

水平團隊隊通常有更高質量的產出。他們更高效，在內部動態控制上比較上更好。