2015貴陽國際大數(shù)據(jù)產(chǎn)業(yè)博覽會暨全球大數(shù)據(jù)時代貴陽峰會5月26-29日在貴陽舉行,數(shù)據(jù)觀對該活動進行全程圖文直播。5月27日,在“城市全域免費無線網(wǎng)絡(luò)與塊數(shù)據(jù)下的產(chǎn)業(yè)創(chuàng)新”分論壇上,中國科學(xué)院研究員程學(xué)旗發(fā)表了題為《大數(shù)據(jù)智能的研究與應(yīng)用進展》的主題演講。
程學(xué)旗在“城市全域免費無線網(wǎng)絡(luò)與塊數(shù)據(jù)下的產(chǎn)業(yè)創(chuàng)新”分論壇上發(fā)表主題演講,以下為演講PPT全文:
美國首席數(shù)據(jù)科學(xué)家談數(shù)據(jù)產(chǎn)品實踐,筆者強烈推薦,做產(chǎn)品和技術(shù)的都可以細細體會,在萬眾創(chuàng)業(yè)的熱潮中做到數(shù)據(jù)驅(qū)動,打磨產(chǎn)品,滿足需求,精益創(chuàng)業(yè)。
原文:Everything We Wish We'd Known About Building Data Products
“當你在深夜遇到系統(tǒng)掛了和數(shù)據(jù)損壞,有什么辦法可以避免那些痛苦和頭痛?”
這是DJ·Patil 在最近的CTO峰會提到的。他是RelateIQ前任產(chǎn)品副總裁,和美國現(xiàn)任首席數(shù)據(jù)科學(xué)家,Patil總結(jié)所有產(chǎn)生變革的經(jīng)驗教訓(xùn)和失誤。他與 Ruslan Belkin,目前Salesforce工程副總裁,分享有關(guān)打造數(shù)據(jù)產(chǎn)品中最重要,最突出的失誤和經(jīng)驗。
常見的錯誤是認為所謂“數(shù)據(jù)產(chǎn)品”僅指像Twitter或LinkedIn,社交圖譜是一切。其實越來越多的產(chǎn)品都歸入此類,包括硬件,可穿戴和其他任何收集和對用戶有意義的數(shù)據(jù)。Belkin和Patil的所提供的建議也適用于創(chuàng)業(yè)公司的生態(tài)系統(tǒng)。
“當你想到數(shù)據(jù)產(chǎn)品更廣泛,開始意識到即使公司的報表也算數(shù)據(jù)產(chǎn)品的話,你的視野就打開了。你可以開始創(chuàng)建流程,去了解,制造和規(guī)模化,“ 那么為什么這么少的公司談?wù)摶驈娬{(diào)搭建有用的數(shù)據(jù)產(chǎn)品?回答這個,Patil引用杜克大學(xué)著名經(jīng)濟學(xué)教授丹·艾瑞里的話:
誠然,這歸結(jié)于搭建大規(guī)模的數(shù)據(jù)產(chǎn)品真的很難。在這Belkin和Patil提供了一些有見地的戰(zhàn)術(shù),讓大家更容易并可以大膽創(chuàng)造新產(chǎn)品。這將改變我們所看到的連接世界的方式。
數(shù)據(jù)產(chǎn)品需要進行不同的搭建
用原型來做數(shù)據(jù)產(chǎn)品跟其他一樣開始很容易。但上了規(guī)模,就會碰到一堆獨特的挑戰(zhàn)。你必須計劃每一個地方。他們從來沒有一次性或獨立的產(chǎn)品。所以你不能像以前一樣只是構(gòu)建,測試,回滾和上線。
你必須一開始有非常基本的想法:數(shù)據(jù)是超級亂的,數(shù)據(jù)清理將永遠是承擔80%的工作。換句話說,數(shù)據(jù)是問題所在。
“如果你像LinkedIn在創(chuàng)業(yè)初期,他們曾對IBM 有4000種說法 - IBM,IBM研究中心,軟件工程師,所有的縮寫等”
我保證如果你不思考如何讓數(shù)據(jù)從一開始清理,你就完蛋了。
“試圖及時清理,因為以后需要幾個月的時間去做它。”
面對這種困境,你應(yīng)該先建立簡單的產(chǎn)品 - 超級簡單的東西,計數(shù)練習(xí),像協(xié)同過濾器,只是零和一。所有這些事情將在大規(guī)模下執(zhí)行更難。 “如果你試圖建立一個像機器學(xué)習(xí)那樣野心勃勃的東西,它會在你面前失敗。形成管道(pipe)和保證其他的東西正確,在此基礎(chǔ)之上一步步來。“
以一個強大的方式召回數(shù)據(jù)
其中的最好的例子也來自于LinkedIn。誰最近瀏覽你的個人資料。這是一種將流量導(dǎo)回到你網(wǎng)站的信息。
“這里的常見錯誤是,讓數(shù)據(jù)導(dǎo)回是不錯,你就想”讓我們給更多些吧!但是,將數(shù)據(jù)添加到頁面實際上跟得到的點擊數(shù)是成反比的,你必須要找到用戶的合適平衡點。“
當你添加更多的數(shù)據(jù),你把用戶放入癱瘓境地。他們不知道該怎么做。
決定什么數(shù)據(jù)暴露給人們不只是多少 - 這是關(guān)于它說什么了。Patil想到把工作推薦給人 ,比如“嘿,你應(yīng)該申請這份工作,因為它符合你的技能!”很快意識到這種做法是危險的。
“我們很有可能一不小心推薦一個高級職務(wù)的人去申請實習(xí),或加州居民應(yīng)該搬到愛達荷州工作機會。當這樣的東西發(fā)生了,人們就很生氣,它可以很快搞砸你的品牌,你得想想那種特定功能實際上是當用戶看到它的樣子。這就是你要聰明 - 當它涉及到的數(shù)據(jù)產(chǎn)品,聰明要比傻瓜智能強很多“。
在這種情況下,聰明的解決方案是換個角度去推薦工作。如果“Bill”是他們想推薦的用戶,不是直接發(fā)送推薦工作機會給Bill,而是通過他的社交關(guān)系發(fā)送短信:推薦Bill這項工作。它使用了完全相同的算法,有一點扭曲,但它處理了強硬相關(guān)性的問題。
“如果Bill從他的一個朋友聽到,認為他應(yīng)該接受一份工作,他仍然可以說,'這是一個垃圾”但是這是罕見的,并且該網(wǎng)站永遠不會被指責,除此之外,我們?nèi)ナ占性试S使用的數(shù)據(jù),弄清楚這個功能怎么回事,使其變的更好。”
我們沒有時間去把它做對,但我們有時間去重做
這是Belkin的最喜歡的名言,強調(diào)把事情先做,再嘗試,當你有更多知識去迭代。
像LinkedIn有個人才匹配的產(chǎn)品。當時的想法是,一??個公司發(fā)布一個職位空缺,最佳適合工作描述的人得到推薦。它已開始很棒直到他們試圖去規(guī)模化和各種復(fù)雜度的出現(xiàn)。
“最后我們不得不復(fù)查所有的系統(tǒng),直到我們能夠理解功能正確結(jié)合和合理評估框架。直到我們把所有東西做對,我們才知道如何大規(guī)模搭建它“
大量的數(shù)據(jù)產(chǎn)品需要時間去成熟,并產(chǎn)生你需要的信息讓他們變的更好。
“這可能很辛苦,即使蘋果這樣的公司有時不得不為顧客處理有爭議劣質(zhì)產(chǎn)品的數(shù)據(jù)而道歉和推薦競爭對手的應(yīng)用程序”這個問題會影響公司規(guī)模和技術(shù)水平。
在LinkedIn中,“你可能認識的人”功能開始于一個工程師的電腦中python腳本。直到2008年該功能推出兩年后,它才開始在平臺上推動流量有效增長。
同樣的事情也發(fā)生在Twitter的搜索。這是首次推出為Twitter用戶的實用工具。但直到2013年中期,大家才發(fā)現(xiàn)這是流量增長的主驅(qū)動力。
千萬不要按固定的時間表去推出一個復(fù)雜的數(shù)據(jù)產(chǎn)品。
從哪里開始
很多人選擇通過建模開始。有些從功能的發(fā)現(xiàn)或工程中開始。還有人通過搭建基礎(chǔ)設(shè)施去做規(guī)模化服務(wù)開始。但Belkin認為數(shù)據(jù)產(chǎn)品只有一個正確的答案和出發(fā)點:理解如何評估性能和搭建評估工具。
“迄今每一個公司聊到了最后都沒有一個例外, 數(shù)據(jù)質(zhì)量差,尤其是監(jiān)控數(shù)據(jù),”他說,“要不就是不完整的數(shù)據(jù),缺失監(jiān)控數(shù)據(jù),或者重復(fù)監(jiān)控數(shù)據(jù)”。
為了解決這個問題,必須投入大量的時間和精力監(jiān)測數(shù)據(jù)質(zhì)量。你需要監(jiān)控網(wǎng)站的響應(yīng)時間。你需要把數(shù)據(jù)質(zhì)量的bug放在第一優(yōu)先級。不要害怕因為發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題失敗一個部署。但有一件事你不能做:
“如果你有數(shù)據(jù)質(zhì)量問題,不要提交到蘋果應(yīng)用商店”他說。 “你必須確保你有完全正確的工具,你所有正在跟蹤的事件,以及通過模式注冊就可以集成到開發(fā)過程中。”
為了加強這些經(jīng)驗教訓(xùn),Belkin快速報表查看來開始他的工作會議。他親自一天看20多次,發(fā)現(xiàn)它用來討論表面問題和潛力問題要積極快速得多。在成為災(zāi)難前得到更快的解決。
產(chǎn)品上線前檢查清單
在你推出的數(shù)據(jù)產(chǎn)品給用戶前,你應(yīng)該通過這個清單來檢驗:
一 - 產(chǎn)品要能跑通
早年Belkin曾在網(wǎng)景,并記住CEO Jim Barksdale - “你看,如果你每天弄錯運送包裹的1%,在100天內(nèi),很大的客戶群就不爽了”的說法,你需要考慮的用戶看到壞的結(jié)果的可能性?
把它放到高科技消費產(chǎn)品方面:“如果把黃色信息顯示在他們的新聞源是否能接受,每三個月?半年?九個月?你必須搞清楚什么是可以接受的水平。”
如何應(yīng)對尷尬的內(nèi)容和推薦?這是一個需要你注意的問題。不管他們做什么,總有弄砸的時刻。你會做什么?是回滾該版本?你會更改線上數(shù)據(jù)庫去嘗試正確的東西?唬弄東西修改索引?在系統(tǒng)運行時提升一個等級?所有這一切通常是一個壞主意。你應(yīng)該提前預(yù)料到這種可能性,并制定解決方案就可以立即部署。“
二 - 它必須為用戶服務(wù)
你必須把用戶參考的東西顯示在他面前。他們需要理解所看到的東西是具體的信息 - 或者是因為他們關(guān)注一定的用戶,或采取了一定的行為,甚至可能是因為他們沒有采取行動。
重要的是,你不能把跟用戶之前無關(guān)經(jīng)驗的品牌和產(chǎn)品展現(xiàn)出來。沒有人愿意看到隨機出現(xiàn)的東西。亂入將失去用戶。
例如,一個Twitter的個人資料放在誰關(guān)注的人,在你已經(jīng)知道的情況下會更可能關(guān)注他們。這就說到下一個。
三 - 讓用戶感到安全
“這就是我所說的泰迪熊原則,問問自己,用戶會認為你的產(chǎn)品是很爛的或有害的嗎?它不是必須要那樣,但這些不好用戶體驗可引起長期損壞你的平臺“。
首先,你必須確保不會個人身份信息泄漏。這可不是鬧著玩的,總是有一定的風險,這可能因產(chǎn)品設(shè)計或?qū)崿F(xiàn)一個缺陷而發(fā)生。你可能被黑客攻擊,某些數(shù)據(jù)沒有被加密,這是非常嚴重的。你要力所能及不僅防止這種情況發(fā)生,而且傳達良好的設(shè)計,不讓這種事情發(fā)生的良好用戶體驗。用戶會用最小的蛛絲馬跡以確定他們是否應(yīng)該信任一個產(chǎn)品。
四 - 用戶可以自己掌控
這就是你當前用戶設(shè)置 - 特別是當它們涉及到隱私 - 是非常重要的。你需要思考要做到不強勢的最好辦法,讓他們?nèi)デ宄x擇,使得用戶有權(quán)決定與誰以及何時分享。這通常決定用戶是否能回來訪問。
五 - 有??在美國以外的用戶
很多人沒有意識到大部分用戶生活在美國外。 “根據(jù)經(jīng)驗,多達35種語言跟你公司相關(guān)。通常,數(shù)據(jù)在不同的語言中選擇更有限。許多用戶是多語種。如果你沒有額外努力和計劃,你可能無法提供同等質(zhì)量的服務(wù)“
即使你在一個小的創(chuàng)業(yè)公司目前缺少資源去思考國際化,你也需要打下基礎(chǔ)去解決這些問題。你不能想象有一個完全英語的龐大產(chǎn)品,然后突然決定推廣到在35+語言。如果你有全球抱負,你必須在成熟之前就要考慮開始分層。
如何組織你的團隊
經(jīng)常被問這個問題:當你想建立和迭代多個產(chǎn)品的時候,如何組織你的產(chǎn)品和工程團隊?什么是團隊的合理結(jié)構(gòu)?
“這帶來一個很老的爭論:你應(yīng)該去垂直或水平擴張?哪個是正確的?
“沒有一個通用的標準答案,但有對于你在公司階段的正確答案,它矩陣的形式下圖所示”。
“評估需要在一些指標中做什么 - 執(zhí)行,創(chuàng)新,代碼質(zhì)量,用戶體驗的重要性?跨團隊工作需要什么去平衡構(gòu)建和擴展的速度?”
一般來說,垂直整合的團隊,當涉及到執(zhí)行或創(chuàng)新時以速度取勝。大家與外部關(guān)系更融洽因為團隊跟業(yè)務(wù)目標保持一致。
水平團隊隊通常有更高質(zhì)量的產(chǎn)出。他們更高效,在內(nèi)部動態(tài)控制上比較上更好。