作者丨TOMASZ TUNGUZ,紅點資本合伙人
信任在軟件行業真的再重要不過了,一旦信任出現了的動搖,那么用戶或者買家立刻掉頭走人,一秒鐘都不會猶豫。
「這個軟件有些時候連我的都存儲不下來」;「這個數據庫三天兩頭的崩潰」;「這家網站頻繁地宕機」,任何一句抱怨的話就會直接將你和你的產品送入深淵。
幾乎每一家公司都在存儲數據上面臨各種挑戰。但是,以機器學習為重點的初創公司所面臨的挑戰遠不止這一點,他們還需要面臨「概率」帶給他們的信任危機。
Nate Silver 曾利用機器學習,成功預測了奧巴馬在 2008 年選舉上的大獲全勝,在各個選區里的預測正確率都近乎 100%,這也讓概率論再次站在世人面前大放異彩。原來真實世界的運行跟學院派的概率論是能對接得上的啊。
而 8 年之后的今天,我們新總統的誕生,卻出現在了機器預判之外。在 2008 年的分析和 2016 年的兩次機器分析當中,數學上的推演是正確的,理論也是一脈相承的。但在 2008 年,曾經讓我們產生了對數據的信賴,而在 2016 年,現實卻反戈一擊,這其實就是人性使然。
很多機器學習系統同樣也依賴于概率。一個程序員將一個「閥值」編譯進了機器學習模型中。這個系統會利用這個「閥值」去決定目前的這個概率是否足以讓我們得出結論。有些時候,它也被稱之為「信心指數」。
無論是「閥值」,還是「信心指數」,其實都代表著某件事實成立的最低標準,只有邁過這個門檻,才能得出一個結論。
比如如果要確認它是張圖片,至少「最小概率(minimum probability) 是這里面有一只貓;而「sacre blue」這個詞的「信心指數」應該是將它翻譯成「我的天吶」,而不是按照字面意思來說:「神圣的藍色」。
在系統得出結論,給出推薦之前,這個標準成立的可能性(概率)要達到多少?80%?90%?95?
這個最小概率如果門檻太低,那么就會出現「1 型錯誤」,也就是「誤報」;如果最小概率的門檻拉得太高,那么會帶來「漏報」,也就是計算機領域中的「漏報」,也就是「2 型錯誤」
機器學習領域的 SaaS 公司必須從中拿捏其平衡,不能太緊,也不能太松。如果一個產品向一端太過傾斜,那么產品就會失去用戶的信任,最終毀掉一家公司。
那么如何去應對「用戶有可能對你的產品失去信任」這個風險呢?目前「聊天機器人」(chatbot)的涌現,讓我在人機互動方面得出了一個原則:正確地引導,塑造用戶對一個系統能力的期待值,這是至關重要的。更準確地說,少承諾一點東西,多實現一些價值,讓用戶處于時常獲得驚喜的狀態中,這就大大降低了此類風險。
除此之外,如果說還要做什么來降低風險的話,你必須清楚你的機器如果犯錯,會在哪方面出錯,其性質有多嚴重,用戶在意的是什么。機器有可能把一些無關的信息推送給用戶,這是錯誤 1;機器把用戶媽媽發來的郵件給標記成為了垃圾郵件,這是錯誤 2,很明顯這兩種錯誤的嚴重性不在一個水平線上。
下一代機器學習產品,其關鍵就落在了誰能最快地獲得用戶信任上面。而在「提示錯誤」、「屏蔽郵件」、「翻譯詞語」、「識別圖片」等工作上面,產品必須自身決定臨界概率的大小到了多少,才能得出結論。
此事重大,不可不察。