當前位置：大數據 → 業界動態 → 正文

大數據和AI，純談概念沒意義

責任編輯：editor004 |來源：企業網D1Net 2016-10-21 12:07:58 本文摘自：“caoz的夢囈

前段時間， Google 的新聞發布會，有很多與AI相關的產品推出，其實很多媒體已經說了，Google已經是一家AI公司了。

最近AI，大數據，機器學習這些概念特別火，一個通用的認識是，AI是行業未來，是下一個風口，是千億美元巨頭的誕生點。但我不想說，寫一篇文章來證明，為什么AI那么重要或者那么有價值，因為這屬于正確但完全沒用的廢話。就好比你說IT行業是巨大的市場方向一樣，正確然而并沒有卵用。

大數據

AI并不是最新的東西，只是最新技術發展的確實有點快，很多出色的互聯網產品或其他高科技產品多少都要有AI的成分，從游戲里的Boss，到翻譯系統，搜索引擎，推薦系統，到決策支持系統，自動交易系統，工業機器人，無人駕駛，以及各種社交機器人陪聊系統，美圖工具，AI其實無處不在。就算從傳統領域來說，不說無人駕駛，現在汽車里的各種安全輔助系統，其實也可以認為是AI系統。

錘子科技的發布會，訊飛語音輸入法突然走紅，這也是AI 的一個典型場景，你們知道么，我在十五年前就知道并了解過這個東西了，你會說吹牛吧，十五年前pc互聯網才剛起步，移動互聯網還沒人聽說過呢。那時候，我還在做呼叫中心方案，呼叫中心方案里有個模塊叫做IVR，中文是交互式語音應答，當時國內技術最強，處于近乎壟斷地位的，就是科大訊飛，其實就是語音識別和自動處理，和現在的訊飛輸入法，從技術原理而言，并無二致，但那時候，AI 這個概念還沒火。當然技術也沒現在成熟，實際上絕大部分呼叫中心，并沒有把交互式語音應答當作重要的模塊，更多是讓用戶按鍵輸入和人工服務。

AI最初，是人類制定明確的規則和邏輯，并提供給機器可以借用的數據資源，讓機器去執行，也就是一樣樣教，機器一樣樣學，機器發揮計算力和反應速度的優勢。但后來大數據，機器學習這些東西開始起來后，很多東西就發生了改變，人類只給一個基本的學習方法和邏輯，然后就是大數據集，讓AI通過這些大數據，和基本的學習方法，自己去學習和發現知識點，這樣AI的能力就得到了飛躍，甚至可以發現很多人類尚未發現的知識點，也就是出現了超越人類判斷力的可能。

舉個例子，比如我有個系統，需要根據人的基因測序結果，來分析和判斷這個人的健康風險和遺傳疾病可能，在以前呢，是需要對每一個基因的定義，科學家做嚴格的對比測試，把結論整理清楚，然后告訴這個系統，這個系統才知道，你這個基因到底咋回事，出了什么問題。但后來大數據出來了，就有了新的玩法，根據大量真實用戶的基因測序結果和真實的疾病診斷記錄，系統從中尋找規律，識別不同基因的可能含義以及對應的健康問題。這很多人類尚未明確的一些基因定義，也可能被系統發現，系統就擁有了超越現有人類知識庫的能力，但如果樣本集不夠大，也可能一些偶然重合的基因被賦予了不正確的定義。

所以大數據，機器學習，將AI帶入了一個新的境界，但這里除了數據量，算法，也就是所謂的學習方法也很重要。比如圍棋AI，最開始人類用自己的規則教給他，結果怎么教都學不會，特別low，后來蒙特卡洛算法被引用后，圍棋AI上了一個大臺階，從業余菜鳥水平迅速躥升到了業余高手的水平，但這個算法的潛力很快被挖掘到了極限，所以最近三四年，其實圍棋AI的能力基本停滯，直到Google 的價值評估策略橫空出世，一下子從業余高手突進變成職業頂級水平，由于 Google 公開了論文，僅僅是論文的公開，僅僅最近半年時間，世界其他的圍棋AI程序紛紛突破瓶頸，全都上了新的臺階。所以好的學習算法，也是非常重要的。

所以我們談AI，談大數據，談機器學習，在相當多場合，可能說的是一回事。

那么問題來了，說了這些，有什么卵用?

1、可復用的基礎技術

這一點必須承認，Google走的比較靠前。

一些基本的算法和思路，在很多場合可以通用，比如蒙特卡洛算法就是一個很典型的例子，當然，有專業人士可能會挑刺，這個算法貌似和機器學習關系不大哦，好吧，其實我也不是行家，很多東西我也不是很懂的。

可復用的基礎技術，脫離場景的話，你可能不知道這玩意值錢在哪里，或者有什么意義，就好比你贏了圍棋世界冠軍，對商業來說，又能代表什么?

但這東西會成為很多革命的火種，就好比交流電，當特斯拉最開始秀各種電的神奇表演時，對于大眾而言，誰知道這會成為人類生活各種場景各種工具密不可分的基礎技術呢。

中國目前的互聯網公司，從來都是實用為王，技術上拼得是我雙11的處理能力，運營上拼得是線下幾萬個快遞小哥的覆蓋能力。在應用技術挖潛上我們可以做到極致，但是在這種基礎能力上，我們還停留在超強的拿來主義原則上。

2、應用場景

關鍵點來了，最終能變成千億美元，或者百億美元的市場空間，一定是要落在具體的應用場景里。

以后誰要跟你得瑟說AI是未來，大數據是未來，巴拉巴拉的，你就直接噎他一句，具體應用場景是哪些。說不出來的都是裝逼犯。

一些基礎可復用的算法策略，加上針對具體應用場景的算法策略，加上海量的數據訓練集，是讓機器形成正確和快速判斷的基礎。

幾個非常明確的場景

翻譯絕對算一個，想象一下，以后語音識別+自動翻譯，出門全球自由行，帶個實時翻譯耳機，各說各話，全程無障礙溝通。這個場景將徹底改變旅游，商務出行的市場格局，并且真正促進人類的彼此理解和溝通，社會價值極為巨大。

有人說翻譯的質量不會達到人類的標準，但其實這不重要，能夠雙方清晰理解就可以，在大多數日常溝通情況下，翻譯的目的是雙方理解，而不需要絕對精確。而且這樣會帶來一個后果，就是也許以后機器翻譯體可能會開始流行，一些機器特點的表達方式會反過來改變語言原本的使用習慣，不用擔心，連long time no see這樣的短語，這不老美也都習慣了。當翻譯體都開始流行時，良性反饋，機器的翻譯就越來越精確了。

無人駕駛是一個，用車成本會極大降低。想象一下，出租車的費用會減少一半，這是啥概念，而且不會再有繞路，拒載的事情。就算是私家車，能夠安心的看風景，或者看書，或者處理工作或學習的事情，而不是緊張兮兮的捏著方向盤在車流里尋找見縫插針的機會。

醫療健康會有機會，至少基因的大數據分析已經開始，但是從成本考慮，獲得足夠多的樣本建立訓練集應該還是一個比較長時間的事情。此外，機器導診會不會出現，基于海量病歷，針對患者病情描述和必要的檢查，給出導診建議，或給醫生輔助建議。比如，有23%的幾率是A病癥，5%的幾率是B病癥，建議做什么什么檢查。短期內取代人類醫生可能還不太敢，但作為輔助方式，這個其實技術上應該已經沒有太大門檻了，缺的就是足夠的數據量和必要的學習算法。

教育我不好講，但也存在一些想象空間，一個學生通過智能教育系統做題，根據其答題表現，給出下一步的學習方案和復習計劃。每個學生都會根據自己的能力和自己的實際表現，采用不同學習進度，不同的學習方向發展自己。個性化的教育是不是有機會，至少可以想一下。

軍事我就不說了，有個大佬說了，這種技術最先肯定是在軍事領域應用，因為替代成本高啊，比如米國，一個士兵的死亡成本是多少，派個無人機過去，替代成本高，這事就容易推動，值得投入。

正在寫這個文章的時候，突然有個安全高手在微信群提到了風控AI。如何識別騙子，識別欺詐，識別有問題的賬戶或者用戶，現在都是人工去把出問題的內容拿出來看，然后總結規律，形成規則交給機器和算法，但是不是可以形成一套基于歷史數據挖掘的自動系統，只要發現壞數據，就回溯源數據，然后加入樣本庫學習，對比好數據，然后自動形成風控的策略，從而在保持門檻寬松的前提下，降低壞賬率。對于一些小額貸款的p2p金融項目來說，這簡直就是核心競爭力有沒有，你玩得起對手玩不起，拼得就是壞賬率和風控水平。

金融市場的自動交易就不說了，人家都搞了快幾十年了，會不會出現一個超級BT的新算法吊打各種傳統策略?值得期待一下，但很多血淋淋的教訓在前面呢。比如BAT試圖用大數據邏輯來做基金啥的，紛紛被打臉，呵呵，呵呵吧。有人說，以后投資基金都不需要專業人士了，靠大數據分析就夠了，不知道這個以后有多久，至少目前的大數據分析策略，還差的挺遠。

圖像識別和圖像處理這幾年也非常火，除了娛樂應用外，安防風控，電商都有應用場景，此外還有一個分支，鑒黃，但概念火了好幾年，卻沒有看到特別有價值的商業表現。依然是缺乏特別殺手級的應用場景，大概也和技術仍然不夠強大有關。想象一下，尋人，包括走失，包括拐賣，包括抓捕，在警方后臺提交一個照片，自動提示全國的哪個攝像頭這個人最后經過了，這個價值大不大，但問題是，現在的技術實現不到這個級別呢。現在也就是火車站，機場安檢能查指定逃犯，遠談不上大數據。

最后總結一句，大數據和AI，純談概念沒意義，要回歸場景，可復用的通用技術固然重要，但只有落在場景里，我們才知道其明確的價值在哪里。

關鍵字：AI 學習算法翻譯體