在 “麥肯錫播客”,麥肯錫全球研究院的合作伙伴Michael Chui、麥肯錫全球研究院的總裁兼主管James Manyika與麥肯錫出版社的David Schwartz一起談論了人工智能的前沿。
David Schwartz:你好,歡迎來到麥肯錫播客。我是麥肯錫出版社的David Schwartz。今天,我們將前往人工智能的前沿。我們將討論人工智能對多個行業和職能的影響。我們還將探討妨礙人工智能發展的局限性,至少是眼下的局限。
我和兩位思想前沿的麥肯錫領導者一起參加了談話,Michael Chui來自舊金山,是麥肯錫全球研究院的合作伙伴,還有麥肯錫全球研究院董事長兼我們舊金山辦事處的高級合伙人James Manyika。Michael,James,歡迎你們。
James Manyika:承蒙邀請。
Michael Chui:很高興來到這里。
David Schwartz:Michael,人工智能的最大潛力在哪里?
Michael Chui:我們所知道的第一件事就是廣泛適用性。也就是說,就這些技術的采用而言我們仍處在早期,所以還有很長的路要走。我們發現的另一件事情是,考慮人工智能潛力的一種方式就是跟著錢走。
如果貴公司是一家由營銷和銷售推動價值的公司,那么這實際上就是人工智能可以創造最大的價值的地方。如果貴公司是一家卓越運營(operational excellence)對你來說最重要的公司,那么你可以通過人工智能創造最大價值。如果貴公司是一家保險公司,或者是一家銀行,那么風險對你來說非常重要,那是人工智能可以增加價值的另一個地方。它貫穿于人力資本管理、分析人員績效和招聘等各個方面,貫穿整個業務系統。我們已經意識到整個經濟體每年創造數萬億美元價值的潛力。
David Schwartz:嗯,看來肯定還有很多潛力和價值尚待挖掘。James,你能從另一個角度來看待這個問題嗎?如今人工智能的主要局限是什么?這對業務領導者來說意味著什么?
James Manyika:當我們想到人工智能的局限時,我們要牢記,人工智能仍然是一系列發展非常迅速的技術,因此這門科學和技術本身仍在經歷發展。
當你想起這些局限時,我會從幾個方面來考慮。有些限制純粹是技術性的。比如諸如此類的問題——我們能真正解釋算法在做什么嗎?我們能解釋它為什么會做出它所預測的選擇嗎?然后,你也會碰到一堆實際的局限。比如諸如此類的問題——數據真的可用嗎?它被標記了嗎?我們稍后會對這些問題做簡單的介紹。
但我還要補充第三個局限。即你可能會稱之為使用限制的限制。這些限制是導致你提出這類問題的原因:算法的透明度如何?數據中存在偏差嗎?收集數據的方式存在偏差嗎?
David Schwartz:Michael,讓我們深入探討第一個關鍵局限,即數據標記。你能描述一下這里所涉及的挑戰和一些可能的進路嗎?
Michael Chui:當前的幾代人工智能還算得上新鮮的一些東西就是我們所說的機器學習——從某種意義上來講,我們不僅僅在為計算機編程,還在訓練他們;我們正在教它們東西。
我們訓練機器學習的方法是給它們加上數據標記。如果你正在嘗試教計算機識別圖像中的對象,或者你正在嘗試教你的計算機在一個表明某個機器即將崩潰的數據流中識別異常現象,那么你的做法就是擁有一堆標記數據然后說:“看,在這類圖像中,對象存在。在那類圖像中,對象不存在。在這類數據流中,機器即將崩潰,而在那類數據流中,機器不會崩潰。”
我們有這樣的想法,機器會自我訓練。實際上,我們已經生成了大量要人工來完成的工作。以自動駕駛汽車為例。這些汽車上裝有攝像頭,他們試圖做的其中一件事就是通過駕駛來收集大量數據。
結果是,有一大群人從這些數據中獲取視頻輸入,然后只是標出其它車輛的位置——并且標出車道的位置。因此,有趣的是,我們都在談論這些人工智能系統如何將人們所做的事情自動化。事實上,人工智能給人們帶來一大堆體力活兒。
James Manyika:我知道這么一個大型的公共博物館,在這個博物館里人們讓學生手工標記藝術品——這是一只貓、那是一只狗、這是一棵樹、這是一個影子。他們標記這些不同的藝術品,以便算法可以更好地理解這些藝術品并能夠做出預測。
這個故事更老的版本是這樣的,人們正在識別貓和狗。例如,在英國有一些團隊要識別不同品種的狗,以便為狗標記數據圖像,當算法使用這些數據時,算法就會知道這些數據是什么。在很多醫學應用程序中也發生了同樣的事情,例如,人們一直在標記不同類型的腫瘤,因此當機器讀取這些圖像時,機器可以更好地了解腫瘤的定義和類型。但這已經驅使人們為這些不同的腫瘤貼上標簽,然后使其對機器有用。
Michael Chui:醫學診斷就是一個很好的例子。因此,對于擁有一個觀察X光照片并確定人們是否患有肺炎的這樣一個想法來說,你需要數據來判斷該X光照片是否與患有肺炎或沒有肺炎的人有關。收集這些數據是非常重要的事情,但對數據進行標記絕對是必要的。
David Schwartz:我們不妨來談談如何解決這個問題。我知道在監督學習(supervised learning)中有兩個我們耳熟能詳的技術。一個是強化學習(reinforcement learning),另一個是GAN(generative adversarial network,生成對抗性網絡)。你能談談這些技術嗎?
Michael Chui:很多這類技術的大致目的是創建更多示例,讓你可以教機器東西或讓它學習。
人們已經用強化學習來訓練機器人,從某種意義上說,如果機器人做了你想讓它做的事情,你會為此而獎勵機器人。如果它做了你不希望它做的事情,你就對它進行負強化(negative reinforcement)。在這種情況下,你所擁有的是一個能說明你做了好事還是壞事的功能,而不是擁有一系列標記數據。這是繞過標記數據(label data)的一種方法——擁有一個能告訴你是否做了正確的事情的功能。
有了GAN(全稱生成對抗網絡),你大體上有兩個網絡,一個試圖生成正確的東西;另一個試圖區分你是否正在生成正確的東西。同樣,這是另一個解決大量標簽數據的潛在局限的方法,即你有兩個系統以對抗的方式相互競爭。人們用它來做各種各樣的事情。生成——它的“G”部分(Generative)——是非同凡響的。你可以用其他藝術家的風格制作藝術品。你可以按照你觀察到的其它東西的風格生成架構。你可以生成與之前可能觀察到的其它東西相似的設計。
James Manyika:關于生成對抗網絡,我要補充的一點是,它們在很多方面看來是一種半監督學習技術(semisupervised learning technique),因為它們通常從一些初始標簽開始,然后以一種生成的方式把初始標簽作為基礎——在這種對抗中,這有點像比賽方式。
人們正在嘗試很多其它技術。例如,微軟研究實驗室的研究人員一直致力于輸入流標記(instream labeling),在這里,你實際上可以通過使用來標記數據。你試圖根據數據的使用方式、實際含義來解釋。這種輸入流標記的點子已經存在了很長一段時間,但近年來,它已經初見成效了。標記問題會在很長的一段時間里與我們共存。
David Schwartz:當沒有足夠數據時會有什么樣的局限?
Michael Chui:我們從機器學習和人工智能領導者之一Andrew Ng那里得到的消息是,認真對待人工智能的公司和組織正在玩這些已存在多年的游戲,以獲取他們所需的數據。
在物理世界中,無論你是在研究自動駕駛汽車還是無人機,你都需要時間開車去熟悉一大堆街道或放飛一大堆東西。為了提高你學習其中一些東西的速度,你可以做的一件事就是模擬環境。通過創建這些虛擬環境——基本上在數據中心和計算機內——你可以進行更多的試驗,并通過模擬學習更多的東西。所以,當你真正進入物理世界的時候,你進入了一個人工智能已經在模擬中學到了很多東西的物理世界。
James Manyika:一個很好的例子就是一些示范,例如,DeepMind Technologies的團隊已經做過的示范。該團隊在機器手臂遠未應用到現實世界之前就為機器手臂進行了大量的模擬訓練,在這些訓練中,這些機器手臂能夠開發和學習的大部分操作技術實際上都來自模擬的結果。當這樣的技術出現在現實世界中時,它具備這些預先學習的數據集,這些數據集來自模擬,是一種繞過數據局限的方法。
David Schwartz:聽起來,我們可能正在考慮一個更深層次的問題——機器智能究竟意味著什么。我們如何才能從機械的輸入(rote input)和固定的輸出過程轉變為更符合人類學習方式的方法?
James Manyika:你如何構建可以學習任何東西的廣義系統(generalizable system)?這在某種程度上是人們夢寐以求的,從某種意義上說,人類是非常了不起的,因為我們可以把在這里學到的東西都應用到也許是頭一回看到的完全不同的問題上。這催生了一個通常被稱為遷移學習(transfer learning)的巨大研究領域,即你如何從一個領域獲取模型、知識或洞察并將其應用到另一個領域?雖然我們在遷移學習方面取得了進展,但實際上這是更棘手的問題之一。在那里,人們正在尋找新的技術。
在你生成數據集和模擬的地方模擬學習的這一想法是做這個的方法之一。AlphaGo更有趣的一個版本AlphaGo Zero已經學會了玩三種不同的游戲,但它只有一個廣義的游戲結構。AlphaGo Zero能夠通過這個游戲結構學習國際象棋和具有廣義結構的Go-by。但即使這樣也是有限的,因為它仍然局限于采取某種形式的游戲。
Michael Chui:在人工智能領域,我們正在對神經學家早就知道的東西形成新的認識,即作為人,我們不是像一塊白板(tabula rasa)一樣降臨到這個世界的。實際上,我們的大腦中有很多結構針對某些事物進行了優化,不管是理解語言還是行為、生理行為等等。Geoff Hinton等人正在使用膠囊(capsule)和其它類型的概念。將一些知識植入到我們正在使用的系統結構的這種想法也是我們已經見過的。所以,你想知道對于遷移學習來說,明白我們不是從零開始,這是不是解決問題的途徑之一。我們從已經具有一些配置的系統開始,這有助于我們將一些知識從一個地方帶到另一個地方,因為實際上,我們天生就是做這個的料。
James Manyika:事實上,Steve Wozniak已經提出了一些建議,這導致了各種各樣的問題——什么才是恰當的圖靈測試或者你能對廣義學習(generalized learning)想出什么樣的測試類型。他想出來的一個版本就是所謂的“咖啡測試(coffee test)”,也就是說,有朝一日我們可以獲得一個可以走進一個陌生的美國家庭并制作一杯咖啡的系統。這十分引人注目,因為這要求人工智能可以解釋一個完全未知的環境,能夠在一個完全陌生的地方有所發現,并能夠在特定家庭中使用不陌生的設備制作某些東西。
在一個陌生的家庭中制作一杯咖啡的過程需要解決很多一般問題,與解決我們認為引人入勝的十分狹義的,高度技術性的特定問題相比,這聽起來也許微不足道。我們越來越希望解決通常被泛化為普通的、現實世界的問題(坦率地說),那些問題實際上可能是測試我們是否有廣義系統的真正考驗。
順便說一句,記住這點很重要——當我們考慮人工智能和機器學習中所有振奮人心的東西時,絕大多數東西(無論是技術還是應用程序)主要是解決非常具體的事情。這些東西正在解決自然語言處理問題、圖像識別和非常非常具體的事情。人工智能可以做好多這樣的事情,而解決更廣義的問題的工作(雖然正在取得進展)卻進展得特別緩慢。我們不應該混淆我們在這些狹義的,更具體的問題集上所取得的進展,因此,我們已經創建了一個廣義系統。
還有另一個我們應該討論的局限,David——由于各種原因,這是一個重大的局限。這就是“可解釋性(explainability)”的問題。從本質上講,神經網絡在結構上是這樣的,以至于很難確定某個特定結構為什么會成其為特定結構以及某物究竟在它的結構的什么地方導致了特定的結果。
David Schwartz:對。我聽說我們正在處理非常復雜的問題。人們怎么徹底理解什么東西可能是黑匣子(或事實上就是一個黑匣子)?
James Manyika:這就是可解釋性問題,即:我們是怎么知道的呢?你可以考慮我們在金融領域開始應用這些系統的地方——例如借貸。如果我們拒絕你的貸款申請,你可能想知道原因。導致該決策的數據點或功能集是什么?如果你將一套系統應用于刑事司法系統,如果有人被保釋而其他人卻沒有,你可能想了解我們為什么得出了這樣的結論。對于純粹的研究目的而言,這也可能是一個重要的問題,在這種情況下,你試圖以一己之力發現特定的行為,因此你設法了解數據的哪個特定部分會導致一系列特定的行為。
從結構的角度來說,這是一個非常難的問題。然而,好消息是,我們開始在這些事物上取得進展。我們取得進展的方式之一是使用所謂的生成對抗網絡。這些是更廣泛的加性模型(more generalized, additive model),與同時采用大量模型相反,你幾乎可以一次采用一系列特征模型,并在此基礎上繼續構建。
例如,當你應用神經網絡時,你正在探索一個特殊的特征,然后你在另一個特征上分層;因此,要是你愿意的話,你可以根據不同的特征模型的這種分層看到結果如何發生變化。你會看到,當結果發生變化時,哪些模型可能產生了最大的影響。這是開始了解究竟是什么推動了你正在得到的行為和結果的一個方法。
Michael Chui:可解釋性的另一個重要推動因素是監管和監管機構。如果汽車決定左轉而不是右轉,并且有一些與此相關的責任,法律系統會問一個問題:“為什么汽車左轉或右轉?”在歐盟,有個叫《一般數據保護法規》(General Data Protection Regulation)的法規,該法規對這些機器可能做出的決策要求具備可解釋性。機器是完全不可抗的。你可以說,“這里有一百萬個與我們的模擬神經元(simulated neuron)相關的權重,這就是為什么”。但這對人類來說太無趣了。
另一個是首字母縮略為LIME(locally interpretable model-agnostic explanations,局部可理解的與模型無關的解釋)的技術。這個想法就是從外到內(而不是看模型的結構),只能擾動模型的某些部分和輸入,看看輸出是否會產生什么影響。如果你正在查看圖像并試圖識別某個對象是皮卡車還是普通轎車,你可能會說,“如果我在輸入中更改擋風玻璃,我會得到不同的輸出嗎?另一方面,如果我更改車輛的尾部,這看起來就不一樣了。“這就是說,該技術在確定車輛是轎車還是皮卡時關注的是車輛的尾部。它基本上是在對模型進行實驗,以發現是什么因素產生了影響。這是人們試圖用來解釋這些系統如何工作的一些技術。
David Schwartz:在某種程度上,我從一些問題或可能的回答中得知一個非常人性化的因素。這個問題就是:為什么答案是如此這般?答案可能是算法使然。但有人創建了這種算法,或某人——或一群這樣的人——以及創建該算法的機器。這給我們帶來了與眾不同的局限:偏差(人類偏好)。James,你能進一步談談我們所面臨的挑戰嗎?
James Manyika:偏差問題非常重要。我將它分為兩個部分。
顯然,這些算法在某些方面是對人類偏見的重大改善。這是偏差對話積極的一面。我們知道,例如,有時候,當人們在履歷上解釋數據時,因為他們有各種偏好,他們可能會傾向于一些屬性而忽略另一些屬性。事實上,與人類的偏見相比,這些算法的應用實際上是一項重大改進。從這個意義上說,這是一件好事。我們想要那樣的好處。
但我認為談話的第二部分是值得展開的,即使在我們應用這些算法時,我們確實知道它們是數據的產物和你輸入的內容。如果你輸入的那些內容本身就有一些固有的偏差,你可能會在更大規模上引入不同類型的偏差。
如果所收集的數據已經存在偏差,那么Julia Angwin等人的工作實際上已經證明了這一點。以警務為例,我們知道有些社區受到更嚴格的監管。因此,我們獲得的數據以及就這些環境收集到的數據要多得多。如果我們對兩個社區進行比較,一個社區被過度抽樣——這意味著該社區有大量的數據,因為那里有大批警察——而另一個社區沒有多少警察,因此沒有多少可用的數據,我們可能會僅僅因為兩個社區可用數據的對比而對所觀測的環境下錯誤的結論。
偏差可以另辟蹊徑。例如,在貸款的例子里,影響可能會相反。對于這樣的人口或細分群體——我們有大量關于他們的經濟數據,我們實際上有可能做出正確的決策,因為數據基本上是可用的,而在另一個環境里,我們談論的是一部分我們不太了解的人口,我們所知道一點皮毛都以一種方式將決策發送出去。因此,這是欠采樣(undersampling)產生偏差的另一個例子。
關于第二部分的要點是,我認為這很重要——確保我們充分考慮數據本身可能存在的固有偏差是什么,這可能就在數據集本身(無論是數據集實際被構建的方式,甚至是它的收集方式,或者是數據集的采樣程度和粒度)。我們能以某種基本的方式方法去除偏差嗎?
這就是為什么偏差問題對領導者來說特別重要,因這個問題使公司要面對各種可能的訴訟和社會問題的風險,特別是當你以具有社會影響的方式使用這些算法時。借貸再次成為一個很好的例子。刑事司法是另一個例子。醫療提供了另一個例子。這些例子成了考慮這些偏差問題非常重要的場地。
Michael Chui:數據存在偏差的一系列棘手案例的主要因素并不是人們對非此即彼的選擇的固有偏見(至少在第一種情況下不是這樣)。在很多情況下,這是因為采樣——采樣偏差,數據收集偏差等等的這些想法——這也不一定和無意識的人類偏見有關,而和數據來源的人為因素有關。
有一個非常著名但與人工智能關系不大的案例——美國城市在智能手機出現的早期使用了一個應用程序,這個應用程序能在你開車經過坑洞時根據加速度計的搖晃來確定坑洞的位置。奇怪的是,該應用程序發現,如果你查看一下數據就會發現這個城市的富裕地區似乎有更多的坑洞。這與城市的這個地方有更多的坑洼這件事情實際上沒有任何關系,而是你恰好從城市的那個地方獲得了更多的信息,因為當時更富裕的人群智能手機普及率更高。這就是并非因為人們存心不注意城市的某些部分的其中一個案例。了解數據的基礎——理解正在采樣的內容——非常重要。
還有另一位來自麻省理工學院媒體實驗室的研究人員Joy Buolamwini,她做過一個著名的TED演講,她在面部識別方面做了大量的工作,而且她是一名黑人女性。她說,“看,很多其他的研究人員都比我更具男性特征,比我更白。因此,面部識別中某些人群的準確率遠遠高于我”。所以,這并不一定是因為人們試圖將一些人口排除在外,盡管有時會發生這種情況,這實際上與理解你正在使用的用于訓練系統的樣本的代表性有關。
因此,作為業務領袖,你要了解,如果你要訓練機器學習系統:你正在使用的訓練集有多大代表性?
James Manyika:這實際上創造了一種有趣的張力。這就是我描述第一部分和第二部分的原因。因為在第一個例子中,當你考察第一部分的問題,即正常的日常招聘和類似決策中固有的人類偏見時,你會對使用人工智能技術感到非常興奮。你說,“哇,我們頭一回有辦法在日常決策中克服這些人類偏差”。但與此同時,我們應該特別關注,在你開始觸及第二部分的這些問題時我們取得了什么結果,在這些結果里,你正在使用具有固有偏差的大型數據集。
我認為人們忘記了人工智能機器深度學習領域中的一個問題,那就是很多研究人員使用的多半是相同的共享數據集——這些數據集是公開的。除非你恰好是擁有大型專有數據集的公司,否則人們只能使用這種著名的CIFAR數據集,該數據集通常用于對象識別。它是公開場合可以使用的。大多數人根據這些可用的數據集對圖像識別的性能進行基準測試。因此,如果每個人都使用可能具有這些固有偏差的通用數據集,那么我們有點像大規模復制偏差。充分考慮第一部分和第二部分之間的這種張力和這個偏差問題是非常重要。然而,好消息是,在過去幾年中,人們對我們剛剛描述的問題有了越來越多的認識。而且我認為現在有很多地方正在努力對如何看待偏差的問題進行真正的研究。
David Schwartz:鑒于我們今天廣泛的應用,局限以及我們面對的各種挑戰的討論,人工智能的最佳實踐是什么?
Michael Chui:現在為時尚早,所以談論最佳實踐難免蜻蜓點水。我想借用曾經從Gary Hamel那里聽來的一句話:從某種意義上說,我們可能會談論下一步的做法。也就是說,我們從作為開拓者和先鋒的領導者那里看到了一些東西。
第一件東西就是我們所說的“調整(get calibrated)”,但實際上這只是開始理解技術和可能性。對于我們今天談到的一些東西,過去幾年的業務領導者必須要對技術有更多的了解。這真的是最前沿的東西。因此,真的要設法了解技術的潛力。
然后,設法了解整個業務的潛在影響。正如我們所說,這些技術廣泛適用。因此,了解你的業務在哪里獲得價值,以及如何幫你獲得價值,無論是營銷、銷售、供應鏈、制造業、人力資本還是風險。