精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

為什么有人說數據是新時代的“煤炭”?

責任編輯:editor004

作者:止水

2016-09-28 22:42:14

摘自:網易科技報道

9月28日消息,“數據是新的石油嗎?”在2012年的時候,《福布斯》雜志在一篇文章中引述了這句一位大數據支持者的提問。

9月28日消息,“數據是新的石油嗎?”在2012年的時候,《福布斯》雜志在一篇文章中引述了這句一位大數據支持者的提問。時間轉瞬飛逝到了2016年,大數據潮流涌去,又掀起了名為“深度學習”(deep learning)的巨浪,我們從《福布斯》那兒再次聽到了更為明確的答案:“數據是新的石油!”

對這一觀點,目前就職于亞馬遜的機器學習和計算生物學教授尼爾?勞倫斯(Neil Lawrence)在這一比喻的喻體對象上,有著些許不同的看法,他認為:數據是新的煤炭。

勞倫斯教授日前在倫敦舉辦的Re-Work大會的深度學習研討會上,向我們分享了這個故事:在18世紀的時候,英國工程師托馬斯·紐科門(Thomas Newcomen)發明了最初的蒸汽機(這是瓦特所發明的常壓蒸汽機的前身)。紐科門最初的設想是將蒸汽機用于英國西南部錫富礦的開采上。在那時,紐科門所遇到的情況是,要讓紐科門蒸汽機實現抽水的功能,就必須讓它要靠近煤炭產地,因為這臺蒸汽機的效率雖然很高,但它所創造的價值還是不足以支撐買煤炭來讓它作業的花費。

或許正是基于這樣的原因,第一臺紐科門蒸汽機是在英國達德利市的煤礦邊兒上運轉起來的,而不在錫礦。

所以,為什么勞倫斯教授會說數據就是煤炭?因為它倆的情況很相似:目前,在全世界的深度學習領域里都有出現了許多“紐科門”。像Magic Pony和SwiftKey這樣位于倫敦的初創公司提出了很多革命性的新方法,這些方法能訓練計算機去實現一些能令人目瞪口呆的認知能力,比如從一堆模糊的照片中重新構建出人物的面部數據,通過學習用戶的筆跡來更好地預測他接下來要寫什么東西。

 

undefined

 

就目前來說,就像紐科門那樣,這些公司的創新出的AI技術的需求量非常的大,它們有充足的“燃料”來一展身手。也正是基于目前AI技術火爆的局面,各家AI初創公司都已成了科技巨頭們爭相搶奪的香餑餑。

目前,Magic Pony已被Twitter收購了,而SwiftKey也已被微軟所收購。就連勞倫斯教授自己,也已在三周前,被亞馬遜公司以高薪從謝菲爾德大學(University of Sheffield)挖走了。

然而,勞倫斯教授教授的故事其實還沒有講完:69年后,詹姆斯·瓦特(James Watt)改良了紐科門蒸汽機,在原先的設計中加入了一個冷凝器。而這一小小的改變,按照勞倫斯教授的說法:“讓蒸汽機的效率更上了一層樓,并由此引發了工業革命。”

無論你認為數據是石油還是煤炭,我們對于它其實還有另外一種理解:許多AI科學家所做出的努力,就是確保我們能事半功倍。

單純地教一臺計算機在圍棋或是玩游戲上打敗人類,其實還不是什么大不了的事情,但如果深度學習技術正從原先的“胡吃海喝”數據,轉變至具備能反饋出最佳匹配可能的能力的話,那么深度學習技術在“數據利用率”上,就將獲得質的飛躍。

“如果你能仔細回想一下那些深度學習技術已大放異彩的領域,那么你很容易就能發現這些領域的共同點,那就是這些領域都能產生出大量的數據,”勞倫斯教授這樣說道。

深度學習技術能幫你輕松辨認出貓的照片,但如果你想讓它幫你診斷什么疑難雜癥的話,目前還是比較難能實現的。

“從科學倫理學的角度上去看,我們不可能強迫志愿者去生病,來幫助我們搜集改良深度學習算法所需要的數據。”

計算機還是很傻的

對于像谷歌旗下的AI研究組織Deep Mind這樣的AI成功實踐者來說,他們現在所面臨的問題是:我們目前的計算機的真正學習水平,仍處于相當癡呆的狀態。

對于人類,我可以給你看一張你從未見過的動物照片——比如一只短尾矮袋鼠——在這張照片的認知教導下,你足以在一堆照片中正確地辨認出一只完全不同的短尾矮袋鼠。但如果我們首次將一張短尾矮袋鼠的照片,發給一個已被預先訓練過的優秀神經網絡系統,它能調一調自己的認知模型,都已經算是謝天謝地的了。

當然,反過來說,如果你給一個深度學習系統展示數百萬張短尾矮袋鼠的照片,然后再輸入數百萬張其它哺乳動物的照片,你或許就能得到一個無敵的哺乳動物辨認系統,僅憑一點細枝末節的東西,它就能打敗所有的頂級人類選手。

“一個好的深度學習系統需要海量數據的支持,來幫助它構建自己的分析模型,” 英國倫敦帝國理工學院認知機器人學教授默里·沙納漢(Murray Shanahan)這樣說道。

“這實際上是一個非常非常緩慢的學習過程,但即便是一個非常年幼的人類兒童,他都能迅速地學會新的知識。”

專注于深度學習領域的專家們,目前都已經提出了許多能提高“數據利用率”問題的方法,他們中的大多數人都覺得,能模仿人類大腦的運作方式的人工智能系統是最強的。

其中一個方法提到了一項名為“progressive neural networks”(漸進式神經網絡)的新技術,它的目標是攻克許多深度學習模型在進入到一個全新領域時,都會遇到的難題:究竟是應該忽略掉它們此前已掌握的信息來重頭開始呢?還是應該冒著“遺忘”所學知識的風險,用新信息來改寫自己的認知模型。

為了更好地幫助讀者理解這一點,我們可以一起嘗試想象這樣的場景:當你要學習辨認短尾矮袋鼠的時候,你是打算獨立地從頭、身體、四肢、皮毛等等來重新學習它的整個特征呢?還是試圖結合你已有的認知,冒著可能會忘記“貓長什么樣”的風險來學習它呢?

 

undefined

 

谷歌Deep Mind工程師Raia Hadsell主要負責將更好的系統嵌入到團隊的深度學習模型當中,這對于公司想要搭建一個“通用型人工智能系統”的這一長期目標,是非常至關重要的。通用型人工智能系統指的是能像你我那樣做各種各樣復雜的事情的AI系統。

“它是沒有模型的,也沒有所謂的神經網絡,在通用型人工智能的世界里,它既可以被訓練成辨認物品的大師,又能玩電子游戲,還懂得聽音樂,”Hadsell在Re-work大會上這樣說道。

“我們希望它能做到的是學習一個任務,然后在這個工作上達到專家級的水平,然后轉而投向第二個任務,緊接著做第三、第四、第五個任務。”

“我們希望這個通用型AI系統在學習新東西的時候,不會拋棄已有的認知,并具備從一個任務跳轉到另一個任務的能力:如果我掌握了處理一項任務的技能,我希望它能幫助我來學習下一個任務。”而這也正是Hadsell在Deep Mind帶領團隊成員正在探索的事兒。

他們的方法能讓深度學習系統“凍結”對一個任務的理解——比如打乒乓球——然后轉到處理下一個任務上,而它在處理第二個任務的時候,能回過頭去,再參考它在處理第一個任務時所學習到的那些知識。

“這將演變成為一個有趣的初級視覺功能”——舉個例子,學會如何從一堆抽象的數據中,分析出這個物體的屬性——“或是一個高級的政策理解功能,”比如理解“小白點必須待在船槳正確一邊”的這一指令。

 

undefined

 

很顯然,現在的Deep Mind離真正開發出一個通用型人工智能系統還有幾步之遙,但反過來說,Deep Mind離“意外”釋放出一個超級AI系統就剩幾步的距離了。好消息是,據Hadsell本人透露,現在的漸進式神經網絡技術已經可以被用于改進“數據利用率”了。

我們可以拿機器人舉個例子。“數據問題是機器人的一大難題,因為它們很脆弱、它們需要看護者,還很貴。”Hadsell這樣說道。

一個解決方式是用“蠻力”來搞定:比如,Alphabet的無人駕駛汽車是通過“野蠻”地行駛了很長一段距離,才學會了駕駛。

在開始的時候,Alphabet無人汽車就算是在無人的公路上開,駕駛員的手也要時刻準備著要落到方向盤上。但如今的Alphabet無人汽車雖然受法律限制,還無法駛上馬路,但它已經可以完全不裝方向盤了。

而另外一個方法就是通過模擬仿真來教導機器人,通過給機器人裝上各種傳感器來無限逼近真實的世界,這種方法的學習正確率也很高。這樣調教一番后,你就可以用實戰訓練來提高教育的層次。

“要實現這點最好的方法就是采用漸進式神經網絡學習技術。”Hadsell這樣說道。

我們可以舉個簡單的任務例子:比如用一只機械臂來實現空中接球。

“某天,我們就是在仿真中這么簡單粗暴地來訓練它去學習這個項目…如果我們拿真正的機械臂去訓練它的話,大概要耗去我們55天的訓練時間。”但這個AI系統在經歷仿真訓練后,再將它接入到真正的機械臂上,只用再訓練上兩個小時,就能達到55天真實訓練的效果。

教AI學會思考

除了深度學習,其實還有另外一種方法。

英國帝國理工學院的沙納漢教授(Shanahan)從事AI研究領域多年,在他的印象里,剛開始的時候,AI領域里最流行的手段還不是深度學習。事實上,深度學習這個技術需要高計算機處理性能、大儲存空間和海量數據支持才能實現,而在當時這些條件都并不成熟,所以起初最流行的方法是“符號學習”技術。

AI符號學習流派專注于構建通用的邏輯范例,然后“喂以”它們真實世界的信息來傳授它們更多知識。

沙納漢教授表示,符號流派里的“符號”有點像英語里的句子,它們陳述了世界或某些東西的樣貌。

然而不幸的是,這一流派的技術并未被推廣開來,以致于AI的發展在隨后低迷了好幾年。

但沙納漢教授仍堅信,將現在的深度學習和傳統的符號學習技術結合到一起,將產生1+1>2的效果,這能有助于提高“數據利用率”,還能幫助我們解決機器思維不透明的難題:“當機器在做決策的時候,我們很難從中提取出可被人類閱讀的解釋,” 沙納漢教授這樣說道。

我們無法問計算機為什么它認為短尾矮袋鼠是一只“短尾矮袋鼠”,它只是就這么判斷罷了。

沙納漢教授的想法是建立一個通過另一種名為“深度強化學習”(deep reinforcement learning)的方法,而不是傳統手動碼代碼的方法,來建立一個符號類型數據庫。這樣的話,AI就可以通過反復試錯來而不是檢索海量數據來學習了。舉個例子,DeepMind所開發出的AlphaGo的核心學習技術就是基于深度強化學習的。

 

undefined

 

為了向我們更好地展示這一概念,沙納漢教授的團隊開發出了一個能玩簡單版圍棋游戲的AI系統。從大體來講,這個訓練這個AI系統的過程不是讓它直接玩圍棋游戲,而是通過讓它教第二個系統有關圍棋規則的知識和玩法,這樣的話,這個AI系統就能以更為抽象的方式,理解圍棋究竟是怎么玩兒的了。

就像Hadsell的那套方法一樣,沙納漢教授的這套方法雖然為麻煩一些,但從效果上來看,對它所有的付出都還是值得的。當傳統的深度學習系統遇到瓶頸的時候,沙納漢教授的這套更為抽象的系統能更為一般化地思考它所面對的難題,它在某些方面同上一種方法的類似,但卻是它的延續。

更為機智地思考

在某種程度上,“數據利用率”的問題其實也被夸大了。比如,相比那些基于深度學習技術的AI系統,你確實在學一些東西的時候要比它快得多。但你也必須承認,作為人類一員的你已經學習各種知識很多年了,這可不是什么小規模的數據量。

除此之外,你身上還有一個很明顯的缺點,這是任何優秀的深度學習系統都不會出現的情況,那就是:你很健忘。

而這或許也是人腦這個思考系統為高效率所付出的代價。你要么就是會忘了怎么做事兒,要么就是每次都會花越來越多的資源,來從大量物品中尋找到你想要找的那個東西。但如果能從那些大公司那兒孵化出最高級別的深受學習技術的話,那即便出現這點小問題,它也還是值得的。

鏈接已復制,快去分享吧

企業網版權所有?2010-2025 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 惠州市| 西藏| 乃东县| 城固县| 洛浦县| 沽源县| 富平县| 海丰县| 峨山| 邓州市| 襄樊市| 水富县| 林芝县| 永登县| 鹤庆县| 大冶市| 莱芜市| 左权县| 乌拉特前旗| 肇源县| 云龙县| 尤溪县| 乌兰浩特市| 同心县| 华安县| 江津市| 泊头市| 阜阳市| 雅江县| 图们市| 雅江县| 凯里市| 巫山县| 琼中| 康马县| 云安县| 夏邑县| 出国| 新丰县| 岐山县| 台安县|