當(dāng)然,這只是一個(gè)段子,“最強(qiáng)人工智能”在金融投資領(lǐng)域的嘗試,至今依然在摸索中。然而一個(gè)普遍的疑問在于,與圍棋和電競不同,金融市場投資是一個(gè)受宏觀環(huán)境、市場波動(dòng)、突發(fā)事件等等眾多不可控因素影響的復(fù)雜決策,人工智能如何能像真人一樣完成如此復(fù)雜的決策?它們最終能擊敗頂尖的人類基金經(jīng)理和投資專家嗎?
人工智能是在模擬人腦嗎?
要解答這個(gè)疑問,首先我們需要了解人工智能到底是如何去“學(xué)習(xí)”下棋、電競和其他技能的。
今天外界對(duì)人工智能最大的誤解,恐怕就是認(rèn)為人工智能是對(duì)人腦的“模擬”,然而人工智能的工作和學(xué)習(xí)機(jī)制,事實(shí)上與人腦完全不同。當(dāng)前被稱為“人工智能”的,至少包括以下三種體系。
首先,人工智能的起步,在于人類最簡單的一種思考能力:推斷邏輯。邏輯學(xué)自古希臘開始對(duì)此已經(jīng)深有研究,并且提出一系列明確簡單的推斷原則。以此為基礎(chǔ),人工智能的起步從具體“算法”開始,也就是讓電腦遵循邏輯推理的命題和原則來完成任務(wù)。例如,向電腦輸入某個(gè)知識(shí)體系,并且設(shè)定推理的算法,電腦就可以成為一套“專家系統(tǒng)”,通過自動(dòng)推理來解答人們提出的問題,近年流行的人工智能醫(yī)療診斷,就是這樣的“專家系統(tǒng)”。
其后興起的第二個(gè)人工智能體系叫做“搜索系統(tǒng)”,例如尋求迷宮的解法,以及在地圖上尋找最短路徑。這一系統(tǒng)目前普及度也很高,許多家庭都在使用的“掃地機(jī)器人(300024,股吧)”就是這一系統(tǒng)的運(yùn)用,能夠找到清潔全家地板的最優(yōu)化路線。
然而真實(shí)的世界總是千變?nèi)f化,邏輯遠(yuǎn)遠(yuǎn)無法涵蓋。今天真正讓世界震驚,能夠擊敗人類圍棋冠軍和電競高手的人工智能早已突破“邏輯”的范疇,它們誕生于第三套系統(tǒng):通過統(tǒng)計(jì)學(xué)方法,用大量的數(shù)據(jù)統(tǒng)計(jì)和分析來作出最優(yōu)的決策。可以說,統(tǒng)計(jì)學(xué)方法帶來了當(dāng)前真正強(qiáng)大的人工智能,我們稱之為“機(jī)器學(xué)習(xí)”。
還是從阿爾法狗說起,由于真正的圍棋招數(shù)可能性遠(yuǎn)超于宇宙原子的數(shù)量,不可能通過邏輯來窮盡所有招數(shù),因此在阿爾法狗以前,人工智能用邏輯推論方法來解決圍棋,耗費(fèi)多年而毫無寸進(jìn)。此時(shí),統(tǒng)計(jì)學(xué)為人工智能帶來了一個(gè)重要的啟示:我們可以通過對(duì)一小部分的策略的抽樣研究,歸納出有效的策略。這正如要知道一個(gè)國家的經(jīng)濟(jì)發(fā)展,并不需要知道每一個(gè)人在做什么,而只需要抽樣調(diào)查來研究是一樣的。
簡而言之,Alpha Go和Open AI用來打敗人類的能力,源自它們龐大而高速的統(tǒng)計(jì)能力,通過統(tǒng)計(jì)學(xué)抽樣去模擬圍棋手或游戲玩家每一步每一招的可能性,從而找到致勝的招數(shù),而并不是它們真的“學(xué)會(huì)”模擬人類大腦來思考。
人工智能是怎樣自己“學(xué)習(xí)”的?
人工智能今天的強(qiáng)大,并不意味著他們開始“接近”人腦,剛好相反,他們的優(yōu)勢在于能夠完成人腦根本無法處理的大量統(tǒng)計(jì)。以下圍棋為例,每多一個(gè)決策,就增加了一個(gè)新的維度,需要計(jì)算的可能性也就呈指數(shù)級(jí)增加,所以在人工智能研究的早期,機(jī)器要通過如此大量的統(tǒng)計(jì)去“學(xué)習(xí)”也是困難的。
早期機(jī)器學(xué)習(xí)中,由于數(shù)據(jù)量過于龐大難以處理,人類采取了提示一些“捷徑”的方法。其中最主要的方式叫做“監(jiān)督學(xué)習(xí)”,也就是機(jī)器在人類提供經(jīng)驗(yàn)的“監(jiān)督”下去統(tǒng)計(jì)分析數(shù)據(jù)。俗話說“依樣畫葫蘆”,這就比如一個(gè)新員工來到公司,老板就教了他一套自己工作的方法,讓他有樣學(xué)樣去做,就是“監(jiān)督學(xué)習(xí)”。此前版本的Alpha Go也是通過學(xué)習(xí)從古到今的大量棋譜數(shù)據(jù)來學(xué)習(xí)圍棋,并先后打敗了人類頂尖高手李世石和柯潔。
然而,經(jīng)驗(yàn)畢竟是有限的,而且需要大量人力和時(shí)間去總結(jié)和標(biāo)簽。真實(shí)世界的大多數(shù)決策畢竟不像圍棋,擁有數(shù)千年的經(jīng)驗(yàn)積累和現(xiàn)成棋譜。那么,機(jī)器是否能夠具備自己去挖掘經(jīng)驗(yàn)的能力呢?
由此,機(jī)器學(xué)習(xí)進(jìn)入了“無監(jiān)督學(xué)習(xí)”領(lǐng)域,即讓機(jī)器徹底去自己摸索,人類不給予任何總結(jié)的經(jīng)驗(yàn),不對(duì)任何數(shù)據(jù)進(jìn)行標(biāo)簽。當(dāng)前人工智能中的自然語言處理,讓人工智能通過大量的語言輸入去理解語言中詞語關(guān)系的內(nèi)在規(guī)律,就是“無監(jiān)督學(xué)習(xí)”的一種應(yīng)用。更常見的應(yīng)用則是在網(wǎng)上購物的“推薦商品”中,機(jī)器通過分析大量的過往數(shù)據(jù),“學(xué)習(xí)”去推薦買家最有可能感興趣的商品。
第三種模式則叫做“強(qiáng)化學(xué)習(xí)”,可以算是“監(jiān)督”和“無監(jiān)督”各占一半的方式。
還是用企業(yè)新員工來打比方,這一次老板并不具體告員工要怎么做,但是到了年底會(huì)發(fā)出或多或少的獎(jiǎng)金。當(dāng)然,獎(jiǎng)金的多少存在不同的可能性,是員工對(duì)客戶服務(wù)態(tài)度好?還是工作特別勤奮?又或是拍老板馬屁拍的好?在真實(shí)的人生中,這種分析顯然是極為困難的。然而理論上,如果這個(gè)職員一直通過獎(jiǎng)金多少來反省自己的工作,然后持續(xù)做同一份工作一百萬年時(shí)間,那么他會(huì)無限逼近“獎(jiǎng)金的真相”。
這種通過反饋來修改行動(dòng)的模型,我們稱之為策略-評(píng)估(Actor-Critic)模型,隨著策略(Actor)所做的決策被評(píng)估(Critic)所修正,決策的質(zhì)量一點(diǎn)一點(diǎn)逐步地改善,機(jī)器開始自己去學(xué)習(xí),并找到獨(dú)特的學(xué)習(xí)方法。人活不了一百萬年,當(dāng)然也就算不了一百萬年。但是機(jī)器隨著計(jì)算速度——即所謂“算力”的迅速提高,卻有望解決這個(gè)看起來荒謬的難題。2016年的計(jì)算機(jī)已經(jīng)比2007年速度快一萬倍,今天普通工業(yè)級(jí)電腦已經(jīng)可以展開深度強(qiáng)化學(xué)習(xí),而且算力的提高速度還在持續(xù)加快。
2017年10月,Alpha Go進(jìn)化為Alpha Go Zero。兩者最大區(qū)別就是,后者在沒有任何棋譜數(shù)據(jù)和人類經(jīng)驗(yàn)輸入的前提下學(xué)習(xí)圍棋,每一步都由機(jī)器自己隨機(jī)嘗試,通過最后勝敗的統(tǒng)計(jì)分析來判斷每一步是“好棋”還是“臭棋”。算力強(qiáng)大的Alpha Go Zero僅僅用了三天,就從一張白紙成長為以100比0完勝舊版Alpha Go(即擊敗柯潔的版本)的頂級(jí)高手。最妙的是,至今人類也不知道Alpha Go Zero自己摸索開發(fā)出的算法是怎樣。
同樣是2017年,發(fā)明家馬斯克旗下Open AI的人工智能玩家在電競游戲DOTA這種存在各種陌生環(huán)境,需要團(tuán)體協(xié)作的游戲中,連續(xù)打敗頂尖業(yè)余人類玩家組合的隊(duì)伍。在此之前,人工智能僅僅經(jīng)歷數(shù)周的自我訓(xùn)練和對(duì)戰(zhàn),游戲技巧的進(jìn)步一日千里。這也代表著人工智能“深度學(xué)習(xí)”的能力,已經(jīng)從圍棋這種相對(duì)單純的“分割空間”走向更為復(fù)雜的“連續(xù)空間”,開始處理更復(fù)雜環(huán)境中的決策。
人工智能會(huì)下棋就會(huì)投資?
相信大家已經(jīng)看出,人工智能的深度強(qiáng)化學(xué)習(xí)的范疇,已經(jīng)跟真實(shí)環(huán)境中的要求越來越接近。可以說,基于深度強(qiáng)化學(xué)習(xí)的“金融Alpha Go Zero”誕生只是時(shí)間問題。目前,我們正在研發(fā)中的人工智能量化投資模型,與上文中圍棋或電競游戲的方法非常相似:
在環(huán)境因素中,Alpha Go Zero分析的是對(duì)手和自己的下子,金融Alpha Go Zero分析的則是資本市場和宏觀經(jīng)濟(jì)的各種信息。在回報(bào)方面,Alpha Go Zero分析獲勝的概率,金融Alpha Go Zero分析的回報(bào)則是投資收益,是否達(dá)到投資目標(biāo)。在行動(dòng)范圍方面,圍棋Alpha Go Zero分析的是棋盤上沒有被落子的位置,金融Alpha Go Zero分析的則是設(shè)計(jì)者規(guī)定的投資范圍和標(biāo)的。
在學(xué)習(xí)的過程中,圍棋Alpha Go Zero評(píng)估潛在落子位置的價(jià)值,評(píng)估自己的落子位置策略和先后,金融Alpha Go Zero則評(píng)估各類資產(chǎn)的投資價(jià)值,評(píng)估每個(gè)可投資資產(chǎn)應(yīng)當(dāng)被依照什么比重來配置。
這只自我學(xué)習(xí)的“金融阿爾法狗”如何工作是人類難以想象的。正如圍棋Alpha Go Zero不再需要經(jīng)驗(yàn)和棋譜,“金融阿爾法狗”學(xué)習(xí)的是投資的“能力”而非僅是“技巧”。
與過去各類量化投資模型相比,這一進(jìn)步的巨大意義首先在于,設(shè)計(jì)者不需要再對(duì)每類資產(chǎn)單獨(dú)設(shè)計(jì)模型,不用提取“因子”或設(shè)立標(biāo)簽,大大減少了人力成本,而其學(xué)習(xí)也不受到資產(chǎn)類別的限制,可以自動(dòng)靈活應(yīng)變。由于不用人類提供標(biāo)簽和經(jīng)驗(yàn),設(shè)計(jì)者可以建立各種不同的目標(biāo),例如成本、風(fēng)險(xiǎn)、最大回撤、流動(dòng)性變現(xiàn)等等,各種投資中需要考慮的因素和目標(biāo)如何去平衡?這個(gè)問題交給機(jī)器自己。
此外,過往的量化投資算法往往本身就基于歷史數(shù)據(jù)和經(jīng)驗(yàn)歸納,很難再用同一堆歷史數(shù)據(jù)去測試出它真實(shí)的投資能力,而且金融市場用歷史推斷未來往往失效。人工智能的強(qiáng)化學(xué)習(xí)則可以采取用一類資產(chǎn)的歷史數(shù)據(jù)進(jìn)行學(xué)習(xí),再用另一類資產(chǎn)的數(shù)據(jù)進(jìn)行測試,或者是用中國股市的數(shù)據(jù)進(jìn)行學(xué)習(xí),用印度股市的數(shù)據(jù)來測試,更能夠測試出人工智能的真實(shí)能力。
這聽起來或許神乎其神,但事實(shí)上,它符合我們生活中最簡單的判斷方式——要知道一個(gè)孩子是不是好學(xué)生,最好的方法是交給他新的學(xué)習(xí)任務(wù),看他是否能很快攻克。要知道一個(gè)新人是不是好員工,最好的方法是交給他從未做過的工作,看他是否能順利完成。人工智能是不是真的能自學(xué)成才,超越人類投資專家,也有待給予它們?nèi)绿魬?zhàn)去驗(yàn)證。