在當今生成式AI聊天機器人的世界里,我們目睹了ChatGPT(OpenAI于2022年11月推出)的突然崛起,隨后是今年2月推出的Bing Chat和3月推出的Google Bard。我們決定讓這些聊天機器人完成各種任務,以確定哪一個在AI聊天機器人領域占據主導地位。由于Bing Chat使用的是與最新的ChatGPT模型類似的GPT-4技術,所以我們此次的關注重點是AI聊天機器人技術的兩大巨頭:OpenAI和谷歌。
我們對ChatGPT和Bard進行了七個關鍵類別的測試:冷笑話、辯論對話、數學應用題、總結、事實檢索、創意寫作和編碼。對于每個測試,我們將完全相同的指令(稱為“提示,prompt”)輸入ChatGPT(使用GPT-4)和Google Bard,并選取它們給出的第一個結果進行比較。
值得注意的是,基于早期GPT-3.5模型的ChatGPT版本也可用,但我們在測試中沒有使用該版本。由于我們只使用GPT-4,為了避免混淆,我們在本文中將ChatGPT稱為“ChatGPT-4”。
顯然,這不是一項科學研究,只是為了對聊天機器人的能力進行有趣的比較。由于隨機元素,不同會話之間的輸出可能不同,使用不同提示符的進一步評估將產生不同的結果。此外,隨著谷歌和OpenAI的不斷升級,這些模型的功能將隨著時間的推移而迅速變化。但就目前而言,以下是2023年4月初的對比情況。
冷笑話
為了讓我們的斗智比賽升溫,我們請ChatGPT和Bard寫了一些笑話。由于喜劇的精髓往往存在于冷笑話中,所以我們想看看這兩個聊天機器人能否創作出一些獨特的笑話。
指令/提示:寫5個原創冷笑話
Bard給出的5個冷笑話中,我們用谷歌搜索到了其中三個。另外2個冷笑話中,一個是部分借用米奇·赫德伯格(Mitch Hedberg)在推特上發布的一個笑話,但它只是無趣的文字游戲,效果不佳。令人驚訝的是,有一個看似原創的笑話(關于蝸牛),我們在其他地方都找不到,但遺憾地是它也同樣無趣。
與此同時,ChatGPT-4的5個冷笑話百分百沒有原創,都完全是從其他渠道抄襲來的,但表達得很準確。Bard似乎在這一點上勝過了ChatGPT-4,它在試圖創造原創的笑話(按照我們的指示),盡管有些笑話以一種令人尷尬的方式嚴重失敗(但這正是冷笑話的風格),甚至可以說,以一種無意的方式說錯話(也是冷笑話的風格)。
優勝者:Bard
辯論對話
測試現代AI聊天機器人的一種方法是讓它扮演某個主題的辯論者。在這種情況下,我們為Bard和ChatGPT-4提供了我們這個時代最關鍵的主題之一:PowerPC vs.英特爾。
指令/提示:寫5行PowerPC處理器愛好者和英特爾處理器愛好者之間的辯論對話。
首先,我們來看看Bard的回復。它生成的五行對話并沒有特別深入,除了泛泛的侮辱之外,沒有提到任何針對PowerPC或英特爾芯片的技術細節。此外,對話以“英特爾粉絲”同意各自持有不同意見而結束,這在一個引發了一百萬場口水仗的主題中似乎非常不現實。
相比之下,ChatGPT-4的回應提到了PowerPC芯片被用于蘋果Macintosh電腦,并拋出了諸如“英特爾的x86架構”和PowerPC的“基于RISC架構”之類的術語。它甚至提到了奔騰III,這是2000年的一個現實細節??偟膩碚f,這段論述比Bard的回復要詳細得多,而且最準確的一點是,這段對話并沒有得出結論——這暗示著在互聯網的某些領域,這場永無止境的戰斗可能仍在激烈進行。
優勝者:ChatGPT-4
數學應用題
傳統上,數學題并不是大型語言模型(LLMs)——比如ChatGPT——的強項。因此,我們沒有給每個機器人布置一系列復雜的方程和算術,而是給每個機器人布置了一個老式的小學生風格的應用題。
指令/提示:如果微軟Windows 11使用的是3.5英寸軟盤(floppy disk),那么它需要多少軟盤?
為了解決這個問題,每個AI模型都需要知道微軟Windows 11安裝的數據大小以及3.5英寸軟盤的數據容量。它們還必須假設提問者最可能使用哪種密度的軟盤。然后他們需要做一些基本的數學運算來把這些概念組合在一起。
在我們的評估中,Bard正確地指出了這三個關鍵點(足夠接近——Windows 11的安裝大小估計通常在20-30GB左右),但在數學計算方面卻慘敗,它認為需要“15.11”張軟盤,然后說這“只是一個理論數字”,最后承認需要超過15張軟盤,它仍然沒有接近正確的值。
相比之下,ChatGPT-4包含了一些與Windows 11安裝大小相關的細微差別(正確地引用了64GB的最小值,并將其與現實世界的基本安裝大小進行了比較),正確地解釋了軟盤容量,然后進行了一些正確的乘除,最終得出了14222個磁盤。有人可能會爭論1GB是1024還是1000MB,但這個數字是合理的。它還正確地提到,實際數字可能會根據其他因素而變化。
優勝者:ChatGPT-4
總結
AI語言模型以其總結復雜信息并將文本歸結為關鍵元素的能力而聞名。為了評估每種語言模型總結文本的能力,我們從Ars Technica最近的一篇文章中復制并粘貼了三個段落。
指令/提示:用一段話總結【文章正文三段】
Bard和ChatGPT-4都收集了這些信息,并將其精簡到重要的細節。然而,Bard的版本更像是一個真正的總結,將信息合成新的措辭,而ChatGPT-4的版本讀起來更像一個串聯,砍掉了句子,留下了一些片段。雖然兩個都很不錯,但我們不得不承認Bard在這次測試中勝過了ChatGPT-4。
優勝者:Google Bard
事實檢索
目前已知,大型語言模型會犯自以為是的錯誤(研究人員通常稱之為“幻覺”),這使得它們成為不可靠的事實參考,除非有外部信息來源的補充。有趣的是,Bard可以在線查詢信息,而ChatGPT-4目前還不能(盡管該功能很快就會隨插件一起推出)。
為了測試這種能力,我們向Bard和ChatGPT-4提出挑戰,讓他們表達關于一個困難和微妙主題的歷史知識。
指令/提示:誰發明了電子游戲?
誰發明了電子游戲這個問題很難回答,因為這取決于你如何定義“電子游戲”這個詞,不同的歷史學家對這個詞的定義也不盡相同。有些人認為早期的電腦游戲是電子游戲,有些人認為應該一直包含電視機,等等。沒有一個公認的答案。
我們本以為Bard在網上查找信息的能力會給它帶來優勢,但在這種情況下,這可能會適得其反,因為它選擇了一個谷歌最流行的答案,稱Ralph Baer為“電子游戲之父”。關于Baer的所有事實都是正確的,盡管它可能應該把最后一句話寫成過去時,因為貝爾在2014年就已經去世了。但Bard并沒有提及其他早期的“首個電子游戲”頭銜競爭者,如《Tennis for Two》和《Spacewar!》,所以它的答案可能具有誤導性,而且不完整。
ChatGPT-4給出了一個更全面、更細致的答案,代表了許多早期電子游戲歷史學家目前的感受,他說,“電子游戲的發明不能歸功于一個人”,它呈現了隨著時間推移的“一系列創新”。它唯一的錯誤就是稱《Spacewar!》是“第一款數字電腦游戲”,但事實并非如此。我們可以將答案擴大到包括更多利基邊緣案例,但ChatGPT-4很好地概述了重要的早期先驅。
優勝者:ChatGPT-4
創意寫作
在奇思妙想的話題上不受約束的創造力應該是大型語言模型的強項。我們通過讓Bard和ChatGPT-4寫一個短小的異想天開的故事來進行測試。
指令/提示:寫一篇關于亞伯拉罕·林肯(Abraham Lincoln)發明籃球的兩段創意故事。
Bard的輸出結果在幾個方面都不盡如人意。首先,它是10段,而不是2段,而且是短小、不連貫的段落。此外,它還分享了一些在提示符的上下文中沒有多大意義的細節。例如,為什么亞伯拉罕·林肯的白宮在伊利諾斯州的斯普林菲爾德?除此之外,這算得上是一個有趣而簡單的故事。
ChatGPT-4也將故事設定在伊利諾斯州,但更準確地說,它沒有提到那段時期的總統或白宮。然而,后來它說“來自北部和南部的球員”拋開他們的分歧一起打籃球,這意味著它發生在籃球發明后不久。
總的來說,我們認為ChatGPT-4略勝一籌,因為它的輸出確實分為兩個段落——盡管它似乎通過盡可能拓展每個段落來繞過這個限制。盡管如此,我們還是很喜歡ChatGPT-4版故事中富有創意的細節。
優勝者:ChatGPT-4
編碼
如果說這一代的大型語言模型有什么“殺手锏”的話,那可能就是把它們用作編程助手了。OpenAI在Codex模型上的早期工作使GitHub的CoPilot成為可能,ChatGPT本身也作為一個相當稱職的簡單程序編碼員和調試器而聞名。所以Google Bard的表現也應該很有趣。
指令/提示:寫一個說“Hello World”的python腳本,然后無限地創建一個隨機重復的字符串。
看起來Google Bard根本不會寫代碼。谷歌目前還不支持這一功能,但該公司表示很快就會進行編碼。目前,Bard拒絕了我們的提示,并表示,“看起來你想讓我幫忙編碼,但我還沒有接受過這樣的訓練。”
與此同時,ChatGPT-4不僅直接給出了代碼,還將其格式化在一個帶有“復制代碼”按鈕的花哨代碼框中,該按鈕可以將代碼復制到系統剪貼板中,以便輕松粘貼到IDE或文本編輯器中。但這段代碼有用嗎?我們將代碼粘貼到rand_string.py文件中,并在Windows 10的控制臺中運行它,它沒有任何問題。
優勝者:ChatGPT-4
贏家:ChatGPT-4,但一切并未結束
總的來說,ChatGPT-4贏得了我們7次試驗中的5次(這里指的是使用GPT-4的ChatGPT,以防你忽略上文直接跳過這里)。但這并不是故事的全部。還有其他因素需要考慮,比如速度、上下文長度、成本和未來的升級。
就速度而言,ChatGPT-4目前比較慢,寫關于林肯和籃球的故事花了52秒,而Bard只花了6秒。值得注意的是,OpenAI以GPT-3.5的形式提供了比GPT-4快得多的AI模型。這個模型寫林肯與籃球的故事只需要12秒,但可以說它不太適合做有深度、有創造性的任務。
每種語言模型都有單次可以處理的最大標記數(單詞的片段)。這有時被稱為“上下文窗口”,但它幾乎類似于短期記憶。在對話式聊天機器人的情況下,上下文窗口包含到目前為止的整個對話歷史。當它被填滿時,它要么達到了一個硬極限,要么繼續前進但抹去了之前討論部分的“記憶”。ChatGPT-4則保持滾動內存,擦去先前的上下文,據報道有大約4000個令牌的限制。據悉,Bard將其總輸出限制在1000個左右,當超過這個限制時,它就會抹去之前討論的“記憶”。
最后,還有成本問題。ChatGPT(并不特指GPT-4)目前可通過ChatGPT網站在有限的基礎上免費使用,但想要優先訪問GPT-4,則需每月支付20美元。精通編程的用戶可以通過API以更便宜的價格訪問早期的ChatGPT-3.5模型,但在撰寫本文時,GPT-4 API仍處于有限的測試中。與此同時,Google Bard作為谷歌部分用戶的限量試用版是免費的。目前,Google沒有計劃在它變得更廣泛可用時對Bard訪問收費。
最后,正如我們之前提到的,兩種模型都在不斷升級。例如,Bard在上周五剛剛收到了一個更新,使它在數學方面做得更好,它可能很快就能編碼了。OpenAI也在繼續完善其GPT-4模型。Google目前保留了它最強大的語言模型(可能是計算成本的原因),所以我們可以看到一個更強大的競爭者Google迎頭趕上。
總而言之,生成式AI業務仍處于早期階段,乾坤未定,你我皆是黑馬!
關于企業網D1net(hfnxjk.com):
國內主流的to B IT門戶,同時在運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。同時運營19個IT行業公眾號(微信搜索D1net即可關注)
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。