精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據業界動態 → 正文

美教授用大數據研究歷史,還原不一樣的真相

責任編輯:editor009 |來源:企業網D1Net  2014-06-15 18:05:48 本文摘自:網易

“計算歷史學”(Computational Historiography或者干脆Computational History)是一個我杜撰的詞兒,一方面是迎合目前啥事前面都加“計算”的時尚,比如最唯物的有“計算廣告學”(Computational Advertising),最唯心的有“計算形而上學”(Computational Metaphysics),中間隔著計算數學、計算物理學、計算化學、計算生物學、計算語言學等等。這年頭,跳大神兒的要是不會個計算,都不好意思上春晚或江蘇衛視。另一方面也是給中國做歷史的提個醒:大部分的中國哲學家翻譯水平已經被谷歌或百度翻譯器趕超了,歷史學家要是再不上進,也快沒飯了。歷史學最近屢被自然科學進犯,這不,前腳遺傳學剛走,大數據和計算又來了。隨便一個科學家都能到這兒玩個票。倒不是嚇唬誰,這回介紹個神器: Google Books Ngrams。不信不服。

谷歌的兩位創始人在斯坦福讀書時都在數字圖書館項目里干過活。早在2002年,谷歌還沒出大名時,就啟動了Google Print項目,要把全世界的數字圖書館項目統一起來。拉里·佩奇訪問了他的本科母校密歇根大學,那里的圖書館學院是美國排名最靠前的之一,當時正有數字圖書館項目,就是用數字掃描儀把圖書館的所有書掃描然后做字符識別。佩奇參觀了這個項目,結論是密歇根需要一千年才能把本校圖書館的書掃完。佩奇向校長建議:我六年就能掃完全世界的。這還真不算什么,掃描和字符識別都是成熟的技術,更重要的是谷歌有人,有錢,有效率。佩奇隨后又訪問了牛津最古老的Bodley圖書館,受到震撼,由此也和更多的大學圖書館結成伙伴關系:谷歌和這些圖書館合作數字化他們的所有書,從英文開始。

但三年后,谷歌迎來了兩場官司,一場是作者組織的集體訴訟,另一場則來自出版商。焦點自然是版權。2008年谷歌和出版商達成協議,同意為出版商和作者提供補償。谷歌隨后將Google Print項目改名為Google Books,在Google Books中,版權已過期的書全部公開,版權沒過期但得到授權的可通過“預覽”功能(Preview)部分地公開。但美國作協(Authors Guild,不知是不是中國作協的姐妹單位)對谷歌和出版商的協議不滿,認為出版商不能代表作家的利益,于是又對谷歌提起訴訟。2011年,一位聯邦法官拒絕了谷歌和出版商的協議,于是“作協對谷歌”的案子正式進入訴訟程序,直到2013年11月,聯邦法官陳卓光(Denny Chin)做出對谷歌有利的判決,他的根據是“公平使用”(fair use)原則。哈佛圖書館館長羅伯特·達恩頓(Robert Darnton)2010年寫了本書講了這個案子的早期發展,書名很有意思,叫The Case for Books,但中文版譯名為《閱讀的未來》,沒有了原名的多重隱意。達恩頓作為歷史學家,只看到谷歌掃描書這一回事,卻并沒有意識到Google Books不止掃描,更多是企圖用機器理解被掃描的書的內容。

到2010年,谷歌已經掃了一千五百萬冊書,這時谷歌決定將已經掃過的書的某些統計結果公開,這就是Google Books Ngrams。Ngrams是在文本中統計詞頻的算法。也就是說,書的內容不一定公開,但關于書的詞頻統計結果可以公開,并且Google為Ngrams做了一個“顯示器”(Viewer),它可以畫出輸入的任何詞或詞組的詞頻統計結果。到2013年4月,已經有超過三千萬冊書納入Google Books。一開始這些結果只被計算機科學家和計算語言學家所知,但現在越來越多的人文學者也開始玩起Ngrams了,估計用不了多久,這東西會成為字典一樣的必備工具。

下面通過幾個例子介紹Ngrams的用法。

例一、“黑鬼-黑人-非裔美國人”

上世紀六十年代美國黑人民權運動爆發之前,“黑人”普遍被歧視地稱為“黑鬼”(nigger),隨后則被稱為“黑人”。而近年來,“非裔美國人”變成更為政治正確的叫法。在Ngrams里輸入,nigger,black people和African-American,可以清晰地看到這一趨勢。橫坐標是時間,縱坐標是詞頻。(見圖一)

例二、“科學、哲學與宗教”

按照羅素在《西方哲學史》里的打油說法,科學是確定性的知識,神學是不訴諸理性的教條,而哲學則介于兩者之間。比羅素晚一輩的美國哲學家蒯因可能不同意,他認為哲學壓根就應該是科學化的(Scientific Philosophy),但蒯因的學生輩大概是最后一撥科學化的哲學家:新起的一大票邏輯學家都出自數學系和計算機系,哲學系已剩不下什么“科學”的玩意兒了。如果哲學家們還不爭氣,再過個十年,也許Ngrams真會驗證這個預測。在Ngrams中,分別輸入首字母大寫的“Science, Philosophy, Religion”,和小寫的“science, philosophy, religion”,我們得到如下兩張圖。在大寫的圖中(圖二),可以清楚看到在公元1600到1800年間,宗教是壓倒性強勢,然后是哲學,相比之下,科學還是沒影的事。但1850年是轉折點,科學慢慢占據優勢,比宗教和哲學加起來都大。在小寫的圖中(圖三),科學和宗教的位置互換,晚了一百年。研究文化史和科學史的恐怕各自都有解讀。

科學史家勞拉·施耐德(Laura Snyder)寫過一本很有意思的微觀科學史著作《哲學早餐俱樂部》(The Philosophical Breakfast Club: Four Remarkable Friends Who Transformed Science and Changed the World)。講的是十九世紀初,四位劍橋的學生:查爾斯·巴貝奇(Charles Babbage,數學家兼工程師,某種意義上,他發明了最早的計算機), 約翰·赫歇爾(John Herschel, 天文學家兼數學家),胡威立(William Whewell,科學家、哲學家、神學家)和理查德·瓊斯(Richard Jones,經濟學家),他們每個周日早上一起聚餐,討論科學問題。他們后來對科學事業和科研社團(如皇家學會)在英國的發展做出了巨大貢獻。那時,他們不滿意被別人稱為“自然哲學家”,其中胡威立最早提出了“科學家”這個詞。這段有趣的故事提供了科學從哲學中分離的微觀歷史。如果在Ngrams里輸入“natural philosopher,scientist”,可以和勞拉的故事互為佐證。把微觀的課題放在宏觀的歷史語境(context)中,我們會學到更多。

例三、 文壇座次

中國文壇講究排座次,魯郭茅巴老曹,等等。前幾年也不知哪個瞎起哄非要把金庸也拉入伙。二話不說,先把老哥幾個的名字一順給Ngrams,看看咋說。注意:魯、郭的名字七十年代前的拼法分別為Lu Hsun和Kuo Mo-jo。兩秒鐘出結果:瞧人家畫的這圖,跟炒股曲線似的(見圖四)。可以看出魯爺江湖地位不可動搖,八十年代末九十年代初有點技術性下滑,隨后又呈上升態勢。但貌似三四十年代,魯略輸郭。不明白為啥曹禺就不帶玩了呢,即使輸入老拼法Tsao Yu也不濟。金庸按說是這老幾位里英文最好的吧,但就是不受待見,把他小名路易·查良鏞(Louis Cha Leung-yung)算上,也不管用。這張小圖夠北大復旦那啥系的博導們喝一壺吧。順便再給中國作家們支個招:以后要想名垂千古,就給你們家子孫后代都取同一個名,英文名也一樣,無論性別,只要女眷能分清自己爺們就行。這招特適合代筆抄襲的。

例四、 美國歷史

過去是數學家研究自己的歷史,所以有“數學的歷史”,現在是數學家研究別人的歷史,所以有“歷史的數學”(Mathematics of History),這個詞兒還真不是我瞎編的,哈佛的兩位應用數學家艾略茲·利伯曼·埃頓(Erez Lieberman Aiden)和讓-巴蒂斯特·米歇爾(Jean-Baptiste Michel)最近的主營業務就是研究歷史,他們的任職單位是哈佛的IQSS(“定量社會科學研究所”),同時也在谷歌兼職,對谷歌的Ngrams項目有所貢獻。哥倆最近寫了本書《用大數據透視人類文化》(Uncharted: Big Data as a Lens on Human Culture),用通俗筆法介紹了他們的工作。書中提到了一個更有意思的例子。大家知道美國剛立國那會兒,各州之間是松散耦合,所以國名叫合眾國(United States),烏合之眾的意思。但內戰之后,聯邦的凝聚力增強,中央政府的權力也越來越大。埃頓和米歇爾用Ngrams查了兩個詞組:“United States are”和“United States is”。可以清楚看到,美國內戰之前,民眾的心態確實烏合,“合眾國”原本是復數,所以大家自己的認同就是“are”,但現在的認同自然是鐵板一塊的“is”了。他們半開玩笑地說:美國內戰其實是單數和復數之戰,最后單數贏了。(見圖五)

還是中國老人有智慧,啥事想不明白,就說:這事留給我們子孫后代解決。過去以為這是托辭,現在有了“計算”,覺得還真是那么回事。過去整不明白的事現在能“算”出來。1996年,IBM“深藍”計算機逼得最牛的人類棋手卡斯帕羅夫認輸,就是靠的計算:“深藍”比卡斯帕羅夫能多看半步棋。現在人所謂“下一盤很大的棋”就是比其他人多看好幾步。過去中國人追求“行萬里路,讀萬卷書”,其實就是抱著三字經滿腦子范冰冰,坐高鐵去趟鐵嶺。但瞧人家谷歌—論行路:無人駕駛車已經在加州辦好駕照了,而論讀書:Google Books把全世界的書都讀遍了,而且有問必答。這要是用下圍棋做比喻,人家得讓錢鍾書或者艾茲拉-龐德們多少子啊。

以賽亞·伯林當年寫過篇文章“論科學化的歷史學”(The Concept of Scientific History),主旨是探討歷史學是否也能像科學那樣有個客觀標準,憑那時的手段和見識,這問題自然無解。也怪伯老師在牛津待的時間忒長,沒和同時代劍橋的圖靈過過招。但是伯林引用了英國前輩歷史學家亨利·托馬斯·巴克爾(Henry Thomas Buckle)的話說:歷史學之所以沒變成科學,主要是因為歷史學家的智力不如自然科學家。他設想如果伽利略、牛頓、拉普拉斯有時間順手玩點歷史的話,歷史學,說不定早就變成科學的一分子了。話雖損了點,但是出自歷史學家自己之口,至少誠懇,而且還不能隨便給他扣“智商歧視”的帽子,就像黑人或猶太人開自己同胞的玩笑,外人管不著。依我看,“科學化的歷史學”擱現在就是“計算歷史學”。

司馬遷被腐刑之后,中國就沒人干實地考據了。即使人家都做好了,也懶得看。現而今,坐綠皮火車去趟莫斯科圖書館回來就算中國史學界大事兒。其實要是真不想去做實際工作,莫斯科都太遠,去東莞整一山寨手機,躺床上就能指導博士生。不信?我先出個題:“女權運動五百年全球發展史”。然后在Google Ngrams里偷偷敲“penis-逗號-clitoris”,并把起始時間設在公元1500年。瞧好吧,您吶。所謂“秀才不出門,便知天下事”。對了,這句話百度譯為:Without going outdoors, scholar knows all the worlds affairs。也可以意味深長地簡化為:Lying in the beds, the world can be in your heads。

關鍵字:研究數據

本文摘自:網易

x 美教授用大數據研究歷史,還原不一樣的真相 掃一掃
分享本文到朋友圈
當前位置:大數據業界動態 → 正文

美教授用大數據研究歷史,還原不一樣的真相

責任編輯:editor009 |來源:企業網D1Net  2014-06-15 18:05:48 本文摘自:網易

“計算歷史學”(Computational Historiography或者干脆Computational History)是一個我杜撰的詞兒,一方面是迎合目前啥事前面都加“計算”的時尚,比如最唯物的有“計算廣告學”(Computational Advertising),最唯心的有“計算形而上學”(Computational Metaphysics),中間隔著計算數學、計算物理學、計算化學、計算生物學、計算語言學等等。這年頭,跳大神兒的要是不會個計算,都不好意思上春晚或江蘇衛視。另一方面也是給中國做歷史的提個醒:大部分的中國哲學家翻譯水平已經被谷歌或百度翻譯器趕超了,歷史學家要是再不上進,也快沒飯了。歷史學最近屢被自然科學進犯,這不,前腳遺傳學剛走,大數據和計算又來了。隨便一個科學家都能到這兒玩個票。倒不是嚇唬誰,這回介紹個神器: Google Books Ngrams。不信不服。

谷歌的兩位創始人在斯坦福讀書時都在數字圖書館項目里干過活。早在2002年,谷歌還沒出大名時,就啟動了Google Print項目,要把全世界的數字圖書館項目統一起來。拉里·佩奇訪問了他的本科母校密歇根大學,那里的圖書館學院是美國排名最靠前的之一,當時正有數字圖書館項目,就是用數字掃描儀把圖書館的所有書掃描然后做字符識別。佩奇參觀了這個項目,結論是密歇根需要一千年才能把本校圖書館的書掃完。佩奇向校長建議:我六年就能掃完全世界的。這還真不算什么,掃描和字符識別都是成熟的技術,更重要的是谷歌有人,有錢,有效率。佩奇隨后又訪問了牛津最古老的Bodley圖書館,受到震撼,由此也和更多的大學圖書館結成伙伴關系:谷歌和這些圖書館合作數字化他們的所有書,從英文開始。

但三年后,谷歌迎來了兩場官司,一場是作者組織的集體訴訟,另一場則來自出版商。焦點自然是版權。2008年谷歌和出版商達成協議,同意為出版商和作者提供補償。谷歌隨后將Google Print項目改名為Google Books,在Google Books中,版權已過期的書全部公開,版權沒過期但得到授權的可通過“預覽”功能(Preview)部分地公開。但美國作協(Authors Guild,不知是不是中國作協的姐妹單位)對谷歌和出版商的協議不滿,認為出版商不能代表作家的利益,于是又對谷歌提起訴訟。2011年,一位聯邦法官拒絕了谷歌和出版商的協議,于是“作協對谷歌”的案子正式進入訴訟程序,直到2013年11月,聯邦法官陳卓光(Denny Chin)做出對谷歌有利的判決,他的根據是“公平使用”(fair use)原則。哈佛圖書館館長羅伯特·達恩頓(Robert Darnton)2010年寫了本書講了這個案子的早期發展,書名很有意思,叫The Case for Books,但中文版譯名為《閱讀的未來》,沒有了原名的多重隱意。達恩頓作為歷史學家,只看到谷歌掃描書這一回事,卻并沒有意識到Google Books不止掃描,更多是企圖用機器理解被掃描的書的內容。

到2010年,谷歌已經掃了一千五百萬冊書,這時谷歌決定將已經掃過的書的某些統計結果公開,這就是Google Books Ngrams。Ngrams是在文本中統計詞頻的算法。也就是說,書的內容不一定公開,但關于書的詞頻統計結果可以公開,并且Google為Ngrams做了一個“顯示器”(Viewer),它可以畫出輸入的任何詞或詞組的詞頻統計結果。到2013年4月,已經有超過三千萬冊書納入Google Books。一開始這些結果只被計算機科學家和計算語言學家所知,但現在越來越多的人文學者也開始玩起Ngrams了,估計用不了多久,這東西會成為字典一樣的必備工具。

下面通過幾個例子介紹Ngrams的用法。

例一、“黑鬼-黑人-非裔美國人”

上世紀六十年代美國黑人民權運動爆發之前,“黑人”普遍被歧視地稱為“黑鬼”(nigger),隨后則被稱為“黑人”。而近年來,“非裔美國人”變成更為政治正確的叫法。在Ngrams里輸入,nigger,black people和African-American,可以清晰地看到這一趨勢。橫坐標是時間,縱坐標是詞頻。(見圖一)

例二、“科學、哲學與宗教”

按照羅素在《西方哲學史》里的打油說法,科學是確定性的知識,神學是不訴諸理性的教條,而哲學則介于兩者之間。比羅素晚一輩的美國哲學家蒯因可能不同意,他認為哲學壓根就應該是科學化的(Scientific Philosophy),但蒯因的學生輩大概是最后一撥科學化的哲學家:新起的一大票邏輯學家都出自數學系和計算機系,哲學系已剩不下什么“科學”的玩意兒了。如果哲學家們還不爭氣,再過個十年,也許Ngrams真會驗證這個預測。在Ngrams中,分別輸入首字母大寫的“Science, Philosophy, Religion”,和小寫的“science, philosophy, religion”,我們得到如下兩張圖。在大寫的圖中(圖二),可以清楚看到在公元1600到1800年間,宗教是壓倒性強勢,然后是哲學,相比之下,科學還是沒影的事。但1850年是轉折點,科學慢慢占據優勢,比宗教和哲學加起來都大。在小寫的圖中(圖三),科學和宗教的位置互換,晚了一百年。研究文化史和科學史的恐怕各自都有解讀。

科學史家勞拉·施耐德(Laura Snyder)寫過一本很有意思的微觀科學史著作《哲學早餐俱樂部》(The Philosophical Breakfast Club: Four Remarkable Friends Who Transformed Science and Changed the World)。講的是十九世紀初,四位劍橋的學生:查爾斯·巴貝奇(Charles Babbage,數學家兼工程師,某種意義上,他發明了最早的計算機), 約翰·赫歇爾(John Herschel, 天文學家兼數學家),胡威立(William Whewell,科學家、哲學家、神學家)和理查德·瓊斯(Richard Jones,經濟學家),他們每個周日早上一起聚餐,討論科學問題。他們后來對科學事業和科研社團(如皇家學會)在英國的發展做出了巨大貢獻。那時,他們不滿意被別人稱為“自然哲學家”,其中胡威立最早提出了“科學家”這個詞。這段有趣的故事提供了科學從哲學中分離的微觀歷史。如果在Ngrams里輸入“natural philosopher,scientist”,可以和勞拉的故事互為佐證。把微觀的課題放在宏觀的歷史語境(context)中,我們會學到更多。

例三、 文壇座次

中國文壇講究排座次,魯郭茅巴老曹,等等。前幾年也不知哪個瞎起哄非要把金庸也拉入伙。二話不說,先把老哥幾個的名字一順給Ngrams,看看咋說。注意:魯、郭的名字七十年代前的拼法分別為Lu Hsun和Kuo Mo-jo。兩秒鐘出結果:瞧人家畫的這圖,跟炒股曲線似的(見圖四)。可以看出魯爺江湖地位不可動搖,八十年代末九十年代初有點技術性下滑,隨后又呈上升態勢。但貌似三四十年代,魯略輸郭。不明白為啥曹禺就不帶玩了呢,即使輸入老拼法Tsao Yu也不濟。金庸按說是這老幾位里英文最好的吧,但就是不受待見,把他小名路易·查良鏞(Louis Cha Leung-yung)算上,也不管用。這張小圖夠北大復旦那啥系的博導們喝一壺吧。順便再給中國作家們支個招:以后要想名垂千古,就給你們家子孫后代都取同一個名,英文名也一樣,無論性別,只要女眷能分清自己爺們就行。這招特適合代筆抄襲的。

例四、 美國歷史

過去是數學家研究自己的歷史,所以有“數學的歷史”,現在是數學家研究別人的歷史,所以有“歷史的數學”(Mathematics of History),這個詞兒還真不是我瞎編的,哈佛的兩位應用數學家艾略茲·利伯曼·埃頓(Erez Lieberman Aiden)和讓-巴蒂斯特·米歇爾(Jean-Baptiste Michel)最近的主營業務就是研究歷史,他們的任職單位是哈佛的IQSS(“定量社會科學研究所”),同時也在谷歌兼職,對谷歌的Ngrams項目有所貢獻。哥倆最近寫了本書《用大數據透視人類文化》(Uncharted: Big Data as a Lens on Human Culture),用通俗筆法介紹了他們的工作。書中提到了一個更有意思的例子。大家知道美國剛立國那會兒,各州之間是松散耦合,所以國名叫合眾國(United States),烏合之眾的意思。但內戰之后,聯邦的凝聚力增強,中央政府的權力也越來越大。埃頓和米歇爾用Ngrams查了兩個詞組:“United States are”和“United States is”。可以清楚看到,美國內戰之前,民眾的心態確實烏合,“合眾國”原本是復數,所以大家自己的認同就是“are”,但現在的認同自然是鐵板一塊的“is”了。他們半開玩笑地說:美國內戰其實是單數和復數之戰,最后單數贏了。(見圖五)

還是中國老人有智慧,啥事想不明白,就說:這事留給我們子孫后代解決。過去以為這是托辭,現在有了“計算”,覺得還真是那么回事。過去整不明白的事現在能“算”出來。1996年,IBM“深藍”計算機逼得最牛的人類棋手卡斯帕羅夫認輸,就是靠的計算:“深藍”比卡斯帕羅夫能多看半步棋。現在人所謂“下一盤很大的棋”就是比其他人多看好幾步。過去中國人追求“行萬里路,讀萬卷書”,其實就是抱著三字經滿腦子范冰冰,坐高鐵去趟鐵嶺。但瞧人家谷歌—論行路:無人駕駛車已經在加州辦好駕照了,而論讀書:Google Books把全世界的書都讀遍了,而且有問必答。這要是用下圍棋做比喻,人家得讓錢鍾書或者艾茲拉-龐德們多少子啊。

以賽亞·伯林當年寫過篇文章“論科學化的歷史學”(The Concept of Scientific History),主旨是探討歷史學是否也能像科學那樣有個客觀標準,憑那時的手段和見識,這問題自然無解。也怪伯老師在牛津待的時間忒長,沒和同時代劍橋的圖靈過過招。但是伯林引用了英國前輩歷史學家亨利·托馬斯·巴克爾(Henry Thomas Buckle)的話說:歷史學之所以沒變成科學,主要是因為歷史學家的智力不如自然科學家。他設想如果伽利略、牛頓、拉普拉斯有時間順手玩點歷史的話,歷史學,說不定早就變成科學的一分子了。話雖損了點,但是出自歷史學家自己之口,至少誠懇,而且還不能隨便給他扣“智商歧視”的帽子,就像黑人或猶太人開自己同胞的玩笑,外人管不著。依我看,“科學化的歷史學”擱現在就是“計算歷史學”。

司馬遷被腐刑之后,中國就沒人干實地考據了。即使人家都做好了,也懶得看。現而今,坐綠皮火車去趟莫斯科圖書館回來就算中國史學界大事兒。其實要是真不想去做實際工作,莫斯科都太遠,去東莞整一山寨手機,躺床上就能指導博士生。不信?我先出個題:“女權運動五百年全球發展史”。然后在Google Ngrams里偷偷敲“penis-逗號-clitoris”,并把起始時間設在公元1500年。瞧好吧,您吶。所謂“秀才不出門,便知天下事”。對了,這句話百度譯為:Without going outdoors, scholar knows all the worlds affairs。也可以意味深長地簡化為:Lying in the beds, the world can be in your heads。

關鍵字:研究數據

本文摘自:網易

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 桃源县| 金湖县| 库伦旗| 永宁县| 常熟市| 富蕴县| 湖北省| 富川| 海兴县| 汝南县| 凉城县| 吕梁市| 黄冈市| 衡阳县| 金门县| 凉城县| 和静县| 夏邑县| 林甸县| 博湖县| 宣恩县| 博兴县| 平舆县| 盖州市| 汕头市| 涞源县| 齐河县| 东兴市| 紫云| 正定县| 扬中市| 乐平市| 潼南县| 剑河县| 安岳县| 玉林市| 邯郸市| 江口县| 新沂市| 南皮县| 大田县|