隨著信息技術的快速發展,近來, 大數據及以之為基礎的研究范式——大數據范式 (big data paradigm)——成為了越來越流行的概念。 雖說大數據的 “大” 乃是相對概念, 即相對于數據存儲和處理技術而言的 “大”, 從而并無絕對意義, 但這幾年很多人對相對于當前技術而言的 “大” 似乎產生了特殊感覺, 認為它已超越了某種臨界值, 將引發諸多領域的重大、 甚至革命性的變革。 每當有大的新東西出現在地平線上時, 這種稍顯迫不及待的迎接革命的感覺乃是常見的衍生現象, 其可靠性往往大可商榷。 不過, 大數據有著各種各樣的具體應用倒是不爭的事實。
在本文中, 我們就來介紹一項小應用。
嚴格講, 本文的標題有些 “拉大旗作虎皮”, 因為這項小應用所涉及的數據相對于當前技術而言遠遠算不上 “大” (因此我們對 “大數據” 一詞加了引號), 不過它所采用的以數據關聯為核心, 將因果置一旁的做法乃是大數據范式中的典型方法, 而且這項小應用規模雖小, 畢竟也需動用計算機, 從而在手段上跟大數據范式也算搭界。
這項小應用就是確定某些歷史文件的年代。
確定歷史文件的年代一向是史學家們關心且必須要做的事情, 因為很多資料只有確定了年代才能發揮應有的作用。 但由于不難想象的種種原因, 很多歷史文件的年代是未知的。 為確定這類文件的年代, 一種典型的做法是求助于碳-14 年代測定法。 但是, 由此測定的年代往往有幾十年的誤差, 對遠古文件也許不算什么, 對近代文件卻稍嫌粗糙。 此外, 這種方法有時還會對文件產生一定程度的破壞。 除碳-14 年代測定法外, 利用紙張、 油墨等技術的演進歷史, 從文件所用的紙張或油墨的類型上確定年代也是常用方法, 但可惜誤差往往也在幾十年以上。 這些方法的不盡如人意之處, 使得其它方法有了用武之地。 最近, 加拿大多倫多大學的研究者蒂拉亨等人就示范了一種新方法。
蒂拉亨等人的研究對象是英國中世紀 時期的大量契據。 那些契據大都為拉丁文, 記錄的是各類財產及土地的交易, 對研究中世紀時期的英國歷史有不小的參考價值。 不過, 在現存百萬份以上的契據中, 大部分是既沒有標注年代, 也無法從所述內容中推斷出年代的。 另一方面, 中世紀距今不過幾百年, 前面提到的那些方法的幾十年誤差相對來說就顯得很大, 而且上百萬份的巨大數量也使那些方法變得不太現實。 為此, 蒂拉亨等人采用了一種新方法。 他們以幾千份年代已知的契據為基準, 對年代未知的契據與年代已知的契據中詞匯及詞組的分布規律進行統計對比, 由此分析出前者與不同年代的后者之間的相似程度, 并以此確定前者最有可能的年代 (即相似程度最大的年代); 或者, 也可以先由后者估算出不同詞匯及詞組在不同年代的出現概率, 再以它們在前者中的出現數量估算出前者在各個年代的出現概率, 進而確定最有可能的年代 (即出現概率最大的年代)。
這類方法的準確度如何呢? 蒂拉亨等人用一個很聰明的方法進行了測算, 那就是將之應用到年代已知的文件上, 將估算結果與實際年代進行比較。 他們發現, 這種估算的平均誤差可縮小至 10 年以下, 從而比前面提到的那些方法更精確。
當然, 這種方法中也有許多不確定性, 比如契據之間的相似程度, 契據在不同年代的出現概率等都并無唯一定義, 統計對比所用的算法也不唯一。 這些不確定性在大數據范式中是很常見的, 它們有弊也有利。 “弊” 者在于理據不像碳-14 年代測定法之類的方法那樣明晰; “利” 者則在于提供了改進方法所需的額外自由度。 事實上, 蒂拉亨等人的研究本身就是這種額外自由度的體現, 因為他們并不是這類方法的創始人, 而只是利用不確定性所提供的額外自由度, 引進了新的定義及算法。
蒂拉亨等人所示范的方法也適用于其它時期或其它類型的文件, 并且除了幫助確定年代外, 還有助于確定與文件有關的其它屬性——比如作者。
(原文鏈接:http://www.thebigdata.cn/YeJieDongTai/13751.html)