谷歌希望在人們的努力之下,我們最終能夠像搜索論文一樣輕松找到自己想要的數(shù)據(jù)集,新的標準是努力的第一步。
目前網(wǎng)絡(luò)上有數(shù)百個數(shù)據(jù)庫,它們提供了數(shù)以百萬計的數(shù)據(jù)集。這些數(shù)據(jù)的提供者包括國家和地方政府、科學和出版機構(gòu)、數(shù)據(jù)供應(yīng)商等等,數(shù)據(jù)的涵蓋面從社會科學、生命科學到高能物理、氣候科學,幾乎無所不包。這些數(shù)據(jù)對于促進研究結(jié)果的重現(xiàn)至關(guān)重要,能夠讓科學家在前人的基礎(chǔ)上繼續(xù)探索,讓數(shù)據(jù)挖掘者可以更輕松地接觸信息,探究它背后的意義。出于這些原因,很多出版者和資金提供者現(xiàn)在要求科學家們盡量公開他們的數(shù)據(jù)。
然而,由于網(wǎng)絡(luò)上數(shù)據(jù)存儲的數(shù)量龐大,人們會發(fā)現(xiàn)難以尋找自己需要的數(shù)據(jù)集,同時無法核實信息的來源和真實性。搜索數(shù)據(jù)集本應(yīng)該像搜索食譜、工作甚至電影一樣簡單——那些類型的搜索通常是開放式的,能夠偶然的發(fā)現(xiàn)搜索空間中的某些結(jié)構(gòu)。
為了讓書籍、電影、活動、食譜、評測和一系列其他類型的搜索在谷歌引擎上有更佳表現(xiàn),我們依賴于各網(wǎng)站上嵌入 schema.org 詞匯的結(jié)構(gòu)數(shù)據(jù)。為了促進數(shù)據(jù)集實現(xiàn)類似的功能,我們最近發(fā)布了一個新的指導(dǎo)幫助數(shù)據(jù)提供商以標準的形式形容他們的數(shù)據(jù)集,讓谷歌和其他的搜索引擎可以連接到這些結(jié)構(gòu)化元數(shù)據(jù)描述的地理位置、出版商甚至知識圖譜,以便被使用者發(fā)現(xiàn)。我們希望這些元數(shù)據(jù)可以幫助網(wǎng)上公開的信息能夠更有效地被人們使用。
Schema.org 上形容數(shù)據(jù)集的方式基于最近在 W3C(Data Catalog Vocabulary)上的標準化成果,我們認為它是在未來不斷完善描述和改進數(shù)據(jù)集索引的第一步。雖然各領(lǐng)域還在不斷討論,但我們認為這一標準已經(jīng)為構(gòu)建數(shù)據(jù)生態(tài)系統(tǒng)打下了堅實基礎(chǔ)。
技術(shù)挑戰(zhàn)
雖然我們已經(jīng)發(fā)布了元數(shù)據(jù)的索引指南,但在輕松搜索數(shù)據(jù)集之前我們還面臨著很多技術(shù)挑戰(zhàn)。這些挑戰(zhàn)包括:
數(shù)據(jù)集定義的一致性:例如,單一表格和大量表格的集合都算是一個數(shù)據(jù)集嗎?如果都是,蛋白質(zhì)序列呢?圖片集合呢?用于鏈接數(shù)據(jù)的 API 呢?我們希望獲得更多關(guān)于數(shù)據(jù)提供者的定義、解釋以及使用方式。
數(shù)據(jù)集的識別:在理想狀況下,數(shù)據(jù)集應(yīng)該擁有一些被所有人認可的永久標識,讓數(shù)據(jù)集具有唯一性,但在一些情況下這還不現(xiàn)實。原數(shù)據(jù)界面的 URL 或許是作為標識符的不錯選擇,我們需要提供多種標識符嗎?如果有多重標識的話,需要選擇一個主要標識嗎?
彼此間關(guān)聯(lián)數(shù)據(jù)集:什么時候兩種記錄能夠統(tǒng)一的描述一個數(shù)據(jù)集?(例如,萬一 repository 從其他人那里復(fù)制來元數(shù)據(jù)呢)如果數(shù)據(jù)整合方(aggregator) 在一個數(shù)據(jù)集上加入了更多的元數(shù)據(jù),或者以有益的方式清潔了數(shù)據(jù)呢?我們正在研究如何明晰、定義這些關(guān)系。但是,元數(shù)據(jù)的消費者不得不假定這些數(shù)據(jù)提供者不準確描述的數(shù)據(jù),并忍受這種情況。
在相關(guān)數(shù)據(jù)集間傳播元數(shù)據(jù):在相關(guān)數(shù)據(jù)集之間我們能夠傳播多少元數(shù)據(jù)?例如,我們可能從合成數(shù)據(jù)集到它包含的子數(shù)據(jù)集來傳播出處信息。但經(jīng)過這樣的傳播,元數(shù)據(jù)有了多少的退化?我們預(yù)期根據(jù)不同的應(yīng)用退化程度不同:搜索應(yīng)用的元數(shù)據(jù)可能要比數(shù)據(jù)融合的精確度更低。
描述數(shù)據(jù)集的內(nèi)容:數(shù)據(jù)集要包含多少的描述內(nèi)容,從而使得能夠進行類似于 Explore for Docs, Sheets and Slides 中使用的查詢,或者進行數(shù)據(jù)集的其他探索與重復(fù)使用(當然是在許可之下)?我們?nèi)绾胃咝У氖褂霉?yīng)商使用 W3C 標準已經(jīng)描述的內(nèi)容?
除了我們已經(jīng)列出來的技術(shù)和社會挑戰(zhàn),剩下的許多研究挑戰(zhàn)涉及到長期的開放式研究:許多數(shù)據(jù)集是用無結(jié)構(gòu)的方式描述的,包括科學論文形式的說明、圖解、表格,以及其他文檔。我們能建立提取元數(shù)據(jù)的其他有前途的方式。雖然我們有合理的排序網(wǎng)頁搜索內(nèi)容的方式,而排序數(shù)據(jù)集是個挑戰(zhàn):我們不知道排序網(wǎng)頁的 signals 是否同樣適用于數(shù)據(jù)集。在數(shù)據(jù)集內(nèi)容是公開且可用的情況下,我們可能能夠提取數(shù)據(jù)集中額外的語義,例如,學習不同領(lǐng)域的值類型。但是,我們是否能夠足夠了解內(nèi)容,從而能夠進行相關(guān)資源的數(shù)據(jù)融合于挖掘?
呼吁行動
對任何生態(tài)系統(tǒng)而言,一個數(shù)據(jù)系統(tǒng)只有在大量人員共同貢獻的情況下才會繁榮,因此我們呼吁:
個人和數(shù)據(jù)倉庫提供者:使用 schema.org、DCAT、CSVW 等社區(qū)標準公布結(jié)構(gòu)元數(shù)據(jù),這能使得其他人發(fā)現(xiàn)、使用這些元數(shù)據(jù)。
數(shù)據(jù)消費者(科學家到數(shù)據(jù)新聞更作者等):更準確的引用數(shù)據(jù),如同我們引用科學論文一樣。
開發(fā)者:為 schema.org (http://schema.org/) 元數(shù)據(jù)的數(shù)據(jù)集的拓展做出貢獻,提供專業(yè)領(lǐng)域的詞匯,以及研究使用這一豐富元數(shù)據(jù)的工具與應(yīng)用。
我們最終的目標是幫助建立一個公布、使用、挖掘數(shù)據(jù)集的生態(tài)系統(tǒng)。如此以來,該生態(tài)系統(tǒng)將會包括數(shù)據(jù)發(fā)布者、整合者(大型數(shù)據(jù)倉儲方提供數(shù)據(jù)清洗、調(diào)和元數(shù)據(jù)等價值)、挖掘數(shù)據(jù)的搜索引擎、以及更重要的數(shù)據(jù)消費者。