導讀:生物醫學已經并且正在產生海量的數據。對這些數據的開源和利用將產生巨大價值。首屆開放科學獎(Open Science Prize)正致力于找到開發利用這些數據的好點子。該獎項自去年10月發布后,接收到了來自45個國家96支隊伍的參與。昨天,專家小組宣布了六個進入決賽的名單,從模擬果蠅大腦、病毒傳播可視化、到創建罕見病基因庫,讓我們看看這些進入決賽的隊伍是如何玩轉生物大數據的。
◆ ◆ ◆
關于開放科學獎
生物醫學研究產生了海量數據。許多《IEEE綜覽》(IEEE Spectrum是電氣電子工程師學會發行一個雜志,是電氣電子工程師學會的旗艦級出版物,致力于探索前沿科技的發展實現與應用——譯者注)所關注介紹的諸如傳感器、機器人及其它相關技術會產生出太字節(terabyte, 240字節——譯者注)至拍字節(petabyte,250字節——譯者注)的數據,而這只是在世界范圍內所存儲的健康信息容量中微不足道的部分。
如今,三家投資機構正在努力刺激工具和平臺的開發,來提高研究者獲取和使用這些數據的能力。在華盛頓特區舉行的第7屆醫療數據研討會上,(美國)國立衛生研究院(National Institute ofHealth,簡稱NIH)、總部在英國的威康信托基金(Wellcome Trust)以及霍華德?休斯醫學研究所(Howard Hughes Medical Institute)宣布了首屆開放科學獎(Open Science Prize)的6支決賽隊伍名單。
開發這些類型的工具的部分問題是沒人知道誰該為它們負責。(美國)國立衛生研究院的數據科學副主任菲利普?伯恩(Philip Bourne)說:“數據的產生是全球性的,但是數據本質上是由國家管理和資助的。
去年10月發布后,來自45個國家96支隊伍參加了這個比賽。昨天,專家小組宣布了六個進入決賽的名單,他們將獲得8萬美元的資助,在接下來的六個月里繼續開發他們的原型。
好了,不多說了,讓我們看看這些進入決賽的隊伍是如何玩轉生物大數據的:
◆ ◆ ◆
MyGene2
罕見疾病并不是你所想象的那么罕見。如今,在美國有超過6千種已知罕見疾病發生在大約2千5百萬人的身上。但是,超過一半的家庭經歷了基因檢測而無法確診為疑似的罕見疾病。一個名為MyGene2的網站(https://www.mygene2.org/MyGene2/)給家庭和臨床醫生帶來一個分享關于罕見疾病的健康和基因信息的地方,以此來推動檢測和發現引發疾病的新的罕見情況和基因。
▲MyGene2頁面-根據基因或者家庭ID進行搜索
每個(疑似)罕見疾病家庭信息庫都涵蓋了故事-健康信息-基因數據-聯系方式等資料。其中,故事部分介紹包括照片,患者基本情況,和一個有血有肉的真實故事。以96號家庭為例,作者生動地敘述了自己的女兒Ava患病及被確診的整個過程。
健康信息則包含了這個家庭成員包括“發熱”“出汗”“頭疼”等一系列病癥的信息。
基因數據部分則可以根據” Inheritance Model”和” Confidence in Pathogenicity”的不同維度生過濾生成報告,發現這個家庭的candidate gene。
◆ ◆ ◆
Nextstrain
為了干預和阻止流行病的爆發,科學家們需要盡快得到來自病原體的基因數據。Nextstrain項目從世界各地的研究團體聚集了大量的基因數據近乎實時地進行了病毒傳播的可視化。例如,可以查看一下他們關于目前寨卡病毒(Zika virus,http://nextstrain.org/zika/)演變的圖片。
這一交互可視化作品記錄了從2014年11月到現在Zika病毒的時時變化情況??梢园凑?ldquo;地理位置”和“樣本時間”兩種維度進行劃分。
◆ ◆ ◆
OpenAQ
根據世界衛生組織(World Health Organization)的說法,空氣污染是導致8分之1全球死亡病例的罪魁禍首,然而空氣質量數據一直被存儲在不起眼的網站上,難以訪問,同時格式也不一致。OpenAQ平臺(https://openaq.org/#/)原型將數據進行了合并和標準化,成為公眾可得、實時的空氣質量數據。它已經收集和分享了來自13個國家500多個地點的970萬空氣質量檢測數據。
你可以通過地圖查看全球各國的Pm2.5數值。
當然也可以直接用代碼拿走你需要的城市和國家的API原始數據。
◆ ◆ ◆
Brainbox
能從互聯網上得到的腦成像數據量是難以置信的。相對于其它類型的數據,神經成像數據需要更充足的人力,例如:策劃和編輯圖像。Brainbox是一個在線實驗室,它被設計成方便研究人員訪問的腦成像數據庫(特別之處是無需下載),并啟用分布式協作讓每個人能分享努力。(https://www.openscienceprize.org/p/s/1838127/)
◆ ◆ ◆
NeuroArch
盡管在映射整個人類大腦上付出了巨大的努力,一個更短期的目標是映射一個更小的大腦,比如果蠅的大腦,它有著超過70%的涉及人類腦部疾病的類似基因。果蠅大腦瞭望臺項目(Fruit Fly BrainObservatory project,https://www.openscienceprize.org/p/s/1998747/)將開放一個名為NeuroArch的開放圖像數據庫平臺,這個平臺存儲和處理跟果蠅大腦有關的信息,包括位置、形狀、每個神經元的連接。
在一個地方存放所有這些數據,可能形成一個模擬的果蠅大腦,在通過遺傳或給藥進行修改時,可以看到發生的相關變化。
◆ ◆ ◆
OpenTrialFDA
當美國食物和藥品管理局(U.S Food and Drug Administration)批準一種藥物時,該機構公開發布一系列關于該藥物的信息,通常包含先前未公開的臨床試驗。盡管這些信息相當有價值,但難以獲得、收集和搜索。OpenTrialFDA努力建立一個用戶友好的網站界面讓任何人能訪問相關信息,還提供應用接口(API),允許第三方平臺接入和搜索數據。(https://www.openscienceprize.org/p/s/1844843/)