大數據持續爆炸之下,許多國家紛紛急起直追,欲爭相趕上這個不容輕忽的趨勢。當政府仍在起跑點躊躇的同時,美國政府早在2012年就砸下2億美元,啟動了多項大數據國家級計劃來應戰,成為大數據發展的領頭羊。
然而,奧巴馬總統并沒有因此而松懈,今年1月,在一場公開演講之中,他提出對美國既有大數據發展的擔憂,并要求總統顧問John Podesta帶領總統直屬的科學與技術顧問委員會(PCAST),進行一個為期九十天的全面審查,來檢討美國過去這2年內的大數據政策成果。
PCAST在5月1日公開了審查結果,并提出一份大數據政策研究報告。報告中指出了大數據的3大機會點,以及3大疑慮,并以此向奧巴馬政府提出了6項政策建議。同時,PCAST也做了一項大數據隱私調查,調查結果發現高達8成的受訪民眾非常在意政府如何使用和收集數據,且對于相關數據收集的機構并不信任。
大數據發展,從政府的數據開放做起
美國政府的大數據發展要溯及奧巴馬更早推動的政府數據開放,早在2009年1月,奧巴馬上任後即簽署了「透明與開放政府」的備忘錄,宣示了三大施政準則,包括了政府透明、公民參與,與協同合作,目的是希望打造一個開放、透明的政府,而其中最重要的成果就是建立了「美國聯邦政府的數據平臺(Data.gov)」,將聯邦政府機關的數據開放,與全美人民共享。
跨出關鍵的第一步,啟動大數據研究發展計劃
政府數據開放後,這些數據量以驚人的速度成長。Data.gov在2012年累積來自172個政府機構的數據集,數量已經從2009年的47個,暴增至40萬個以上。奧巴馬很快意識到,面對如此巨量的數據,傳統的分析工具與技術早已不敷使用,必須要藉由政府力量來推動相關政策,才能加速大數據技術的發展。于是2012年3月,他跨出了美國大數據發展的關鍵一步,宣布了美國「大數據研究發展計劃」,目標是要讓美國政府能擁有更高的知識洞察與分析能力,來因應大數據時代的考驗。
總預算多達2億美元,六個聯邦政府機構攜手推動
這個大數據發展計劃的第一波計劃主要目的為強化分析大數據的技術與工具。6個美國聯邦政府部門共同編列了多達2億美元的預算,來改善大數據所需的技術與工具,包括美國國家科學基金會(NSF)、美國國家衛生研究院(NIH)、美國國防部(DOD)、美國國防部高級研究計劃局(DAPRA)、美國能源部(DOE)與美國地質探勘局(USGS)。這些機構推動的計劃主要分為開發工具技術和推廣學術領域兩個部分。
在開發工具技術方面,以美國國防部每年投入的2.5億美元為最大宗,其中有6,000萬美元用于大數據創新研究,來開發足以計算大量數據的軟件及工具,美國國防部希望能分析數據後,轉換成決策的依據。其下的高級研究計劃局也推動了一項四年計劃XDATA,每年預計投入2,500萬美元,來開發更先進的數學演算法,以處理分散式數據倉儲中的不完整數據,同時設計更有效率的人機互動工具,以滿足不同分析任務的需求。XDATA計劃也力推開源軟件,來提供使用者在不同應用環境下更彈性地處理大量數據。美國能源部則成立了大數據研究單位,邀請來自六個國家實驗室與七所大學的專家,共同開發新工具,用數據視覺化管理能源部內的超級電腦。
學術領域方面,主要是贊助各級學術單位進行大數據相關研究,像是美國國家科學基金會邀請了跨學科的研究人員,共同探討大數據如何改變教學領域,成立培訓小組,提供技術訓練,協助用圖像與視覺化處理復雜的海量數據,并鼓勵科學研究院設立研究學程,培育下一代的數據科學家與工程師。
其余機構推出的大數據研究計劃包括了美國國家衛生研究院將多達200TB的千人基因組序數據上傳到亞馬遜網絡服務(AWS)上,打造了世界上最大的基因變異數據庫,提供研究人員使用。而美國地質探勘局則表揚了John Wesley Powell中心,這個中心提供了多種科學家協作分析大數據的工具,來促進地理科學的發展,以及氣候變遷、地震復發機率及下一代生態指標等議題的深入研究。
另外,美國國家科學基金會與美國國家衛生研究院共同發起了「促進大數據科學與工程的核心技術」專案,來分析醫療領域的大量數據集,對巨量的醫療數據進行分析、管理與視覺化,從中提取可用的資訊,主要研究領域涵蓋了醫療與疾病相關的分子、化學、行為、臨床等。
然而,僅依靠政府的力量是不夠的,美國政府也邀請產業、學術單位與非營利組織一起跟上腳步,即時抓住大數據演變帶來的機會。私人企業開始贊助大數據的相關競賽,提供研究基金;教育單位設立相關創新課程;其余團體,像是數據無國界組織(Data Without Borders),也提供數據收集、分析與視覺化的技術,幫助非營利組織。
大數據計劃擴展與延燒,從數據到知識
美國進入「大數據研究和發展計劃」的第二年,政府積極地呼吁各聯邦機構、私人企業、學術單位、州政府、非營利組織與基金會等,共同發展跨區域的大數據創新專案與合作關系。其中,美國國家衛生研究院在2013年4月,宣布將在FY14推動新的「大數據到知識計劃(BD2K)」總預算超過4,000萬美元。
「大數據到知識計劃」藉由政策、資源和標準化的推動,廣泛使用與共享巨量且復雜的生物醫學數據。技術方面,開發并傳播新的分析方法與軟件。教育訓練方面,不僅加強數據科學家、電腦工程師及生物信息學家的專業培訓,也設立了一個卓越中心,用來開發一般化的方法,解決生物醫學分析、計算生物學和醫學信息等問題。除了BD2K之外,NIH也同時推動了三項配套計劃,包括人類連接與大腦專案、癌癥基因圖譜專案和PhysioNet專案。
將大數據知識加以應用,從數據到知識到行動
為響應奧巴馬政府對全國的呼吁,白宮科技技術政策辦公室(OSTP)、NSF,及來自美國網通研發計劃的其他機構,共同合作,推動「大數據到知識到行動計劃」,這個創新計劃訂立了幾個目標,包括推動大數據和分析技術與支援,教育和擴大大數據的所需人力,開發、驗證與評估大數據關鍵成果的應用程式,提高經濟成長、創造就業、教育、健康、能源、可持續發展、公共安全、先進的制造、科學工程和全球發展,最後將大數據獲得的新知識見解,發揮作用,并培育區域創新。
這一連串由政府推動的計劃,促進了源源不絕的創新應用,使大數據已經能夠對國家經濟、公共建設帶來深遠的影響。然而,隨著新興科技與技術快速發展,越來越多生活當中的數據,舉凡消費、談話、社交與一舉一動,都將被收集、儲存、分析與使用。也因為這樣,衍生了人民對隱私權保護的相關疑慮。究竟哪些數據被政府或者私人單位所收集,這些數據又被應用在什麼地方,這都是人民所關切的,也是奧巴馬政府將面臨的一項挑戰。
九十天的全面審查
為此,奧巴馬要求PCAST團隊展開九十天的全面審查,藉由詮釋大數據的新樣貌、大數據的變化,思考未來如何在鼓勵并推動這些創新技術發展的同時,降低對隱私權及美國人民價值的潛在風險,進而做出大數據的下一步政策建議。
找出大數據的新樣貌
今年月5月1日,美國政府在白宮官網上發布了長達85頁的研究報告,報告中說明了現今的大數據已經有所改變,不再只是大量而已,它甚至是多面向且變動速度之快的數據,傳統的數據收集與分析模式已經不夠。隨著網際網絡應用、穿戴技術、先進的感應監測技術的不斷演進,現在的數據來源除了公眾網絡、社交媒體、來自州政府的紀錄與數據、來自商業交易的數據、地理空間的數據等,還包括了新的數據收集來源,像是感應器、相機、地理間觀測技術,這些意味著人們的生活已經處處皆是數據的收集管道,而這樣的數據量也將是前所未有的龐大,需要更高更復雜的分析技術與能力。
相較于以前的數據,現今的數據種類與來源又更加的復雜,導致數據型態的多樣化程度遠高于過去。數據種類分為原生數據與模擬數據,原生數據來自電腦或系統的輸入,像是電子信箱、瀏覽器、GPS地理數據等。而模擬數據則是從物理世界所發散出來的。未來將有越來越多的模擬數據能夠被轉換為數字格式,包括透過電話、相機或錄音機等傳遞的語音及數據,甚至記錄身體活動的數據,例如透過穿戴技術所監控的心跳頻率等。不僅如此,現在的數據分析技術提供即時的數據擷取與分析功能,這將是速度上的考驗,像是網絡上使用者的線上活動記錄、GPS提供的地理追蹤資訊,手機的定位功能等,這些都是高速的數據收集與分析的例子。
由此可見,現今的大數據已經和以往不同了,更大量、更多元、也更快速。以前所收集的數據是部分的、有關連的,數據結構也是被定義好的,數據分析會有延遲時間。例如進行線上交易時,只會紀錄幾個關鍵的欄位。但現在,大量的數據包括非結構化和不完整的數據,瀏覽網站時的路徑、點擊流、地理空間位置等也都會被記錄下來,而且分析的速度是即時的,數據在被擷取時就進行分析。在這些新樣貌之下,將產生許多潛在的機會點與挑戰。
國家政府如何看準機會點,即時掌握住這些資源,并運用大數據,改變人民的生活,將是各國政府都要面臨的巨大課題。
大數據時代下的3大機會點
這份報告提出了3項大數據能影響到國家與人民生活的機會點。包括大數據可以增進工作效率,運用不斷進步的物聯網技術,促進產業與訊息化經濟的結合,加速經濟發展。像是在噴氣發動機和送貨車上加裝感應器,可以監控數百個數據點,并在需要維護時自動發送警報。這使維護成本降低,提高安全性與工作效率。
另外,大數據還可以找出可能浪費資源的地方,避免不必要醫療理賠,進而能有效運用納稅人的錢。例如,醫療保險與醫療補助中心運用可預測的分析軟件,辨別出高風險的投保人,來降低詐欺、浪費與濫用的風險,此系統已遏止或預防超過1億1千5百萬美元的醫療浪費,該計劃在第一年內每花1美元即節省3美元的浪費。
甚至,大數據甚至能夠及時發現新生兒的感染狀況,拯救新生命。在新生兒重癥加護病房中運用數百萬個數據點的數據分析與監控,辨識出新生兒接觸到潛在致命感染源的可能并及時預警,也能找出辨別的因素,如溫度增加與心跳速率等。
除了以上3大機會點之外,美國國防部高級研究計劃局在阿富汗戰爭之中,將數據科學家組成的Nexus7團隊部署于軍事單位,運用數據分析工具協助指揮官突破挑戰。例如結合衛星數據,找到并摧毀簡易爆炸裝置。其他領域也都有非常多的應用,包括醫學研究、增加農業生產力、提升能源效率、全球發展、教育、環境監測、預測氣候變化等,這些也都是未來大數據的機會點。
除了機會,這份報告也提出大數據帶來的疑慮,并提出了給奧巴馬政府推動下一階段大數據政策的建議。
大數據帶來的3大疑慮
第一項疑慮是,政府與公民之間的權力平衡將可能被改變。政府對大數據的使用可以帶來巨大的好處,提供更好的服務,但這些使用可能觸及言論自由或自由結社的風險。隨著更多的數據收集、分析和儲存在公共和私人兩個不同的系統之上,我們應設立適當的法律,以維護政府與公民之間保持平衡。
其次,人民更多的私密個資將可能被揭露。功能強大的大數據技術涉及多個數據庫的合并,這種做法,有時被稱為「數據的融合」,也可能導致所謂「馬賽克效果」。有些匿名的身分將可能因為數據融合之後而被識別出來。因此,當大數據更廣泛應用時,我們必須確保具效力的消費者隱私權保護。
最後一項疑慮是,大數據工具可能造成差別待遇。越來越多商業和個人生活上的應用可以透過大數據演算法和自動化的流程來決定,這將可能產生偏見。例如,銀行藉由大數據工具篩選出償還能力未達門檻的人,導致對個人的歧視,損害某些族群的權益。我們必須特別注意某些大數據的使用情境,例如買房、就業和信貸。
給奧巴馬的6項大數據政策規畫建議
針對大數據與隱私問題,PCAST報告中提出了6項政策建議,其中4項政策建議與法律修改有關,包括了政府應修改《消費者隱私保護法案》,讓消費者能夠清楚、明確地知道個人資訊如何被使用。且這項法案應擴大適用于非美國人民(不分國籍),因為隱私權具有全球價值,這將反應美國聯邦政府如何處理對非美國人民的身分識別資訊。
另外,還建議奧巴馬政府應制定出國家數據外泄法,避免數據外泄造成嚴重的影響。可依據2011年美國政府所提出的網絡安全立法建議(Cybersecurity legislative proposal),提供單一的國家安全數據破壞標準。再來是電子通信隱私保護法的修改,政府應確保線上的數位數據有一致的保護標準。例如在固定的一段時間過後刪除電子信箱中的未讀信件。
其他兩項政策建議,則是為了確保所收集的學生數據只被用于教育目的,在促進更好的學習成果同時,保護學生免于數據被不當使用或共用。以及運用技術專業,確保受保護團體不會因大數據分析結我而遭受差別待遇。政府應設立科學專家,辨別出大數據的做法與結果是否造成歧視性的影響。
從數據開放到大數據發展,再從多項發展計劃到全面的審查報告,不論美國政府在這一連串的推動成果如何,我們都可以透過美國政府的眼睛,看到大數據確實以極快的速度在轉變,傳統的分析技術早已無法負荷,需要開發出更為先進的技術,政府因應的政策也需要不斷的擴大與創新。不僅如此,若要能起跑的更快,政府單位需要借助各產業、私人企業、學術單位、非營利組織與人民團體的力量,促進各個組織單位的合作關系,將能激發出更多的創新應用。
再看美國政府過去這兩年內的大數據發展與今年的研究報告,可以發現奧巴馬一直積極地正視這個議題,美國也將大數據運用在更多的領域,更多的層面,甚至到生活中的每個角落。從美國的研究專家分析中,知道人民所重視的隱私權問題與大數據帶來的疑慮,必須藉由相關法案的增修來加以平衡。PCAST團隊所提出報告與政策建議不僅能夠對奧巴馬在未來政策上作為參考,對政府而言也將是一個現成的參考。
美國白宮大數據研究報告重點
大數據3大機會點
● 大數據正在提升工作效率,促進經濟發展。
● 大數據正在避免不必要的浪費,有效運用納稅人的錢。
● 大數據正在拯救新生命。
大數據3大疑慮
● 政府與公民之間的權力平衡可能被改變。
● 更多私密個資可能被揭發。
● 強大分析工具可能造成差別待遇。
大數據6項政策建議
● 修改消費者隱私保護法案,讓消費者能夠清楚知道個人資訊如何被使用。
● 制定國家數據外泄法,避免數據外泄造成嚴重的影響。
● 將隱私保護法擴大適用于非美國人民。
● 確保所收集的學生數據只被用于教育目的,保護學生數據免于被不當使用或共用。
● 運用技術專業,確保受保護團體不會因大數據分析造成歧視結果。
● 修改電子通信隱私保護法,確保線上的數位數據有一致的保護標準。
美國政府大數據經驗|掌握3機會聚焦6政策 邁向發展新階段
責任編輯:editor005 | 2015-05-25 21:06:41 本文摘自:中國大數據