大數據有可能從根本上改善所有美國人的生活。為了從資源豐富的大數據中獲得最大的效益,奧巴馬政府于2012年3月29日推出了“大數據研究與開發計劃”。在此基礎上,美國又于2016年5月發布了《聯邦大數據研究與開發戰略計劃》(以下簡稱“計劃”),其目標是對聯邦機構的大數據相關項目和投資進行指導。該“計劃”主要圍繞代表大數據研發關鍵領域的七個戰略進行,包括促進人類對科學、醫學和安全所有分支的認識;確保美國在研發領域繼續發揮領導作用;通過研發來提高美國和世界解決緊迫社會和環境問題的能力。
圖片來源:NITRD
戰略1:利用新興的大數據基礎、技巧和技術來創造下一代能力。計算和數據分析的進步將提供新的抽象概念來處理復雜的數據,并能夠簡化可擴展性和并行系統的編程,與此同時還可以實現最大的性能。計算機科學、機器學習和統計領域的根本性進步將促進靈活、迅速響應和預測性的數據分析系統的發展。深入研究眾包、公民科學和集體分布式任務等社會計算將有助于發展可以使人類進行可能超出計算機能力范圍的任務。與數據交互和數據可視化的新技術和方法將強化“人類—數據”的聯系(接口)。
戰略2:支持研發,以更好地探索和理解數據和知識的可信度,實現更佳決策,促進突破性發現并采取有信心的行動。在數據驅動型決策中提高透明度需要提供技術和工具支持,包括可以在決策過程中顯示詳細審計信息的工具。另外,還需要對元數據框架進行研究以保證數據的可信性,包括記錄上下文和語義數據。在使用機器學習的數據驅動型決策和發現系統時,跨學科研究是必要的,這樣才能研究清楚如何才能最有效地使用數據來支持和提高人類的判斷力。
戰略3:建立和加強對網絡基礎設施的研究,使大數據創新可以為機構使命提供支持。共同的基準、標準和指標對于一個運作良好的網絡基礎設施生態系統來說是必不可少的。參與式設計也是不可或缺的,它可以被用于優化基礎設施的實用性并能將其影響降到最低。教育和培訓對于個人能力的構建來說也是至關重要的:用戶必須得到正確的教育和培訓,這樣才能充分利用提供給他們的工具。
戰略4:通過促進數據共享和管理政策來提高數據的價值。大數據的規模和異質性為數據共享帶來了巨大挑戰,因此需要鼓勵共享源數據、接口、元數據和標準,鼓勵相關基礎設施提高互操作性,提高現有數據的可訪問性和價值,并增強結合數據集進行新的分析的能力。研究“人類—數據”的聯系(接口)來說是必要的,研究可以支持靈活、高效和可用的數據接口的發展,適應不同的用戶群體的特定需求。
戰略5:了解大數據的收集、共享和使用方面的隱私、安全和道德問題。隱私、安全和道德問題是大數據創新生態系統中的關鍵因素。對于保護隱私和澄清數據所有權來說,新的政策解決方案可能也是必要的。當高度分布式的網絡在大數據的應用場景變得越來越普遍時,技術和工具也需要被用于輔助評估數據的安全性和數據保護。國家必須在大數據中提倡道德觀念,確保技術不會傳播錯誤或對某些群體造成不利(無論是明示或暗示)。探索道德問題的大數據研究,將使各方利益相關者在關注大數據創新的效用、風險和成本的同時,更好地考慮價值和社會倫理。
戰略6:改善全國的大數據教育和培訓局面,以滿足對更廣泛勞動力深層分析型人才和分析能力日益增長的需求。制定一個全面的教育戰略是必要的,這可以滿足大數據領域對勞動力不斷增長的需求,還能確保美國保持經濟競爭力。隨著科學研究領域的數據越來越豐富,科學家需得到機會進一步完善自身的數據科學技能。所有部門的員工和管理人員都需要參加各種培訓,包括“新兵訓練營”、專業研討會和證書課程,以學習與工作相關的大數據知識。還需要開設更多的基礎性大學課程和其他短期培訓來幫助將更多民眾改造成為具備數據能力的公民。數據科學訓練應該通過在線課程、公民科學項目與中小學教育覆蓋到所有人。
戰略7:創建和加強國家大數據創新生態系統的聯系。應該建立持續的機制來提高聯邦機構在大數據領域進行合作的能力。第一種可能的機制是建立跨機構“開發沙盒”或測試平臺,它們可以幫助聯邦機構合作開發新技術,并實現研發成果的產業化。第二種機制是制定政策,允許數據進行跨部門邊界的快速和動態共享,以應對緊急優先事項,如國家災害。第三種機制是建立大數據“基準中心”,專注于重大挑戰的應用,并幫助確定必要的數據集、分析工具和互操作性要求,以此來實現關鍵的國家優先目標。第四,需要建立一個由各聯邦機構從業者組成的強有力團體,以此來促進快速創新,為研究投資帶來最大的回報。
【相關閱讀】
美國:大數據國家戰略
“數據是一項有價值的國家資本,應對公眾開放,而不是把其禁錮在政府體制內。”
——美國聯邦政府
作為大數據的策源地和創新引領者,美國大數據發展一直走在全球最前面。
此中關鍵:
1、動力
首先是多年的技術沉淀和創新積累,包括從計算機革命開始以來的硅谷創新力和影響力,以及一大批的領軍企業,包括谷歌、微軟、EMC、SAP、微軟這樣的巨頭,也包括像Facebook、Splunk、Teradata這些創新的公司,硅谷精神和創新力量在美國大數據發展方面的作用,是任何其他國家短期都無法復制和匹敵的巨大力量。
而且,自上世紀以來美國國會、政府先后出臺一系列法規,對數據的收集、發布、使用和管理等諸環節都做出了具體的規定。經過幾十年的修改完善,如今美國數據、信用和隱私已形成較為成熟的法律框架和道德規范。2010年,美國國會通過更新法案,進一步提高了數據采集精度和上報頻度,使得美國數據采集和匯聚體系更加成熟。
美國企業也擁有對于數據重視和應用的歷史傳統,IT基礎設施的完善,以及各種精準營銷理論和實踐美國都是走在世界前列,比如基于消費數據、信用卡數據挖掘的精準營銷等,還有電話、DM印刷品和郵件營銷在美國都很興盛,隨著互聯網興起,谷歌、IBM、YAHOO等美國企業對基于網絡的精準營銷又是走在全球的前列。因而大數據最典型案例中,就包括傳統企業沃爾瑪“啤酒+尿布”案例,以及谷歌公司通過大數據分析成功地預測流感爆發等。
更加重要的是美國政府數據開放和支持力量。美國政府的數據開放一直是走在全球前列的,尤其是在奧巴馬政府簽署《透明和開放的政府》文件之后。2012年5月美國數字政府戰略發布,更是提出要通過協調化的方式,以信息和客戶為中心,改變聯邦政府工作方式,為美國民眾提供更優公共服務。其中關鍵,就是政府必須保證美國民眾可以隨時隨地通過任何平臺或設備獲取政府信息和公共服務。
2、數據開放
美國最重要的數據開放平臺就是奧巴馬政府在2009年推出的Data.gov,Data.gov 也是美國“開放政府”承諾的關鍵部分。依照原始、地理數據和數據工具三個門類,截至2012年11月,Data.gov共開放出了388529項原始數據和地理數據,涵蓋了農業、 氣象、金融、就業、人口統計、教育、醫療、交通、能源等大約50個門類,匯集了“從家庭和企業能耗趨勢分析到全球實時地震通知等,甚至還可以查詢從好奇號火星漫步者發回來的數據中得知火星的天氣情況”。為方便公眾使用和分析,Data.gov平臺還加入了數據的分級評定、高級搜索、用戶交流以及和社會交網站互動等新功能,比如在Data.gov上提供的白宮訪客搜索工具,不僅能夠搜索到訪客信息,并可以將白宮訪客與其他微博、社交網站等進行關聯,進一步增加了訪客的透明度。
為了更方便民眾使用,方便應用領域的開發者可以利用這些數據開發應用滿足公共需求或者進行創業,Data.gov還匯集了1264個應用程序和軟件工具、103個手機應用插件。另外,Data.gov還發布了政府API索引,使得這些資源可以更易找到和便于使用。通過開放API接口,Data.gov讓政府的信息和服務交付更加便捷,也讓公眾和企業家在構建更佳政府、提升服務的過程中成為合作伙伴。美國政府也希望并鼓勵公眾(開發者、創業者和企業家)能夠積極加入進來,成為這一進程中的一部分。據報道有很多的公司已經利用data.gov上提供的氣象信息來提供服務,另外一些公司則基于data.gov上的地理位置信息,提供基于位置的服務來盈利。
今年起美國還和印度一道,對data.gov實行了開源,把代碼托管到GitHub上以供各國的開發者使用或者根據需要修改。通過構建OGPL平臺,提供開源的政府平臺代碼并允許任何城市、組織或者政府機構創建開放站點,美國政府可以進一步推動數據開放運動進程。美國政府還成立了“數字服務創新中心”,開發了Sites.USA.Gov網站來幫助各機構建設即插即用型網站,同時政府出臺移動應用程序開發項目,幫助各機構對移動應用程序進行規劃、測試、開發和發布,確保更加安全和高效。
美國政府提出,數據是一項有價值的國家資本,應對公眾開放,而不是把其禁錮在政府體制內。例如在美國www.fedspending.org網站上,公眾能夠逐條跟蹤、記錄、分析聯邦政府每一筆財政支出。另外,美國政府數據開放也跟美國民眾對于個人隱私和自由的重視和立法分不開的,正如涂子沛在《大數據》一書中所指出的,和美國人“用納稅人的錢收集的數據應該免費提供給納稅人使用”觀念也密切相關。
3、數據服務
為了確保美國民眾能方便快捷地找到政府服務欄目,美國在各聯邦政府層面實施了“數字分析項目”。“這是政府IT部門第一次摸清公眾都在網站上尋找什么信息、在哪里尋找這些信息,以及他們是否能夠順利找到信息等情況。”政府IT部門還對聯邦政府網站在移動設備上的使用進行了優化,并開發了移動應用程序,確保美國公民隨時、隨地、通過任何設備都能獲取政府信息。例如,美國人力管理辦公室開發的USA Jobs應用程序,可以方便求職者通過移動設備查找和申請職位;交通部開發的Safer Bus應用程序,可以讓老百姓查詢到公交公司的安全行駛記錄,也可通過手機提交投訴建議。
佛羅里達州邁阿密戴德縣將數十種關鍵縣政工作和邁阿密市緊密聯系起來,幫助政府在制定治理水資源、減少交通擁堵和提升公共安全等方面決策時提供了更好的信息支撐;美國中央情報局的首席技術官格斯·漢特在舊金山舉行的一次討論會上解釋的大數據技術對追蹤恐怖分子和監控社會情緒的作用。漢特認為,就像可口可樂等消費公司借助數據分析掌握消費者習慣一樣,中情局也通過大數據技術來尋找恐怖分子的蹤跡。西雅圖兒童醫院通過應用可視化數據分析技術,有效減少了醫療事故,幫助醫院節省了300萬美元的供應鏈成本。華爾街“德溫特資本市場”公司則通過分析3.4億微博賬戶的留言,判斷民眾情緒,并依據人們高興時買股票、焦慮時拋售股票的規律,決定公司買賣股票的時機,從而獲取盈利。這些都是美國大數據各個領域應用的典型案例。
4、推進
開放數據、創新驅動以及技術研發支持下,美國大數據的研究和應用已是走在全球前列。2013年5月,奧巴馬政府更是宣布了“大數據的研究和發展計劃。”提出“通過提高我們從大型復雜的數字數據集中提取知識和觀點的能力,承諾幫助加快在科學與工程中的步伐,加強國家安全,并改變教學研究”。根據這一計劃,美國希望利用大數據技術在多個領域實現突破,包括科研教學、環境保護、工程技術、國土安全、生物醫藥等,具體的研發計劃涉及了美國國家科學基金會、國家衛生研究院、國防部、能源部、國防部高級研究局、地質勘探局等6個聯邦部門和機構。在斯坦福這樣的大學里也開始開設諸如機器學習這樣全新的課程,培養下一代的“數據科學家”。伯克利加州大學、迪肯大學等大學也專門開設了研究大數據的相關課程。如今,美國不僅是全球首個將大數據從商業行為上升到國家意志和國家戰略的國家,也是數據科學家和面向未來的大數據人才儲備啟動最早的國家。
2013年2月27日,由 TechAmerica Foundation 發布的一項新研究顯示,87%的聯邦政府 IT官員以及75%的州政府IT官員均認為,大數據對政府工作發揮著立竿見影的實際作用。而由民意調查機構Penn Schoen Berland進行的調查顯示,在受訪的近200位聯邦IT官員中,有83%的聯邦政府IT官員表示“大數據解決方案可幫助政府削減至少10%的聯邦預算”,這些受訪官員還相信,“大數據還能通過改善醫療服務,創造挽救生命的奇跡,并可以降低犯罪率并提高生活品質”。
美國商務部CIO Simon Szykman表示:“(在美國)我們不存在挑戰的領域之一就是我們生成數據的能力。我們生成數據的基本能力提升很大,從很大程度上講,這一能力已超越了我們處理數據、管理數據和轉移數據的能力。” 他認為如何管理數據,并將數據從一點轉移到另一點,將是美國政府面臨的一大挑戰。而對全球來說,如何加工數據,從數據中提煉出知識,將數據轉化生產力都是最大的挑戰。
大數據國家檔案
國名:美國
數據開放計劃:《透明和開放的政府》、Data.gov
大數據國家戰略:發布《大數據研究和發展計劃》,“成立大數據高級指導小組”
發布時間:2012年3月29日
主導機構:白宮科技政策辦公室
核心內容:通過對海量和復雜的數字資料進行收集、整理,從中獲得真知灼見,以提升對社會經濟發展的預測能力
涉及部門:美國國家科學基金會、國家衛生研究院、國防部、能源部、國防部高級研究局、地質勘探局等6個聯邦部門和機構