針對我國提出的大數據戰略,各行各業都躍躍欲試,就環境信息化來說,環保大數據的第一步需要怎么走?
這是我國環保產業目前面臨最迫切的問題。那么,美國通過哪些信息化手段將數據整合起來呢?
面臨同樣的問題,美國環保局(EPA)已經開始探索大數據的第一步——數據整合。對于EPA來說,內部業務應用階段(即辦公自動化和管理信息系 統)早已經實現,EPA的信息化已經走向更加復雜的與各聯邦政府間數據共享、業務協同的高級應用階段,將各個業務系統的數據整合集成到一起,成為EPA和 聯邦政府履職的必要組成部分。
建立設施登記系統Vol.01
實現EPA內部和聯邦政府的數據集成,是數據整合的基石為解決不同系統、數據庫之間的標準化和數據語意沖突的問題,方便數據的整合、共享,EPA建立了環境資料注冊(Environment Data Registry, EDR)機制,提供信息系統和數據的標準信息(包括名稱、格式、來源、位置等)。EDR分為系統程序及數據庫注冊、數據集合注冊、數據(元素)注冊、環境 詞匯注冊、開發組件注冊、化學物質注冊及設施登記(注冊)等。
其中,設施登記系統(Facility Registry System,FRS)是對包括企業、污水處理廠、民用設施、甚至采礦作業等享有排污權的設施進行登記,為每個排污設施創建唯一、綜合的設施識別信息,形成排污設施登記數據庫。
通過為每個排污設施賦予唯一的“設施標識碼”,使不同業務系統數據之間的關系得以明確,實現跨業務系統和跨庫檢索。通過設施標識碼建立排污設施與EPA和各州業務信息系統的鏈接,實現了EPA內部和聯邦政府范圍內的數據集成和共享。
FRS由OEI(環境信息化辦公室)集中管理和維護,通過把各業務系統的設施數據鏈接起來, EPA可以做很多事情,比如搜索某一行業的所有被監管設施;設施的準確位置,包括排污口經緯度等;某設施所涉及的各種排污許可和環境監管信息;某企業的所有排污設施例如某石油公司的所有分廠等。
自上世紀90年代FRS開始實施以來,已經登記了160萬個設施記錄,整合了28個州的污染設施主數據;管理超過7800個聯邦管理的設施,5萬個部落領地設施和超過3000個國家環境行為跟蹤(NEPT)設施數據,成為EPA數據整合的基石。
EPA還通過污染設施的信息公開,收集公眾對設施數據質量的問題反饋,識別和糾正錯誤數據和重復記錄。3年內收到1.3萬個數據錯誤的反饋,更正了1.2萬個錯誤,大幅提高了設施信息質量的準確性和有效性。
建立環境數據傳輸與交換系統Vol.02
使得EPA各部門、各州環保部門、環保團體、企業等快速地交換環境數據在信息化建設之初,為滿足各項業務需求,EPA也分別建設了信息系統和數據庫,這些系統大多互不兼容,難于共享。
對于不同業務系統的數據傳輸和交換需求,EPA沒有分別建立傳輸網絡和系統,而是依靠統一的中央數據交換系統(Central Data eXchange,CDX)實現。這一平臺提供單一數據申報及交換窗口,使EPA各部門、州政府環保部門、部落或環保團體、企業能夠快速傳輸、交換環境數 據。CDX目前已經延伸到加拿大及墨西哥,實現了跨境數據交換,是EPA數據采集、傳輸和交換重要的基礎設施。
目前已超過26萬個用戶在CDX上注冊,50個州和9個部落運用CDX所提供的空氣、水等相關環境數據,60個系統的數據在CDX上交換,每年的交易數量超過80萬筆,節省了大量的時間和經費。
建設環境數據倉庫Vol.01
形成綜合性的環境信息,并有利于實現數據的實時智能分析為整合、集成業務系統和數據以獲取綜合性的環境信息,EPA的OEI還通過從不同業務系統中抽取數據,整合形成環境數據倉庫(EnviroFacts)。
目前,包括大氣環境質量、有害固體廢棄物、超級基金場地、有毒物質排放清單、飲用水等大部分業務數據已經整合到EnviroFacts中,分為大氣、水、土壤、固廢、有毒物質、設施、輻射、守法等專題。公眾只要登陸EPA網站,就可以方便地查詢到所需要的各類環境信息。