讓青海大數據融入“云端”
青海省經濟和信息化委員會副主任 張洪溢
2015年8月,我省出臺了《促進云計算發展培育大數據產業實施意見》,聘請王光謙院士等17位專家學者成立了青海省大數據專家咨詢委員會。隨后,又成功舉辦了全省大數據產業發展推進會,啟動了西北最大的數據中心——中國移動青藏高原大數據中心,標志著青海大數據產業發展正式進入實施階段。
今年以來,青海繼續緊緊圍繞全省經濟社會發展“131”總體目標要求,緊抓任務推進落實,各項工作扎實有效。首先,發展環境不斷優化。《青海省國民經濟和社會發展第十三個五年規劃綱要》提出:“大數據云計算等新一代信息技術在重點領域的應用得到深化,初步形成服務創新、技術創新和管理創新協同推進的發展格局,帶動相關產業快速發展”。《青海省信息產業“十三五”發展規劃》、《青海省大數據產業發展規劃》和《青海省信息通信業“十三五”規劃》也相繼編制完成,夯實了頂層設計。目前,青海省大數據公司和大數據交易中心正在抓緊籌備成立,省級政務云、工業云等大數據平臺建設也正在積極推進。
其次,信息化建設快速推進。截至今年5月底,全省共完成信息消費投入35億元,信息消費規模達到95億元。以信息化集成技術應用為主的“智能制造”、“綠色制造”加快與特色優勢產業深度融合,示范企業新產品開發周期平均縮短35%,生產周期平均縮短38%,新產品貢獻率20%以上,企業累計新增直接經濟效益約10億元以上。
第三,重點項目成效顯著。省內各基礎電信運營企業的數據中心新、擴建工作全面展開。電信青海公司具有充足的云業務及托管服務提供能力,能夠滿足省內云業務資源使用要求;移動青海公司的“彩云青海”云服務平臺已投入運行;聯通青海公司已具備成熟的多領域大數據應用綜合解決方案。全省智慧城市云數據平臺、青海省光伏電站質量檢測大數據應用平臺等大數據應用項目加快推進。網絡輿情、電子政務、智慧旅游、智慧交通、地理信息、殘疾人服務等重點領域云平臺建設特色明顯。
今年4月19日,習近平總書記在中央網絡安全和信息化工作座談會上強調,要切實貫徹落實好中央關于實施網絡強國戰略、“互聯網+”行動計劃、大數據戰略等工作部署,著力推動互聯網和實體經濟深度融合發展,以信息流帶動技術流、資金流、人才流、物資流,促進資源配置優化,促進全要素生產率提升,為推動創新發展、轉變經濟發展方式、調整經濟結構發揮積極作用。
在貴陽數博會上,李克強總理指出,當今世界,新一輪科技和產業革命正在蓬勃興起,數據是基礎性資源,也是重要生產力。同時,描繪出了“大數據+工匠精神”,“發展共享經濟”,“打破‘信息孤島’、消除‘數據煙囪’”,“強化信息網絡和數據安全”四大發展路徑。這是實施大數據戰略以來,在國家層面提出的新的大數據產業發展思路,為我省大數據產業發展提供了新的機遇和挑戰。借鑒貴州經驗,結合我省實際,突出實際應用,打造精品工程,是青海今后工作的基本原則和落腳點。
云計算與大數據:現在=f(未來)
——奇虎360云CTO、博士 何萬青
【嘉賓簡介】
何萬青,奇虎360云CTO(首席技術官)和研發部總經理,高級技術總監。領導360安全公有云對游戲云,視頻云和IoT物聯云的平臺和大數據產品開發。此前他在英特爾中國有限公司領導高性能計算應用優化和MIC眾核,英特爾企業版Lustre并行存儲產品支持達11年多,并擔任天河-2號超級計算機核心團隊成員負責英特爾Xeon Phi眾核協處理器的主板集成。
他領導的英特爾亞太客戶響應團隊在10年間負責中國和亞太區大量高性能應用的并行化和性能優化工作,在業界享有很高的聲譽,對石油地震資料模擬,數值氣象預報,生命科學,基因測序,計算化學,傳熱和流體力學,數字內容創作,計算金融,互聯網搜索引擎等廣泛的應用進行持續優化和代碼現代化工作,期間寫作出版了6本并行計算專著。
【精彩觀點】
“我認為最糟糕的專業演講就是,主講者自己覺得挺好,專業人士覺得高深莫測,聽眾莫名其妙。為了避免這樣糟糕的情況,我盡量用大家都能聽得懂的事例、語言講述我的主題……”一開場何博士就用幽默的比喻引來了全場的掌聲。
在云計算技術的支撐下,大數據已經成為新時代重要的戰略資源。隨著經濟社會信息化日臻成熟,云計算、移動互聯網和萬物聯網等新一代信息技術的廣泛應用,數據增長速度越來越快,數據類型越來越豐富,大數據的價值日漸凸顯。大數據時代,無論是政府機關、互聯網公司、IT企業還是行業用戶都面臨巨大挑戰及機遇。企業的決策方式正在從“業務驅動”轉變為“數據驅動”。
技術發展的腳步:從1995年—2001年,互聯網出現,并且伴隨它出現的第一件事情實際上是英特爾公司生產的一款名叫“奔騰”芯片的問世,但隨著互聯網泡沫在此期間的大量建設,也就是隨著網絡的鋪設,使得對計算機的要求逐漸提高,當時能夠看得了動態網頁就是好的,借此機會“奔騰”鋪開了發展的道路。
大數據產生的原因:一方面來自數據之間的相關性,另一方面就是來自“大人群”的互聯網數據。而人工智能是一個集技術積累、數據規模、產業環境合在一起的一種突破,最重要的是它確實是在使用大數據的技術。但我們也要想到一個問題,人的大腦大概是20瓦的功耗,大腦所能產生的智能要擊敗一個數據中心,也就是上千個CPU加上幾百個GPU做出來的,這種功耗會很嚇人。
大數據應用最典型的一個例子就是電腦圍棋軟件“阿爾法圍棋”,舉世矚目的人機圍棋大戰以AlphaGo4:1戰勝李世乭告終,關于人工智能的現在與未來,這場比賽給我們帶來太多的思考與啟示。從大數據的角度解釋這個問題就很簡單:機器人因為被輸入龐大的數據信息,在棋局中綜合大量數據,下棋其實也只是“知其然,而不知其所以然”,并沒有嚴密的邏輯思維。面對突飛猛進的人工智能技術,很多人都擔憂越來越多的崗位未來會被它所取代。事實上,這種擔心沒有必要,人工智能在未來10年都難以讀懂文字,想趕上人類的智能,它還有非常遙遠的路要走。
現在各行各業都在學習大數據,原因就在于時代趨勢發生了轉變,上世紀五十年代,人們常常根據過去的行為來推測未來,現在大有不同。去年,摩爾定律已達五十年之久,即顛覆成為常態。這個定律讓我們明白,如果你走的路是正確的,小公司可以顛覆大公司,無所謂500強的企業。
現在我們可以在果殼網回答問題,我回答,提問者付費,但只有一分鐘的時間,試想一分鐘能解決什么問題呢?也許很多人出于好奇心而已。每晚大概十二時左右,系統會提醒你拿到了多少費用。這是什么?這就是互聯網經濟,過去可能是想都不敢想的事情;如今,通過這樣的方式就能產生一個巨大體量的經濟體,雖然它可能會有一個下沉發展的階段,但是這樣的付費方式往往更能吸引人們的注意力。
未來大數據,尤其是大的公司、廠商會拿走一大部分蛋糕,但是未來大數據時代中的技術人員慢慢會經歷一個反客為主的變化,可用馬云說的話:“人類正從IT時代走入DT時代。”也就是說你如果是具備數據科學家的思維和素質,并會運用相關工具,那么你可能在你所在的公司或組織里起到非常重要的作用,懂數據的技術人員將對決策產生影響。
未來3—5年的時間,大數據公司還會有比較大的發展空間,而且主要以服務為主,因為數據依然在擁有者的手中,到今天為止,大數據的系統都是用物理機而非虛擬機。
大數據主要實現的是精準營銷,主要跟廣告、游戲相關,這也是互聯網最賺錢的兩大方法。另外,就是我們所說的互聯網金融,一個是馬云的“支付寶”,相信這對大家生活的改變有目共睹!現在去杭州基本可以不用帶錢包,由此產生了巨大的便利性,一旦使用人們將很難離開。
什么叫大數據?大數據出來之前,我們傳統的稱之為商業智能,實際上就是根據數據進行決策。大數據的作用就是做在線的分析和決策。
將大數據拎出來說,它本身沒有什么意義,就像你整理家務,整理出來一堆舊書,想扔又舍不得,放起來你又永遠都不會動,所以在這個整理的過程中你需要花費很大的精力及時間上的成本,也因此和大數據一樣,我們的數據量越來越大,很多人不舍得扔掉一些數據,但你不會清理、不會處理,就意味著你有大量的購買、大量存儲,大數據在一定程度上來說,不是什么靈丹妙藥,但要承認的是,它是應用的進步,尤其對于企業來說,很多問題都需要通過大數據進行決策。
大數據的本質是什么?當數據足夠多時,它就可以覆蓋所有的可能性。所以在更多的情況下,它是一種應用科學,它不是我們傳統所說的科學技術,因此在現階段是不能通過大數據去推出新的發現和新的理論。
大數據的受益體是誰?互聯網電商!現實生活80%以上的工作中,去發現規律實際上還是靠觀察、演繹,所以像福爾摩斯這樣的人在任何時代都是遠超于大數據的。
不用神話大數據!首先做到數字化管理,我們的決策盡可能地基于數字,但是我們也要看到人對模式的觀察往往要遠超機器,所以,原來保留下來的依然要用,不能一蹴而就。
大數據現用的架構:Hadoop結構,它的出現原因是谷歌公司為了節省成本,使用價格低的機器,公司要算數據,就發明了這個東西。傳統計算是數據走到計算那里去;而計算跑到數據這里來,就是互聯網干的事情了!在機器并不多,配置不高的情況下,根據信息分散跟得上的特點,利用其他的節點算出局部的數據,最后將其合在一起。所以,他們做兩件事:一是做分布式文件系統;二是計算在各個節點上怎么做,最好將計算代碼放在當地運行再通過網絡聯在一起。
未來大數據的方向,首先是大規模并行處理,無共享架構的特點會比較突出,只需要通過軟件的方式把大量的數據分布到各個節點上去,然后通過軟件以及后臺同步的方式做處理,這樣就可以避免一個數據損壞致使所有數據不能用的困境。
互聯網+時代:大數據安全面臨的機遇與挑戰
——北京中科同向信息技術有限公司董事長、博士 鄔玉良
【嘉賓簡介】
鄔玉良,北京中科同向信息技術有限公司董事長,九三學社中央科技委員會委員、華北電力大學、北京校友會副秘書長、中國容災備份創新發展聯盟秘書長、智能制造產業聯盟委員會專家,副秘書長,大數據國家戰略計劃聯盟發起人、中國信息化創新發展聯盟副秘書長,被評為2015年度中國創業創新新聞人物。
2010年,領導研發“備份軟件Heartsone BackupV8.0”,獲國家保密局、解放軍信息安全評測和認證證書,公安部銷售許可,國家信息安全產品強制性認證。
2011年,“備份軟件Heartsone BackupV8.0”獲得“科技創新產品獎”。
2011年,領導研發“基于CDP的企業級災備平臺PowerCDP”獲科技部中小企業創新基金支持。目前,致力于災備技術數據安全的開發。
【精彩觀點】
數據的爆發式增長和社會化趨勢是大數據產生的本質原因。
大數據并不是量大,它有四個基本的特征:更大規模的數據、更多樣化的數據、更加實時的數據、價值密度低商業價值高。我們可以看到一個現象,在之前有很多可以存、可以不保存的數據;而在大數據時代,即便我沒有辦法保存數據,也一定要把它保存起來,大家都知道數據就是價值,就是權力。
大數據的三大精髓:模糊替代精確、相關性替代因果性、全集代替樣本。比如通過一個人的微信朋友圈可以基本知道這個人的工作、生活,甚至家庭、興趣愛好;再看看這個人的朋友圈誰跟誰相互點贊,就能了解簡單的社會關系,這就是大數據的相關性。其次,我們過去的科學研究方法,在沒有理論基礎的條件下選擇抽取樣本,放進自己的理論中進行相關的推斷;現在大數據的方法是,不需要、不去看樣本,而是要看到所有的數據,現在有了超算,就可以把數據的全局拿來分析。
大數據作為生產力,不僅要從經濟層面對其進行推動,還需要社會層面為之付出努力。新一屆政府提出在提高政府的治理能力、轉變政府職能的前提下,要通過現代信息技術提高政府的治理能力。也就是說,政府為在執政過程中更加科學,就要有大數據作為支撐,讓大數據成為一些決策制定的合理依據。
為什么要把發展大數據上升為國家戰略呢?拿發放低保為例,比如公安部、民政部的數據無法提供給人社部使用,如果要為一個低保人員發放補貼,目前的做法,需要這個人提交申請,再去各個部門開證明,每個證明都要加蓋公章。但是真正需要被救助的人往往缺乏相關的社會關系,也不了解申請的流程;由于數據的孤立,也讓一部分人有鉆政策空子辦理低保的機會。
如果各部門的數據可以共享,那么發放低保這樣的事兒操作起來就容易得多。比如看申請人名下的存款、汽車、家庭成員構成如何、每月生活必須消費支出如何等方面的數據,就可以為那些真正需要幫助的人發放低保補貼。目前這些數據信息分屬不同的部門掌握,社保部門想調用這些信息是做不到的。只有把大數據的利用上升為國家戰略,由國家整體協調推動政府各部門信息公開,才能極大地提高政府的執政效率和管理能力。
如今,黑客入侵的目的更多是要偷有價值的數據。就像小偷入室盜竊一樣,有多少賊是開啟防盜門進屋偷東西的?恐怕不足百分之一。防盜門做得再好,小偷可以從窗戶進來,可以破墻而入。只要小偷能夠進來,就會失竊,那么再好的防盜門都將失去意義。所以,現在我們要認識到的數據安全就是讓黑客即使入侵系統也拿不走數據,即便拿走了數據也無法使用。這才是數據安全防護的較高境界。
大數據安全層次主要分為六個層面:應用軟件、網絡安全防護、容災備份系統工具、數據庫、操作系統和CPU。
這六個層面的發展是不能越級發展的。因為這六個層面的發展是由低到高的過程,越高級別,就需要越深入地了解相應的知識。應用軟件是最淺層面的,只需要了解最基礎的軟件知識和程序編寫技術。而到容災備份這個層面,需要了解的知識更多,不僅包括網絡傳輸協議、數據庫的知識還包括操作系統、帶庫等各種知識。所以當沒有掌握相關的知識之前,是無法越級發展下一個階段的技術革新的。
在容災備份市場上,外國公司幾乎占據了超過80%的市場份額。EMC公司是全球信息存儲及管理產品、服務和解決方案方面的領先公司。世界上最重要信息中的2/3以上都是通過EMC的解決方案管理的。而另一存儲巨頭IBM近期發布了IBM中小企業存儲市場戰略和IBM最新推出的融簡單、易用、經濟為一體的產品。
我國目前在應用軟件和網絡安全維護方面已經做得不錯,國內有一些發展很好的企業,比如,浪潮、華為、同有科技等,經過幾年時間的市場錘煉,國內廠商表現出相當的實力和競爭力。
在容災備份層面,是正在發展的時期。做不好容災備份這個層面,想做數據庫是幾乎不可能的。因為沒有發展完整的產業鏈,容災備份沒有做到國產化,與數據庫兼容,那么數據庫就好像空中樓閣,根本無法正常運轉,這就是產業和技術發展的規律,從這個層面上說,備份是數據的最后一道防線。