安全:大數據成長的煩惱
何寶宏認為,大數據正在遭遇成長的煩惱,未來三年或者更長的時間用戶隱私保護是大數據工作的重中之重。
最近一系列數據安全事件的爆發,并不是宣告已經發展20多年的互聯網免費模式的終結,而是意味著行業從開始關心技術的第一階段,發展到強調合規性、安全及隱私問題的第二階段。整個產業正在回歸理性,從前幾年高估大數據的影響,走向低估大數據的長期影響,2021年前后大數據產業將迎來新一輪的黃金發展期。
在數據安全問題上,我們又一次遭遇“三角困境”,即“不可能三角”理論。何寶宏認為,技術發展追求的很多目標之間是有沖突的,在數據安全方面,個人隱私、國家安全、便利性三者不可兼得。2013年奧巴馬在演講中提到,不能在擁有100%安全的情況下同時擁有100%隱私和100%便利。因此,在大數據的發展中,我們需要作出選擇。
苦煉內功,過“緊日子”
未來一段時間,大數據產業要做好過“緊日子”的準備。何寶宏表示,如果將大數據的發展分階段,那么2012-2016年是大數據發展的泡沫期,2017-2020年整個行業將回歸理性,而2021-2028年整個產業將迎來規模商用。
從市場特性上看,未來幾年大數據行業將依然保持規模小、增速快的特點。何寶宏認為,如果說過去幾年大數據的主要應用場景是互聯網領域,那么未來幾年大數據的主要應用場景將轉向傳統行業,大數據更多地服務實體經濟。
八大趨勢,不容忽視
“大數據技術的八大趨勢值得關注。”何寶宏表示,在大數據技術的發展中,需要特別關注八大動向,分時是開源、分布式、OLAP/OLTP的融合、云化、模塊化、運維自動化、容器化和專用硬件。具體而言,開源正在引領大數據的發展,大數據產品與技術需要標準化、模塊化。同時,大數據也需要借助容器的思想封裝交付。
“算法的黑箱將被打破。”何寶宏認為,數據算法的透明度將成為業界關心的重點問題。當前,雖然數據開放使得數據更加透明,但是算法卻還是黑箱里,未來隨著數據量的不斷增多和更加開放,數據算法的黑箱需要被打破,以解決算法歧視和殺熟等問題。
流通產生價值
何寶宏認為,未來幾年,業界還需要學習如何將數據變成資產。如果說過去的幾年,我們明白了數據是資產,那么未來的幾年,我們需要學習如何將數據變成資產,這不僅意味著管理手段的提升,更需要新的技術,包括算法創新、模式創新等。
隨著大數據不斷落地,數據流通的重要性日漸凸顯。何寶宏認為,未來幾年大數據“男耕女織”的時代難以結束。相關調查顯示,今天大數據企業使用的數據50%左右來自于自己,其它的則來自于客戶或其他渠道,這就好似農業社會的“男耕女織”時代,家中使用的物品50%左右都是自己生產。事實上,這意味著今天的數據流通還處于發展早期,而未來要支撐大數據的普及,數據必須流動起來,消除一個又一個的數據孤島。
“數據流通會產生新的價值。”何寶宏認為,萬物皆數據,今天我們步入了連接的時代,數據只有在流通中才會產生新的價值。他強調,連接比數據本身更重要,數據的價值不在于數據本身,而來自于數據和數據之間的關系,因而讓數據連接和流通起來將是未來一段時間里行業的重要目標。
機遇何在?
摩爾定律正在“老去”。何寶宏認為,摩爾定律的減速會給整個行業帶來翻天覆地的變化,這意味著我們需要改變傳統思維方式。以前,我們認為計算資源非常便宜,可以浪費,而隨著摩爾定律減速,計算資源越來越貴。未來,我們不能僅僅只是依靠摩爾定律,而是要依靠軟件,行業需要更新軟件的結構,而也這是很多新的軟件構架出現的原因之一。
“當底層資源部再符合摩爾定律的增長速度,就需要創新軟件與構架的設計。”何寶宏說,我們還需要改進算法,當底層的計算資源越來越貴,算法優化將成為未來幾年非常重要的發展方向。同時,數據的軟硬件結合也是重點。
對于業界關注的大數據和區塊鏈的協同發展。何寶宏認為,盡管兩者都是用來處理數據的,但是從技術上看存在諸多的不同。如:大數據是從結構化數據擴展到更多的數據結構,而區塊鏈則是是從信息拓展到價值,大數據針對的問題是海量數據,提高性能,區塊鏈則是聚焦關鍵數據,防止篡改。從激勵方式上,大數據需要給處理數據的人發公司,激勵來自于外部,而區塊鏈的激勵機制是內置的。
當大數據遇上人工智能。何寶宏認為,大數據做數據可視化,是因為計算機把數據看明白了,可是人卻看不明白;計算機視覺則是人看明白了,機器卻看不明白。
在大數據快速興起下,人們需要特別關注“忘記”。“數據恒久遠,一上永流傳。”在何寶宏看來,遺忘權將成為大數據時代的新問題,關注如何永久性消滅數據將成為工程師新的發展機會。
今天,我們更多關心數據從哪兒來。事實上,數據用完之后究竟去了哪里也值得研究。何寶宏表示,大數據基本都會“進冷宮”,相關數據顯示,當前80%的數據3個月就處于無人理睬的狀態。而區塊鏈技術的興起,則意味著那些少數的具有價值的數據,即“貴族”數據,將“得永生”。