隨著互聯網深入發展和移動互聯網的日益普及,大數據孕育而生,云與大數據成為人們關注的熱點。在近日召開的GMIC北京2017云與大數據峰會上,多位業界專家分享了云環境下大數據的有效應用話題。
中國大數據被禁錮在不同孤島里
大數據開啟了一個時代的轉型,給人們帶來了生活、工作與思維的大變革。時代的變革需要以大數據為視角理解數據與信息。
此次峰會上,北京騰云天下科技有限公司TalkingData合伙人兼副總裁高鐸表示,中國的數據被禁錮在三群孤島里。第一群孤島是政府,政府部門的割裂導致不相同的數據掌握在各個政府部門里。第二群孤島是運營商,中國的三大運營商數據內部割裂,例如中國移動,在各個省也很難統一打通。第三群孤島是互聯網巨頭企業,例如BAT,BAT的數據也是打不通的,各自為政。因為KPI不一樣,所以互聯網巨頭企業的數據,本身外部打不通,內部行不通,中國的大數據生生被三大數據孤島群所割裂,這就是數據的現狀。
非結構化數據占據主導地位
亞馬遜AWS首席云計算技術顧問費良宏表示,大數據的發展,有兩種明顯態勢需要引起大家的重視。一方面是大數據規模膨脹。幾年前人們還認為大數據只是GB、PB級別,接下來會看到,從TB到ZB的增長速度已經越來越快了。接下來5年、10年會有一個新的認知。另一方面是非結構化數據已經占據了主導地位。比如說基因工程、社交媒體等以非結構化形式存在,以往大家熟悉的結構化模式已經不太適用了。
對于大數據的設計架構原則,費良宏總結歸納為五點,即解耦數據總線、選擇恰當工具、有效利用云計算、以日志為中心、并且具有成本意識。大數據是一切的中心,可以推動行業的創新和發展。
三大因素影響大數據商務發展
DataStreams CEO李榮祥表示,過去十幾二十年來,韓國金融業,特別是銀行業的發展狀況。在1994年韓國有了第一次電話銀行業務,緊隨其后,由于互聯網的發展,打造出非常多的互聯網衍生業務。1999年開展了互聯網銀行的業務。大家對兩家互聯網銀行新的服務模式感到非常的新鮮和刺激。但因時機不夠成熟,大數據下的商業業務發展框架,有了三大影響因素。首先,原始數據質量煩雜亟須處理。利用硅谷的開源技術可以打造屬于自己的大數據平臺。但這還不太夠,雖然可以通過開源技術的渠道可以獲取到數據,但是對于數據的處理是不夠的,因為數據的質量才是關鍵。一方面需要有效的數據,另一方面也需要有效的控制數據,只有這樣的工作才有意義。
其次,數據融合是大數據分析的關鍵。通過數據庫我們可以進行各種搜索并且調用數據,但是在大數據的平臺中,其實數據庫的管理系統并不是最重要的,數據的融合才是重中之重。因為數據的種類實在是十分多樣,為了更好的分析數據,要有不同的數據結構,融合不同的數據,所以這就是大數據分析中最核心的一環了。
再次,未來大數據的存儲和加工。科技的不斷推動下,未來大數據的儲存和加工來幫助更好的儲存數據和加工數據,將儲存的數據進行分類、加工。大數據應用的擴展以及功能的擴展是未來發展的趨勢,同時使用卡和數據的儲存,數字化的儲存,所以通過查詢就可以找到所需要的信息。
數據變成知識才更具價值
費良宏認為,從大數據應用場景來看無非是3種應用模式。
1.批處理模式,從事大數據的人已經很熟悉了,在今天和過去都用這樣的方法來操控大數據。2.流處理,流處理是過去幾年出現的,且如今已經越來越普遍了。流處理模式有其特定的歷史淵源,主要來自于數據產生的特殊性以及處理的特殊要求。3.機器學習數據本身并不具有價值,如果把它變成一種知識,其數據才會變得更有價值,這個關鍵就是機器學習。
機器學習可以幫助人們解決從數據到知識化的難題,所以人工智能是很熱的話題,但核心的問題是在大數據的環境里,如何利用批處理、流處理、機器學習達成我們的目標。過去兩年里,漸漸興起數據湖概念,數據湖在某種意義上強調企業建立一個全數據的集中管理能力。“利用目前云計算和大數據的處理能力,真的可以為企業提供全數據的概念,利用全數據在大數據的操作、分析,不同主題的應用里,就具備了真正意義上的大數據的處理。”費良宏說。