在大數據研究領域,國內外學者一般將大數據分為結構化大數據和非結構化大數據,以文本、多媒體信息為主要元素的非結構化大數據,體量是以二維表來邏輯表達的結構化大數據的十倍甚至更大,非結構化的大數據生產、搜索、挖掘、分析已成為當前研究的熱點與難點。近日,記者就大數據搜索與挖掘等前沿話題,獨家專訪了北京理工大學副教授、大數據搜索與挖掘實驗室主任張華平博士。
“數據本身是原材料,云平臺是操作系統,要想使大數據真正‘開花結果’,就應運用好搜索與挖掘這一利器。”作為研究大數據搜索與挖掘的專家,張華平認為,貴陽發展大數據產業“蠻拼的”,做好大數據搜索和挖掘這門基本功課,貴陽“彎道超車”前景廣闊。
大數據搜索挖掘順勢而生大有作為
“大數據搜索與挖掘是伴隨著互聯網的普及應用和傳統信息檢索技術的不足提出并發展起來的。”張華平說,數據挖掘后的分析,將為經濟社會發展帶來決策方式的變革:小數據時代,決策通過某些精英 “拍腦袋”決定,這些人受限于其自身所擁有的知識和信息來調配資源,體現出封閉性;大數據時代,通過對數據挖掘后的“集思廣益”,在決策方式上會定位得更好。
近年來,隨著物聯網、云計算的發展,大數據搜索與挖掘技術也成為熱門詞匯。通過大數據搜索與挖掘技術手段,可以掌握一個人的活動規律,進而推斷其職業、年齡、偏好,最后產生一種新的知識,最后轉化為決策的智慧。如根據微博的言辭感知用戶情緒的變化,負面情緒的人往往是憂郁癥的高發人群,因此,通過社交網絡的信息挖掘,可以對潛在憂郁癥的人提前進行心理干預;根據公共場所手機信令的聚集突變,可預測人口流量的多少,作出科學預警……
“數據大不一定就是大數據,大數據本質是多來源信息量變引起的質變,挖掘出了新的知識,實現信息價值的增值。大數據的技術鏈條體現為數據的加工,即采集、搜索、挖掘、分析等過程。”張華平說。
張華平認為,現代社會擁有龐大的數據和龐大的人群,由此形成了龐大的市場,造成了巨大的市場、社會需求,對數據處理技術提出挑戰,大數據搜索與挖掘技術應運而生,能掌握信息里沒有明顯包含的內容,把握了大數據的本質。
全域免費WiFi為數據挖掘提供平臺
為加快“數據城市”的發展,貴陽市在全國率先建設免費WiFi系統,擬通過三年時間,建成全國第一個免費WiFi全覆蓋城市。目前,總覆蓋面積12.8平方公里的一期項目已試運行。
對此,張華平認為,網速的快慢影響著人們對網絡的使用,WiFi好比高速公路,而且在政府主導下,這條“高速公路”更安全可信。基于此,貴陽可用好大數據搜集和挖掘技術,洞察免費WiFi的價值。
張華平舉例說,在免費WiFi投入使用后,同一時刻同一地段可能會有20萬人正在通過這一無線網上網,通過大數據搜索和挖掘處理技術,技術人員摒棄用戶的敏感信息,將信息過濾后,把這些人的特征在大數據的空間里重新制造出來,進而細分人的偏好、年齡構成、市民關心的教育、治安話題等信息,可作為一個整體架構供政府決策參考使用。
同時,在數據安全的前提下,貴陽市政府建立數據開放平臺,主動開放交通、文化、教育等公共數據,逐步關聯塊上形成的企業數據、社交數據和感知設備產生的數據,通過深度開發挖掘開放的數據,鼓勵企業進行各種商業模式創新。張華平認為,這樣的做法在大數據產業發展中起了好頭。
“數據本身是原材料,云平臺是操作系統,要想使大數據真正‘開花結果’,產生需要的應用,搜索與挖掘是重要的耕種利器,對挖掘出來大量數據實現精準洞察,從而產生新的應用,滿足實際需要。”張華平說,貴陽市WiFi建設將促進社會效益和經濟效益有機統一起來。
貴陽大數據“彎道超車”前景廣闊
隨著貴陽市大數據產業的發展,充分挖掘大數據的資產價值、商業價值和社會價值,顯得尤為重要:通過挖掘各種文化元素,提升文化軟實力;通過對政府開放的數據進行深度開發和挖掘,提供企業創新商業模式;通過移動互聯網大數據分析平臺,吸引本地中小企業開發各類移動App應用,形成移動互聯網產業體系……
張華平認為,大數據產業在國際上屬于風口上的產業,可能會引領未來10年甚至是30年的技術浪潮,在國內,很多省市都在大數據領域發力,作為一個欠發達的城市,貴陽市在大數據產業整合上是“蠻拼的”,提供了一個“彎道超車”的方式,邁開了大數據產業的步伐。
“貴陽的這種做法值得稱道的是,在大數據產業中,并不是封閉在貴陽、貴州,而是一個開放式的平臺,聚集了外地各種資源,符合當下大數據時代的特點,前景廣闊。”張華平說,貴陽市在做前瞻性的規劃和設計的同時,應繼續推動大數據項目落地,如全域免費WiFi建設、企業投資創業等,因為“大數據不能淪為一個概念”。此外,政府應起主導作用,運用好大數據搜索和挖掘這一工具,搜集、整理產業、受眾的數據,挖掘產業集群里的潛在用戶,對用戶進行完整洞察,供決策使用。