人工智能的發展將給交通、金融、工業、能源、媒體等行業帶來數字化升級的新思路和新解法,甚至已經開始重塑行業面貌,進而影響人類社會的未來。人工智能的飛速發展,離不開產、學、研、用各方的共同努力,尤其離不開學、研界的前瞻研究。
科研先行 夯實產業發展學術根基
東南大學自動化學院籌建于1957年,是國內最早設立自動化專業的院系之一,是國家“985工程”和“211工程”建設重點支持單位,曾于2017年入選國家首批“雙一流”建設學科。學院開設有控制理論與控制工程等國家重點學科專業,建有控制科學與工程一級學科博士后流動站和長江學者特聘教授崗位,還設有“復雜工程系統測量與控制”教育部重點實驗室,承擔了一大批國家級和省部級基礎研究和科技攻關項目,在網絡控制、智能控制、集群控制、極地科考等領域已取得具有國際水平的研究成果,SCI、EI論文收錄均列全國前列,在國際和國內控制界具有較大影響,有力地夯實了產業發展的學術根基。
近年來,隨著AI技術的加速發展,安防監控,無人機,手機終端等大量以圖片視頻為主的數據量激增,視頻分析與大數據處理是成為人工智能的重點發展方向。
緊跟產業發展趨勢,在公共安全領域,東南大學自動化學院針對網絡監控視頻分析、車載監控視頻分析、無人機航拍視頻分析等關鍵技術,面向網絡監控視頻、車載監控視頻、無人機航拍監控視頻、多型號飛機試飛視頻等,進行海量視頻智能分析與環境感知的基礎研究與工程應用工作。
科研高性能大數據平臺建設面臨重重挑戰
基于視頻大數據分析的基礎研究與工程應用離不開高性能的計算平臺支持,高性能的計算平臺是助推學科快速發展及產業結合的關鍵。此外,上述項目多為與國內多家重點單位合作的國家級重點科研項目,數據量已超過100TB,且對數據保密的剛性要求極高,須使用網絡隔離的專用的獨立計算平臺。
東南大學自動化學院副教授、碩士研究生導師夏思宇教授表示,科研高性能大數據平臺不僅要提供滿足科研任務需求的算法支撐,還要提供一整套包括數據安全存儲、數據分析,數據管理的解決方案。
大數據分析平臺作為系統建設的核心,承擔著對指定視頻文件進行基于內容的快速分析比對,從海量標簽化、內容特征化的視頻片段庫中快速分析、搜索、比對、匹配出相似內容特征的視頻文件,為大并發場景提供強大的計算分析能力的任務。以和國網合作進行視頻分析與大數據處理項目為例,數據通常先由GPU節點對視頻實現切片、特征提取、標注、入庫工作。同時標注后的視頻數據將為AI算法模型的構建、學習、迭代提供數據集支撐。訓練完成后的模型將部署在GPU節點,為實時視頻接入時的在線推理、分析處理提供算法支撐;而大數據分析節點作為核心,將對數據存儲中的數據進行讀取、比對分析、處理、回寫等操作,為大并發場景提供強大的計算分析能力。該項目因數據為分辨率不低于1200萬像素的高清原始視頻及分析后的切片等,要求大數據平臺還須提供海量存儲空間及高性能的IO訪問能力。
同樣的需求廣泛存在于智能制造、醫療、體育運動、健康等行業,需要對數據進行全生命周期的管理,夏思宇補充到。
浪潮K1 Power以三高一強特性打造高性能大數據平臺
簡而言之,東南大學科研高性能大數據平臺首先要具備強大的計算能力和大內存容量,以實現毫秒級的快速響應,高主頻、多線程的處理器有利于縮短計算時間,提升并發處理能力;此外,還須具備TB級或者PB級的海量存儲能力,且須保證較大的IO帶寬;最重要的,該大數據平臺還須滿足長時間7*24不間斷穩定運行,特別是核心計算設備,需要保證單機的可靠性達到5個9,每年計劃外宕機不超過5分鐘。
通過綜合選型,東南大學最終確定了以浪潮K1 Power服務器打造科研高性能大數據平臺。
在該科研高性能大數據平臺解決方案中,配置了1臺浪潮K1 Power FP5280G2做為整個集群管理節點,同時部署國產浪潮InsightHD大數據管理平臺;配置了2臺浪潮K1 Power FP5280G2做為業務管理節點,并采用Master/Slave主備模式部署Namenode(HDFS元數據)、HBase Master/Standby、ResourceManager(YARN資源管理)等業務管理組件。
值得一提的是,該大數據平臺解決方案對計算及存儲資源采用了分層、分區設計,針對在線數據分析計算過程對內存容量、存儲IO帶寬有較高要求,采用計算存儲融合模式,配置12臺浪潮IPS FP5280G2節點,既作為計算分析節點,同時也作為高速HDFS(SSD)存儲節點,提供23TB可用存儲空間,可對15個左右的鐵塔1天的視頻數據進行在線分析。針對大容量數據的存儲需求,配置3臺浪潮IPS FP5466G2分布式存儲節點,構建海量存儲空間,為SPARK、MR、HBASE提供不低于192TB存儲空間,可以與在線數據間實現分級存儲,同時采用雙口100G網絡,為數據訪問提供20GB/s的前端接口,防止數據瓶頸。利用HDFS分層策略,保證數據主副本在計算存儲融合節點SSD高速存儲HDFS空間,其他副本在存儲節點提供大容量HDFS空間,并根據SSD使用率自動完成數據向后端遷移。
在平臺軟件層面則采用浪潮IsightHD大數據平臺軟件,包含Hadoop生態、Spark生態、全文檢索生態等主要組件,提供海量數據的采集、存儲、計算、分析挖掘、數據操作、管理監控、和數據安全等能力,以滿足用戶高性能大數據運算平臺的需求。
經投產實踐檢驗,采用浪潮K1 Power架構的高性能大數據平臺憑借其高性能、高IO帶寬及每核的多線程等優勢,保證了海量視頻數據的實時存儲與分析,高可靠、高安全特性亦滿足了業務7*24的不間斷運行;無限拓展的容量滿足了海量視頻庫的PB級存儲需要,并實現了在線數據間的存儲分級。此外,還兼容了平臺既有的Linux操作系統、C/C++開發語言及編譯環境、不限于HDFS、YARN、SPARK、MR、HBASE等大數據生態組件和基礎環境,滿足科研需求的同時,培養了大量科研人才,并建立起完整的科研隊伍,促進了學科和產業界的良性發展。