一、引言
“十二五”期間,高校信息化建設(shè)進(jìn)入了一個(gè)“跨越式”發(fā)展的階段。硬件基礎(chǔ)設(shè)施得到了進(jìn)一步地提升,數(shù)字化業(yè)務(wù)系統(tǒng)功能不斷擴(kuò)展,極大地提高了教育信息化水平。隨著云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)、大數(shù)據(jù)處理等技術(shù)地快速發(fā)展,人類已經(jīng)邁入了大數(shù)據(jù)時(shí)代,硬件系統(tǒng)以及業(yè)務(wù)軟件系統(tǒng)背后產(chǎn)生的原始數(shù)據(jù),數(shù)據(jù)量呈幾何級(jí)數(shù)從TB 級(jí)向PB 級(jí)乃至ZB 級(jí)快速增長(zhǎng),如何發(fā)揮這些海量數(shù)據(jù)的隱藏價(jià)值,進(jìn)一步提升教育教學(xué)管理信息化水平,是我們長(zhǎng)期關(guān)注、思考的問題。在此背景下,研究大數(shù)據(jù)處理技術(shù),對(duì)數(shù)據(jù)進(jìn)行采集、整合處理、分析、挖掘研究,使原來分散、利用率低、不被注意的數(shù)據(jù)得以充分利用,為學(xué)校的教學(xué)管理、發(fā)展戰(zhàn)略和決策支持提供科學(xué)的依據(jù)有重要的意義。
二、學(xué)校信息資源現(xiàn)狀分析
隨著學(xué)校軟、硬件資源的增添,產(chǎn)生大量的數(shù)據(jù),數(shù)據(jù)包含結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),大致包括以下來源:
(1)數(shù)字化軟件系統(tǒng):是學(xué)校各個(gè)應(yīng)用系統(tǒng),可以執(zhí)行業(yè)務(wù)需要的分析并獲取需要的洞察。軟件系統(tǒng)大致包含統(tǒng)一認(rèn)證平臺(tái)、支付平臺(tái)、移動(dòng)平臺(tái)、圖書借閱、學(xué)工系統(tǒng)、教務(wù)系統(tǒng)、信息門戶、各個(gè)網(wǎng)站、餐飲一卡通系統(tǒng)、網(wǎng)絡(luò)認(rèn)證系統(tǒng)等。
(2)數(shù)據(jù)管理系統(tǒng):數(shù)據(jù)管理系統(tǒng)存儲(chǔ)邏輯數(shù)據(jù)、流程、策略和各種其他類型的文檔:Excel電子表格、Word 文檔,這些文檔可以轉(zhuǎn)換為可用于分析的結(jié)構(gòu)化數(shù)據(jù)。
(3)數(shù)據(jù)存儲(chǔ):數(shù)據(jù)存儲(chǔ)包含學(xué)校數(shù)據(jù)倉(cāng)庫(kù)、操作數(shù)據(jù)庫(kù)和事務(wù)數(shù)據(jù)庫(kù)。此數(shù)據(jù)通常是結(jié)構(gòu)化數(shù)據(jù),可直接使用或輕松地轉(zhuǎn)換來滿足需求。這些數(shù)據(jù)不一定存儲(chǔ)在分布式文件系統(tǒng)中,具體依賴于所處的上下文。
(4)智能設(shè)備:智能設(shè)備能夠捕獲、處理和傳輸使用最廣泛的協(xié)議和格式的信息。這方面的示例包括智能電話、儀表設(shè)備。這些設(shè)備可用于執(zhí)行各種類型的分析。絕大多數(shù)智慧設(shè)備都會(huì)執(zhí)行實(shí)時(shí)分析,但從智能設(shè)備傳來的信息也可批量分析。
(5)聚合的數(shù)據(jù)提供程序:這些提供程序擁有或獲取數(shù)據(jù),并以復(fù)雜的格式和所需的頻率通過特定的過濾器公開它。每天都會(huì)產(chǎn)生海量的數(shù)據(jù),它們具有不同的格式,以不同的速度生成,而且通過各種數(shù)據(jù)提供程序、傳感器提供。
(6)硬件資源數(shù)據(jù):大致包含常用的計(jì)算機(jī)、服務(wù)器、交換機(jī)、路由器、防火墻、無線控制器、無線AP、門禁道閘等,一般都是利用這些硬件的基本用途,例如:交換機(jī)的數(shù)據(jù)交換、路由器的路由交換鏈路互通,只關(guān)心網(wǎng)絡(luò)暢通,可以進(jìn)一步利用這些設(shè)備的日志信息,挖據(jù)深層的數(shù)據(jù)資源,為網(wǎng)絡(luò)管理人員和學(xué)校職能處室提供分析決策。
(7)其它數(shù)據(jù):視頻資源、社交網(wǎng)絡(luò)數(shù)據(jù)、登錄Wifi數(shù)據(jù)以及入侵檢測(cè)、防御設(shè)備、上網(wǎng)行為等設(shè)備分析到的數(shù)據(jù),移動(dòng)互聯(lián)數(shù)據(jù)等。
三、大數(shù)據(jù)技術(shù)及實(shí)踐
在維克托·邁爾-舍恩伯格及肯尼斯·庫(kù)克耶編寫的《大數(shù)據(jù)時(shí)代》中,大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。
目前使用較多的三個(gè)大數(shù)據(jù)處理工具是Hadoop、Storm、Spark,都是JVM上的語言寫成的。
下面簡(jiǎn)單敘述我校如何將大數(shù)據(jù)技術(shù)應(yīng)用于校園網(wǎng)絡(luò)安全管理平臺(tái)。
校園網(wǎng)絡(luò)安全管理實(shí)驗(yàn)平臺(tái)的功能架構(gòu)如圖1所示。
從圖1可以看出,該平臺(tái)需要搭建大數(shù)據(jù)的基礎(chǔ)運(yùn)行環(huán)境和數(shù)據(jù)管控平臺(tái),其中基礎(chǔ)運(yùn)行環(huán)境包含Hadoop基礎(chǔ)運(yùn)行環(huán)境、基于內(nèi)存的迭代計(jì)算框架和基于流處理的計(jì)算框架;需要網(wǎng)絡(luò)支撐平臺(tái)和信息共享交換平臺(tái),數(shù)據(jù)的標(biāo)準(zhǔn)化與建模;數(shù)據(jù)的檢索、關(guān)聯(lián)融合、安全檢測(cè);數(shù)據(jù)可視化分析與顯示、多系統(tǒng)融合數(shù)據(jù)的高性能分析,數(shù)據(jù)即服務(wù)產(chǎn)生可以抽取利用的信息存放到數(shù)據(jù)池以備基礎(chǔ)運(yùn)行環(huán)境檢索使用。
實(shí)驗(yàn)平臺(tái)的技術(shù)架構(gòu)如圖2所示,該架構(gòu)包含了數(shù)據(jù)采集層,數(shù)據(jù)集成層、文件存儲(chǔ)層、數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)計(jì)算層、數(shù)據(jù)分析層和平臺(tái)管理層。
實(shí)驗(yàn)平臺(tái)采集到的數(shù)據(jù)包含應(yīng)用系統(tǒng)數(shù)據(jù)、網(wǎng)絡(luò)訪問日志、各個(gè)網(wǎng)絡(luò)設(shè)備的SNMP Trap信息、各個(gè)核心設(shè)備以及安全設(shè)備Syslog日志(包括IDS、Wireless AC、負(fù)載均衡設(shè)備、路由器、防火墻、上網(wǎng)行為審計(jì)設(shè)備等)、服務(wù)器訪問日志、Snort信息、SFlow數(shù)據(jù)和Netflow數(shù)據(jù)以及端口鏡像數(shù)據(jù)。
網(wǎng)絡(luò)中的Syslog日志和網(wǎng)絡(luò)訪問日志將會(huì)是一個(gè)海量的數(shù)據(jù),考慮到日志更新頻繁和海量數(shù)據(jù)的特點(diǎn),實(shí)驗(yàn)環(huán)境在Linux服務(wù)器上安裝并啟動(dòng)的程序有Tomcat8,Hadoop2.6.1,Zookeeper3.4.6,HBase0.98.5,F(xiàn)lume1.5。選擇了Flume + HBase的采集和存儲(chǔ)方案,F(xiàn)lume最早是Cloudera提供的日志收集系統(tǒng),F(xiàn)lume可以在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù),F(xiàn)lume提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,并寫到各種數(shù)據(jù)接受方,F(xiàn)lume可以從Console(控制臺(tái))、RPC(Thrift-RPC)、Text(文件)、Tail、Syslog日志系統(tǒng)、Exec(命令執(zhí)行)等數(shù)據(jù)源上收集數(shù)據(jù)。HBase是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng)。實(shí)驗(yàn)平臺(tái)以Tomcat為Web服務(wù)器,通過Flume實(shí)時(shí)監(jiān)控網(wǎng)絡(luò)的日志文件并將新增日志收集、清洗并保存到HBase中,供Spark等分布計(jì)算框架分析使用。
計(jì)算層主要包括離線數(shù)據(jù)處理、近似實(shí)時(shí)批處理、實(shí)時(shí)流處理。其中:離線數(shù)據(jù)處理采用Hadoop的分布式存儲(chǔ)和并行計(jì)算模式MapReduce編程模型。Hadoop是一個(gè)分布式系統(tǒng)的基礎(chǔ)架構(gòu),非常適合對(duì)大數(shù)據(jù)集進(jìn)行離線計(jì)算。通過讀取數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行映射(Map),使用某個(gè)鍵值對(duì)數(shù)據(jù)進(jìn)行重排,然后對(duì)數(shù)據(jù)進(jìn)行化簡(jiǎn)(Reduce)得到最終的輸出。該功能模塊采用聚類分析、分類計(jì)算和關(guān)聯(lián)規(guī)則等算法對(duì)網(wǎng)絡(luò)中的日志進(jìn)行離線分析。在海量數(shù)據(jù)下,數(shù)據(jù)冗余模塊往往成為整個(gè)系統(tǒng)的瓶頸,實(shí)驗(yàn)使用了內(nèi)存NoSQL來處理冗余原始數(shù)據(jù),并采用盡可能多的節(jié)點(diǎn)進(jìn)行處理冗余信息。網(wǎng)絡(luò)流的實(shí)時(shí)處理采用Storm和Spark框架模型進(jìn)行處理,實(shí)時(shí)處理消息更新數(shù)據(jù)庫(kù),可對(duì)數(shù)據(jù)流做查詢,計(jì)算時(shí)將結(jié)果以流的形式輸出給Hive/Pig進(jìn)行聚類分析、擬合、協(xié)同過濾、展示。效果圖如圖3所示。
從圖3中可以直觀的看到服務(wù)器的網(wǎng)絡(luò)流量信息,可以協(xié)助網(wǎng)絡(luò)管理人員了解服務(wù)器的訪問情況,分析是否有異常流量。
大數(shù)據(jù)技術(shù)的應(yīng)用,提高了網(wǎng)絡(luò)管理的信息化,通過該平臺(tái)可以直觀地查看服務(wù)器的訪問情況、通過服務(wù)器的進(jìn)出流量情況以及一個(gè)會(huì)話流量數(shù)據(jù)的差值信息可以展示服務(wù)器的訪問會(huì)話是否正常以及是否有異常攻擊行為,查看網(wǎng)絡(luò)中的主機(jī)行為是否存在異常流量,是否被木馬程序控制等。
四、大數(shù)據(jù)技術(shù)在教學(xué)管理中的應(yīng)用展望
通過對(duì)學(xué)校的各個(gè)信息系統(tǒng)數(shù)據(jù)、多方采集的信息資源(包括宿舍門禁、圖書館門禁、校園Wifi、用電情況、視頻資源)、社交網(wǎng)絡(luò)等信息的多維度融合,數(shù)據(jù)關(guān)聯(lián)分析、挖掘,可以發(fā)現(xiàn)——①大數(shù)據(jù)技術(shù)應(yīng)用到學(xué)生管理:可以了解學(xué)生的出勤情況、心理情況、學(xué)習(xí)情況,全面客觀地記錄學(xué)生成長(zhǎng)軌跡,沉淀和積累多維度的學(xué)生成長(zhǎng)數(shù)據(jù),讓反映學(xué)生發(fā)展?fàn)顟B(tài)的數(shù)據(jù)完整顯示出來,推進(jìn)教育質(zhì)量觀的落實(shí),為學(xué)生輔導(dǎo)員多方面了解學(xué)生提供新渠道,提前預(yù)知學(xué)生的生活學(xué)習(xí)動(dòng)向,可以做到因材施教、個(gè)性化指導(dǎo)服務(wù)、提高學(xué)生的多方面能力、挖掘?qū)W生的興趣度、分析并幫助學(xué)生選擇就業(yè)方向;②大數(shù)據(jù)技術(shù)可以應(yīng)用到教學(xué)管理:結(jié)合教師在課程平臺(tái)中的問題答疑及作業(yè)布置情況、上課學(xué)生出勤情況、登錄Wifi情況、學(xué)生考試情況、課堂的視頻資源、學(xué)生評(píng)教信息等數(shù)據(jù)可以對(duì)教師的教學(xué)情況進(jìn)行全面的了解,有利于規(guī)范組織教學(xué)、示范教學(xué);③大數(shù)據(jù)技術(shù)應(yīng)用到學(xué)校管理:大數(shù)據(jù)時(shí)代,學(xué)校師生員工幾乎“透明”地生存,每個(gè)人在數(shù)據(jù)空間中都會(huì)留下痕跡,折射其興趣愛好、需求意愿、性格特征等內(nèi)心世界。管理者只需收集和分析相關(guān)數(shù)據(jù)便可以洞悉和預(yù)判現(xiàn)實(shí)中師生員工的未來行為,準(zhǔn)確定位師生的需求,從而實(shí)現(xiàn)精細(xì)化管理;④大數(shù)據(jù)技術(shù)應(yīng)用到后勤管理:通過學(xué)生的餐飲數(shù)據(jù)可以調(diào)整食堂的布局和用餐的品種以及用餐時(shí)間的保障,通過課表信息、學(xué)生進(jìn)出教學(xué)樓的信息對(duì)教室電源控制管理起到節(jié)能效果。
五、結(jié)束語
在“互聯(lián)網(wǎng)+教育”的背景下,通過讓大規(guī)模的數(shù)據(jù)產(chǎn)生關(guān)聯(lián)性,讓碎片化的數(shù)據(jù)變成一個(gè)融合的整體,通過數(shù)據(jù)的集成、管理、分析,使人們可以基于大數(shù)據(jù)來發(fā)現(xiàn)事物的本質(zhì)、預(yù)測(cè)未來的趨勢(shì),創(chuàng)新應(yīng)用大數(shù)據(jù)技術(shù)不斷推進(jìn)信息技術(shù)與教育教學(xué)的深度融合,充分發(fā)揮教育信息化在教育改革發(fā)展中的支撐與引領(lǐng)作用。研究應(yīng)用大數(shù)據(jù)技術(shù)的意義在于可以讓大數(shù)據(jù)“導(dǎo)航”學(xué)校教育管理信息化,“預(yù)測(cè)”教學(xué)效果、學(xué)生未來的發(fā)展趨勢(shì)。