精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據業界動態 → 正文

教育大數據的核心技術、應用現狀與發展趨勢

責任編輯:editor006 作者:孫洪濤 |來源:企業網D1Net  2017-04-21 17:27:50 本文摘自:《遠程教育雜志》

大數據是近年來快速發展的技術領域。關于大數據的研究與應用與日俱增,并不斷深入影響社會生活。購物推薦、路況分析乃至高考預測等與大眾密切相關的應用,充分展現了大數據的力量。2016年3月,AlphaGo與李世石的人機大戰,讓人們從更深層次上認識了大數據驅動下的人工智能對人類社會的深層影響。根據大數據版圖(Big Data Landscape)3.0版本的描繪,大數據相關基礎設施、分析工具和應用系統都在快速發展中[1]。這個逐年擴展的圖景表明了大數據的疆域正在不斷延展,領域應用不斷深化,影響力與日俱增。

在教育領域中,大數據已經在多方面引起了研究者和實踐者的關注。無論是從研究范式、技術應用,還是實踐案例都在快速發展之中。教育大數據正在成為教育領域不可忽視的新型驅動力,在教育教學研究與實踐中發揮著越來越重要的作用。

作為一個新興領域,大數據技術仍在快速迭代之中,新方法、新工具和新模式不斷涌現。在教育大數據這個細分領域之中,在契合大數據發展整體趨勢的同時,具有自身的鮮明特性。在教育大數據日趨矚目的今天,在研究大數據技術的基礎上,分析教育大數據的定義內涵、實踐范例、發展趨勢與面臨挑戰,有助于我們把握教育大數據的整體圖景,因應技術發展,推動教育的系統化變革。

一、大數據技術的發展趨勢

大數據技術的緣起,可以回溯到2004年谷歌公司提出的MapReduce模型[2]。在十幾年時間里,大數據技術從概念走向應用,形成了以Hadoop為代表的一整套技術。時至今日,大數據技術仍在快速發展之中,無論是基礎框架、分析技術,還是應用系統都在不斷演變和完善。據統計,2015年美國大數據初創企業獲得的融資額達到了66.4億美元,占整個技術領域總融資額的11%。這代表著大數據領域具有蓬勃的活力并受到市場的肯定。大數據技術的發展方向是技術發展與應用需求相互推進的結果,對大數據技術趨勢的分析,有助于從更本質的層面理解這個領域的現狀。

(一)基礎架構

歷經多年發展,大數據基礎設施正在向著快速、便捷與整合的方向發展。Hadoop框架是大數據分析的重要基礎框架。但它存在著計算速度慢、運維復雜等問題?;贖adoop衍生出了如Spark、Pig等框架,正在不斷提升計算性能和優化處理流程。與Hadoop相比,Spark的抽象層次更高,計算速度更快,編程更加簡便。更重要的是,Spark提供了統一的數據平臺,通過不同的模塊支持了不同類型的數據應用。通過Spark Core支持批處理,通過Spark SQL支持數據交互,通過Spark Streaming支持流式存儲,通過MLlib支持機器學習,通過GrphaX支持圖計算[3]。

在大數據基礎設施中,各種新技術不斷產生,數據湖(Data Lake)和霧計算(Fog Computing)分別從數據的集中與分布的不同角度給出了解決方案。數據湖是大型的基于對象的存儲庫,數據以其原始格式存儲。不需要對數據進行轉換,就可以進行全面的監控和分析,并建立數據模型。與一般意義的數據匯聚不同,數據湖不需要改變原始數據的結構,而是支持分析原始數據。這個方式消除了數據抽取、轉換和加載ETL的成本。為了達到不改變數據結構直接存儲和技術的目標,數據湖對元數據有很高的要求。目前,數據湖技術仍在起步階段,還存在原始數據差別大、類型復雜、分析應用困難等問題。但它有助于企業完成更長遠的數據規劃,建立數據治理結構,并預先解決安全問題[4]。數據湖與一般大數據匯集方式的對比,如表1所示。

與數據湖側重數據的聚集不同,霧計算則提出了一種分布式解決方案。霧計算這一名詞最早來自網絡安全領域,后來由思科(Cisco)公司借用,并賦予了分布式計算的含義。思科將霧解釋為“更貼近地面的云”,霧計算是云計算的延伸。與云計算不同,霧計算并非由性能強大的服務器組成,而是由性能較弱、更為分散的各類計算模塊和智能網絡設置組成,這些低延遲且有能力進行位置感知的模塊可以融入各類基礎設施,乃至生活用品[5]。

可以預見,隨著物聯網的不斷發展,來自各類終端的數據量會激增。面對這一情況,云計算的瓶頸可能會凸顯。在霧計算中,數據、分析和應用都集中在網絡的終端節點,只在需要的時候匯集到云中。云計算與霧計算的對比,如表2所示。

霧計算將計算能力延伸到了網絡的邊緣的各類智能設備。在這種模式下,智能設備的管理與交互就變得非常重要。比如,比特幣的底層技術“區塊鏈”(Block Chain)形成了行動登記、權屬確認和智能管理模式。這為通過網絡實現各種智能終端和設備實現自我管理和智能交互,提供了新的技術支持[6]。

數據湖和霧計算著眼于大數據的源頭和終端,從分布和集中兩個角度提供了解決方案。誠然,這些方案需要通過實踐進行檢驗。但總體而言,數據湖和霧計算代表著大數據分析基礎設施的發展趨勢,即采用更靈活的方式獲取和處理終端數據,合理分布計算負載,對核心數據進行廣泛匯集,通過定制標準實現數據治理。

(二)分析技術

分析技術是基于大數據進行模型構建,并進行評價、推薦和預測等具體應用的基礎。大數據分析技術在近年得到快速發展,智能化、實時化和易用性成為了分析技術的發展特征。

1.智能化

在分析技術方面,大數據與機器學習相結合形成的新型人工智能,已經成為近年最引人矚目的趨勢。大數據與機器學習正讓數據分析在統計分析的基礎上,更快速地實現智能關系發現和預測,如圖1所示。AlphaGo就是這一趨勢的典型應用范例。在海量數據的基礎上,以深度學習為代表的創新算法,通過大規模并行計算,不斷迭代演化,最終形成了能夠戰勝人類的數據智能。

  圖1 數據與算法迭代演化形成數據智能

大數據與機器學習整合所實現的人工智能,其意義不限于特定的領域應用,而是實現了一般性人工智能技術的突破。這一突破將在醫療、交通、金融和教育等為代表的各個應用領域產生重大影響。從更為廣闊的角度,以智慧城市為代表的智能化系統解決方案,預示著智能化大數據技術綜合應用的未來前景。由各類設備和傳感器獲得的數據,可以成為智能化分析的數據來源?;诖髷祿臋C器學習在完成海量數據匯集與分析的同時,不斷演化、提高自身智能水平。數據分析結果驅動智慧城市各個組成部分的智能化活動,基于數據智能的新型技術架構,為未來城市的智慧生活奠定了基礎。

2.實時化

實時分析是大數據技術的另一個發展方向。隨著大數據技術的深入發展,各類應用對于數據的實時分析和處理的要求不斷提高。與針對歷史數據的聚合和分析不同,實時數據分析具有更強的時效性,也對數據存儲、計算和呈現提出了更高要求。Hadoop中的批處理框架在對實效性要求較高的分析,例如,實時用戶行為分析、用戶分類和推薦等應用場景中的局限日益凸顯。Spark Streaming、Samza、Storm等流式實時計算框架應運而生。以Spark Streaming為代表的實時分析框架具有優秀的調度機制,快速的分布式計算能力,在數據的匯聚和批處理之間通過關鍵參數建立平衡,提升了數據吞吐量和性能,對實時計算提供了有效支持[7]。實時性預示著大數據將更深度地融入人們的工作和生活之中,在交通、翻譯等需要及時響應的領域中,大數據會體現出更強大的作用。

3.易用性

近年來,隨著技術的不斷成熟,大數據應用的門檻不斷降低。Google、微軟等巨頭不斷推出大數據技術平臺。我國互聯網三巨頭百度、阿里和騰訊分別推出了百度開放云、阿里數加和騰訊大數據平臺,在應用技術方面提供了全面的支持。從數據匯集、模型構建到可視化應用方面都提供了高質量的解決方案。并且,這些分析框架中存在很多優秀的開源項目,如,Caffe、Torch等[8]。Google為Tensor Flow的開源分析工具提供了一個重要選擇,Tensor Flow的開發者來自Google Brain團隊,它整合了Google在搜索引擎、電子郵件和翻譯、圖像識別等方面的分析成果。并且應用了數據圖技術(Data Flow Graphic)將模型構建過程和產品開發緊密結合,在完成建模實驗之后就可以直接將代碼應用到產品中。易用性為大數據在垂直領域的應用鋪平了道路。

(三)領域應用

在基礎框架和應用技術的支持之下,大數據在各個領域中的應用也在不斷快速地深入發展,展現出了領域應用深化與融合、可視化應用廣泛和產業生態鏈萌發的特征。

1.領域深化與融合

大數據在方法論層面上影響著多個領域的研究與實踐[9-11],作為新的研究范式影響著眾多學科。在各個領域應用中,大數據作為基礎方法與工具有著一定的普適性,也具有鮮明的領域特征與領域差異。數據不同于金融、交通、零售等領域有著較為明確的量化指標作為機器學習的依據。在教育等社會科學相關領域中,大數據分析模型建立過程中形成的類量化指標往往很難獲得。這就使得教育領域的模型構建具有了一定的獨特性。同時,教育教學自身的周期性和復雜性,也為模型構建提出了新的挑戰。

隨著大數據的發展,領域應用將逐步深入。在各個領域中需要借助領域知識,針對領域問題進行深層次研究與實踐。在此過程中,以數據為橋梁,各個領域的融合將成為可能。例如,始于氣象系統的DMSP/OLS夜間燈光數據,已經在遙感測繪、城市規劃、人口估計、國民經濟測算、能源消耗以及生態環境影響評估方面取得了令人矚目的成果[12]。基于大數據,各個領域自身發生深刻變化的同時,領域之間的比較出現加速融合的趨勢。大數據技術在領域內的深入發展,和領域間的融合發展將日趨重要。

2.可視化應用

可視化是大數據應用的呈現層面,直接面向終端用戶,并通過各類應用場景服務各類人群。數據可視化可以通過多種方式實現,從較為底層的R語言Ggplot擴展包、D3函數庫,到SPSS Modeler、Tableau等數據分析和可視化工具。數據可視化的方法和工具種類繁多,近年來,可視化工具的應用門檻不斷降低。SAP、Tableau等重量級數據分析企業都推出了移動端數據可視化工具。以SAP的Roambi為例,只需要導入數據集,選擇模板,Roambi就能夠馬上完成精美的可視化圖表并支持互動[13]。Tableau不僅推出了Tableau Mobile支持移動端數據分析,還通過Tableau Public和Desktop等工具,構建了包含桌面分析、在線發布和移動應用的整體可視化方案[14]。

在各類工具支持下,數據可視化的應用門檻大大降低,為更加廣泛的應用奠定了基礎。數據可視化作為大數據技術的表現層,是數據分析與洞察的“最后一英里”。隨著這個環節的不斷優化與人性化,數據分析的廣泛應用指日可待。

3.生態鏈萌發

2015年8月,國務院發布的《促進大數據發展行動綱要》,將大數據定位于推動經濟轉型發展的新動力,重塑國家競爭優勢的新機遇以及提升政府治理能力的新途徑[15]。《促進大數據發展行動綱要》成為了大數據產業發展的政策依據,必將對大數據產業發展起到催化作用。大數據產業的資金投入、基礎設施、數據標準、應用平臺、區域實踐必將呈現加速發展趨勢。同時,正如前文所述,大型互聯網企業如百度、阿里和騰訊等,已經在大數據領域發力,并開始構建基礎設施、制定標準、推廣應用,在各個應用領域的大數據實踐也在快速開展。

可見,在政策重點支持、工具平臺日漸成熟、領域應用不斷深入的合力之下,大數據產業鏈正逐步形成,生態體系正在孕育之中。生態鏈將催生一系列數據標準,形成多種整合型技術路線,打通原始數據到終端應用,將大數據應用推向新的層次。

二、教育大數據的含義

教育大數據的含義,需要從數據和技術兩個層面進行解析。在引用較多的大數據定義中,維基百科定義[16]和麥肯錫(McKinsey)定義[17]都強調了大數據的量,無法用常見數據工具處理;而高德納(Gartner)定義則著眼于數據的特性與價值[18]。為了解析教育大數據的真正意義,需要對教育大數據的構成和特性進行分析。

在教育大數據的構成方面,在線學習的數據首當其沖??梢哉f教育大數據的廣受關注,與在線教與學的盛行有著密不可分的關系。在舍恩伯格的《與大數據同行——學習和教育的未來》一書中,第一個大數據教育應用案例就來自在線學習。隨著在線教學的日益普及,在教與學過程中,由學習管理系統和各類移動設備所記錄下來的各類海量數據,成為分析教學過程的重要來源。這些數據包括記錄學習過程的行為數據,記錄學習結果的評價數據,以及學習形成的社會網絡關系數據等。由這些數據拓展開來,教育大數據還包含著各類學生個人信息數據、教學管理數據等??梢?,教育大數據來自于教育教學的主體和過程。

依照不同層級的主體和教育教學活動的各項內容,教育大數據可以分為四個層次和六大類型。四個層次包括個體、學校、區域和國家;六大類型包括基礎數據、教學數據、科研數據、管理數據、服務數據和輿情數據。其中,基礎數據包括以人口學為代表的學習者基本信息數據;教學數據包括教學過程中涉及的過程、內容和結果數據;科研數據包括各類教育教學實驗與科研項目當中所獲得的數據;管理數據包括各類教育管理系統當中所記錄下來的數據,如,學生的學籍數據、檔案數據和各類統計數據等等;服務數據包括各類與教育教學相關的服務系統當中記錄的數據,如,各類師生生活服務、圖書檔案服務等等;輿情數據包括各類公開媒體中與教育相關的數據,如,各類教育新聞數據、微博等社會網絡系統中教育相關數據等。

從特征的角度看,大數據的特點往往被概括為4V,包括海量規模(Volume)、快速流轉(Velocity)、多樣構成(Variety)和巨大價值(Value)。教育大數據的特征與4V既有重合又有不同:首先,從規模上看,教育大數據的體量尚未達到零售業、電信業等領域的規模,但已經超出了傳統數據工具的處理能力。其次,從流動速度的角度,教育大數據流轉速度相對較慢,并不像交易數據、搜索數據或通訊數據具有快速流轉的特性。相應地,教育教學的周期性決定了教育大數據具有典型的周期性。進而從數據構成方面看,教育大數據中非結構化數據,特別是音視頻數據占很大比重。這些數據來自課堂錄像、教學資源等,不同于傳統數據庫記錄的數據,具有一定的分析復雜性。同時與電商等領域中步驟清晰、結果明確、周期較短的交易活動不同,教育教學活動具有更高的過程復雜性。通過教育大數據分析發現規律也就更為困難??梢娊逃髷祿奶卣骺梢愿爬閺娭芷谛浴⒏邚碗s性和巨大價值。

綜上所述,我們可以把教育大數據定義為:服務教育主體和教育過程,具有強周期性和巨大教育價值的高復雜性數據集合,具體如圖2所示。

  圖2 教育大數據的構成

三、教育大數據的應用

對于教育大數據的應用,研究者從不同的角度提出了各自的思考。祝智庭教授從研究范式的角度,提出了大數據對教育技術研究方法的啟示,并著重強調了數據支持下的自適應學習。鄭燕林和柳海民認為,教育大數據的應用主要是對教育評價和教育教學決策的支持[19]。胡弼成和王祖霖將大數據應用總結為通過評價和預測促進教學有效性,基于變化的教育形式和復雜關系推動教育決策的科學性,完整、全面、動態的質量監控體系[20]。楊現民等研究者認為,教育大數據應用可以分為政策科學化、區域教育均衡、學校教育質量提升、課程體系與教學效果最優化、個體的個性化發展等層面[21]。

大數據對教育領域的沖擊是全面性的。它能夠改變個體學習者的學習狀況、對教育規律的認識深度、教育政策的制定方式,乃至整個教育系統的結構。從需求的角度,教育大數據的應用可以概括為五個層次,即學習、教學、研究、管理與政策。學習層與教學層需求著眼于適應性學習;研究層需求著眼于發現教育教學規律;管理層需求著眼于精細管理和科學決策;政策層需求來自獲得機制設計依據,如圖3所示。

  圖3 教育大數據的應用

針對不同層次的需求,教育大數據應用形成了各種產品和服務。從適應性教學到動態跟蹤測評,從管理模型構建到數據共享門戶,各種類型的應用勾勒出了大數據影響教育領域的整體圖景。

我們不妨通過國際范圍內典型的技術、產品和服務,從適應性教學、教育規律發現和精準管理支持三個方面,對有較大影響的教育大數據國際應用進行分析,以期對我國教育大數據發展應用提供借鑒。

(一)適應性教學支持

適應性教與學是教學的最優化狀態。適應性教學中的內容、方法和過程都可以根據學習者的狀況來進行定制,讓每個學習者都有可能獲得適合自己的最大程度的發展。適應性教學的實現,需要基于學習者的個體特征和學習狀況的全面分析。大數據為追蹤和整合這些數據,并對學生進行個性化支持提供了可能,如圖4所示。

  圖4 適應性教學的構成

最為常見的適應性教學系統來自在線學習領域。在各種學習管理系統和在線學習平臺中,學習者的學習過程能夠得到完整記錄。學習過程的記錄結合人口學和學習風格等學習者特征數據,可以清晰地表征學習者的學習路徑和學習者特征,在有效記錄學習過程、綜合評價學習狀況的基礎上,進行診斷和推薦,開展有針對性的教學。

適應性學習支持幾乎已經成了在線學習的“標配”,在每一個商業在線學習平臺中,都有不同程度的適應性。內容推薦是適應性的一種主要形式。然而,真正有效的適應性教學系統需要整合三個系統,即知識系統、行為系統和特征系統。通過知識系統來描繪知識體系;通過行為系統來記錄學習、練習和反饋過程;通過特征系統去分析學生的個體特征和學習特質。

當前,最具代表意義的適應性學習系統當屬Knewton和可汗學院(Kehan Academy)。此類適應性學習系統重點支持了學生的學。學習系統試圖扮演教師的角色,對學生的學習進行自動化記錄、診斷和干預。適應性學習的另一個層面是對教師教的支持。應當看到,目前的學習系統還存在諸多局限,在MOOCs發展的初期,教師是否會被在線課堂所替代曾經成為一個引人矚目的話題。然而,教師作為教育過程中的關鍵角色,不可能在短時間消失,而是會借助技術實現專業水平提升和角色轉變。大數據將成為教師教學的強大助手,幫助教師更好地發揮自身作用,更好地促進學生的學習。

在大數據技術支持下,教師可以根據自身的需求對學生的學習進行監測,并通過自己設定的標準,對學生進行自動化或半自動化的評價。在數據的支持下,教師可以結合自身的教學經驗對學生進行診斷和干預。在教師的訓練下,大數據工具將對教師的教提供更有力的支持。大數據工具將成為教師最好的幫手,而不是競爭者。

以Masteryconnect為例,Masteryconnect對教師的教提供了全面的數據化支持,它從教師的日常工作出發,提供了數據采集、分析、呈現和基于數據的協作支持。教師可以在其支持下采集各種教學數據,包括課堂觀察數據、答題卡數據、量表數據和在線測試數據。在采集數據之后,Masteryconnect可以進行自動化分析和可視化呈現。分析的結果可以通過該系統分享給其他教師,教師可以在數據的基礎上進行交流和協作。Masteryconnect為各種形成性評價提供了全面的支持,教師可以自行建立教學內容的結構,并為各個模塊和知識點設計問卷、練習、試卷等各種測評方式。測評可以發布到PC和移動設備,學生可以選擇自己喜歡的方式完成測評。同時,測評結果可以形成定制報告,并發送給家長[22]。

對教與學的支持是大數據在適應性學習中應用的兩個側面?;跀祿?,學生的學習狀態得以完整記錄,學習系統可以推送定制化內容,教師可以開展更具針對性的教學??梢?,數據正在改變著線上和線下的教學過程。

(二)教育規律發現

教育研究是一項復雜的系統性研究。長期以來,小樣本量、個案研究對教育規律探索起到了重要作用。而教育大數據的引入,大大拓展了教育規律探索的視角。圖靈獎得主吉姆·格雷在《第四范式:數據密集型科學發現》一書中,提出了一種新型研究范式,即數據密集型研究,這將成為大數據時代教育研究的利器之一。

換言之,在大數據的驅動下,教育研究將出現不同的態勢,通過挖掘、分析教育大數據,研究者可以量化學習過程,表征學習狀態,發現影響因素,找到干預策略,從更深的層次揭示教育規律。誠然,規律發現并非易事。但可以肯定的是,在多來源、大體量數據的基礎上,通過技術手段進行數據匯集和共享,組織研究者進行群體協作,開展大量能夠進行標準化,具有對比意義的研究,最終更易發現真實的教育規律,如圖5所示。

 

這里可以通過對美國的三個大數據教育應用的案例,即“預測分析報告項目(Predictive Analytics Reporting,PAR)、數據商店(Data Shop)和Data.gov”的介紹與分析,充分了解大數據標準化研究和數據門戶對教育規律探索的意義。

美國的預測分析報告項目(PAR)對高校學生的學習狀況進行了全面分析,在學生輟學等重要風險的預測方面進行了探索。從2011年開始,該項目與美國的高校合作,建立了標準化數據收集框架,通過對學生學習數據的收集和分析,發現影響因子并構建預測模型。該項目分析的原始數據包括學生人口學數據、教學管理數據、學習過程數據、成績數據和學生財務信息數據等。通過分析,該項目建立了通用分析標準和風險預測模型,并為各個學校提供了定制化風險因素模型。迄今,PAR已經服務351家院校,分析了超過2000萬條課程數據。PAR也為學校分析學生學業表現提供了綜合視角,為防止學生輟學提供了有效手段[23]。

教育大數據研究需要大量匯集數據,數據匯集需要大量研究者的群策群力,也需要行之有效的組織機制。匹茲堡大學學習科學中心(Pittsburgh Science of Learning Center)的數據商店(Data Shop),是美國自然科學基金支持建立的學習科學數據庫。經過十多年的建設,已經成為全球最大的學習數據分享社區[24]。數據商店具有數據存儲和數據分析兩大類功能:一方面,它為全球學習科學研究者提供安全的數據存儲與共享工具;另一方面,它提供了數據分析工具和調用接口,便于分析應用。數據商店中的數據,分為公開數據和私有數據,研究者可以根據需要選擇自己的數據是否要公開。數據商店中的數據,包括教學軟件應用數據、在線課程數據、智能教學系統(Intelligent Tutoring Systems)、虛擬實驗室數據、協作學習系統數據等。在數據匯集和分享功能的基礎上,數據商店提供了豐富的數據分析功能,支持探索性統計分析和數據挖掘,提供Web Service支持遠程調用,以及R語言、Excel等工具的接口。

美國教育部在教育研究與實踐數據匯集方面開展了大量工作,匯集了大量數據。截至2016年5月,在其數據門戶Data.gov中,匯聚的數據包含了325個大型數據集。數據包含范圍很廣,涉及人口統計、學習成績、貸款情況、校園安全等情況。Data.gov針對各類數據提供了多種數據格式,同時,提供了在線數據分析功能,它可以實現靈活便捷的在線數據可視化。同時,Data.gov還為每個數據集提供了API,便于外部調用與分析。

由此可見,大數據分析對于教育研究及規律的發現意義重大。上述三個案例——預測分析報告項目、數據商店和Data.gov,對于我們利用大數據研究教育現象、發現與探索教育規律,有著重要的借鑒意義。因為規律的發現,需要針對特定研究主題進行長期研究,需要大量標準化數據支持,需要對基于數據的研究與協作作廣泛支持。對于重要的教育研究主題,設定數據標準,進行長期縱向跟蹤和廣泛橫向比較研究,是探索教育規律的有效途徑。同時,還需要建立更加通暢的數據分享渠道,通過開放,最大化實現數據的應用價值,以便為研究提供更加廣泛的支持。

(三)精準管理支持

在學校和教育機構中,管理者時常面對無法及時掌握教學與管理綜合狀況的困境。這也導致了教育管理常常是粗放的、由直覺驅動的現狀。數據對于學校和教育機構的精準管理和科學決策,可以起到重要的支持、調節作用?;跀祿墓芾恚枰ㄟ^匯集各類管理與教學數據,構建多維模型。以Learnsprout、Calarity、Altschool等為代表的數據化管理應用,體現了數據建模對于精準管理的重要支撐作用,如圖6所示。

  圖6 數據支持下管理模型構建

Learnsprout能夠整合學生信息系統和學習管理系統的數據,對學生日常表現進行監測,通過構建模型對學生綜合狀況進行分析,并對管理和教學提出建議。例如,Learnsprout能夠對高中學生進入大學的準備情況等進行評價,對存在問題的學生進行早期預警,提出教學干預建議,并評估干預效果。Learnsprout不僅提供了自動化分析,還建立了有教育專家和數據專家構成的團隊對數據進行深入挖掘,并形成分析報告。Learnsprout已經在美國42個州、200多個學區的2500多所學校中得以廣泛應用。該公司于2016年1月被蘋果公司收購,這也從一個側面說明了市場對其應用效果的認可。

Calarity是通過構建模型提供管理支持的另一個典型案例。Calarity旨在評估學校應用信息化技術促進教學的狀況,并提出改進建議。它針對學校師生的技術應用情況,采集了280個數據點,建立82個變量,形成21個指標,進而聚合成了4個維度,分別為課堂學習、技術應用、信息化技能和信息化環境[25]。在模型化數據分析的基礎上,Calarity對存在的問題進行了分析和診斷,并提出了解決方案建議。

Altschool是學校層次上進行整體性數據采集、分析與應用的代表。這所由前谷歌工程師Max Ventilla創辦的學校,將教育教學和工程化思維密切結合,將提供個性化的教育作為辦學宗旨。在教育教學過程中采用全方位數據采集和分析,成為了這所學校提供適應性教與學的重要依據和支撐。Altschool構建了獨特的信息化基礎設施進行數據采集,它為教室設計的Alt Video系統,通過各種傳感器、攝像頭和麥克風采集學生行為數據,這些數據每天都將被分析,用來改進教學過程和教學系統。Altschool還開發了Stream等教學系統和移動應用,在支持教學過程的同時,其基于數據開展教學研究,并通過研究結果支持教學和管理。不同于傳統教育研究,Altschool的研究周期非常短,教學設計更新以周為單位,教學管理調整速度極快??焖俚墓こ袒季S、系統化信息技術環境支持、完整的數據采集與分析,構成了Altschool在精準教學管理方面的整體解決方案。

可見,通過系統化數據采集,采用科學方法建立的數據模型,可以幫助教育管理者對學校和機構的管理狀況進行持續動態監控和綜合性評價。在數據支持下,管理者能夠更容易地發現管理和教學問題,設計可能的解決方案,并追蹤問題解決的成效。

四、教育大數據所面臨的挑戰

教育大數據領域方興未艾,既具有巨大的發展潛力,又面臨著諸多的挑戰。我們認為,這些挑戰包括數據標準、數據采集、模型構建、產品服務和開放共享和隱私保護等方面,具體如圖7所示。

  圖7 教育大數據應用所面對的挑戰

(一)數據標準有待完善

大數據分析需要多來源、多類型數據的匯集,數據匯集需要建立統一標準與規范。教育部于2012年發布了《教育管理信息教育管理基礎代碼》等七個教育信息化行業標準,對教育管理、行政管理、教育統計、中小學、中職學校和高等學校管理的信息進行了規范。這一規范,雖然對統一教育管理信息有著重要意義。然而,教學環境、教學過程相關數據標準尚存大量空白。同時,近年來在線教育蓬勃發展,其數據標準也尚未建立。上述標準的缺失,成為了教育大數據有效應用的瓶頸。

(二)數據采集覆蓋面窄

“十二五”期間,我國教育管理公共服務平臺基本建成,教育管理數據的收集具備了較好的條件。但其他教育教學數據,特別是教學過程數據的采集,尚存在較大不足。現有在線學習平臺在設計上,往往并未考慮數據分析的需要,對教與學過程的記錄不夠完整,對數據的分析應用造成了困難。近年來,各高校和部分中小學開始進行智慧校園建設,傳感器、Wifi網絡、移動設備等技術手段,為更全面的數據采集提供了一些條件。但在現有智慧校園建設中,對數據應用尚缺乏整體設計,對數據采集的支持還遠遠不夠。

(三)模型構建專業性不足

數據模型是對教學與管理進行有效監測、評價、診斷和預測的核心支持。從教學的適應性到管理決策支持,都需要通過科學的模型來支撐。但在現階段模型構建過程中,教育大數據模型構建的專業化水平明顯不足。一方面,教育研究成果沒有得到很好地應用,教育領域專家知識應用明顯不足;另一方面,前沿數據分析方法與技術的應用不足,未能有效借助通用大數據技術的力量。

(四)產品服務單一

在我國教育領域中,以網龍、科大訊飛、猿題庫、優答、一起作業、學堂在線為代表的企業,都開始對教育數據的分析與應用展開探索。但總體而言,目前,我國教育大數據相關應用主要聚焦于適應性教學,題庫類產品居多,缺乏管理類的應用,對于教學決策的支持不足。同時,教育數據分析應用在功能上較為單一,所采用的分析方法也有一定局限,統計分析仍占有很大的比重,缺乏高水平產品與服務。

(五)開放共享尚未形成

教育大數據的重要價值,首先來自于其數據的大規模和全面性,規模的形成需要廣泛的數據共享與開放。當前,行之有效的數據共享開放和應用規則尚未建立,所以,還需要建立有效的資源共享機制,通過多種途徑匯聚教學,研究和管理數據,擴大數據的規模,才能形成教育大數據的獨特優勢。

(六)隱私保護有待完善

教育大數據涉及龐大規模的受教育者與教育者群體。對于這些人群,特別是對于大量的未成年學生而言,隱私保護至關重要。所以,應當從法律上明確、規范公開數據與私有數據的邊界,有效的保護隱私數據。在來源清晰、責權明確、應用有序的前提下,才能有效地開展教育大數據研究與應用。

我國教育大數據領域正處于起步階段。教育大數據研究與應用具有鮮明的特點,其發展需要將大數據技術與教育領域進行深度融合。在“互聯網+”時代,為了更好地應對教育大數據所面臨的一系列挑戰,我們認為,目前迫切需要在體制與機制上,多方協同,各盡其力,以形成一種合力,如圖8所示。

  圖8 教育大數據發展需要多方合力

具體來說,教育主管部門需要推動教育大數據方面的相關法律、法規的制定,劃定邊界,明晰責權,建立更加全面的教育數據標準,為國家層面的大規模數據共享和分析奠定基礎。以學校為代表的教育機構,需要提升數據驅動教學與管理的意識,構建綜合數據采集環境,并建立數據管理與應用機制。一些研究機構需要將教育科學與數據科學緊密結合,開展多學科協同研究,并注重研究成果的轉化。公司、企業則需要從教學與管理的整體流程出發,設計與開發多元化產品,并根據教育需求提供靈活可擴展的定制化服務,從而共同促進教育大數據的健康發展,更好地服務于教育事業。

參考文獻:

[1]Turck M.Is Big Data Still a Thing?(The 2016 Big Data Landscape)[EB/OL].[2016-02-01].http://mattturck.com/2016/02/01/big-data-landscape/.

[2]程學旗,靳小龍,王元卓,等.大數據系統和分析技術綜述[J].軟件學報,2014,(9):1889-1908.

[3]與Hadoop對比,如何看待Spark技術?[EB/OL].[2016-04-06].https://www.zhihu.com/question/26568496.

[4]O'Brien J.Critical Factors for Data Lake Success[EB/OL].[2015-09-01].

http://www.teradatamagazine.com/v15n03/Tech2Tech/Critical-Factors-for-Data-Lake-Success/.

[5]Cisco.Fog Computing and the Internet of Things:Extend the Cloud to Where the Things Are[EB/OL].[2015-04-15].

http://www.cisco.com/c/dam/en_us/solutions/trends/iot/docs/computing-overview.pdf.

[6]Norton S.CIO Explainer:What Is Blockchain? The Wall Street Journal[EB/OL].[2016-02-02].

http://blogs.wsj.com/cio/2016/02/02/cio-explainer-what-is-hlockchain/.

[7]周明耀.Spark Streaming指南[EB/OL].[2015-08-03].http://www.ibm.com/developerworks/cn/opensource/os-cn-spark-streaming/index.html.

[8]Li F.Convolutional Neural Networks for Visual Recognition[EB/OL].[2016-01-20].http://cs23 ln.stanford.edu.

[9]劉紅,胡新和.數據革命:從數到大數據的歷史考察[J].自然辯證法通訊,2013,(6):33-39,125-126.

[10]祝智庭,沈德梅.基于大數據的教育技術研究新范式[J].電化教育研究,2013,(10):5-13.

[11]喻豐,彭凱平,鄭先雋.大數據背景下的心理學:中國心理學的學科體系重構及特征[J].科學通報,2015,(5/6):520-533.

[12]范長煜,朱艷婷,高雅靜.大數據在社會科學中的價值:以DMSP/OLS夜間燈光數據為例[J].華東理工大學學報:社會科學版,2016,31(1):1-9.

[13]SAP.Roambi Analytic Understand Your Numbers[EB/OL].[2016-06-29].https://roambi.com/.

[14]Tableau.5 Steps to Self-Service Analytics that Scales[EB/OL].[2016-06-29].http://www.tableau.com/.

[15]國務院.國務院關于印發促進大數據發展行動綱要的通知[EB/OL].[2015-09-05].http://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm.

[16]Big Data-Wikipedia[EB/OL].[2016-06-29].https://en.wikipedia.org/wiki/Big_data.

[17]McKinsey Global Institute.Big Data:The Next Frontier for Innovation,Competition,and Productivity[EB/OL].[2016-06-15].

http://www.mckinsey.com/business-functions/business-technology/our-insights/big-data-the-next-frontier-for-innovation.

[18]Gartner.Big Data[EB/OL].[2016-06-29].http://www.gart ner.com/it-glossarybig-data/.

[19]鄭燕林,柳海民.大數據在美國教育評價中的應用路徑分析[J].中國電化教育,2015,(7):25-31.

[20]胡弼成,王祖霖.“大數據”對教育的作用、挑戰及教育變革趨勢——大數據時代教育變革的最新研究進展綜述[J].現代大學教育,2015,(4):98-104.

[21]楊現民,王榴卉,唐斯斯.教育大數據的應用模式與政策建議[J].電化教育研究.2015,(9):54-61,69.

[22]Edshelf.Masteryconnect Review[EB/OL].[2016-06-29].https://edshelf.com/tool/masteryconnect/.

[23]PAR.Predictive Analytics Reporting Framework[EB/OL].[2016-06-29].https://public.datacookbook.com/public/institutions/par.

[24]Kiesinger.Baker R.,Cunningham K.,et al.A Data Repository for the Leaming Science Community:The PSLC DataShop[J].Handbook of Educational Data Mining,2010.

n

關鍵字:教育均衡教育決策

本文摘自:《遠程教育雜志》

x 教育大數據的核心技術、應用現狀與發展趨勢 掃一掃
分享本文到朋友圈
當前位置:大數據業界動態 → 正文

教育大數據的核心技術、應用現狀與發展趨勢

責任編輯:editor006 作者:孫洪濤 |來源:企業網D1Net  2017-04-21 17:27:50 本文摘自:《遠程教育雜志》

大數據是近年來快速發展的技術領域。關于大數據的研究與應用與日俱增,并不斷深入影響社會生活。購物推薦、路況分析乃至高考預測等與大眾密切相關的應用,充分展現了大數據的力量。2016年3月,AlphaGo與李世石的人機大戰,讓人們從更深層次上認識了大數據驅動下的人工智能對人類社會的深層影響。根據大數據版圖(Big Data Landscape)3.0版本的描繪,大數據相關基礎設施、分析工具和應用系統都在快速發展中[1]。這個逐年擴展的圖景表明了大數據的疆域正在不斷延展,領域應用不斷深化,影響力與日俱增。

在教育領域中,大數據已經在多方面引起了研究者和實踐者的關注。無論是從研究范式、技術應用,還是實踐案例都在快速發展之中。教育大數據正在成為教育領域不可忽視的新型驅動力,在教育教學研究與實踐中發揮著越來越重要的作用。

作為一個新興領域,大數據技術仍在快速迭代之中,新方法、新工具和新模式不斷涌現。在教育大數據這個細分領域之中,在契合大數據發展整體趨勢的同時,具有自身的鮮明特性。在教育大數據日趨矚目的今天,在研究大數據技術的基礎上,分析教育大數據的定義內涵、實踐范例、發展趨勢與面臨挑戰,有助于我們把握教育大數據的整體圖景,因應技術發展,推動教育的系統化變革。

一、大數據技術的發展趨勢

大數據技術的緣起,可以回溯到2004年谷歌公司提出的MapReduce模型[2]。在十幾年時間里,大數據技術從概念走向應用,形成了以Hadoop為代表的一整套技術。時至今日,大數據技術仍在快速發展之中,無論是基礎框架、分析技術,還是應用系統都在不斷演變和完善。據統計,2015年美國大數據初創企業獲得的融資額達到了66.4億美元,占整個技術領域總融資額的11%。這代表著大數據領域具有蓬勃的活力并受到市場的肯定。大數據技術的發展方向是技術發展與應用需求相互推進的結果,對大數據技術趨勢的分析,有助于從更本質的層面理解這個領域的現狀。

(一)基礎架構

歷經多年發展,大數據基礎設施正在向著快速、便捷與整合的方向發展。Hadoop框架是大數據分析的重要基礎框架。但它存在著計算速度慢、運維復雜等問題?;贖adoop衍生出了如Spark、Pig等框架,正在不斷提升計算性能和優化處理流程。與Hadoop相比,Spark的抽象層次更高,計算速度更快,編程更加簡便。更重要的是,Spark提供了統一的數據平臺,通過不同的模塊支持了不同類型的數據應用。通過Spark Core支持批處理,通過Spark SQL支持數據交互,通過Spark Streaming支持流式存儲,通過MLlib支持機器學習,通過GrphaX支持圖計算[3]。

在大數據基礎設施中,各種新技術不斷產生,數據湖(Data Lake)和霧計算(Fog Computing)分別從數據的集中與分布的不同角度給出了解決方案。數據湖是大型的基于對象的存儲庫,數據以其原始格式存儲。不需要對數據進行轉換,就可以進行全面的監控和分析,并建立數據模型。與一般意義的數據匯聚不同,數據湖不需要改變原始數據的結構,而是支持分析原始數據。這個方式消除了數據抽取、轉換和加載ETL的成本。為了達到不改變數據結構直接存儲和技術的目標,數據湖對元數據有很高的要求。目前,數據湖技術仍在起步階段,還存在原始數據差別大、類型復雜、分析應用困難等問題。但它有助于企業完成更長遠的數據規劃,建立數據治理結構,并預先解決安全問題[4]。數據湖與一般大數據匯集方式的對比,如表1所示。

與數據湖側重數據的聚集不同,霧計算則提出了一種分布式解決方案。霧計算這一名詞最早來自網絡安全領域,后來由思科(Cisco)公司借用,并賦予了分布式計算的含義。思科將霧解釋為“更貼近地面的云”,霧計算是云計算的延伸。與云計算不同,霧計算并非由性能強大的服務器組成,而是由性能較弱、更為分散的各類計算模塊和智能網絡設置組成,這些低延遲且有能力進行位置感知的模塊可以融入各類基礎設施,乃至生活用品[5]。

可以預見,隨著物聯網的不斷發展,來自各類終端的數據量會激增。面對這一情況,云計算的瓶頸可能會凸顯。在霧計算中,數據、分析和應用都集中在網絡的終端節點,只在需要的時候匯集到云中。云計算與霧計算的對比,如表2所示。

霧計算將計算能力延伸到了網絡的邊緣的各類智能設備。在這種模式下,智能設備的管理與交互就變得非常重要。比如,比特幣的底層技術“區塊鏈”(Block Chain)形成了行動登記、權屬確認和智能管理模式。這為通過網絡實現各種智能終端和設備實現自我管理和智能交互,提供了新的技術支持[6]。

數據湖和霧計算著眼于大數據的源頭和終端,從分布和集中兩個角度提供了解決方案。誠然,這些方案需要通過實踐進行檢驗。但總體而言,數據湖和霧計算代表著大數據分析基礎設施的發展趨勢,即采用更靈活的方式獲取和處理終端數據,合理分布計算負載,對核心數據進行廣泛匯集,通過定制標準實現數據治理。

(二)分析技術

分析技術是基于大數據進行模型構建,并進行評價、推薦和預測等具體應用的基礎。大數據分析技術在近年得到快速發展,智能化、實時化和易用性成為了分析技術的發展特征。

1.智能化

在分析技術方面,大數據與機器學習相結合形成的新型人工智能,已經成為近年最引人矚目的趨勢。大數據與機器學習正讓數據分析在統計分析的基礎上,更快速地實現智能關系發現和預測,如圖1所示。AlphaGo就是這一趨勢的典型應用范例。在海量數據的基礎上,以深度學習為代表的創新算法,通過大規模并行計算,不斷迭代演化,最終形成了能夠戰勝人類的數據智能。

  圖1 數據與算法迭代演化形成數據智能

大數據與機器學習整合所實現的人工智能,其意義不限于特定的領域應用,而是實現了一般性人工智能技術的突破。這一突破將在醫療、交通、金融和教育等為代表的各個應用領域產生重大影響。從更為廣闊的角度,以智慧城市為代表的智能化系統解決方案,預示著智能化大數據技術綜合應用的未來前景。由各類設備和傳感器獲得的數據,可以成為智能化分析的數據來源?;诖髷祿臋C器學習在完成海量數據匯集與分析的同時,不斷演化、提高自身智能水平。數據分析結果驅動智慧城市各個組成部分的智能化活動,基于數據智能的新型技術架構,為未來城市的智慧生活奠定了基礎。

2.實時化

實時分析是大數據技術的另一個發展方向。隨著大數據技術的深入發展,各類應用對于數據的實時分析和處理的要求不斷提高。與針對歷史數據的聚合和分析不同,實時數據分析具有更強的時效性,也對數據存儲、計算和呈現提出了更高要求。Hadoop中的批處理框架在對實效性要求較高的分析,例如,實時用戶行為分析、用戶分類和推薦等應用場景中的局限日益凸顯。Spark Streaming、Samza、Storm等流式實時計算框架應運而生。以Spark Streaming為代表的實時分析框架具有優秀的調度機制,快速的分布式計算能力,在數據的匯聚和批處理之間通過關鍵參數建立平衡,提升了數據吞吐量和性能,對實時計算提供了有效支持[7]。實時性預示著大數據將更深度地融入人們的工作和生活之中,在交通、翻譯等需要及時響應的領域中,大數據會體現出更強大的作用。

3.易用性

近年來,隨著技術的不斷成熟,大數據應用的門檻不斷降低。Google、微軟等巨頭不斷推出大數據技術平臺。我國互聯網三巨頭百度、阿里和騰訊分別推出了百度開放云、阿里數加和騰訊大數據平臺,在應用技術方面提供了全面的支持。從數據匯集、模型構建到可視化應用方面都提供了高質量的解決方案。并且,這些分析框架中存在很多優秀的開源項目,如,Caffe、Torch等[8]。Google為Tensor Flow的開源分析工具提供了一個重要選擇,Tensor Flow的開發者來自Google Brain團隊,它整合了Google在搜索引擎、電子郵件和翻譯、圖像識別等方面的分析成果。并且應用了數據圖技術(Data Flow Graphic)將模型構建過程和產品開發緊密結合,在完成建模實驗之后就可以直接將代碼應用到產品中。易用性為大數據在垂直領域的應用鋪平了道路。

(三)領域應用

在基礎框架和應用技術的支持之下,大數據在各個領域中的應用也在不斷快速地深入發展,展現出了領域應用深化與融合、可視化應用廣泛和產業生態鏈萌發的特征。

1.領域深化與融合

大數據在方法論層面上影響著多個領域的研究與實踐[9-11],作為新的研究范式影響著眾多學科。在各個領域應用中,大數據作為基礎方法與工具有著一定的普適性,也具有鮮明的領域特征與領域差異。數據不同于金融、交通、零售等領域有著較為明確的量化指標作為機器學習的依據。在教育等社會科學相關領域中,大數據分析模型建立過程中形成的類量化指標往往很難獲得。這就使得教育領域的模型構建具有了一定的獨特性。同時,教育教學自身的周期性和復雜性,也為模型構建提出了新的挑戰。

隨著大數據的發展,領域應用將逐步深入。在各個領域中需要借助領域知識,針對領域問題進行深層次研究與實踐。在此過程中,以數據為橋梁,各個領域的融合將成為可能。例如,始于氣象系統的DMSP/OLS夜間燈光數據,已經在遙感測繪、城市規劃、人口估計、國民經濟測算、能源消耗以及生態環境影響評估方面取得了令人矚目的成果[12]?;诖髷祿鱾€領域自身發生深刻變化的同時,領域之間的比較出現加速融合的趨勢。大數據技術在領域內的深入發展,和領域間的融合發展將日趨重要。

2.可視化應用

可視化是大數據應用的呈現層面,直接面向終端用戶,并通過各類應用場景服務各類人群。數據可視化可以通過多種方式實現,從較為底層的R語言Ggplot擴展包、D3函數庫,到SPSS Modeler、Tableau等數據分析和可視化工具。數據可視化的方法和工具種類繁多,近年來,可視化工具的應用門檻不斷降低。SAP、Tableau等重量級數據分析企業都推出了移動端數據可視化工具。以SAP的Roambi為例,只需要導入數據集,選擇模板,Roambi就能夠馬上完成精美的可視化圖表并支持互動[13]。Tableau不僅推出了Tableau Mobile支持移動端數據分析,還通過Tableau Public和Desktop等工具,構建了包含桌面分析、在線發布和移動應用的整體可視化方案[14]。

在各類工具支持下,數據可視化的應用門檻大大降低,為更加廣泛的應用奠定了基礎。數據可視化作為大數據技術的表現層,是數據分析與洞察的“最后一英里”。隨著這個環節的不斷優化與人性化,數據分析的廣泛應用指日可待。

3.生態鏈萌發

2015年8月,國務院發布的《促進大數據發展行動綱要》,將大數據定位于推動經濟轉型發展的新動力,重塑國家競爭優勢的新機遇以及提升政府治理能力的新途徑[15]?!洞龠M大數據發展行動綱要》成為了大數據產業發展的政策依據,必將對大數據產業發展起到催化作用。大數據產業的資金投入、基礎設施、數據標準、應用平臺、區域實踐必將呈現加速發展趨勢。同時,正如前文所述,大型互聯網企業如百度、阿里和騰訊等,已經在大數據領域發力,并開始構建基礎設施、制定標準、推廣應用,在各個應用領域的大數據實踐也在快速開展。

可見,在政策重點支持、工具平臺日漸成熟、領域應用不斷深入的合力之下,大數據產業鏈正逐步形成,生態體系正在孕育之中。生態鏈將催生一系列數據標準,形成多種整合型技術路線,打通原始數據到終端應用,將大數據應用推向新的層次。

二、教育大數據的含義

教育大數據的含義,需要從數據和技術兩個層面進行解析。在引用較多的大數據定義中,維基百科定義[16]和麥肯錫(McKinsey)定義[17]都強調了大數據的量,無法用常見數據工具處理;而高德納(Gartner)定義則著眼于數據的特性與價值[18]。為了解析教育大數據的真正意義,需要對教育大數據的構成和特性進行分析。

在教育大數據的構成方面,在線學習的數據首當其沖。可以說教育大數據的廣受關注,與在線教與學的盛行有著密不可分的關系。在舍恩伯格的《與大數據同行——學習和教育的未來》一書中,第一個大數據教育應用案例就來自在線學習。隨著在線教學的日益普及,在教與學過程中,由學習管理系統和各類移動設備所記錄下來的各類海量數據,成為分析教學過程的重要來源。這些數據包括記錄學習過程的行為數據,記錄學習結果的評價數據,以及學習形成的社會網絡關系數據等。由這些數據拓展開來,教育大數據還包含著各類學生個人信息數據、教學管理數據等。可見,教育大數據來自于教育教學的主體和過程。

依照不同層級的主體和教育教學活動的各項內容,教育大數據可以分為四個層次和六大類型。四個層次包括個體、學校、區域和國家;六大類型包括基礎數據、教學數據、科研數據、管理數據、服務數據和輿情數據。其中,基礎數據包括以人口學為代表的學習者基本信息數據;教學數據包括教學過程中涉及的過程、內容和結果數據;科研數據包括各類教育教學實驗與科研項目當中所獲得的數據;管理數據包括各類教育管理系統當中所記錄下來的數據,如,學生的學籍數據、檔案數據和各類統計數據等等;服務數據包括各類與教育教學相關的服務系統當中記錄的數據,如,各類師生生活服務、圖書檔案服務等等;輿情數據包括各類公開媒體中與教育相關的數據,如,各類教育新聞數據、微博等社會網絡系統中教育相關數據等。

從特征的角度看,大數據的特點往往被概括為4V,包括海量規模(Volume)、快速流轉(Velocity)、多樣構成(Variety)和巨大價值(Value)。教育大數據的特征與4V既有重合又有不同:首先,從規模上看,教育大數據的體量尚未達到零售業、電信業等領域的規模,但已經超出了傳統數據工具的處理能力。其次,從流動速度的角度,教育大數據流轉速度相對較慢,并不像交易數據、搜索數據或通訊數據具有快速流轉的特性。相應地,教育教學的周期性決定了教育大數據具有典型的周期性。進而從數據構成方面看,教育大數據中非結構化數據,特別是音視頻數據占很大比重。這些數據來自課堂錄像、教學資源等,不同于傳統數據庫記錄的數據,具有一定的分析復雜性。同時與電商等領域中步驟清晰、結果明確、周期較短的交易活動不同,教育教學活動具有更高的過程復雜性。通過教育大數據分析發現規律也就更為困難??梢娊逃髷祿奶卣骺梢愿爬閺娭芷谛浴⒏邚碗s性和巨大價值。

綜上所述,我們可以把教育大數據定義為:服務教育主體和教育過程,具有強周期性和巨大教育價值的高復雜性數據集合,具體如圖2所示。

  圖2 教育大數據的構成

三、教育大數據的應用

對于教育大數據的應用,研究者從不同的角度提出了各自的思考。祝智庭教授從研究范式的角度,提出了大數據對教育技術研究方法的啟示,并著重強調了數據支持下的自適應學習。鄭燕林和柳海民認為,教育大數據的應用主要是對教育評價和教育教學決策的支持[19]。胡弼成和王祖霖將大數據應用總結為通過評價和預測促進教學有效性,基于變化的教育形式和復雜關系推動教育決策的科學性,完整、全面、動態的質量監控體系[20]。楊現民等研究者認為,教育大數據應用可以分為政策科學化、區域教育均衡、學校教育質量提升、課程體系與教學效果最優化、個體的個性化發展等層面[21]。

大數據對教育領域的沖擊是全面性的。它能夠改變個體學習者的學習狀況、對教育規律的認識深度、教育政策的制定方式,乃至整個教育系統的結構。從需求的角度,教育大數據的應用可以概括為五個層次,即學習、教學、研究、管理與政策。學習層與教學層需求著眼于適應性學習;研究層需求著眼于發現教育教學規律;管理層需求著眼于精細管理和科學決策;政策層需求來自獲得機制設計依據,如圖3所示。

  圖3 教育大數據的應用

針對不同層次的需求,教育大數據應用形成了各種產品和服務。從適應性教學到動態跟蹤測評,從管理模型構建到數據共享門戶,各種類型的應用勾勒出了大數據影響教育領域的整體圖景。

我們不妨通過國際范圍內典型的技術、產品和服務,從適應性教學、教育規律發現和精準管理支持三個方面,對有較大影響的教育大數據國際應用進行分析,以期對我國教育大數據發展應用提供借鑒。

(一)適應性教學支持

適應性教與學是教學的最優化狀態。適應性教學中的內容、方法和過程都可以根據學習者的狀況來進行定制,讓每個學習者都有可能獲得適合自己的最大程度的發展。適應性教學的實現,需要基于學習者的個體特征和學習狀況的全面分析。大數據為追蹤和整合這些數據,并對學生進行個性化支持提供了可能,如圖4所示。

  圖4 適應性教學的構成

最為常見的適應性教學系統來自在線學習領域。在各種學習管理系統和在線學習平臺中,學習者的學習過程能夠得到完整記錄。學習過程的記錄結合人口學和學習風格等學習者特征數據,可以清晰地表征學習者的學習路徑和學習者特征,在有效記錄學習過程、綜合評價學習狀況的基礎上,進行診斷和推薦,開展有針對性的教學。

適應性學習支持幾乎已經成了在線學習的“標配”,在每一個商業在線學習平臺中,都有不同程度的適應性。內容推薦是適應性的一種主要形式。然而,真正有效的適應性教學系統需要整合三個系統,即知識系統、行為系統和特征系統。通過知識系統來描繪知識體系;通過行為系統來記錄學習、練習和反饋過程;通過特征系統去分析學生的個體特征和學習特質。

當前,最具代表意義的適應性學習系統當屬Knewton和可汗學院(Kehan Academy)。此類適應性學習系統重點支持了學生的學。學習系統試圖扮演教師的角色,對學生的學習進行自動化記錄、診斷和干預。適應性學習的另一個層面是對教師教的支持。應當看到,目前的學習系統還存在諸多局限,在MOOCs發展的初期,教師是否會被在線課堂所替代曾經成為一個引人矚目的話題。然而,教師作為教育過程中的關鍵角色,不可能在短時間消失,而是會借助技術實現專業水平提升和角色轉變。大數據將成為教師教學的強大助手,幫助教師更好地發揮自身作用,更好地促進學生的學習。

在大數據技術支持下,教師可以根據自身的需求對學生的學習進行監測,并通過自己設定的標準,對學生進行自動化或半自動化的評價。在數據的支持下,教師可以結合自身的教學經驗對學生進行診斷和干預。在教師的訓練下,大數據工具將對教師的教提供更有力的支持。大數據工具將成為教師最好的幫手,而不是競爭者。

以Masteryconnect為例,Masteryconnect對教師的教提供了全面的數據化支持,它從教師的日常工作出發,提供了數據采集、分析、呈現和基于數據的協作支持。教師可以在其支持下采集各種教學數據,包括課堂觀察數據、答題卡數據、量表數據和在線測試數據。在采集數據之后,Masteryconnect可以進行自動化分析和可視化呈現。分析的結果可以通過該系統分享給其他教師,教師可以在數據的基礎上進行交流和協作。Masteryconnect為各種形成性評價提供了全面的支持,教師可以自行建立教學內容的結構,并為各個模塊和知識點設計問卷、練習、試卷等各種測評方式。測評可以發布到PC和移動設備,學生可以選擇自己喜歡的方式完成測評。同時,測評結果可以形成定制報告,并發送給家長[22]。

對教與學的支持是大數據在適應性學習中應用的兩個側面。基于數據,學生的學習狀態得以完整記錄,學習系統可以推送定制化內容,教師可以開展更具針對性的教學。可見,數據正在改變著線上和線下的教學過程。

(二)教育規律發現

教育研究是一項復雜的系統性研究。長期以來,小樣本量、個案研究對教育規律探索起到了重要作用。而教育大數據的引入,大大拓展了教育規律探索的視角。圖靈獎得主吉姆·格雷在《第四范式:數據密集型科學發現》一書中,提出了一種新型研究范式,即數據密集型研究,這將成為大數據時代教育研究的利器之一。

換言之,在大數據的驅動下,教育研究將出現不同的態勢,通過挖掘、分析教育大數據,研究者可以量化學習過程,表征學習狀態,發現影響因素,找到干預策略,從更深的層次揭示教育規律。誠然,規律發現并非易事。但可以肯定的是,在多來源、大體量數據的基礎上,通過技術手段進行數據匯集和共享,組織研究者進行群體協作,開展大量能夠進行標準化,具有對比意義的研究,最終更易發現真實的教育規律,如圖5所示。

 

這里可以通過對美國的三個大數據教育應用的案例,即“預測分析報告項目(Predictive Analytics Reporting,PAR)、數據商店(Data Shop)和Data.gov”的介紹與分析,充分了解大數據標準化研究和數據門戶對教育規律探索的意義。

美國的預測分析報告項目(PAR)對高校學生的學習狀況進行了全面分析,在學生輟學等重要風險的預測方面進行了探索。從2011年開始,該項目與美國的高校合作,建立了標準化數據收集框架,通過對學生學習數據的收集和分析,發現影響因子并構建預測模型。該項目分析的原始數據包括學生人口學數據、教學管理數據、學習過程數據、成績數據和學生財務信息數據等。通過分析,該項目建立了通用分析標準和風險預測模型,并為各個學校提供了定制化風險因素模型。迄今,PAR已經服務351家院校,分析了超過2000萬條課程數據。PAR也為學校分析學生學業表現提供了綜合視角,為防止學生輟學提供了有效手段[23]。

教育大數據研究需要大量匯集數據,數據匯集需要大量研究者的群策群力,也需要行之有效的組織機制。匹茲堡大學學習科學中心(Pittsburgh Science of Learning Center)的數據商店(Data Shop),是美國自然科學基金支持建立的學習科學數據庫。經過十多年的建設,已經成為全球最大的學習數據分享社區[24]。數據商店具有數據存儲和數據分析兩大類功能:一方面,它為全球學習科學研究者提供安全的數據存儲與共享工具;另一方面,它提供了數據分析工具和調用接口,便于分析應用。數據商店中的數據,分為公開數據和私有數據,研究者可以根據需要選擇自己的數據是否要公開。數據商店中的數據,包括教學軟件應用數據、在線課程數據、智能教學系統(Intelligent Tutoring Systems)、虛擬實驗室數據、協作學習系統數據等。在數據匯集和分享功能的基礎上,數據商店提供了豐富的數據分析功能,支持探索性統計分析和數據挖掘,提供Web Service支持遠程調用,以及R語言、Excel等工具的接口。

美國教育部在教育研究與實踐數據匯集方面開展了大量工作,匯集了大量數據。截至2016年5月,在其數據門戶Data.gov中,匯聚的數據包含了325個大型數據集。數據包含范圍很廣,涉及人口統計、學習成績、貸款情況、校園安全等情況。Data.gov針對各類數據提供了多種數據格式,同時,提供了在線數據分析功能,它可以實現靈活便捷的在線數據可視化。同時,Data.gov還為每個數據集提供了API,便于外部調用與分析。

由此可見,大數據分析對于教育研究及規律的發現意義重大。上述三個案例——預測分析報告項目、數據商店和Data.gov,對于我們利用大數據研究教育現象、發現與探索教育規律,有著重要的借鑒意義。因為規律的發現,需要針對特定研究主題進行長期研究,需要大量標準化數據支持,需要對基于數據的研究與協作作廣泛支持。對于重要的教育研究主題,設定數據標準,進行長期縱向跟蹤和廣泛橫向比較研究,是探索教育規律的有效途徑。同時,還需要建立更加通暢的數據分享渠道,通過開放,最大化實現數據的應用價值,以便為研究提供更加廣泛的支持。

(三)精準管理支持

在學校和教育機構中,管理者時常面對無法及時掌握教學與管理綜合狀況的困境。這也導致了教育管理常常是粗放的、由直覺驅動的現狀。數據對于學校和教育機構的精準管理和科學決策,可以起到重要的支持、調節作用?;跀祿墓芾恚枰ㄟ^匯集各類管理與教學數據,構建多維模型。以Learnsprout、Calarity、Altschool等為代表的數據化管理應用,體現了數據建模對于精準管理的重要支撐作用,如圖6所示。

  圖6 數據支持下管理模型構建

Learnsprout能夠整合學生信息系統和學習管理系統的數據,對學生日常表現進行監測,通過構建模型對學生綜合狀況進行分析,并對管理和教學提出建議。例如,Learnsprout能夠對高中學生進入大學的準備情況等進行評價,對存在問題的學生進行早期預警,提出教學干預建議,并評估干預效果。Learnsprout不僅提供了自動化分析,還建立了有教育專家和數據專家構成的團隊對數據進行深入挖掘,并形成分析報告。Learnsprout已經在美國42個州、200多個學區的2500多所學校中得以廣泛應用。該公司于2016年1月被蘋果公司收購,這也從一個側面說明了市場對其應用效果的認可。

Calarity是通過構建模型提供管理支持的另一個典型案例。Calarity旨在評估學校應用信息化技術促進教學的狀況,并提出改進建議。它針對學校師生的技術應用情況,采集了280個數據點,建立82個變量,形成21個指標,進而聚合成了4個維度,分別為課堂學習、技術應用、信息化技能和信息化環境[25]。在模型化數據分析的基礎上,Calarity對存在的問題進行了分析和診斷,并提出了解決方案建議。

Altschool是學校層次上進行整體性數據采集、分析與應用的代表。這所由前谷歌工程師Max Ventilla創辦的學校,將教育教學和工程化思維密切結合,將提供個性化的教育作為辦學宗旨。在教育教學過程中采用全方位數據采集和分析,成為了這所學校提供適應性教與學的重要依據和支撐。Altschool構建了獨特的信息化基礎設施進行數據采集,它為教室設計的Alt Video系統,通過各種傳感器、攝像頭和麥克風采集學生行為數據,這些數據每天都將被分析,用來改進教學過程和教學系統。Altschool還開發了Stream等教學系統和移動應用,在支持教學過程的同時,其基于數據開展教學研究,并通過研究結果支持教學和管理。不同于傳統教育研究,Altschool的研究周期非常短,教學設計更新以周為單位,教學管理調整速度極快??焖俚墓こ袒季S、系統化信息技術環境支持、完整的數據采集與分析,構成了Altschool在精準教學管理方面的整體解決方案。

可見,通過系統化數據采集,采用科學方法建立的數據模型,可以幫助教育管理者對學校和機構的管理狀況進行持續動態監控和綜合性評價。在數據支持下,管理者能夠更容易地發現管理和教學問題,設計可能的解決方案,并追蹤問題解決的成效。

四、教育大數據所面臨的挑戰

教育大數據領域方興未艾,既具有巨大的發展潛力,又面臨著諸多的挑戰。我們認為,這些挑戰包括數據標準、數據采集、模型構建、產品服務和開放共享和隱私保護等方面,具體如圖7所示。

  圖7 教育大數據應用所面對的挑戰

(一)數據標準有待完善

大數據分析需要多來源、多類型數據的匯集,數據匯集需要建立統一標準與規范。教育部于2012年發布了《教育管理信息教育管理基礎代碼》等七個教育信息化行業標準,對教育管理、行政管理、教育統計、中小學、中職學校和高等學校管理的信息進行了規范。這一規范,雖然對統一教育管理信息有著重要意義。然而,教學環境、教學過程相關數據標準尚存大量空白。同時,近年來在線教育蓬勃發展,其數據標準也尚未建立。上述標準的缺失,成為了教育大數據有效應用的瓶頸。

(二)數據采集覆蓋面窄

“十二五”期間,我國教育管理公共服務平臺基本建成,教育管理數據的收集具備了較好的條件。但其他教育教學數據,特別是教學過程數據的采集,尚存在較大不足。現有在線學習平臺在設計上,往往并未考慮數據分析的需要,對教與學過程的記錄不夠完整,對數據的分析應用造成了困難。近年來,各高校和部分中小學開始進行智慧校園建設,傳感器、Wifi網絡、移動設備等技術手段,為更全面的數據采集提供了一些條件。但在現有智慧校園建設中,對數據應用尚缺乏整體設計,對數據采集的支持還遠遠不夠。

(三)模型構建專業性不足

數據模型是對教學與管理進行有效監測、評價、診斷和預測的核心支持。從教學的適應性到管理決策支持,都需要通過科學的模型來支撐。但在現階段模型構建過程中,教育大數據模型構建的專業化水平明顯不足。一方面,教育研究成果沒有得到很好地應用,教育領域專家知識應用明顯不足;另一方面,前沿數據分析方法與技術的應用不足,未能有效借助通用大數據技術的力量。

(四)產品服務單一

在我國教育領域中,以網龍、科大訊飛、猿題庫、優答、一起作業、學堂在線為代表的企業,都開始對教育數據的分析與應用展開探索。但總體而言,目前,我國教育大數據相關應用主要聚焦于適應性教學,題庫類產品居多,缺乏管理類的應用,對于教學決策的支持不足。同時,教育數據分析應用在功能上較為單一,所采用的分析方法也有一定局限,統計分析仍占有很大的比重,缺乏高水平產品與服務。

(五)開放共享尚未形成

教育大數據的重要價值,首先來自于其數據的大規模和全面性,規模的形成需要廣泛的數據共享與開放。當前,行之有效的數據共享開放和應用規則尚未建立,所以,還需要建立有效的資源共享機制,通過多種途徑匯聚教學,研究和管理數據,擴大數據的規模,才能形成教育大數據的獨特優勢。

(六)隱私保護有待完善

教育大數據涉及龐大規模的受教育者與教育者群體。對于這些人群,特別是對于大量的未成年學生而言,隱私保護至關重要。所以,應當從法律上明確、規范公開數據與私有數據的邊界,有效的保護隱私數據。在來源清晰、責權明確、應用有序的前提下,才能有效地開展教育大數據研究與應用。

我國教育大數據領域正處于起步階段。教育大數據研究與應用具有鮮明的特點,其發展需要將大數據技術與教育領域進行深度融合。在“互聯網+”時代,為了更好地應對教育大數據所面臨的一系列挑戰,我們認為,目前迫切需要在體制與機制上,多方協同,各盡其力,以形成一種合力,如圖8所示。

  圖8 教育大數據發展需要多方合力

具體來說,教育主管部門需要推動教育大數據方面的相關法律、法規的制定,劃定邊界,明晰責權,建立更加全面的教育數據標準,為國家層面的大規模數據共享和分析奠定基礎。以學校為代表的教育機構,需要提升數據驅動教學與管理的意識,構建綜合數據采集環境,并建立數據管理與應用機制。一些研究機構需要將教育科學與數據科學緊密結合,開展多學科協同研究,并注重研究成果的轉化。公司、企業則需要從教學與管理的整體流程出發,設計與開發多元化產品,并根據教育需求提供靈活可擴展的定制化服務,從而共同促進教育大數據的健康發展,更好地服務于教育事業。

參考文獻:

[1]Turck M.Is Big Data Still a Thing?(The 2016 Big Data Landscape)[EB/OL].[2016-02-01].http://mattturck.com/2016/02/01/big-data-landscape/.

[2]程學旗,靳小龍,王元卓,等.大數據系統和分析技術綜述[J].軟件學報,2014,(9):1889-1908.

[3]與Hadoop對比,如何看待Spark技術?[EB/OL].[2016-04-06].https://www.zhihu.com/question/26568496.

[4]O'Brien J.Critical Factors for Data Lake Success[EB/OL].[2015-09-01].

http://www.teradatamagazine.com/v15n03/Tech2Tech/Critical-Factors-for-Data-Lake-Success/.

[5]Cisco.Fog Computing and the Internet of Things:Extend the Cloud to Where the Things Are[EB/OL].[2015-04-15].

http://www.cisco.com/c/dam/en_us/solutions/trends/iot/docs/computing-overview.pdf.

[6]Norton S.CIO Explainer:What Is Blockchain? The Wall Street Journal[EB/OL].[2016-02-02].

http://blogs.wsj.com/cio/2016/02/02/cio-explainer-what-is-hlockchain/.

[7]周明耀.Spark Streaming指南[EB/OL].[2015-08-03].http://www.ibm.com/developerworks/cn/opensource/os-cn-spark-streaming/index.html.

[8]Li F.Convolutional Neural Networks for Visual Recognition[EB/OL].[2016-01-20].http://cs23 ln.stanford.edu.

[9]劉紅,胡新和.數據革命:從數到大數據的歷史考察[J].自然辯證法通訊,2013,(6):33-39,125-126.

[10]祝智庭,沈德梅.基于大數據的教育技術研究新范式[J].電化教育研究,2013,(10):5-13.

[11]喻豐,彭凱平,鄭先雋.大數據背景下的心理學:中國心理學的學科體系重構及特征[J].科學通報,2015,(5/6):520-533.

[12]范長煜,朱艷婷,高雅靜.大數據在社會科學中的價值:以DMSP/OLS夜間燈光數據為例[J].華東理工大學學報:社會科學版,2016,31(1):1-9.

[13]SAP.Roambi Analytic Understand Your Numbers[EB/OL].[2016-06-29].https://roambi.com/.

[14]Tableau.5 Steps to Self-Service Analytics that Scales[EB/OL].[2016-06-29].http://www.tableau.com/.

[15]國務院.國務院關于印發促進大數據發展行動綱要的通知[EB/OL].[2015-09-05].http://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm.

[16]Big Data-Wikipedia[EB/OL].[2016-06-29].https://en.wikipedia.org/wiki/Big_data.

[17]McKinsey Global Institute.Big Data:The Next Frontier for Innovation,Competition,and Productivity[EB/OL].[2016-06-15].

http://www.mckinsey.com/business-functions/business-technology/our-insights/big-data-the-next-frontier-for-innovation.

[18]Gartner.Big Data[EB/OL].[2016-06-29].http://www.gart ner.com/it-glossarybig-data/.

[19]鄭燕林,柳海民.大數據在美國教育評價中的應用路徑分析[J].中國電化教育,2015,(7):25-31.

[20]胡弼成,王祖霖.“大數據”對教育的作用、挑戰及教育變革趨勢——大數據時代教育變革的最新研究進展綜述[J].現代大學教育,2015,(4):98-104.

[21]楊現民,王榴卉,唐斯斯.教育大數據的應用模式與政策建議[J].電化教育研究.2015,(9):54-61,69.

[22]Edshelf.Masteryconnect Review[EB/OL].[2016-06-29].https://edshelf.com/tool/masteryconnect/.

[23]PAR.Predictive Analytics Reporting Framework[EB/OL].[2016-06-29].https://public.datacookbook.com/public/institutions/par.

[24]Kiesinger.Baker R.,Cunningham K.,et al.A Data Repository for the Leaming Science Community:The PSLC DataShop[J].Handbook of Educational Data Mining,2010.

n

關鍵字:教育均衡教育決策

本文摘自:《遠程教育雜志》

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 郯城县| 融水| 酉阳| 章丘市| 汾阳市| 会泽县| 庆安县| 麻江县| 屏东市| 布尔津县| 大关县| 湘潭市| 内丘县| 双桥区| 广宁县| 安平县| 武平县| 庆城县| 依安县| 沙洋县| 聂荣县| 乐亭县| 益阳市| 湘潭市| 株洲县| 博罗县| 桂阳县| 潜山县| 原平市| 台北县| 福贡县| 景德镇市| 进贤县| 青河县| 乐陵市| 个旧市| 大关县| 伊宁市| 苗栗市| 深州市| 望城县|