教育大數據不僅僅是大數據在教育領域應用,而且通過教育領域反向驅動大數據技術分化為獨立的分支,從而帶來了對傳統教育技術領域長期研究問題解決的新途徑,甚至可以跨越傳統個性化學習的精確邏輯推理過程而直接分析全樣本學習者特征。這樣來促進教育管理科學化變革、促進教學模式改革、促進個性化教育變革、促進教育評價體系改革、促進科學研究變革等。這些主要依托于教育大數據的兩項關鍵技術:教育數據挖掘和學習分析。但是我國的教育大數據研究與應用尚處于起步階段,缺乏前期的規范化和系統化頂層設計,面臨許多層次的挑戰,如應用挑戰、安全與隱私問題、運營挑戰等,因此,特別需要從教育大數據整體進行規劃和由上至下的系統綜合研究。
引言
移動互聯網技術相比較PC時代的互聯網有著本質的區別,伴隨著數據時代帶動的非線性大數據增長過程,社會生活和城市建設過程中的教育系統也在高速發展過程中,這完全不同于過去的二十年間的信息技術對教育教學的改變進程。聯合國在2012 年發布的大數據白皮書《Big Data for Development:Challenges&Opportunities》中指出大數據的出現將會對社會各個領域產生深刻影響。無論國內外都開始了對大數據的研究,起步略有早晚之分,但從政策到區域再到機構的發展方式是共識。《國民經濟和社會發展第十二個五年規劃綱要》中提出:“重點研究……海量信息處理及知識挖掘的理論與方法……”。美國教育部于2012年10月發布的《通過教育數據挖掘和學習分析促進教與學》中指出通過對教育大數據的挖掘與分析,促進美國高等院校及K-12學校教學系統的變革。2015年8月31日國務院發布的《促進大數據發展行動綱要》中指出“數據已成為國家基礎性戰略資源”,并在啟動的十大工程之一“公共服務大數據工程”中明確提出要建設教育大數據。目前,教育大數據的重要性已經提升到國家戰略層面,教育大數據中心建設和區域數據共建共享應用成為主要的建設模式,對個體學習全過程數據分析和精準數據評測學習成為主要的應用場景,從而通過宏觀和微觀的兩方面建設,帶動教育領域的廣泛關注和重視。
相關概念
大數據的3V定義基本是從大數據的特征出發,即:規模性(Volume)、多樣性(Variety)和高速性(Velocity).目前比較認可是4V定義,如國際數據公司(IDC)認為,大數據是符合4V特征的數據集,即在3V基礎上增加價值性(Value)。而IBM認為大數據必然具有真實性(Veracity)。維基百科對大數據的定義是:“巨量資料(Big Data),或稱大數據、海量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊”。
另一方面,教育大數據的定義最早從產生教育大數據的主體出發,將教育大數據分為廣義的和狹義的兩類:廣義的教育大數據泛指所有來源于日常教育活動中人類的行為數據;狹義的教育大數據是指學習者行為數據。也有研究指出教育大數據指整個教育活動過程中所產生的以及根據教育需要采集到的,一切用于教育發展并可創造巨大潛在價值的數據集合。
基于以上研究,可以認為教育大數據的定義包含三層含義:第一個含義,教育大數據是教育領域的大數據,是面向特定教育主題的多類型、多維度、多形態的數據集合;第二個含義,教育大數據是面向教育全過程的數據,通過數據挖掘和學習分析支持教育決策和個性化學習;第三個含義,教育大數據是一種分布式計算架構方式,通過數據共享的各種支持技術達到共建共享的思想。也就是說,我們把教育大數據定義為:面向教育全過程時空的多種類型的全樣本的數據集合。教育大數據不僅僅是建設教育大數據中心,不僅僅是分析全過程學習數據,更多的是一種共享的生態思想。
與用傳統方法收集的教育數據相比,教育大數據有更強的實時性、連續性、綜合性和自然性,并使用不同的應用程序來分析和處理不同復雜度和深度的數據。傳統教育數據收集的大多是階段性的數據,而且大多在用戶知情的情況下收集,使用的分析方法也通常是簡單的統計分析方法。教育大數據收集的是整個教育教學過程中靜態和動態的所有數據,可以在不影響教師和學生活動的情況下,連續記錄整個教學活動的所有數據,如教學資料、互動反映和學生在每個知識點上停留的時間等。
教育大數據的業務分析
教育大數據是一種新的架構和思維基礎,可以弱化分析模型直接進入研究目標進行分析,還可以通過數據聚集對“小現象”進行規律研究,還可以對個體進行多維度數據融合研究,再可以對目標對象進行時間序列和空間維度動態分析。面對具體教育業務,教育大數據技術對教育的管理、教學、學習、科研和評價等都產生了很大的影響。教育大數據的業務分析如圖1所示.
圖1 教育大數據的業務分析
1.教育大數據對教育管理的支持
傳統的教育決策制定形式常被形象的稱為“拍腦袋”決策,是指決策者常常不顧實際情況,以自己有限的理解、假想、推測依據直覺、沖動或趨勢來制定政策。這種來自決策者“頭腦發熱”決策,經常處于朝令夕改的尷尬境地,教育大數據正可以幫助解決這種不足。
大數據時代,教育者將更加依賴于數據和分析,而不是直覺和經驗;同樣,教育大數據還將改變領導力和管理的本質。服務管理、數據科學管理將取代傳統的行政管理、經驗管理。技術不斷發展,教育數據挖掘與分析不斷深入,不僅要著眼于已有的確定關系,更要探尋隱藏的因果關系。利用大數據技術可以深度挖掘教育數據中的隱藏信息,可以暴露教育過程中存在的問題,提供決策來優化教育管理。大數據不僅可以運行和維護各教育機構的人事信息、教育經費、辦學條件和服務管理的數據,而且可以長期積累所有類型教育機構的數據,利用統計分析、應用模型等技術將數據轉換為知識,最終為教育者和學習者提供科學的決策。
2.教育大數據對教學模式的支持
教育大數據推進實現智慧學習。教師在智慧教學環境下,利用大數據技術可以更深入的了解每一個學習者的學習狀況,并且與學習者的溝通更加通暢,教師的整個教學過程和學習者的學習過程更加精準化和智能化。教師對教學過程的掌握從依靠經驗轉向以教育數據分析為支撐,學生對于自己學習狀況的了解從模糊發展到心中有數,可以更好的認識自我、發展自我、規劃自我。大數據技術可以幫助教師及時調整教學計劃和教學方法,有利于教師自身能力提高和職業發展。
3.教育大數據對個性化學習的支持
除了學生學習的行為可以被記錄下來外,學生在學習資源上的數據也可以被精確記錄下來,如點擊資源的時間、停留多久、問題回答正確率、重復次數、參考閱讀、回訪率和其他資源信息,通過大數據可以定制個人學習報告,分析學習過程潛在的學習規律,還可以找到學生的學習特點、興趣愛好和行為傾向,并一目了然教育狀態信息。大數據技術使教育圍繞學習者展開,使傳統的集體教育方式轉向為個性學習方式。同時還伴隨著教育者和學習者思維方式的改變,進一步朝著個性化學習的方向邁出重要的一大步,使得精準的個性化學習成為可能。
4.教育大數據對教育評價的支持
教育評價正在從“經驗主義”走向“數據主義”,從“宏觀群體”評價走向“微觀個體”評價,從“單一評價”走向“綜合評價”。教育大數據下教育評價的變化,不僅表現在評價思想,還包括評價方法,不僅包括對學生的評價,還包括對教學管理、評估質量等具體水平的評價。教學評估不再僅僅是由考試成績和紀律幫助教師評價的主觀傳統意義上的感受,而由大量的數據感知得到,為實現教學評價的公正提供了依據,優化了教學方向。教育評價可以是多元化的,而不是僅停留在知識掌握程度這一單一維度。
5.教育大數據對科學研究的支持
教育大數據使得從追求單向因果性轉向追求復雜的多元相關性,并用直觀的圖形等表達方式體、系統、清晰、簡潔地展現。這種新理念、新思維的創生,是實現教育創新和發展不可缺少的手段、工具和方法論。教育大數據時代,科學研究將從隨機抽樣、探討因果關系走向全部數據、尋找相關關系。大數據技術減少了研究資金的浪費,在某些問題上,數據分析為研究人員提供了個性化的服務,可以提高了研究的效率和成果的可靠性。大數據依賴于自動、連續的記錄和搜集的數據比傳統調查數據更加客觀和中立。大數據還將改變傳統學術研究的過程,信息系統依賴于自動同步,連續獲得持續的行為數據,這意味著學術研究和信息技術、課題研究與實踐聯系在一起。
教育大數據轉換層次模型
教育大數據具有轉換層次的四個過程特征:數據、信息、知識、智慧。教育大數據技術采集的海量教育元數據,經過抽取、轉換、加載,聯機分析處理和統計分析等過程,轉換為教育信息,又經過數據可視化將教育數據呈現出來,最后形成教育決策來指導教育者和學習的教學,這個過程數據完成了從數據到信息、知識和智慧的演變。教育大數據轉換層次模型如圖2所示。
圖2 教育大數據轉換層次模型
目前在教育大數據領域中有很多研究領域,比較主要的是數據挖掘和學習分析。兩者既有相同之處,又存在一定差異。
1.教育大數據和數據挖掘
數據挖掘就是從大量的、有噪聲的、不完全的、模糊的、隨機的實際應用數據中提取有效的、新穎的、潛在有用的知識的非平凡過程。目前認可度較高的一種處理模型是Fayyad等人設計的多處理階段模型,在此不再贅述。在大數據時代處理數據理念上有三大轉變:抽樣到全體、絕對精確到效率、因果到相關[10]。大數據時代的數據挖掘繼承于傳統數據挖掘又不同于傳統數據挖掘。首先是分析對象不同,傳統數據分析的對象是在已知的數據范圍中易處理的數據,而基于大數據的數據挖掘對象時包括非結構化數據的全部數據,不能保證原始數據是完整的、清洗過和沒有錯誤的。其次是分析基礎,傳統分析是建立在關系數據模型之上的,是在系統內就創立的主題之間的關系基礎上進行的,而在大數據分析中,絕大部分分析基于縱裂數據庫之外。再其次是分析效率,傳統數據處理過程中需要等待抽取、轉換、加載等工作完成。而大數據分析是對數據進行實時分析。最后是硬件差別,在傳統數據處理中所使用硬件比較昂貴。而大數據處理過程加入了對分析軟件的使用,所以硬件成本較低。
近幾年出現了許多有關教育數據挖掘(EDM)的文獻。研究者對EDM研究的主題范圍集中在使用數據挖掘提高機構效率和促進學生的學習過程。但是教育數據挖掘領域內還存在更廣泛的話題,例如,在課程管理系統內(CMS)學生的退出和保留、個性化推薦系統、以及學生學習評價。
教育數據挖掘可以向教育者、學習者、教育管理者、家長及教育研究者提供決策幫助,最終提高學習者的學習水平。基于教育大數據的數據挖掘過程即將學習結果、學習內容、學習資源與教學行為等教育原始數據使用多種技術,如聚類、關系挖掘和模型構建等,最終達到預測學習者發展趨勢、促進有效學習的目標。具體過程如圖3所示。
圖3 基于教育大數據的數據挖掘過程
教育大數據公認的特征之一是規模性,面對海量數據,可以采取分布式文件的系統進行并行運算。對于半結構化或非結構化的數據,可以采用自然語言理解和信息抽取等方式將其轉化為結構化數據。對于雜質較多的數據,可以在數據挖掘時進行數據清洗。對于實時產生的數據可以使用自動獲取效率優先的方式來采集數據。
2.教育大數據和學習分析
新媒體聯盟(New Media Consortium)將學習分析定義為:利用松散耦合的數據收集工具和分析技術,研究分析學習者學習參與、學習表現和學習過程的相關數據,進而對課程、教學和評價進行實時修正。總之,學習分析運用多種方法采集、存儲和分析學習者數據,如移動終端的數據和現場智能數據等,再使用多種技術來分析處理這些數據,最終應用于教育者和學習者,產生評估、預測和干預。基于教育大數據的學習分析過程如圖4所示。
教育大數據學習的具體應用體現在評估、預測和干預。評估是指基本統計分析及其可視化、發現問題學生、學生社交網絡分析與應用,預測是指學生分類、學生模型的構建、預測學生成績,干預是指對教師的教學方法提供改進意見。教育大數據在學習分析中還有其他應用,如表1所示。除此之外,大數據在學習分析中的應用還包括學生分組與協作、社交網絡分析、開發概念圖、課件制作、規劃和調度等。
教育大數據的進一步挑戰
1.教育大數據的技術挑戰
教育大數據在實際應用存在很多技術瓶頸,如:在數據的采集時數據挖掘和學習分析的重要環節,在這一環節有很多技術挑戰;面對海量教育數據,數據的存儲、處理和分析都存在技術考驗;另外由于目前沒有統一的數據規范,不同系統之間的兼容也是一大問題。從全局考慮,我國的教育大數據系統應遵循頂層設計原則,由教育部對數據格式、數據存儲等問題制定統一規范,下級企業、學校按照統一規范去設計自己的系統,這帶來了新的技術挑戰。
2.教育大數據的安全與隱私挑戰
在倫理道德方面,教育大數據面臨著數據安全與保護隱私的挑戰。教育大數據不僅是一種寶貴的教育收益,而且有關學習者和教育工作者的隱私權,其潛在的安全和隱私甚至是無法用常用辦法評估出來,甚至無法通過獨立的方法進行評估。如果教育大數據處理不當將導致嚴重的安全漏洞,甚至是影響區域教育政策的制定。教育數據所有權究竟屬于學習者還是運行平臺或是雙方共享,這是互聯網教育和教育大數據發展所面臨的必然問題。如何保證所有權歸屬、如何判定所有權歸屬,這些仍是需要深慮的問題。
3.教育大數據的價值挑戰
教育大數據技術挖掘出教育數據的巨大價值,但是數據的權屬問題不是傳統的財產、知識產權等可以涵蓋的,數據成為國家間爭奪的資源,人口紅利、地大物博、經濟實力、文化優勢等都體現為數據資源儲備和數據服務影響力。教育大數據是一種無形資產,國家應當保障教育大數據不外泄并不被惡意使用,而且還要兼顧部分數據向公眾開放,發揮其應用的社會價值,做到適當的綜合評估來進行價值平衡,這也是前所未有的一種挑戰。
(作者:杜婧敏、方海光等,首都師范大學)