大數據之于傳統(tǒng)數據有何不同之處？

責任編輯：editor004 |來源：企業(yè)網D1Net 2014-05-06 10:42:02 本文摘自：睿商在線

一直以來，SPN睿商在線的資深編輯們希望與讀者們分享多年來他們在大數據領域學習、采訪、總結、歸納的一些要點。但由于大數據還處于前期發(fā)展期，因此不可能像一些成熟的硬件產品線那樣，給大家相對成熟的理論。除了大數據的4個V之外，SPN睿商在線期望通過更多的大數據行業(yè)實踐，與讀者較為直觀地分享什么是大數據？大數據落地會有哪些具體方向？技術實現(xiàn)如何搭建？同時期望能夠得到讀者們的真知灼見和意見建議。
本期大數據生態(tài)，我們針對大數據帶給教育的機遇與挑戰(zhàn)，與讀者深入探討和分享大數據與傳統(tǒng)數據的區(qū)別，及其行業(yè)落地的進展情況。

一、大數據與傳統(tǒng)數據的區(qū)別

與所有新鮮事物一樣，大數據是一個尚未被明確定義的概念。它如此年輕，以至于最時髦的大學還沒來得及趕上開設這門專業(yè)，最時髦的專家也還未能讓自己的理論一統(tǒng)江湖。所有對它進行研究的人都還在感悟，大數據究竟與傳統(tǒng)數據有怎樣的區(qū)別。

在google scholar（谷歌學術搜索）中鍵入big data，查詢近5年來的學術著作，共有355,000篇之多；而如果輸入“big data”與“education”兩個關鍵詞，模糊匹配下約出現(xiàn)17,600條結果，而精確匹配下則不足10篇。可見，教育領域的大數據挖掘，仍然是一片未開墾，未有先來者制定規(guī)則的處女地。而在傳統(tǒng)數據領域，一次PISA考試就能在全世界各地產生300篇以上的博士論文，全世界教育與心理計量方向每年約培養(yǎng)碩士與博士5000人，教育與心理統(tǒng)計分析相關的SSCI核心期刊多達489種，為IES、ETS等機構提供數據分析的專業(yè)機構有160余家，從業(yè)者4000多人，而像WWC這樣的行業(yè)標準已經形成——傳統(tǒng)的教育數據領域氣象格局已成，很難撼動其已有的方法論與評價體系。

數據量與分析手段也必然走向鳥槍換炮。傳統(tǒng)數據中，一個學生讀完9年制義務教育產生的可供分析的量化數據基本不會超過10kb，包括個人與家庭基本信息，學校與教師相關信息，各門各科的考試成績，身高體重等生理數據，圖書館與體育館的使用記錄，醫(yī)療信息與保險信息等，以及其他類別的評估數據。這樣的數據量，一臺較高配置的普通家庭電腦，初級的EXCEL或SPSS軟件就能進行5000名以下學生量的統(tǒng)計分析工作；而雙核處理器，ACESS，SurveyCraft等軟件的配置足以完成整個區(qū)域的高級統(tǒng)計運算。這樣的工作一般只需要中級水平的教育與心理統(tǒng)計知識，一套可供按部就班進行對照處理的數據分析模版，以及經過兩三個月的操作培訓就能基本勝任。

而大數據的分析則完全是另一種層面的技術。根據美國著名的課堂觀察應用軟件開發(fā)商Classroom Observer的研究，在一節(jié)40分鐘的普通中學課堂中一個學生所產生的全息數據約有5-6GB，而其中可歸類、標簽、并進行分析的量化數據約有50-60MB，這相當于他在傳統(tǒng)數據領域中積累5000年的數據總和。而要處理這些數據，需要運用云計算技術，并且需要采用Matlab，Mathematica，Maple等軟件進行處理并進行數據可視化。而能夠處理這些數據的專業(yè)人才一般來自數學或計算機工程領域，需要極強的專業(yè)知識與培訓，而更為難能可貴的是，大數據挖掘并沒有一定的方法，更多需要依靠挖掘者的天賦與靈感。

大數據與傳統(tǒng)數據最本質的區(qū)別體現(xiàn)在采集來源以及應用方向上。傳統(tǒng)數據的整理方式更能夠凸顯的群體水平——學生整體的學業(yè)水平，身體發(fā)育與體質狀況，社會性情緒及適應性的發(fā)展，對學校的滿意度等等。這些數據不可能，也沒有必要進行實時地采集，而是在周期性、階段性的評估中獲得。傳統(tǒng)數據反應的是教育的因變量水平，即學生的學科學習狀況如何，生理健康與心理健康狀態(tài)如何，對學校的主觀感受如何等問題。這些數據，完全是在學生知情的情況下獲得的，帶有很強的刻意性和壓迫性——主要會通過考試或量表調查等形式進行——因此也會給學生帶來很大的壓力。

而大數據有能力去關注每一個個體學生的微觀表現(xiàn)——他在什么時候翻開書，在聽到什么話的時候微笑點頭，在一道題上逗留了多久，在不同學科課堂上開小差的次數分別為多少，會向多少同班同學發(fā)起主動交流？這些數據對其他個體都沒有意義，是高度個性化表現(xiàn)特征的體現(xiàn)。同時，這些數據的產生完全是過程性的：課堂的過程，作業(yè)的過程，師生或生生的互動過程之中……在每時每刻發(fā)生的動作與現(xiàn)象中產生。這些數據的整合能夠詮釋教育微觀改革中自變量的水平：課堂應該如何變革才符合學生心理特點？課程是否吸引學生？怎樣的師生互動方式受到歡迎？……而最最有價值的是，這些數據完全是在學生不自知的情況下被觀察、收集的，只需要一定的觀測技術與設備的輔助，而不影響學生任何的日常學習與生活，因此它的采集也非常的自然、真實。

所以，綜合以上的觀點，我們不難發(fā)現(xiàn)，在教育領域中，傳統(tǒng)數據與大數據呈現(xiàn)出以下區(qū)別：

1、傳統(tǒng)數據詮釋宏觀、整體的教育狀況，用于影響教育政策決策；大數據可以分析微觀、個體的學生與課堂狀況，用于調整教育行為與實現(xiàn)個性化教育。

2、傳統(tǒng)數據挖掘方式，采集方法，內容分類，采信標準等都已存在既有規(guī)則，方法論完整；大數據挖掘為新鮮事物，還沒有形成清晰的方法、路徑、以及評判標準。
3、傳統(tǒng)數據來源于階段性的，針對性的評估，其采樣過程可能有系統(tǒng)誤差；大數據來源于過程性的，即時性的行為與現(xiàn)象記錄，第三方、技術型的觀察采樣的方式誤差較小。

4、傳統(tǒng)數據分析所需要的人才、專業(yè)技能以及設施設備都較為普通，易獲得；大數據挖掘需要的人才，專業(yè)技能以及設施設備要求較高，并且從業(yè)者需要有創(chuàng)新意識與挖掘數據的靈感而不是按部就班者，這樣的人才十分稀缺。

2013年初，淘寶給每位商家制作了一張2012年年度消費賬單，有趣的分析背后是隱藏電子商務對每個客戶的深刻理解

二、大數據時代潛藏的教育危機

“不得不承認，對于學生，我們知道得太少”——這是卡耐基·梅隆大學（Carnegie Mellon University）教育學院研究介紹中的一句自白，也同樣是美國十大教育類年會中出鏡率最高的核心議題。這種對于學生認識的匱乏，在21世紀之前長達數百甚至上千年的教育史中并沒有產生什么消極的效應，但卻在信息技術革命后的近十年來成為教育發(fā)展的致命痼疾。

“過去，對于學生來說，到學校上學學習知識具有無可辯駁的重要性，而那是因為當時人們能夠接觸知識的渠道太少，離開學校就無法獲取成體系的知識”斯坦福大學教授Arnetha Ball在AERA（美國教育研究會）大會主旨發(fā)言中說道，“但是，互聯(lián)網的普及將學校的地位從神壇上拉了下來。”Ball的擔心不無道理。根據Kids Count Census Data Online發(fā)布的數據，2012年全美在家上學（Home-Schooling）的5-17歲學生已達到197萬人，相對逐年價下降的出生人口，這一人口比重十分可觀。

與此同時，應運而生的則是內容越來越精致的網上課堂，而創(chuàng)立于2009年并迅速風靡全球的可汗學院（Khan Academy）正是其中的杰出代表。從知名學府的公開課到可汗學院，這種網絡學習模式受到熱捧恰恰證明了：人們對于學習的熱情并沒有過去，但是人們已經極端希望與傳統(tǒng)的學院式授課模式告別。一成不變，甚至“目中無人”的傳統(tǒng)集體教學模式在適應越來越多元化、也越來越追求個性化的學生群體時顯得捉襟見肘。

可汗學院模式不但支持學生自主選擇感興趣的內容，還可以快速跳轉到自己適合的難度，從而提高了學習的效率。學習者沒有學習的壓力，時長、時機、場合、回顧遍數都可以由自己控制。

可以想象，如果可汗學院的模式進一步發(fā)展，與計算機自適應（CAT）的評估系統(tǒng)相聯(lián)系，讓使用者可以通過自我評估實現(xiàn)對學習進度的掌握以及學習資料的精準獲取，那么它將形成互聯(lián)網產品的“閉環(huán)”，其優(yōu)勢與力量將是顛覆性的。
而如果傳統(tǒng)教育的課程模式不革新，課堂形態(tài)不脫胎換骨，教師角色與意識不蛻變，那么學校的存在就只有對現(xiàn)代化學習資源匱乏的學生才有意義；而對于能夠自主獲得更適宜學習資源的學生來說，去學?？赡苤皇菫榱送瓿梢豁椛鐣巧x予的義務，甚至談不上必要性，也就更談不上愉快的體驗或興趣的驅使了。

大數據的研究可以幫助教育研究者重新審視學生的需求，通過高新的技術以及細致的分析找到怎樣的課程、課堂、教師是能夠吸引學生的。但問題在于，社會發(fā)展給予教育研究者的時間窗口并不寬裕，因為有太多人同樣在試圖通過大數據挖掘設法瓜分學生們有限的精力與注意力。而且從某種程度上，他們做得遠比教育研究者更有動力與誠意。

首當其沖的是游戲的設計者——青少年是其主要消費群體。撇開馳名世界的暴雪公司（Blizzard Entertainment），美國藝電公司（Electronic Arts Inc.），日本任天堂公司（Nintendo）等國際巨鱷不談；即使是國內的盛大網絡，第九城市，巨人科技，淘米網絡等游戲公司，亦都早已組建了專業(yè)實力強勁的“用戶體驗”研究團隊。他們會通過眼動跟蹤，心律跟蹤，血壓跟蹤，鍵盤與鼠標微操作速率等各種微觀行為來研究如何讓玩家在游戲中投入更多的時間，更加愿意花真實世界的錢來購買虛擬世界的物品。什么時候應該安排敵人出現(xiàn)，敵人應當是什么級別，主人公需要耗費多少精力才能夠將其擊敗，這些變量都得到了嚴格的設計與控制，原因只有一個——大數據告訴游戲創(chuàng)作者，這樣的設計是最能夠吸引玩家持續(xù)游戲的。

其次是電影視頻、青春小說等鏈式文化產業(yè)。為什么在網站上看視頻會一個接一個，無法停止，因為它會根據該賬號的歷史瀏覽記錄推算出其喜歡看什么樣的視頻，喜歡聽什么類型風格的歌，并投其所好；而暢銷網絡小說看似并沒有“營養(yǎng)”，但里面的遣詞造句、語段字數，故事起伏設定，甚至主人公性格的類型都是有相關研究進行支持——讀者往往并不喜歡結構嚴密、精心設計的劇情——這就是為什么情節(jié)千篇一律的韓劇受人追捧的原因，他們通過收視率的反復研究，挖掘到了觀眾最需要的那些元素，并且屢試不爽。

此外還有許多更強大的研究者，比如電子商務，總能通過數據找到你可能愿意購買的商品——他們甚至知道買尿片的父親更愿意買啤酒。

這些領域看似與我們教育者并無特別關聯(lián)，但是他們與我們最關心的對象——學生卻有著千絲萬縷的聯(lián)系。數百年甚至數十年前，學生并不會面對如此多的誘惑，學校在其生活中占據極大比重，對其影響也最為顯著，因此教育者對于學生的控制總是有著充分的自信。但是，當不同的社會機構與產品開始爭奪學生的注意力時，教育者的自信就只能被認為是一種無法認清形勢的傲慢了——因為在這場“學生爭奪戰(zhàn)”中，傳統(tǒng)學?？瓷先嵲谌狈Ω偁幜?。

即使教育研究者愿意放下身段，通過大數據的幫助來悉心研究學生的需求與個性。但是人才的匱乏也是非常不利的一點因素——相比于商業(yè)環(huán)境下對研究實效的追逐，教育研究的緩慢與空洞顯得相形見絀。在互聯(lián)網企業(yè)紛紛拋出“首席數據官”的頭銜，向各種數據科學狂人拋出橄欖枝，并且在風險投資的鼓舞下，動輒以百萬年薪進行延聘時，大數據研究的前沿陣地必然仍是在互聯(lián)網行業(yè)中最轟轟烈烈地開戰(zhàn)。

分析形勢后的姿態(tài)，以及投入的力度與強度，或許是教育領域在進入大數據研究時最先需要充分考慮的兩個先決條件。

三、誰在為大數據歡呼：一場關于“人性”研究的啟蒙

孜孜不倦地觀測、記錄、挖掘海量的數據，有朝一日終會推導出或簡約或繁復的方程，以此得以在自然科學的歷史豐碑上留名——數百年來，這種對數據的崇拜早已成為了物理學家、化學家、生物學家、天文地理學家們的信念。而牛頓，貝葉斯，薛定諤等一代代巨匠的偉業(yè)也揭示了數據對于科學發(fā)現(xiàn)的無限重要價值。

相形之下，社會科學領域的研究就要慘淡地多——他們同樣看重數據，同樣追求統(tǒng)計與分析的“程序正義”，同樣勤勤懇懇地設計實驗與調研，去尋找成千上萬的被試，同樣像模像樣地去嵌套方程……但是幾乎很少有研究結果能夠得到普遍的承認，不管是社會學、心理學、經濟學、管理學還是教育學。

當然，社會科學領域的研究者們遇到的困難是顯而易見的：“人性”與“物性”是不同的，物質世界比較穩(wěn)定，容易尋找規(guī)律；而由人組成的社會極其善變，難以總結。從數據的角度來說，人的數據不如物的數據那么可靠：

首先是人不會像物那樣忠實地進行回應：誰知道一個人填寫的問卷有多少是注意力不集中填錯的、語文水平不高理解錯的、還是壓根沒打算講真話？此外，人與人本身的差距也大于物與物的差距：兩個化學組成相同的物質表現(xiàn)出各種性質幾乎是完全一樣的，但即使是兩個基因完全相同的雙胞胎也會因為不同的人生經驗，而表現(xiàn)出大相徑庭的行為特征。

但這些都還并不關鍵，最最重要的是：人無法被反復研究。人不是牛頓的木塊，不是伽利略的鉛球，不是巴普洛夫的狼狗，人不會配合一次次從斜坡上被滑下來，一次次從比薩塔頂被扔下來，一次次流著口水干等著送肉來的鈴聲。而我們知道，在“科學”的三個標準中，首當其沖的就是“可重復驗證”。

換句話說，我們可以獲得的關于“人性”的數據不夠大，不夠多，不夠隨時隨地，因此我們無法從數據中窺見人性。2002年諾貝爾經濟學獎授予心理學家丹尼爾?卡尼曼（Daniel Kahneman）時，似乎標示著社會科學領域已經接受了這樣一種事實：人類的行為是無法尋找規(guī)律、無法預測、難以進行科學度量的。社會科學開始懷疑用純粹理性的方法是否可以解答關于“人性”的種種現(xiàn)象。與此相映成趣的是2012年的美國大選，奧巴馬的團隊依靠對網絡數據的精準篩選捕捉到了大量的“草根”選民，而對于其喜好與需求的分析與把握更是贏得其信任，從而在不被傳統(tǒng)民調與歷史數據規(guī)律看好的情況下一舉勝出。這跨越十年的兩個標志性事件讓人們對于“數據揭示人性”可能性的認識經歷了戲劇性的轉變。

如今，迅速普及的互聯(lián)網與移動互聯(lián)網悄然為記錄人的行為數據提供了最為便利、持久的載體。手機，iPad等貼近人的終端無時不刻不在記錄關于人的點點滴滴思考、決策與行為。最最重要的是，在這些強大的數據收集終端面前，人們沒有掩飾的意圖，人們完整地呈現(xiàn)著自己的各種經歷，人們不厭其煩一遍又一遍重復著他們不愿在實驗情境下表現(xiàn)出來的行為，從而創(chuàng)造著海量的數據——傳統(tǒng)數據研究無法做到的事，傳統(tǒng)研究范式苦苦糾結的許多難點，都在大數據到來的那一剎那遁于無形。

大數據的到來，讓所有社會科學領域能夠藉由前沿技術的發(fā)展從宏觀群體走向微觀個體，讓跟蹤每一個人的數據成為了可能，從而讓研究“人性”成為了可能。而對于教育研究者來說，我們比任何時候都更接近發(fā)現(xiàn)真正的學生。

關鍵字：數據挖掘統(tǒng)計運算大數據