大數(shù)據(jù)時代的IT發(fā)展的基本特點是:應(yīng)用驅(qū)動創(chuàng)新,開源加速創(chuàng)新,硬件助力創(chuàng)新。基于對這些特點的認識,從社會創(chuàng)新發(fā)展、人才需求變化、技術(shù)發(fā)展趨勢等方面論述了數(shù)據(jù)科學(xué)與工程這一新興交叉學(xué)科的發(fā)展必然性,進一步闡述了數(shù)據(jù)科學(xué)與工程學(xué)科的特點、學(xué)科內(nèi)涵與知識體系,最后從科學(xué)研究、系統(tǒng)開發(fā)和人才培養(yǎng)的角度探討了數(shù)據(jù)科學(xué)與工程學(xué)科的建設(shè)思路。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)科學(xué)與工程;交叉學(xué)科;萬眾創(chuàng)新;人才培養(yǎng)
1 引言
當(dāng)前,“大數(shù)據(jù)”這一術(shù)語已經(jīng)遠遠超越了當(dāng)初的互聯(lián)網(wǎng)或信息技術(shù)(IT)的技術(shù)范疇,變成了一個時代的標志。大數(shù)據(jù)時代的到來有其必然性,當(dāng)計算和通信取得長足進步的時候,當(dāng)傳感器網(wǎng)絡(luò)和互聯(lián)網(wǎng)等信息采集平臺日臻完善的時候,數(shù)據(jù)的存儲管理和分析處理就自然成為關(guān)注的焦點。“大數(shù)據(jù)”概念的提出意味著信息技術(shù)領(lǐng)域的重點由“計算”轉(zhuǎn)為“數(shù)據(jù)”。稍微留意一下就可以看到,許多原本在IT其他領(lǐng)域成就卓著的著名專家和學(xué)者都紛紛轉(zhuǎn)向大數(shù)據(jù)領(lǐng)域。這種現(xiàn)象可以引發(fā)大家的思考:類比于已經(jīng)發(fā)展了半個多世紀的“計算機科學(xué)”,現(xiàn)在是否也應(yīng)該單獨認真考慮一下“數(shù)據(jù)科學(xué)”這樣一個學(xué)科方向?
基于以上基本認識,本文從社會需求、學(xué)科本質(zhì)以及人才培養(yǎng)等方面進行探討。
2 數(shù)據(jù)科學(xué)與工程學(xué)科發(fā)展背景
2.1我國創(chuàng)新驅(qū)動發(fā)展的需求
我國的社會經(jīng)濟發(fā)展進入新常態(tài),經(jīng)濟發(fā)展從高速進入中高速,生產(chǎn)制造從中低端轉(zhuǎn)向中高端。在新常態(tài)下,如何有效促進經(jīng)濟結(jié)構(gòu)調(diào)整,同時保證就業(yè)和經(jīng)濟平穩(wěn)發(fā)展,這有賴于信息化。新時期的信息化還和建設(shè)生態(tài)文明、拉動消費、提高產(chǎn)品競爭力等密切關(guān)聯(lián)。與以前的“信息化帶動工業(yè)化”以及稍后的“兩化融合”等信息化戰(zhàn)略相比,新型的信息化是在移動互聯(lián)網(wǎng)的環(huán)境下提出來的,有著深刻的云計算和大數(shù)據(jù)背景,對數(shù)據(jù)科學(xué)與工程學(xué)科的發(fā)展有重要的指導(dǎo)意義。
自從斯諾登“棱鏡門”事件以來,世界各國都高度重視網(wǎng)絡(luò)(空間)安全問題。我國成立了由最高領(lǐng)導(dǎo)人擔(dān)任組長的國家網(wǎng)絡(luò)安全領(lǐng)導(dǎo)小組,負責(zé)制定和指導(dǎo)關(guān)鍵任務(wù)信息系統(tǒng)及其安全的規(guī)劃和建設(shè)。習(xí)近平總書記提出了“沒有網(wǎng)絡(luò)安全就沒有國家安全”的論斷。目前,我國的核心信息系統(tǒng)主要還是運行在來自美國的IT壟斷企業(yè)的基礎(chǔ)系統(tǒng)和平臺之上,擺脫這種技術(shù)依賴是IT業(yè)界和關(guān)鍵應(yīng)用行業(yè)的當(dāng)務(wù)之急。針對這種狀況,互聯(lián)網(wǎng)業(yè)界從成本考慮,提出了“去IOE”(即擺脫對IBM主機、Oracle高性能數(shù)據(jù)庫以及EMC高端存儲的依賴)的口號。對于國家核心信息系統(tǒng),這不僅僅是成本問題,更是安全問題。因此,“技術(shù)先進、企業(yè)領(lǐng)先、安全可靠、自主可控”已經(jīng)成為我國發(fā)展信息技術(shù)和系統(tǒng)的基本戰(zhàn)略。這對從事IT研發(fā)和人才培養(yǎng)的專業(yè)人士提出了很高的要求。為滿足這一要求,需要與時俱進,從新的學(xué)科角度來審視面臨的挑戰(zhàn)和機遇,尋找實現(xiàn)“跨越式發(fā)展”和“彎道超車”的發(fā)展途徑。
2015年3月5日,李克強總理在政府工作報告中發(fā)出了“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”的號召,得到了全社會的積極響應(yīng)。回顧一下我國的創(chuàng)新發(fā)展戰(zhàn)略,改革開放以來的30多年,大致經(jīng)歷了從以“星期日工程師”為標志的大學(xué)創(chuàng)新,到“企業(yè)是創(chuàng)新的主體”的企業(yè)創(chuàng)新,再到2011年胡錦濤總書記提出的“協(xié)同創(chuàng)新”,一直到當(dāng)前的“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”4個階段,創(chuàng)新一直被高度重視。自1996年4月江澤民總書記提出“創(chuàng)新是一個民族進步的靈魂”的論斷以來,迄今也有20年時間,離2020年建成創(chuàng)新型國家的時間節(jié)點也日益迫近。黨的十八大以來,隨著“兩個一百年”奮斗目標和實現(xiàn)中華民族偉大復(fù)興的“中國夢”的提出,“創(chuàng)新驅(qū)動發(fā)展”作為國家的發(fā)展戰(zhàn)略被提到前所未有的高度,凸顯了新一代領(lǐng)導(dǎo)人對于創(chuàng)新的高度重視。從李克強總理提出的“互聯(lián)網(wǎng)+”理念以及在各種場合對創(chuàng)新創(chuàng)業(yè)的解讀來看,中國互聯(lián)網(wǎng)企業(yè)的巨大成功是“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”最好的注解,互聯(lián)網(wǎng)本身作為人和人之間的連接平臺,為創(chuàng)新創(chuàng)業(yè)提供了嶄新的環(huán)境。互聯(lián)網(wǎng)和“互聯(lián)網(wǎng)+”的成功與否本質(zhì)上就取決于大數(shù)據(jù)技術(shù)的發(fā)展和應(yīng)用。在當(dāng)前的創(chuàng)新創(chuàng)業(yè)背景下,探討數(shù)據(jù)科學(xué)與工程學(xué)科恰逢其時。
2.2 IT人才市場變化的需求
信息技術(shù)作為近年來發(fā)展最快的領(lǐng)域,人才市場需求的變化也最為明顯。2006年是一個轉(zhuǎn)折點,這個轉(zhuǎn)折點的標志性事件是,百度作為國內(nèi)互聯(lián)網(wǎng)企業(yè),第一次對國內(nèi)高校的畢業(yè)生給出了比老牌的跨國IT企業(yè)更高的薪酬。在那之前,國內(nèi)高校的大多數(shù)畢業(yè)生是以拿到那些著名跨國IT企業(yè)提供的職位為追求目標的。其深層次的原因在于,國內(nèi)的信息系統(tǒng)都是架構(gòu)在這些跨國IT企業(yè)的基礎(chǔ)系統(tǒng)或平臺之上的,國內(nèi)的IT企業(yè)實際上就是系統(tǒng)集成商或是解決方案提供商,所有源頭的核心技術(shù)都不掌握在自己手里,我國培養(yǎng)的IT 人才要做的就是用好壟斷企業(yè)的系統(tǒng)和平臺,最多需要再做些簡單的二次開發(fā)。壟斷企業(yè)對優(yōu)秀人才的吸引也進一步枯竭了我國自主創(chuàng)新和研發(fā)的能力。
近10年來,以BAT(指百度(B)、阿里巴巴(A)、騰訊(T))為代表的中國互聯(lián)網(wǎng)企業(yè)在商業(yè)上取得了被世人認可的巨大成功,這對于我國信息技術(shù)產(chǎn)業(yè)以及其他相關(guān)領(lǐng)域的影響也同樣巨大。當(dāng)然,互聯(lián)網(wǎng)企業(yè)不是IT企業(yè),因為它不提供諸如硬件、軟件或是咨詢服務(wù)、解決方案等傳統(tǒng)IT企業(yè)提供的產(chǎn)品,它只是第三產(chǎn)業(yè)中的信息服務(wù)業(yè)企業(yè)。但是,對互聯(lián)網(wǎng)企業(yè)而言,IT能力是其核心競爭力。互聯(lián)網(wǎng)企業(yè)的IT能力建設(shè)不依賴于傳統(tǒng)的IT企業(yè),這一事實有著非凡的意義:一是破除迷信,打破了IT界以往對于傳統(tǒng)壟斷性IT企業(yè)的盲目崇拜,以為那些高端的技術(shù)和系統(tǒng)是他們的獨門秘籍,是我們望塵莫及的;二是解放思想,使得各行各業(yè)可以效仿互聯(lián)網(wǎng)業(yè)界,針對自身的應(yīng)用需求,融會貫通地利用掌握的IT知識和開源技術(shù),從應(yīng)用需求出發(fā),從硬件體系結(jié)構(gòu)到網(wǎng)絡(luò)架構(gòu)再到軟件系統(tǒng)直至應(yīng)用軟件,度身定制所需要的IT系統(tǒng)和平臺。這帶來的不僅僅是成本的降低,更重要的是可以對創(chuàng)新型商業(yè)模式的開發(fā)提供有效的支持。商業(yè)模式是服務(wù)業(yè)企業(yè)的生命線,創(chuàng)新型商業(yè)模式的開發(fā)依賴于“數(shù)據(jù)科學(xué)家”,企業(yè)IT能力的建設(shè)依賴于“系統(tǒng)架構(gòu)師”。
在我國,雖然經(jīng)濟下行沒有影響IT的就業(yè)形勢,但是市場上對IT人才的需求與高校能夠提供的人才相比還是有很大的差距,這表現(xiàn)在企業(yè)需要的合格的“系統(tǒng)架構(gòu)師”和“數(shù)據(jù)科學(xué)家”很難直接從學(xué)校招到。這一點在高校表現(xiàn)尤為明顯,課堂和實驗室學(xué)的東西遠離市場需求,厭學(xué)頻發(fā)。
2.3 技術(shù)和產(chǎn)業(yè)發(fā)展的需求
現(xiàn)有的計算機或IT技術(shù)和系統(tǒng)是基于三四十年以前的硬件技術(shù)水平而研發(fā)的。最近十幾年以來,硬件技術(shù)產(chǎn)生了突飛猛進的發(fā)展。CPU從多核走向眾核、萬兆以太網(wǎng)等網(wǎng)絡(luò)連接技術(shù)的成熟、新型存儲設(shè)備和非易失存儲介質(zhì)的研發(fā)成功、計算機新型體系結(jié)構(gòu)的探索,這在很大程度上打破了大多數(shù)沿用至今的IT技術(shù)和系統(tǒng)的假設(shè)前提。表1展現(xiàn)了硬件技術(shù)近40年以來的迅猛發(fā)展,也說明了其發(fā)展的不均衡性。如何充分發(fā)揮硬件技術(shù)發(fā)展的潛力,是傳統(tǒng)的IT企業(yè)在考慮其優(yōu)勢產(chǎn)品升級換代時重點考慮的問題,但由于基本假設(shè)前提的不吻合以及本質(zhì)上的不適應(yīng),想做到和硬件發(fā)展與時俱進幾乎是不可能的。
表1 40多年來硬件技術(shù)發(fā)展對比
口口為了充分利用硬件技術(shù)的發(fā)展,也為了降低成本和契合現(xiàn)實應(yīng)用的實際需求,人們開始了圍繞應(yīng)用進行定制式的系統(tǒng)研發(fā)和部署。也就是說,針對應(yīng)用進行垂直式的系統(tǒng)架構(gòu)設(shè)計和功能模塊開發(fā),從計算平臺搭建和系統(tǒng)軟件開發(fā),直到應(yīng)用的開發(fā)都是為解決目標應(yīng)用而做的。相對這種垂直式的技術(shù)研發(fā),傳統(tǒng)的IT系統(tǒng)發(fā)展是水平式的,從計算機系統(tǒng)到系統(tǒng)軟件再到中間件都是通用或相對通用的,應(yīng)用開發(fā)人員要做的工作就是選型、系統(tǒng)集成,然后再進行應(yīng)用層的開發(fā)和部署。GFS[3]和MapReduce[4]就是這種垂直開發(fā)的典型例子,為了解決Google公司的PageRank問題,內(nèi)部人員開發(fā)了存儲網(wǎng)頁數(shù)據(jù)和日志數(shù)據(jù)的文件系統(tǒng)GFS以及其上的便于分布并行處理數(shù)據(jù)的MapReduce編程界面。如果說“one size fits all”是傳統(tǒng)的理念,那么垂直式定制化的研發(fā)就是秉承“one size fits a case”理念[5]。這種探索,不僅可以充分利用硬件技術(shù)的最新成果,更能體現(xiàn)IT 領(lǐng)域“應(yīng)用驅(qū)動創(chuàng)新”的基本精神。
2.4 國內(nèi)外現(xiàn)狀分析
在開設(shè)數(shù)據(jù)科學(xué)和工程相關(guān)課程方面,美國的加州大學(xué)伯克利分校、伊利諾伊大學(xué)香檳分校、哥倫比亞大學(xué)、紐約大學(xué)等從2011年開始就進行了卓有成效的嘗試。紐約大學(xué)、華盛頓大學(xué)等著名高校已經(jīng)開始設(shè)置碩士學(xué)位培養(yǎng)計劃。在我國,從2012年開始,清華大學(xué)、中國人民大學(xué)、復(fù)旦大學(xué)、北京航空航天大學(xué)等高校也開始設(shè)置了學(xué)術(shù)型或?qū)I(yè)型碩士學(xué)位培養(yǎng)計劃。
在本科專業(yè)設(shè)置方面,上海紐約大學(xué)從2015年4月份開始就在內(nèi)部討論設(shè)置一個數(shù)據(jù)科學(xué)的學(xué)士學(xué)位,除了計算機系的教授外,商學(xué)院、設(shè)計學(xué)院等教授也參與其中,并計劃于2015 年9月開始招收本科生。
2015年6月7日,中山大學(xué)宣布成立“數(shù)據(jù)科學(xué)與計算機學(xué)院”,整合了與計算機相關(guān)專業(yè)的優(yōu)勢資源。2015年5月27日,復(fù)旦大學(xué)在其110周年校慶日宣布籌建“大數(shù)據(jù)科學(xué)與技術(shù)學(xué)院”。相信未來會有更多的學(xué)校在學(xué)科設(shè)置和學(xué)院建制方面進行新的探索。
華東師范大學(xué)從2007年成立海量計算研究所以來,一直致力于培養(yǎng)海量數(shù)據(jù)處理領(lǐng)域的人才,探索數(shù)據(jù)科學(xué)與工程領(lǐng)域的協(xié)同創(chuàng)新和人才培養(yǎng)道路;2012年,華東師范大學(xué)在國內(nèi)外伙伴企業(yè)和兄弟高校的支持下,成立了云計算與大數(shù)據(jù)研究中心;2013年,華東師范大學(xué)宣布成立國內(nèi)第一個數(shù)據(jù)科學(xué)與工程研究院,重申協(xié)同創(chuàng)新的理念,聚焦中國式應(yīng)用,進行大數(shù)據(jù)技術(shù)和系統(tǒng)研發(fā)以及創(chuàng)新人才培養(yǎng)。
3 數(shù)據(jù)科學(xué)與工程學(xué)科特點
3.1 應(yīng)用驅(qū)動創(chuàng)新
雖然互聯(lián)網(wǎng)是推動大數(shù)據(jù)熱的始作俑者,但廣泛來說,大數(shù)據(jù)不僅僅局限于互聯(lián)網(wǎng)數(shù)據(jù)。要討論這林林總總的數(shù)據(jù),從認識論的觀點來看,首先就是要對大數(shù)據(jù)進行分類,這非常必要,它是確保大家在同一論域進行討論的前提。按照筆者的理解,大數(shù)據(jù)大致可以分為Web數(shù)據(jù)、決策數(shù)據(jù)、科學(xué)數(shù)據(jù)三大類。顧名思義,Web數(shù)據(jù)是與Web相關(guān)的數(shù)據(jù),包括網(wǎng)頁、鏈接、日志等具體類型,門戶網(wǎng)站、搜索引擎、社交網(wǎng)絡(luò)、電子商務(wù)等以Web形式呈現(xiàn)或以Web為載體的新型信息服務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù)大多可以歸納為此類型。決策數(shù)據(jù)主要是指由傳統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)倉庫管理的、在生產(chǎn)過程中產(chǎn)生的數(shù)據(jù),是用于決策的數(shù)據(jù),也可稱為商務(wù)智能(business intelligence,BI)數(shù)據(jù)。科學(xué)數(shù)據(jù)實際上是最早的一類大數(shù)據(jù),包括科學(xué)實驗數(shù)據(jù)、科學(xué)觀測數(shù)據(jù)、科學(xué)文獻數(shù)據(jù)、設(shè)計數(shù)據(jù)等,這類數(shù)據(jù)與科學(xué)領(lǐng)域密切相關(guān),品種最多,研究最難,若沒有領(lǐng)域?qū)<业膮⑴c,IT專家難以勝任科學(xué)數(shù)據(jù)的管理和分析任務(wù)。
關(guān)于大數(shù)據(jù)研究的認識,筆者也有一個3個層次的觀點。大數(shù)據(jù)的研究全景可以看作一個倒立的三角形,如圖1所示。這個倒立三角形分為3層:第一層代表形形色色的各種應(yīng)用,這些應(yīng)用是數(shù)據(jù)的來源,也是數(shù)據(jù)的應(yīng)用場所;第二層(中間一層)代表模型和算法,是指把對應(yīng)用進行理解、抽象、建模,然后在底層的計算平臺上予以實現(xiàn)[8];第三層(最下面的一層)就代表IT計算系統(tǒng)或平臺,這是傳統(tǒng)信息技術(shù)行業(yè)關(guān)心和擅長的領(lǐng)域[9~11]。這3 個層次中,第一層中每一類應(yīng)用有各自對應(yīng)的學(xué)科去深入研究;第二層是有關(guān)模型和算法的;第三層對應(yīng)的學(xué)科就是計算機或IT學(xué)科。
圖1 大數(shù)據(jù)研究全景
第一個層次是大數(shù)據(jù)應(yīng)用層次,大數(shù)據(jù)應(yīng)用是一個從科學(xué)研究、企業(yè)管理到電子商務(wù)、搜索引擎的完整譜系。這個層次涉及的人員來自各個領(lǐng)域,包括領(lǐng)域?qū)<摇⒂脩艉涂蛻舻取T诶斫猬F(xiàn)實應(yīng)用的基礎(chǔ)上進行建模,再選定合適的技術(shù)和系統(tǒng)予以實現(xiàn),這體現(xiàn)了應(yīng)用驅(qū)動創(chuàng)新的特點。
3.2 多學(xué)科交叉融合
隨著大數(shù)據(jù)成為當(dāng)前的熱點,信息技術(shù)發(fā)展的重點從計算轉(zhuǎn)向數(shù)據(jù),數(shù)據(jù)的有效應(yīng)用變得至關(guān)重要。數(shù)據(jù)科學(xué)就是在這一背景下產(chǎn)生和發(fā)展起來的。數(shù)據(jù)科學(xué)通常指基于計算機科學(xué)、統(tǒng)計學(xué)、信息系統(tǒng)等學(xué)科的理論和技術(shù),研究數(shù)據(jù)的收集整理以及從海量數(shù)據(jù)中分析處理,獲得有效知識并加以應(yīng)用的新興學(xué)科;數(shù)據(jù)工程是指利用工程的觀點進行數(shù)據(jù)管理和分析以及開展系統(tǒng)的研發(fā)和應(yīng)用。
3.3 學(xué)科的基礎(chǔ)內(nèi)涵
與傳統(tǒng)計算機和軟件工程等學(xué)科相比,數(shù)據(jù)科學(xué)與工程學(xué)科具備獨特的學(xué)科基礎(chǔ)和內(nèi)涵。數(shù)據(jù)科學(xué)與工程學(xué)科的理論基礎(chǔ)涉及統(tǒng)計分析、商務(wù)智能以及數(shù)據(jù)處理基礎(chǔ),具體包括以下幾個方面。
大數(shù)據(jù)表達理論方面:包括大數(shù)據(jù)的生命周期、演化與傳播規(guī)律,數(shù)據(jù)科學(xué)與社會學(xué)、經(jīng)濟學(xué)等之間的互動機制以及大數(shù)據(jù)的結(jié)構(gòu)與效能的規(guī)律性。
在大數(shù)據(jù)計算理論方面:研究大數(shù)據(jù)的表示以及大數(shù)據(jù)的計算模型及其復(fù)雜性。
在大數(shù)據(jù)應(yīng)用基礎(chǔ)理論方面:研究大數(shù)據(jù)與知識發(fā)現(xiàn),大數(shù)據(jù)環(huán)境下的實驗與驗證方法以及大數(shù)據(jù)的安全與隱私。
相比較而言,計算機科學(xué)學(xué)科是研究算法的科學(xué),而數(shù)據(jù)科學(xué)不局限于此,其研究對象是數(shù)據(jù),隨著計算機應(yīng)用從以計算為中心逐漸向以數(shù)據(jù)為中心的遷移,數(shù)據(jù)科學(xué)與工程學(xué)科的內(nèi)涵和外延更加寬泛。軟件工程學(xué)科中的相關(guān)技術(shù)提供了數(shù)據(jù)分析處理的工具以及具體開發(fā)時的范式。數(shù)據(jù)處理技術(shù)是數(shù)據(jù)研究領(lǐng)域的一種相比較而言,計算機科學(xué)學(xué)科是研究算法的科學(xué),而數(shù)據(jù)科學(xué)不局限于此,其研究對象是數(shù)據(jù),隨著計算機應(yīng)用從以計算為中心逐漸向以數(shù)據(jù)為中心的遷移,數(shù)據(jù)科學(xué)與工程學(xué)科的內(nèi)涵和外延更加寬泛。軟件工程學(xué)科中的相關(guān)技術(shù)提供了數(shù)據(jù)分析處理的工具以及具體開發(fā)時的范式。數(shù)據(jù)處理技術(shù)是數(shù)據(jù)研究領(lǐng)域的一種重要的研究方法,用于研究和發(fā)現(xiàn)數(shù)據(jù)本身的現(xiàn)象和規(guī)律。
數(shù)據(jù)科學(xué)與工程也不同于傳統(tǒng)的商業(yè)智能和統(tǒng)計學(xué),商業(yè)智能主要從商業(yè)模式、經(jīng)濟管理的角度對數(shù)據(jù)應(yīng)用進行研究,而統(tǒng)計學(xué)提供具體的數(shù)據(jù)分析處理的方法論,但是面對PB級以上的海量數(shù)據(jù),大數(shù)據(jù)的分析不能停留在獲得概率分布結(jié)果,也不能滿足于對細節(jié)問題的數(shù)據(jù)挖掘,而是需要更簡單、有效的問題求解方法,爭取從大數(shù)據(jù)中獲得新的知識,構(gòu)建新的應(yīng)用范式。
3.4 學(xué)科的知識體系
數(shù)據(jù)科學(xué)與工程作為一個大數(shù)據(jù)時代的新興交叉學(xué)科,主要的知識結(jié)構(gòu)來源于計算機科學(xué)、應(yīng)用數(shù)學(xué)以及信息系統(tǒng)和信息管理3個學(xué)科,但是也和這3個學(xué)科分別都有很大的不同。在當(dāng)前大數(shù)據(jù)時代,從知識結(jié)構(gòu)和人才培養(yǎng)角度來看計算機、軟件工程學(xué)科,不難得出,其知識結(jié)構(gòu)過于老化,教材和課堂上傳授的知識基本屬于“博物館”和“百科全書式”的內(nèi)容,還是服務(wù)于壟斷企業(yè)的IT產(chǎn)品和系統(tǒng),對于知識的融會貫通和綜合應(yīng)用不夠重視。這也導(dǎo)致學(xué)校教育無法滿足人才市場的需求,出現(xiàn)學(xué)生厭學(xué)、老師厭教的現(xiàn)象。而綜合應(yīng)用和融會貫通是互聯(lián)網(wǎng)企業(yè)和開源社區(qū)最為重視的方面,也是一個“系統(tǒng)架構(gòu)師” 必須具備的能力和素養(yǎng)。應(yīng)用數(shù)學(xué)學(xué)科也很強調(diào)與信息學(xué)科和產(chǎn)業(yè)的結(jié)合,這一點從“計算數(shù)學(xué)”專業(yè)的更名歷史就可略見一斑,計算數(shù)學(xué)1987年更名為“計算數(shù)學(xué)及其應(yīng)用軟件”,1998年教育部將其更名為“信息與計算科學(xué)”專業(yè)。但是,這一專業(yè)在招生和就業(yè)方面頻頻亮起紅燈。究其根本原因,想必就是沒有真正和現(xiàn)實應(yīng)用相結(jié)合,也許是因為我國單純的數(shù)學(xué)背景的院系缺少這方面的基因。信息系統(tǒng)和信息管理專業(yè)非常重視企、事業(yè)單位的應(yīng)用,關(guān)注需求和機構(gòu)組織,這是實現(xiàn)應(yīng)用系統(tǒng)至關(guān)重要的因素。但因為在管理學(xué)院或商學(xué)院,數(shù)學(xué)和計算機的訓(xùn)練相對薄弱,在針對應(yīng)用的數(shù)學(xué)建模和信息系統(tǒng)的工程實現(xiàn)方面就難以勝任。
根據(jù)前面所描述的大數(shù)據(jù)全景圖(如圖1所示),數(shù)據(jù)科學(xué)與工程學(xué)科的知識體系構(gòu)建的基本原則是:針對不同的應(yīng)用,本學(xué)科培養(yǎng)的人才可以充分理解應(yīng)用需求,利用合適的數(shù)學(xué)工具進行建模,同時能夠根據(jù)具體的應(yīng)用搭建計算環(huán)境和平臺,并進行有效的算法實現(xiàn)。
在計算機學(xué)科方面,主要包括新型的專用型計算平臺的搭建,這涉及互聯(lián)網(wǎng)計算架構(gòu)、新硬件的應(yīng)用以及開源系統(tǒng)的使用等。由此倒推,需要對計算機學(xué)科的現(xiàn)有知識體系進行裁剪,舍棄那些與系統(tǒng)和平臺搭建無關(guān)的知識。在應(yīng)用數(shù)學(xué)方面,著重于對數(shù)學(xué)建模工具的靈活掌握,具體而言,就是對概率論、數(shù)理統(tǒng)計以及矩陣計算(計算方法)等工程數(shù)學(xué)能活學(xué)活用,既能利用這些數(shù)學(xué)工具來抽象具體的現(xiàn)實應(yīng)用,又能進行有效的算法實現(xiàn)。在信息系統(tǒng)學(xué)科方面,需要培養(yǎng)數(shù)據(jù)全生命周期管理的基本理念,從數(shù)據(jù)的生成和收集,到數(shù)據(jù)的存儲和管理,再到數(shù)據(jù)的使用和共享,實現(xiàn)數(shù)據(jù)的價值。
4 數(shù)據(jù)科學(xué)與工程學(xué)科建設(shè)
設(shè)計思維對于踐行“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”有著重要的參考意義。設(shè)計思維的本質(zhì)就是盡一切可能站在用戶的角度看問題,設(shè)身處地地體驗用戶需求,進行社會化思考,通過原型設(shè)計和試用,經(jīng)過反復(fù)迭代完善產(chǎn)品設(shè)計。這是互聯(lián)網(wǎng)上的服務(wù)產(chǎn)品的典型開發(fā)過程,應(yīng)用設(shè)計思維進行工業(yè)產(chǎn)品設(shè)計是當(dāng)前的趨勢,在國際頂級的商學(xué)院和設(shè)計學(xué)院成為必修課程,會很快滲透到各個學(xué)科的人才培養(yǎng)計劃中。破除迷信,解放思想,需要克服傳統(tǒng)思維定勢,從思想觀念上主動對接當(dāng)前提倡的創(chuàng)新創(chuàng)業(yè)理念。
4.1 科學(xué)研究和系統(tǒng)開發(fā)
數(shù)據(jù)科學(xué)與工程學(xué)科是一個面向應(yīng)用的綜合交叉型學(xué)科,學(xué)科交叉和協(xié)同創(chuàng)新是開展科研開發(fā)的基本途徑。立足中國式應(yīng)用,瞄準國際研究前沿,通過與企業(yè)或用戶的合作,提高研發(fā)能力和應(yīng)用能力,研發(fā)具有中國特色的大數(shù)據(jù)技術(shù)和系統(tǒng),為大數(shù)據(jù)應(yīng)用中的數(shù)據(jù)采集、整理、存儲、維護、分析等管理任務(wù)提供全方位的支持,提供公共技術(shù)平臺、大數(shù)據(jù)應(yīng)用部署咨詢服務(wù)等。
通過和企業(yè)合作伙伴的密切合作,落實應(yīng)用驅(qū)動研發(fā)的戰(zhàn)略。研發(fā)工作根據(jù)與企業(yè)合作的成熟程度,切實做到科學(xué)研究與生產(chǎn)實踐相結(jié)合,克服科研和生產(chǎn)“兩張皮”的現(xiàn)象,闖出一條我國數(shù)據(jù)管理技術(shù)和系統(tǒng)研發(fā)的可持續(xù)發(fā)展的新路。
4.2 數(shù)據(jù)科學(xué)與工程學(xué)科人才培養(yǎng)
圍繞計算機、應(yīng)用數(shù)學(xué)和信息系統(tǒng)設(shè)計從本科生到博士生的人才培養(yǎng)方案,結(jié)合開源技術(shù)與時俱進地更新計算機教學(xué),結(jié)合應(yīng)用實踐加強數(shù)理統(tǒng)計和矩陣計算等建模和算法訓(xùn)練,培養(yǎng)“系統(tǒng)架構(gòu)師”和“數(shù)據(jù)科學(xué)家”,這也是當(dāng)前最需要的兩類人才。
基于以上培養(yǎng)目標,針對本科生、碩士研究生、博士研究生各自的學(xué)制和教學(xué)特點,專業(yè)的課程設(shè)計遵循以下指導(dǎo)思想。
突出數(shù)據(jù)科學(xué)基礎(chǔ)課程教學(xué):結(jié)合統(tǒng)計、應(yīng)用數(shù)學(xué)等學(xué)科的優(yōu)勢,在強調(diào)概率論教學(xué)的同時,將數(shù)理統(tǒng)計、數(shù)值計算與優(yōu)化、機器學(xué)習(xí)、數(shù)據(jù)挖掘、信息檢索、自然語言處理等課程作為重要的專業(yè)必修課或選修課在本科教學(xué)階段進行講授,為研究生階段講授統(tǒng)計學(xué)習(xí)理論、概率圖模型、語言模型、信息抽取與集成、海量數(shù)據(jù)分析與挖掘等高階課程打下扎實的基礎(chǔ)。
裁剪傳統(tǒng)計算機和信息系統(tǒng)類課程,適應(yīng)新技術(shù)發(fā)展和應(yīng)用場景:在操作系統(tǒng)、數(shù)據(jù)庫系統(tǒng)、計算機體系結(jié)構(gòu)、編譯原理、分布式系統(tǒng)等傳統(tǒng)計算機課程中,弱化歷史性材料的講授(作為課外閱讀作業(yè)),補充相關(guān)系統(tǒng)與應(yīng)用的最新進展。例如,補充云計算系統(tǒng)中的資源調(diào)度、大數(shù)據(jù)系統(tǒng)(如Hadoop)、集群搭建與實踐、新型編程范型(如MapReduce)及其編譯執(zhí)行等內(nèi)容,彌補近年來技術(shù)與應(yīng)用快速發(fā)展造成的傳統(tǒng)課程教學(xué)內(nèi)容和教材與時代的脫節(jié)。
強調(diào)數(shù)據(jù)管理與處理的全生命周期:結(jié)合情報和信息管理等學(xué)科的優(yōu)勢,課程覆蓋數(shù)據(jù)從獲取、整理、存儲、索引,到查詢與檢索、分析與挖掘、加工與展現(xiàn)的整個生命周期的基礎(chǔ)理論、技術(shù)方法以及系統(tǒng)。在課程設(shè)置上,通過在本科低年級設(shè)置計算機系統(tǒng)、信息管理與信息系統(tǒng)等專業(yè)必修課,在高年級開設(shè)開源軟件、大數(shù)據(jù)系統(tǒng)等專業(yè)選修課,達到從宏觀角度介紹數(shù)據(jù)全生命周期、聯(lián)接相關(guān)課程的目的。
5 結(jié)束語
互聯(lián)網(wǎng)改變了一切,也改變了信息技術(shù)的發(fā)展范型。IT領(lǐng)域當(dāng)前的熱點無疑是云計算和大數(shù)據(jù),是互聯(lián)網(wǎng)企業(yè)而非傳統(tǒng)的IT企業(yè)推動了云計算和大數(shù)據(jù)的發(fā)展。這一現(xiàn)象的意義在于,IT的發(fā)展范型發(fā)生了改變,“應(yīng)用驅(qū)動創(chuàng)新”成為IT領(lǐng)域創(chuàng)新鏈上的重要環(huán)節(jié)。互聯(lián)網(wǎng)企業(yè)IT能力建設(shè)的巨大成功,破除了“迷信”;硬件技術(shù)的飛速發(fā)展為新一代IT技術(shù)的發(fā)展奠定了基礎(chǔ);“安全可靠、自主可控”的國家安全戰(zhàn)略的提出和落實對我國IT界而言是挑戰(zhàn),更是機遇。基于以上3點,再加上我國經(jīng)濟社會發(fā)展提出的豐富、迫切而又極具特色的信息化應(yīng)用需求,可以看出,當(dāng)前我國IT 界處在充滿機遇的窗口期。如何利用這個難得的時間窗口實現(xiàn)跨越式發(fā)展和彎道超車,不僅需要認真分析和清晰認識現(xiàn)實的創(chuàng)新機遇,更需要適時定義和發(fā)展新的學(xué)科方向,探索學(xué)科實質(zhì)內(nèi)涵,明確知識結(jié)構(gòu),開展人才培養(yǎng),從而進行持續(xù)、有效的“萬眾創(chuàng)新”行動,全面激發(fā)創(chuàng)新活力。
參考文獻
[1] Hey T, Tansley S, Tolle K M. The Fourth Paradigm:Data-Intensive Scientific Discovery. USA: Microsoft Rr, 2009
[2] Manyika J, Chui M, Brown B, et al. Big Data: the Next Frontier for Innovation, Competition, andProductivity. USA: McKinsey Global Institute, 2011
[3] Ghemawat S,Gobioff H, Leung S T. The Google file system. Proceedings of the ACM Symposiumon Operating Systems Principles (SOSP ), Lake George, NY, USA, 2003: 29~43
[4] Dean J, Ghemawat S. MapReduce: simplifieddata processing on large clusters. Proceedings of the 6th Symposium onOperating System Design and Implementation, San Francisco, USA, 2004: 137~150
[5] Stonebraker M, Cetintemel U. One size fits all: 10 years later.Proceedings of International Conference on Data Engineering, Seoul, Korea, 2015
[6] White T. Hadoop –The Definitive Guide: Storageand Analysis at Internet Scale (4. ed, revised &updated). USA: O’ReillyMedia, 2015
[7] Stoica I . A berkeley view of big data: algorithms, machines& people. Proceedings of Berkeley EECS Annual Research Symposium,California, USA, 2011
[8]美國國家學(xué)術(shù)院國家研究委員會. 海量數(shù)據(jù)分析前沿. 華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院譯. 北京:清華大學(xué)出版社, 2015
National Research Council of the National Academies. Frontiersin Massive Data Analysis. Translated by Data science and Engineering Research Instituteof East China Normal University. Beijing: Tsinghua University Press, 2015
[9] 李戰(zhàn)懷, 王國仁, 周傲英. 從數(shù)據(jù)庫視角解讀大數(shù)據(jù)的研究進展與趨勢. 計算機工程與科學(xué). 2013, 35(10): 1~11
Li Z H, Wang G R, Zhou A Y. Research progress andtrends of big data from a database perspective. Computer Engineering &Science, 2013, 35(10): 1~11
[10] Abadi D J, Agrawal R, Ailamaki A, et al. Proceedings of The Beckman Report on Database Research, California,USA, 2014: 61~70
[11]JagadishH V, Gehrke J, Labrinidis A, et al.Big data and its technical challenges. Communications of the ACM, 2014, 57(7):86~94
作者:周傲英,錢衛(wèi)寧,王長波,華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院