大數據處理關鍵技術一般包括:大數據采集、大數據預處理、大數據存儲及管理、大數據分析及挖掘、大數據展現和應用。
大數據解決方案
大數據時代的到來對數據的存儲、處理及分析提出了新的挑戰, 但總的發展趨勢是通過分布式計算來解決 “瓶頸”問題。我們不能依賴提高單個節點性能這種縱向擴展的方式提升系統整體的性能,相反, 我們需要能夠通過增加系統內節點的數目這種橫向擴展的方式來達到我們的目的。我們將存儲、 處理和分析的任務通過分布式的方式分散到系統中各個節點上來加快數據的存儲、 處理和分析的速度。在實際的實現上,Google、Amazon、微軟和 VMware 這 4 家公司在不同時間陸續推出各自的大數據方案, 在應用領域和贏利模式上,Amazon 和Google 處于跑者地位, 微軟和 VMware 緊隨其后,此外還有開源的Hadoop 平臺。Hadoop 是谷歌大數據平臺的開源實現, 由于其開源特性, 越來越多的企業在Hadoop 的基礎上對其進行修改以適應自己的需要,如Facebook 根據其業務需求, 底層采用Hadoop 平臺進行數據的存儲和處理, 并在其上開發了Hive。Facebook 通過Hive實現了例行性報表、 即席查詢、 機器學習和數據挖掘算法, 達到了較好的效果。大數據的存儲穩定、 高效的存儲系統既是系統正常運行的重要保證, 也可以單獨作為一項服務提供給用戶。5 種方案之中, Amazon 的 S3 和微軟的 Blob存儲比較類似, Google的GFS則完全不同,VMware 目前僅向虛擬機提供存儲服務,Hadoop仿照GFS 開發了HDFS, 是GFS的簡化版本。相比GFS, HDFS 缺少了多客戶端并發的 Append 模型及快照功能。
大數據的處理
計算服務是所有的大數據解決方案最核心的業務之一, 同時也是用戶最常用的服務。Google 和Hadoop提供基于MapReduce 的數據處理, 整個 過 程 對用戶而言是透明的。Amazon 的EC2給予用戶配置硬件參數的權利, 使得用戶可以根據實際的需求動態地改變配置,從而提高效率和節省資源。微軟的Azure允許用戶在處理數據之前設置部分參數。
VMware 的 vCloud 中提供了DRS 和DPM 技術,可以通過遷移和關閉虛擬機來實現資源優化。表2 是這5 種計算服務的比較。MapReduce 在系統層面解決了大數據分析平臺的擴展性和容錯性問題,是非關系型數據庫的典型代表,因此越來越多的研究人員從性能和易用性方面對MapReduce 進行改進。
1. 多核硬件與圖形處理器上的性能改進。
2. 索引技術與連接技術的優化。
3. 調度技術優化。
4. 其他優化技術。
針對MapReduce 易用性的研究成果包括 Yahoo 的 Pig、Microsoft 的LINQ、Hive 等。
山東大學數據分析的幾個探索
學術論文成果學科數據可視化探索
我們提出了一個交互系統,用來收集,分析和可視化科研的論文數據,這種方法可用于量化學生和導師的研究成果。系統專門分析了每個作者文章數量和質量的貢獻。同時將第一作者的在圖形上中顯示,其目的是直觀地反應論文的詳細情況。
我們采用雙環可視化方法而不是網絡圖方法的目的是,觀察學生和導師在研究成果中的不同職責,特別是指導學生的導師。同時,學術合作和知識域的變化可以通過可視化的表現形式展現給用戶。
我們開發了在兩個同心圓中呈現結果的可視化方法。外圈用不同的顏色將不同級別的學生區分開,內圈用不同的顏色將導師區分開。三角形以及三角形的邊框顏色表示了出版的類型(會議或期刊出版),并填充顏色表示不同發表指數(SCI 或EI)的出版物。三角形可以看作是一個箭頭指向本文的第一作者,連接到三角形的線表示發表成果的共同作者,實線表示第一作者和第二作者在這個發表成果中的直接貢獻,而虛線表示發表成果第一作者和第三作者之間的貢獻關系。
我們統計和分析了計算機科學領域2004 至2012 年所有可用的文字類型成果,其中包括作者信息,關鍵字,摘要,級別和類型。采用指數將EI 和SCI 進行分類。
圖1 展示了每年在不同出版物中發表的數量信息。可以看出,該數字波動的年變化,在2008 年和2010 年之間出現明顯的熱潮,但是之后,開始遞減。
圖1 每年在不同出版物中發表的數量信息
此外,刊物的級別可以通過影響因子,反映該雜志近期的文章被引用的平均數。圖2 對成果的發表時間進行了評估,通過圖表可以清楚地看出,在一年中成果發表水平和數量的情況。例如,2007 年有三個論文的影響因子大于2.0。
圖2 對成果的發表時間進行的評估
圖3 表示了導師的研究成果。可以看出,所選中的導師參與了11 篇論文的研究工作,其中包括7 篇會議論文, 4 篇期刊論文,其中四個是SCI 收錄。其中,作為第一作者出現一次,作為第二作者出現五次。圖4 給出了研究組于2008 年在計算機科學領域的發表成果信息。在外圈上的對象表示學生,內圈的對象表示顧問,對象的顏色區分出他們的研究興趣是否一致,內外圈上對象會自動調整其位置以避免重疊的出現。在這個交互界面中,發表成果的信息將很容易通過選擇三角形進行查詢,其詳細信息,包括標題,作者,會議或期刊以及其他人的信息將出現在頂部。
圖3 表示了導師的研究成果
招生網站檢測與生源數據分析
山東大學本科招生網站是山東大學發布招生信息,錄取信息,公布錄取結果的重要手段之一,每到招生期間訪問人數很大。對于本科招生網站的數據監控和數據分析對于保障招生安全進行,招生數據挖掘和分析有重要的意義。所以每年數據分析的使用有著良好的作用。通過數據挖掘可以分析考生的關注點,考生的活躍時間等有價值的信息。
“大數據”分析做不了什么?
數據可以幫我們解讀數字的含義。數據可以輔助我們擺脫直覺和認知的錯誤。但有些事情是“大數據”不擅長的:
數據不理解社會認知,計算機數據分析擅長的是測量社會交往的“量”而非“質”。數據不了解背景,即便是一部普普通通的小說,數據分析也無法解釋其中的思路。
數據擴張太快,關系太復雜,找到有價值信息的難度大。
數據掩蓋了價值觀念。《“原始數據”只是一種修辭》一書中的要點之一就是,數據從來都不可能是“原始”的,數據總是依照某人的傾向和價值觀念而被構建出來的。數據分析的結果看似客觀公正,但其實價值選擇貫穿了從構建到解讀的全過程。
大數據有拿手強項,也有不擅長的領域。我們既需要看到大數據的優點,也要清晰認識到大數據的缺點,解讀大數據是一項系統綜合工程,與數據所生成的社會背景無法分開。