大數據發展趨勢
大數據已不再只是一個流行術語。
根據調研機構IDC公司預測,大數據和業務分析市場將從2018年的1301億美元增長到2020年的2030多億美元。
“數據的可用性、新一代技術以及向數據驅動型決策的文化轉型將繼續推動企業對大數據和分析技術和服務的需求。”IDC公司分析和信息管理集團副總裁DanVesset說,“2015年的全球大數據市場收入達到1220億美元,2016年的市場收入增長11.3%,預計到2020年大數據市場收入的復合年均增長率將達到11.7%。”
雖然大數據市場將會增長,但企業對如何使用他們的大數據卻不那么清楚。
《大數據系統運維》
“一場時代對話”——打好大數據運維工作的一場硬仗
內容簡介
本書是大數據應用人才培養系列教材中的一冊,講解了大數據系統運維過程中的各個主要階段及其任務,包括配置管理、系統管理故障管理、性能管理、安全管理、高可用性管理、應用變更管理、升級管理及服務資源管理等。
本書可作為培養應用型人才的課程教材,也同樣適用于有意從事IT系統運維工作的廣大從業者和愛好者作為參考書
打鐵還需自身硬。打造大數據應用型人才,我們做好充足準備。——大數據應用人才培養系列教材
考慮到大數據人才未來要做具體的大數據基礎工作,本套叢書的講解側重于應用,對知識點給出具體的操作,并且有配套的動手實驗。內容安排遵循從簡單到復雜、從理論到實踐的學習過程;同時也遵循系統性和覆蓋面寬的原則。本套叢書可以作為培養應用型人才的課程教材,也同樣適用于有意從事大數據系統基礎工作的IT從業人員作為參考書。“千里之行,始于足下”,“不積跬步無以至千里”,希望大數據應用型人才從一開始就能有一個全面良好的基礎,本套叢書在起跑線上為你助力。——作者初衷
《大數據導論》
《大數據導論》是了解和學習大數據的基礎條件,通過本書了解大數據基本概念,大數據的架構,大數據的采集方式和預處理,常用的ETL工具,簡單熟悉數據倉庫的構建模式,大數據的存儲,數據挖掘的方法,以及大數據的可視化技術,從而更好的將大數據技術應用在各行業領域,更深入地開展大數據技術的應用研究。從基礎開始,通過理論與實際案例相結合,幫助讀者由淺入深進行學習,逐步清理大數據的核心技術和發展趨勢。本書可以作為培養應用型人才的課程教材,也適用于初學入門者,對大數據基礎理論有需求的廣大讀者。
《云計算導論》
本書主要內容包括云計算的基本概念、發展現狀、主要平臺的部署及關鍵技術、虛擬化與容器技術、云計算的實用化、國內外云計算服務與大規模應用、環境云(envicloud.cn)和萬物云(wanwuyun.com)典型行業應用介紹與剖析等內容,適用于應用型本科、高職高專院校的云計算課程和教學。本書的實驗環境部署通過云創大數據實驗平臺(https://bd.cstor.cn)上遠程開展。
《數據挖掘基礎》
本書介紹了數據挖掘的基本概念,包括數據挖掘的常用算法、常用工具、用途和應用場景及應用狀況,講述了常用數據挖掘方法,如分類、聚類、關聯規則的概念、思想、典型算法、應用場景等。此外,本書還從實際應用從發,講解了基于日志的大數據挖掘技術的原理、工具、應用場景和成功案例。通過以上內容的學習,讀者將了解數據挖掘的基本概念、思想和算法,并掌握其應用要領。本書可以作為培養應用型人才的課程教材,也可作為相關開發人員的自學教材和參考手冊。
《R語言》
近年來,R語言可謂是數據分析的熱門語言,相關的資料五花八門,讓讀者無所適從,本書力求用簡潔、精煉、理論實踐相結合的方式讓大家快速掌握R語言。全書共17章,分為基礎篇(第2-10章),應用篇(第11-15章)和進階篇(第16-17章)。基礎篇按照數據分析過程,主要討論了R數據結構、數據導入/導出、數據清洗、數據變換、可視化、高級語言編程和常用建模方法。應用篇通過對5個經典案例的分析,使讀者能夠把學到的R基礎知識應用到解決實際問題,把數據變成價值。進階篇解決如何用R處理大數據的一些技術。本書可以作為培養應用型人才的課程教材,也可作為數據分析愛好者的參考資料。
《數據清洗》
數據清洗是大數據領域不可缺少的環節,用來發現并糾正數據中可能存在的錯誤。該步驟針對數據審查過程中發現的錯誤值、缺失值、異常值、可疑數據,選用適當方法進行“清理”,使“臟”數據變為“干凈”數據。本書共分為8章:第1章主要介紹數據清洗的概念、任務和流程,數據標準化概念及數據倉庫技術等;第2章主要介紹Windows和類UNIX操作系統下的數據常規格式、數據編碼及數據類型轉換等;第3章介紹ETL概念、數據清洗的技術路線、ETL工具及ETL子系統等;第4章介紹了Excel、Kettle、OpenRefine、DataWrangler和Hawk的安裝及使用等;第5章介紹Kettle下文本文件抽取、Web數據抽取、數據庫數據抽取及增量數據抽取等;第6章介紹數據清洗步驟、數據檢驗和數據錯誤處理,數據質量評估及數據加載;第7章介紹網頁結構,利用網絡爬蟲技術進行數據采集,利用JavaScript技術進行行為日志數據采集等;第8章介紹RDBMS的數據清洗方法和數據脫敏處理技術等。本書系統地講解了數據清洗理論和實際應用,可以作為培養應用型人才的課程教材,也適用于希望了解數據清洗的廣大讀者。
《大數據實踐》
本書內容涵蓋了目前使用廣泛的大數據處理系統Hadoop生態圈中的幾大核心軟件系統:分布式大數據處理系統Hadoop、Hadoop數據庫HBase、數據倉庫工具Hive、內存大數據計算框架Spark和SparkSQL,詳細介紹了它們的架構、工作原理、部署方法、常用配置、常用操作命令、SQL引擎等內容。本書對上述幾大系統的各種安裝部署方式都給出了詳細步驟,常用命令也都有具體示例介紹,是一本實操性很強的工具書,能幫助初學者快速掌握和操作這幾款常用的大數據處理系統。本書以淺顯易懂的語言風格和圖文并茂的操作示例引領讀者邁入大數據實踐之門,可以作為培養應用型人才的課程教材,也可作為相關開發人員的自學教材和參考手冊。
《大數據系統運維》
本書是大數據應用人才培養系列教材中的一冊,講解了大數據系統運行維護過程中的各個主要階段及其任務,包括配置管理、系統管理、故障管理、性能管理、安全管理、高可用性管理、應用變更管理、升級管理及服務資源管理,內容全面且翔實,兼具基礎理論知識與運維實踐經驗,特別是重點介紹了大數據系統的運維特點及運維技能,以保障大數據系統的穩定可靠運行,更好地支撐大數據的商業應用價值。本書具有很強的系統性和實踐指導性,可以作為培養應用型人才的課程教材,也同樣適合于有意從事IT系統運維工作的廣大從業者和愛好者作為參考書。