在大數據商品化之前, 利用大數據分析工具和技術來取得競爭優勢已不再是秘密。2015年, 如果你還在職場上尋找大數據的相關工作, 那么, 這里介紹的9種技能,將幫助你得到一個工作機會。
Apache Hadoop
Hadoop現在已經進入第二個10年發展期了, 但不可否認的是, Hadoop在2014年出現了井噴式發展, 由于Hadoop從測試集群向生產和軟件供應商方向不斷轉移, 其越來越接近于分布式存儲和處理機架構, 因此, 這一勢頭在2015年會更加猛烈。由于大數據平臺的強大, Hadoop可能是一個挑剔的怪獸, 它需要熟悉的技術人員細心的照顧和喂養。掌握Hadoop最核心技術 (例如, HDFS, MapReduce, Flume, Oozie, Hive, Pig, HBase, and YARN) 的技術人員在職場上的需求將越來越大。
Apache Spark
如果說Hadoop在大數據世界中已廣為人知, 那么Spark就是一匹黑馬, 它所蘊含的原始潛力使Hadoop黯然失色。無論是否是Hadoop架構, 快速崛起的內存計算技術被認為是MapReduce風格分析框架更快和更簡潔的替代方案。Spark最佳的定位應當是大數據技術族中重要的一個成員。Spark仍然需要專業技術進行編程和運行, 這為知曉該技術的工程師提供了不錯的工作機會。
NoSQL
在大數據的操作層面, 諸如 MongoDB 和 Couchbase 等分布式、可擴展的 NoSQL 數據庫正在接管市場份額極為龐大的的 SQL 數據庫, 例如 Oracle 和 IBM DB2。在 WEB 和移動 app層面, NoSQL數據庫常常被做為Hadoop分析的數據源。在大數據領域, Hadoop 和 NoSQL 分別成為良性循環的兩個端點。
Machine Learning and Data Mining(機器學習和數據挖掘)
人們習慣于對收集的數據進行挖掘,但是, 在當今大數據的世界里, 數據挖掘已經達到了一個全新的高度。機器學習成為去年大數據技術最熱門的領域之一, 2015年順理成章地成為它的突破之年。大數據將會使那些能夠利用機器學習技術去構建和訓練像分類、推薦和個性化系統等預測分析應用程序的人成為職場寵兒, 取得就業市 場上的頂級薪金。
Statistical and Quantitative Analysis(統計和定量分析)
這就是大數據。如果你有定量推理背景和數學或統計學等方面的學位,那么你就成功了一半。此外,再加上一些使用統計工具經驗,例如 R, SAS, Matlab, SPSS, 或者是 Stata, 你就能夠鎖定這些工作崗位啦。在過去,許多量化工程師都會選擇在華爾街工作, 但由于大數據的快速發展, 現在各行各樣都需要大量的具有定量分析背景的 極客。
SQL
以數據為中心的語言已有超過40年的歷史了, 但是這種祖父級的語言在當前的大數據時代仍然具有生命力。盡管它難以應對大數據的挑戰 (見上文NoSQL部分), 但是, 簡化了的結構化語言使其在許多方面變得十分容易。同時應該感謝來自于Cloudera所發布的Impala等開源項目, SQL獲得了新生, 成為下一代Hadoop規模的數據倉庫的通用語言。
Data Visualization(數據可視化)
大數據可能不是那么容易理解, 但在某些情況下, 通過鮮活的數據吸引眼球仍然是不可替代的方法。你可以一直用多元或邏輯回歸分析方法解析數據, 但是, 有時候使用類似 Tableau 或Qlikview 這樣的可視化工具探索數據樣本能夠直觀的告訴你所擁有的數據的形態, 甚至是發現那些能夠改變你處理數據方法的一些隱蔽細節。當然,如果你長大后想成為數據藝術家, 那么, 精通一個甚至是更多的可視化工具就是必不可少的了。
General Purpose Programming Languages
在類似 Java, C, Python, 或 Scala 等通用語言中擁有編程應用經驗能夠使你相對于那些局限于分析技術的人更具有優勢。根據 Wanted Analytics的統計, 招聘具有數據分析背景的“計算機編程”職位的數量增長了 337%。具有傳統應用程序開發和新興數據分析能力的人將會有極大的就業選擇空間, 能夠自由的在終端用戶企業和大數據創業公司之間進行流動。
Creativity and Problem Solving(創造力和問題解決能力)
無論你在高級分析工具和技術方面有多大優勢,自主思考能力仍然是無可替代 的。大數據處理工具會不可避免的進行演化發展,新技術會不斷涌現并替代這里所列 出的技術。但是,如果你能出于本能的渴求新的知識,并且能夠像獵犬一樣發現問題 的解決方案,就會有大量的工作機會在等著你。