在斯諾登事件之前,數據科學家毫無疑問是最受媒體追捧的最神秘最性感IT職業,這一切與鋪天蓋地的大數據炒作不無關系,同時也因為數據科學家的技術門檻過高,IBM Watson執行架構師Swami Chandrasekaran曾近繪制過一張“觸目驚心”的數據科學技能地圖(下圖),圖中列出的數據科學技能涵蓋基礎數學、統計、編程、機器學習、自然語言處理、數據可視化、數據抽取、轉換等多個領域,事實上很少有人能精通其中多個領域。
總之,數據科學家叫好不叫座,與現實脫節的原因主要有兩個:一是目前人才市場上真正的數據科學家鳳毛麟角,一將難求,大多數企業組建的數據團隊里都沒有真正的數據科學家。二是數據分析作為一門科學本身遭到質疑。
近日Slashdot發表署名文章“數據科學已死”,指出數據科學壓根不能算作一門科學,這個觀點可能有些激進,但具有相當的代表性。以下是原文重要觀點的歸納:
科學是通過可控的實驗產生知識,而數據查詢并不是一個實驗。實驗需要可控的條件,而數據科學家分析的都是別人收集的數據,存在部分甚至全部的樣本偏差。
當然,如果以這個標準來看天文學和社會科學也不能算是科學,但是我們說數據科學不是科學并非成心抬杠。
當你在企業中被尊稱為數據科學家,那似乎意味著你的工作和產品經理、市場經理這些工作有很大的不同,但事實上呢,你所做的A/B測試,你的所謂“實驗”也無非就是一些工作或者說任務而已。
我很同情搞數據分析的人,因為數據庫管理員這個名號已經不再性感了,而“業務分析師”聽上去很復古,在簡歷上標明“數據倉庫挖掘”似乎也不能確保一份好工作,“系統分析師”也和酷不沾邊。目前來看“數據科學家”是個不錯的概念,你如果在LinkedIn個人主頁上給自己貼上數據科學家的標簽,立馬機會有一堆獵頭在你身邊蠢蠢欲動。在Strata大會上,數據科學家是招聘欄最火的職位。
但是,我們必須清醒地認識到,數據科學非但不是一門科學,甚至也不是一個靠譜的職業,說嚴重點就是一個陷阱。
看看數據科學家的招聘職位說明吧:“開發獨特的技術平臺專門用于…..運營和實時優化,創建假設模型和架構實驗,開發識別并優化….的數學模型。”
但事實上呢,企業今天正面臨真正的數據爆炸,要想從爆炸中生存下來企業必須具備處理和分析海量且持續增長的數據的能力。這這其中最關鍵的一種能力就是提出正確的問題,但不幸的是,在企業中能夠提出正確問題的人選,會是CEO、CMO、創始人,而不是什么數據科學家。
所謂大數據,基本的一個特點就是對非結構化數據的分析,對于數據科學家來說,從海量非結構化數據中搜尋有用數據結論就好比搜索一條大街的垃圾箱找一臺還能工作的平板電視機。很多企業花費數百萬美元進行這種不靠譜的大數據分析,很多時候商業價值的回報遙遙無期。
對處理海量非結構化數據而言,真正的解決之道是自動化和下一代處理技術,例如機器學習和革命性的算法。交易系統和分析系統的融合前景看上去也不錯,這些新的方法能夠實現實時分析,雖然這需要很多新的大數據架構技術,但總的趨勢是干臟活的,無論你是否所謂的數據科學家,都將被自動化技術取代。
你大可以在簡歷上標榜“數據科學家”,這會贏得更多的人力資源經理的電話,也許你很快就會獲得新的工作機會處理堆積得像藍鯨尸體的腐臭數據,但是請留神,那些主數據管理和數據集成供應商已經伙同媒體把你的CEO上司對大數據的期望值吊得很高,而你將摔得很慘。