以為數據工程師每天做的就是像 http://hackertyper.net/ 這樣,然后創造了一個又一個偉大的產品嗎?錯了!紐約時報記者采訪了多位大數據工程師,他們表示自己 80% 的時間都在當「大數據苦工」,干的都是非人類可以想象的枯燥繁瑣的工作——從海量的原始數據中提取有用數據,整理,轉換格式,調整為算法可以理解的同樣格式的規整數據……
因此,這些數據工程師稱呼自己為「數據清潔工」、「數據搬運工」,「數據整形師」等等……知名健康追蹤手環公司 Jawbone 的數據科學副總裁 Monica Rogati 向記者透露,對于大部分人,甚至是普通的程序員來說,這種工作都是極端枯燥,完全接受不了的,但對于數據工程師來說,這都是他們每天都要做的事情。
華盛頓大學教授,同時也是一家大數據創業公司 Trifacta 創始人的 Jeffrey Heer 教授則表示,直接把算法輸入到一堆原始數據中,然后指望結果能夠自己蹦出來,那簡直就是奇談……數據工程師需要把不同種類不同格式的數據(非常巨量)轉換成為算法可以理解的格式整齊的數據,因此稱呼數據工程師為「數據清潔工」也不足為奇。
Iodine 是一家醫療方面創業公司。該公司的員工透露,自己的產品能夠通過挖掘國家食藥管理局(FDA)、國家健康中心,以及醫藥公司提供的文字、圖像等內容提供的原始數據,來為用戶提供藥品的副作用相關的警示。但事情遠沒有想象的那么簡單。
光嗜睡一條就有「drowsiness」、「somnolence」和「sleepiness」三種說法,讓用戶去看這三個詞肯定都能理解,但別指望算法能夠理解這三個詞代表同一個含義。
因此,所謂的「大數據」創業公司,最近在做的基本就是通過不同的渠道、切入點,來完成一個任務:產生一個標準化的、簡單的數據處理軟件,讓數據工程師不那么累,直接把所有的原始數據輸入進去,提取結果,簡單如此。帕羅奧托一家名為 ClearStory Data 的創業公司就在做這樣的事情。
這家公司提供的產品是一個能夠將多種不同規格的原始數據整合到可視化呈現的表格、圖片或地圖中。該公司 CEO Shahani—Mulligan 表示,ClearStory 的產品能夠整合 6 到 8 種不同的數據格式,提供處的結果適合對于數據一竅不通的終端用戶使用。