大家應該還記得《黑客帝國》里面Neo躲避槍林彈雨的高難度動作,這部電影,充滿了大數(shù)據與人工智能的色彩。算法師通過對數(shù)據庫的標記、對數(shù)據庫的檢測、編排,甚至對敵人發(fā)出攻擊,當時看起來相當科幻的鏡頭,如今已經是被廣泛運用的技術。
所謂大數(shù)據,即是在從各種各樣類型的數(shù)據中,快速獲得有價值信息的能力。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業(yè)的潛力。
從亞馬遜的比價推薦,Nefilix公司對《紙牌屋》受捧的成功策劃、微軟紐約研究院的經濟學家David Rothschild對奧巴馬到奧斯卡到NBA數(shù)據的精準預測,已經充分證明了這不是一項噱頭技術。
大數(shù)據有四個明顯的優(yōu)勢:第一,數(shù)據體量巨大。從TB級別,躍升到PB級別;第二,數(shù)據類型繁多。前文提到的網絡日志、視頻、圖片、地理位置信息等等。第三,價值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據僅僅有一兩秒。第四,處理速度快。
人工智能是一個非常復雜的方向,也是一個跨學界的計算機學科,涉及到其他方面的知識,主要內容在于計算機學習人類的自然語言處理。我們無需去遐想如智能終結者這樣科幻的畫面,那是科學家的要研究的事。現(xiàn)實生活中,我們已經看到越來越多的大數(shù)據與人工智能結合的產品,如蘋果的Siri,它包含語音識別(Speech Recognition),是自然語言處理(Natural Language Processing)的一部分。在實際的應用中,起到了不少作用,包括智能手機上的服務調配,能解決用戶日常的需求。
那么這是否大數(shù)據與人工智能的結合的切合點?我們來看看簡單原理:
在《大數(shù)據:改變我們生活、工作、思考的革命》一書中,作者維克多 梅耶提到,現(xiàn)在的電腦系統(tǒng)是根據編寫程序時明確要求它們遵循的規(guī)則來進行運算的。因此,當一個結果偶爾無可避免地出錯的時候,我們可以回過頭Recode。無論電腦代碼如何復雜,任何代碼都是可以追中并理解運算的基礎。
但大數(shù)據的追蹤變得困難許多。首先算法預言的基礎可能會復雜得讓常人難以理解。谷歌翻譯在判斷一個單詞的翻譯方法卻動用了數(shù)十億頁的翻譯資料。 這種基于海量數(shù)據大量的統(tǒng)計運算,使得人們幾乎不可能追蹤算法具體的因素。同時,由于大數(shù)據的規(guī)模體量,其運作的規(guī)模也超乎我們的想象。谷歌分辨幾個搜尋關鍵詞和流感的關聯(lián)是測試四億五千萬個數(shù)學模型的結果。
如果要說服客戶使用這套技術,便需要算法師來幫助調整,從事這個職業(yè)的人,都需要哪些要求?
首先,這些專業(yè)人士是計算機科學、數(shù)學和統(tǒng)計學方面的專家。日常工作中,他們會檢查大數(shù)據的分析和預報。他們會評價數(shù)據源,分析預報,作出底層的算法模型,當人們需要檢測算法的原理,他們會調出算法的結果、統(tǒng)計方法及數(shù)據庫。簡單說,算法師擔當?shù)氖且粋€篩選數(shù)據的職能。
計算機發(fā)展至今,積累的龐大數(shù)據庫需要有人對其進行編排組織,給以針對性地利用。在這里算法師又分為外部算法師與內部算法師。外部算法師可以在政府需要的時候,比如法庭發(fā)出命令或頒布規(guī)章,以中立審計師的身份檢查大數(shù)據預報的準確性或合理性。算法師可以為大數(shù)據公司提供服務,給予專業(yè)的審計服務。
內部算法師在機構的內部監(jiān)察大數(shù)據活動。他們不僅關注企業(yè)的利益,還關注被企業(yè)的大數(shù)據分析影響到的人的利益。他們監(jiān)督大數(shù)據操作,任何人覺得自己被該機構的大數(shù)據預告?zhèn)Φ降臅r候,內部算法師是他們第一個聯(lián)絡的人。他們在數(shù)據公布前檢查分析的完整性和準確性。要完成頭兩個任務,算法師必須在他們供職的企業(yè)內享有一定程度的自由和中立性。總而言之,內部算法師是企業(yè)為了維持公眾信任而生的職業(yè)。
對于算法師這份職業(yè)需求,最直接的原因是,大數(shù)據的領域還未能建立起新的規(guī)范準則約束企業(yè)。算法師通過設計一套系統(tǒng),為社會解析對個人數(shù)據等安全上的擔憂設立保障,對于這份打開黑匣子的職業(yè),有人感興趣嗎?