大數據的概念(Big Data)已經火了5年了,從Google Trends上來看11年以來,關注度一路快速增長,到15年開始逐步持平。實際上大數據已經逐步走過了描繪愿景的階段,人們期待的是大數據能夠真正在各個行業落地,產生巨大的價值。但目前來看創造了明顯商業價值的應用還是在互聯網,除了搜索以外,殺手級的應用也就兩個--精準廣告和推薦。TalkingData在大數據領域耕耘了5年,發展非常迅速,在很多傳統行業的大數據應用都是居于國內領先地位。但是當我們的業務發展得越來越好,涉及的行業越來越多,客戶越來越多,項目越來越大,越來越深入的時候,我們卻覺得讓大數據產生價值的瓶頸也越來越大。從本質上來講這個瓶頸就是目前大數據在傳統行業的應用其邊際成本并不是趨于0的。
回過頭來看大數據在互聯網里的成功應用,無論是搜索,精準廣告還是推薦系統,其投入成本是非常高的。需要巨大的計算機集群,和人力成本非常高的程序員和數據科學家,以及大量的研發投入。但是所有這些業務都是在線業務,當用戶規模擴大以后,除了硬件資源上的成本外,其他的成本迅速被攤薄,使得其邊際成本趨近于0。業務規模越大,邊際成本越低,對技術成本的投入也就越不敏感。這也是為什么越是大的互聯網公司,越舍得在搜索,廣告和推薦系統這幾個大數據應用方面做投入。因為提高0.1%的預測精準度,就能獲得上億的收入。作為應用大數據產生價值最大的互聯網企業,自然是成為傳統企業效仿的榜樣。但是傳統行業受制于業務規模或者業務形態,無法實現大數據應用的邊際成本趨于0。
如果在不具備邊際成本趨于0的行業中按照互聯網行業成本不敏感的方式來對大數據進行投資,在初期的熱情過后一定會發現這是不可接受的。這就是大數據普及化的過程中遇到的最大的瓶頸。我們TalkingData一直致力于為更多的企業提供最高標準的大數據解決方案和服務,但業務的迅速增長迅速吃掉了我們的研發,咨詢和數據科學資源,為了保證交付質量,我們不得不拒絕了很多潛在客戶。
互聯網創造了大數據,基于大數據創造出來的智能在搜索、精準廣告、推薦系統等應用中又創造了巨大的商業價值。但是大數據創造智能的成本是非常高昂的,除了基本的軟硬件資源投入,最大的成本在于人力資源的成本。收集,清洗,抽取,糾錯,整合不同來源的龐大數據幾乎完全依賴人的智慧,特征工程,分析,算法開發,建模,調參,優化,部署,測試等等所有這些工作也是完全依依賴于人的智慧。不但需要巨大的人力將應用建立起來,也需要巨大的人力來維護。而且當我們想調整應用的目標時,又需要投入巨大的人力來進行調整。目前的大數據應用方式,就像烏爾邦大炮,耗費人力無數而又笨重不堪,除了用于攻陷君士坦丁堡這樣的千年名城外,很難在其他戰場上有用武之地。我們現在很多企業,甚至政府都在投入巨資建設自己的烏爾邦大炮,但是很可能這些投資最終只是成為對大數據崇拜的圖騰。
廣大的中小型互聯網公司和眾多的傳統企業,在大數據方面,真正需要的是成本相對低廉的山炮,野炮,即使用成本和門檻低很多的大數據平臺。這樣的平臺需要更有效率的融合數據,機器的智能和人的智慧,讓人的智慧集中在理解數據這樣的平臺,定義問題,和把握解決問題的路徑和方向上。這樣的平臺應該盡可能的把數據收集,清洗,抽取,糾錯,整合的工作交給機器,同時讓分析,建模和優化工作擺脫像老中醫看病一樣依賴人的經驗來選擇模型,算法和參數。這樣的平臺就是TalkingData的智能數據平臺-Smart Data Platform。Smart Data Platform將極大降低企業建設,使用,和維護數據平臺的成本。Smart Data Platform將使得企業不但可以以很低的邊際成本運用大數據來提升核心業務的效率,而且可以以合理的成本應用大數據在眾多小業務,小場景下獲得更好的收益。
Smart Data Platform的概念涵蓋了數據管理,數據工程和數據科學。但是其精髓就在于用人工智能技術來突破傳統完全依賴于人的智慧來駕馭數據的方式,將由人來創造人工智能的方式逐步轉向由人工智能來創造人工智能。這將是大數據和人工智能發展的革命性變化,就如由人來創造機器轉變為用機器來創造機器,從而打開了工業革命的大門一樣,大數據和人工智能的發展也將進入一個快速螺旋上升的階段。
當然,如此宏偉的目標并不能一蹴而就。就目前而言,大數據技術最大的兩個瓶頸就在于數據加工處理和分析建模。前者通常被認為是繁重的dirty work, 沒有多少人真正愛干。后者雖然是讓人興奮的工作,但是其更接近于藝術,對人的能力,直覺,和經驗要求很高。前者因為工作量的龐大,后者因為人才的稀缺,成為了目前大數據技術的阿格琉斯之踵。TalkingData在這兩個方面都做了一些工作,也對未來的發展方向做了一些展望。
數據的處理加工目前基本完全依賴人的智慧,對數據如何清洗,如何糾錯,如何標準化,如何聚合相似數據都要求人來制定規則,對數據關系的梳理更是有賴于人的智慧的輸入。在大數據時代到來之前,這些問題都不被人重視,但是從2012年大數據概念逐漸火起來之后,在VLDB, SIGMOD等學術會議上關于數據處理的論文達到204篇。學術界,工業界逐漸認識到這個問題是大數據晴朗的天空上的一朵大烏云, 是必須要解決的問題。 AMPLab的SampleClean項目就是致力于用機器學習來解決數據的抽取,格式化,相似度連接等問題的項目。國外也有一些公司比如Tamr也在研發利用機器學習技術來解決元數據識別,糾錯,數據表自動關聯和相似數據項聚合的產品。SampleClean和Tamr都使用了Active Learning的技術,在處理過程中對不確定的問題會提出來,讓人來回答,然后學習到人的判斷規律,不斷提高自身的智能程度。數據處理智能化這方面的研究和嘗試應該說還處于起步階段,還沒有特別成熟的開源項目或者商業產品。TalkingData基于自己的實踐和對該方向跟蹤研究,將數據智能處理分為兩個階段,數據關系梳理,和數據項聚合。
數據關系梳理,是把所有數據表或者文件的Meta Data識別出來,然后根據Meta Data之間的關系把所有的數據表或者文件的關聯關系梳理出來。目前,這個過程基本都是由人來完成的,是個非常費時費力的工作,效率很難得到有效提高。如果要把這個過程自動化,那么會有三個層次的問題。首先,最簡單的,直接對Meta Data識別,這個通過將人的經驗固化下來就可以解決這個問題。比如對手機號字段的識別,可以將常見手機號字段命名方式作為規則固化下來,在Meta Data識別時直接用規則判斷。當然,事先固定的規則很難處理所有問題,這時可以引入Active Learing的方法,在不確定時可以讓人來介入判斷,然后再學習人的判斷成為新的規則。 其次,在很多情況下Meta Data的命名不具意義,或者因為某些原因丟失了Meta Data,那么直接判斷Meta Data本身就沒有辦法,這種情況下可以通過字段值的特征來判斷字段的意義,如手機號,是11位,以13x, 15x, 18x, 17x開頭的數字有很大可能是手機號,如果字段值都符合這些特征,那么這個字段就有非常高的可能性是手機號。同樣,我們可以通過預置規則+Active Learning的方式來支持這一功能。通過以上兩種方法識別除了字段的意義后,則可以很容易的建立起數據之間的關聯關系。但是,還有一種最困難的情況,就是通過以上兩種方式都無法確定意義的字段之間是否存在關聯關系。 這種情況下,我們需要預先建立通用的字段關聯識別的機器學習模型,根據兩個字段的數據值判斷兩個字段是否是同一字段。通過以上這些方法,機器能夠給出數據表或者文件之間的關系,當然受限于機器的智能能力,不可能完全準確,因此對于任何兩個表或者文件之間的關聯關系,給出的是相關的可能性,而不是是否關聯,最后讓人來介入修正這些可能的關聯關系。這樣,梳理數據關系中大量繁重的工作都由機器完成,人只是介入其中為機器提供一些咨詢,和最后確認結果,將大大提高人的效率。
數據項聚合或者相似度連接(Similarity Join)是另一個比較挑戰的任務,因為相同的數據項因為書寫習慣,格式的不同,有可能產生一些差別。比如人名,地名,國家名稱等。對于變化不大的情況,采用相似度度量方法,再加上局部敏感哈希來加速匹配過程能取得不錯的效果。TalkingData在應用包名合并的問題上綜合了應用名,包名的字符串相似性,應用描述的文本相似性,和基于深度學習的圖片相似度實現了包名的自動合并。但是對于更為復雜的問題,比如全稱和簡寫的問題,同義詞,反義詞,甚至是不同語言的問題,要比較好的解決這一問題,就需要知識圖譜的支撐。
數據分析建模中一個很大的問題就是模型選擇和參數選擇,這個問題對于數據科學家來說一直都是很頭疼的問題。知乎上有一個問題:為什么越來越覺得機器學習調參就像老中醫看病? 非常有意思,問題及其回答都體現了模型選擇和參數選擇是一個嚴重依賴數據科學家個人經驗的工作。目前有一些開發數據科學平臺的公司為了解決這個問題,就在其產品中集成了自動選擇模型和參數的功能,其基本原理就是嘗試所有的模型及其參數空間(有可能根據一些啟發式方法來對搜索空間剪枝)。這種方法在小數據集上是可行的,但是對于大規模數據的問題,需要的計算量就是不可接受的。TalkingData在這方面做了一些工作,在即將開源的Fregata大規模機器學習算法庫中,我們實現了不需要調參的幾個經典算法,這樣就使得算法可以作為標準的算子集成到數據處理流程中,而不需要case by case由數據科學家來調校,從而極大的提高在大規模問題上分析建模過程的效率。
以上兩個方面是TalkingData Smart Data Platform短期致力于達到的目標,有了智能的數據處理,和智能的數據分析建模,就可以大大提高大數據應用的效率,降低成本。使得大數據在小業務,小場景中也能創造出超過成本的價值,使得廣大的中小互聯網公司和傳統企業都能享受大數據的紅利。TalkingData也可以更高效的支持更多的客戶,幫助更多的企業在大數據上成功。“用數據的心智去超越”,TalkingData Smart Data Platform賦予機器以智能幫助人更好,更高效創造數據的心智去超越我們的夢想。