LinkedIn最廣為人知的功能莫過于People You May Know(你可能認識的人)功能,而在第五屆云計算大會最后一天的云計算核心技術架構專題論壇上LinkedIn商業分析部高級經理Jonathan Wu為我們帶來了LinkedIn的其他特色功能產品和大數據技術架構展示。
據悉,LinkedIn是世界上最大的專業人士社交網絡,全球范圍內有2.25億用戶,并且以每秒2個新用戶的速度增長。其還是一個解決方案供應商,88%的財富100強企業在使用LinkedIn的付費解決方案,有超出290萬的公司主頁及相關訊息。
這些用戶為何會選擇LinkedIn?Jonathan指出,LinkedIn有專業的身份可以幫拓展人脈發現機遇,專業的內容全方位掌握業界資訊,專業的平臺隨時隨地了解人脈動向。
另外Jonathan還展示了LinkedIn的業務模型,因為其本身就擁有海量的數據,通過這些數據創造出有價值的產品和服務,來增加用戶數量和用戶粘性,這樣數據還會不斷增長從而形成了一個閉環。
據悉,LinkedIn有人才、市場、高級訂閱服務三大商業解決方案。而且三大將商業解決方案的盈收每年也成翻倍增長趨勢,而其中應占盈收比例最大的是人才解決方案。
而在LinkedIn內部50人商業分析團隊就幾乎支持了70%將近4000名內部員工,其包括了數據展現和數據挖掘三大團隊,涵蓋了市場、銷售、產品、研發、運營五個主要商業職能部門,覆蓋了三大業務分支。
LinkedIn的數據按用戶分為用戶特征數據、用戶行為數據、用戶網絡數據。按數據存取速度分為在線數據、近線數據、離線數據。
Jonathan介紹到LinkedIn的大數據技術架構,其三級數據架構根據不同性質的工作設計,其中近線數據存儲在Voldemort分布式數據庫,在線數據存儲在Oracle、Espresso,服務器日志存儲在Web Logs。使用Kafka發布數據,通過Databus捕獲在線數據,而所有的離線數據由 Hadoop 和Teradata數據庫構成。
LinkedIn還對開源社區做出了不少貢獻,像Azkaban、DataFu、Kafka、Voldemort、White Elephant、Helix、Kamikaze、Norbert等。
此外,LinkedIn做大數據的指導思想也在不斷變化,將之前的三角形的底部變小,變換成菱形減少了數據分析和集成的時間,之后的目標是把菱形變成圓形。Jonathan表示,我們做大數據的原則是隨時準確的提供信息,并且將大數據做小做快,一個輸入一個按鈕在小于3秒就可以得出報告。