當前位置：存儲 → 技術專區 → 正文

LinkedIn大數據技術架構蘊藏的秘密

責任編輯：王李通 |來源：企業網D1Net 2013-06-10 23:37:58 本文摘自：新華網

LinkedIn最廣為人知的功能莫過于People You May Know（你可能認識的人）功能，而在第五屆云計算大會最后一天的云計算核心技術架構專題論壇上LinkedIn商業分析部高級經理Jonathan Wu為我們帶來了LinkedIn的其他特色功能產品和大數據技術架構展示。

據悉，LinkedIn是世界上最大的專業人士社交網絡，全球范圍內有2.25億用戶，并且以每秒2個新用戶的速度增長。其還是一個解決方案供應商，88%的財富100強企業在使用LinkedIn的付費解決方案，有超出290萬的公司主頁及相關訊息。

這些用戶為何會選擇LinkedIn？Jonathan指出，LinkedIn有專業的身份可以幫拓展人脈發現機遇，專業的內容全方位掌握業界資訊，專業的平臺隨時隨地了解人脈動向。

另外Jonathan還展示了LinkedIn的業務模型，因為其本身就擁有海量的數據，通過這些數據創造出有價值的產品和服務，來增加用戶數量和用戶粘性，這樣數據還會不斷增長從而形成了一個閉環。

據悉，LinkedIn有人才、市場、高級訂閱服務三大商業解決方案。而且三大將商業解決方案的盈收每年也成翻倍增長趨勢，而其中應占盈收比例最大的是人才解決方案。

而在LinkedIn內部50人商業分析團隊就幾乎支持了70%將近4000名內部員工，其包括了數據展現和數據挖掘三大團隊，涵蓋了市場、銷售、產品、研發、運營五個主要商業職能部門，覆蓋了三大業務分支。

LinkedIn的數據按用戶分為用戶特征數據、用戶行為數據、用戶網絡數據。按數據存取速度分為在線數據、近線數據、離線數據。

Jonathan介紹到LinkedIn的大數據技術架構，其三級數據架構根據不同性質的工作設計，其中近線數據存儲在Voldemort分布式數據庫，在線數據存儲在Oracle、Espresso，服務器日志存儲在Web Logs。使用Kafka發布數據，通過Databus捕獲在線數據，而所有的離線數據由 Hadoop 和Teradata數據庫構成。

LinkedIn還對開源社區做出了不少貢獻，像Azkaban、DataFu、Kafka、Voldemort、White Elephant、Helix、Kamikaze、Norbert等。

此外，LinkedIn做大數據的指導思想也在不斷變化，將之前的三角形的底部變小，變換成菱形減少了數據分析和集成的時間，之后的目標是把菱形變成圓形。Jonathan表示，我們做大數據的原則是隨時準確的提供信息，并且將大數據做小做快，一個輸入一個按鈕在小于3秒就可以得出報告。

關鍵字：技術架構大數據

熱文