摘要:2016年即將過去,各位大數據的程序員們,是否覺得這一年都不斷的追著新技術跑?這個大數據公眾號是今年一月底創立的,一年過去,我們積累了不少好內容。
2016年即將過去,各位大數據的程序員們,是否覺得這一年都不斷的追著新技術跑?這個大數據公眾號是今年一月底創立的,一年過去,我們積累了不少好內容。回過頭來我們看看這一年的腳印,這里我按照文章內容做了一次匯總,分為:流處理、機器學習、用戶畫像、數據驅動、Hadoop、Apache Spark、Apache Kylin、Druid、推薦系統和大數據平臺架構。
流處理
2016年流式數據處理已逐漸開始成為主流,對于流數據的處理存在很多技術,即使在開源社區中,也存在很多撲朔迷離的選擇。在大數據雜談里我們包含了一些優秀的流處理文章,包括Kafka流,Spark流,Storm,Flink,Samza等。
Apache Flink是今年新軍突起的流處理技術,完全兼容Hadoop。Apache Flink與Apache Spark的主要差別在于計算模型不同。Spark采用了微批處理模型,而Flink采用了基于操作符的連續流模型。
大數據分析引擎Apache Flink: What, How, Why, Who, Where?
以Flink為例,消除流處理常見的六大謬見
LinkedIn在2010年開發了Kafka,是Kafka的重度使用者,他們總結的經驗是非常有參考意義的。而“微服務架構:kafka的崛起”這篇文章詳盡的探討了在微服務架構升級的過程中,如何使用Kafka將微服務之間耦合降到最低,同時能讓整個系統在保證高可用的前提下做到高可擴展。
同時Samza也是LinkedIn研發的一款流處理器,下面的文章介紹了Samza在LinkedIn公司的應用情況,Samza在流處理方面的優勢、新特性以及下一步的規劃。
剖析Linkedln遭遇的Kafka“危機故障”
微服務架構界的“網紅”來了——崛起的Kafka
LinkedIn開源流處理器Samza的應用場景、優勢、新特性與未來規劃
下面這篇文章,集中比較了主流的流處理器的優缺點。
實時流處理框架Storm、Spark Streaming、Samza、Flink,孰優孰劣?!
下面是一些企業自研流處理架構的情況。JMQ是京東自研的消息中間件,InfoQ前后發過兩篇文章來解析他們的中間件情況;另外我們也給出了一系列文章來說明Yelp的數據管道,并且Yelp的數據管道剛剛宣布了開源,大家可在Github上下載閱讀源碼。
京東消息中間件JMQ:架構,與Kafka的對比,主要特性和應用場景
Facebook的實時流處理技術
Yelp的數據管道開源了:ETL已死,實時流技術永生?
Kafka和Twitter新開源的DistributedLog技術對比
機器學習
機器學習經過近年來的強勢生長之后,很快地從一個很少被人關注的技術主題,轉變為被很多人使用的管理工具。其有效性被無數企業成功驗證和應用,為了避免錯失良機,企業需要設計自己的機器學習項目,比如在電商平臺的推薦、排序業務中。在業務的多樣性大的時候企業就需要考慮將機器學習系統平臺化。對于學術界來說,學者們更希望機器學習平臺容易調試、靈活性要強、迭代要快;而對于工業界更看重的是平臺的穩定性強、處理大數據量、容易進行數據整合、高效率、低開發成本等。
我們在大數據雜談上實際上已經積累了不少企業機器學習平臺構建的內容,包括:騰訊的Angel,優點是效率快于Spark幾十倍,支持維度達到十億;另外是阿里巴巴的參數服務器,講述了涉及理念以及在阿里的實際應用;還有第四范式的先知平臺,從系統和工程方面的優化方向,在開發平臺產品時的一些經驗;還有就是TalkingData的Fregata,優點第一是速度快,第二是算法無需調參或者調參相對簡單。
騰訊大數據宣布開源第三代高性能計算平臺Angel:支持十億維度
大規模大數據的有效利用,阿里巴巴參數服務器設計理念與實踐
為什么已有TensorFlow和Spark,第四范式還要開發“先知”平臺?
]輕量級大規模機器學習算法庫Fregata開源:快速,無需調參
下面兩篇文章講的是怎么將深度學習平臺應用到企業生產環境中,這也是大名鼎鼎的兩個平臺:Tensorflow和Deeplearning4j。
如何通過TensorFlow實現深度學習算法并運用到企業實踐中
深度學習在Spark平臺上如何進入生產環境
下面是各公司針對企業的業務利用機器學習來提高產品體驗的一些經驗。依次是Twitter,1號店,攜程,搜狗,達觀數據。最后是一篇總結深度學習全球進展和預測2017的文章。
Twitter機器學習平臺的設計與搭建
1號店11.11:機器排序學習在電商搜索中的實戰
想要愉快入住酒店?缺了它還真不行!
深度學習在搜狗無線搜索廣告中的應用
海量數據挖掘最優解?機器學習!
深度學習:2016年的進展綜述及2017年的預測
用戶畫像
“對企業而言,得用戶者得天下,能夠有一套科學的精準營銷、個性化推薦模型,無疑會促進業務的增長;對開發者而言,用戶畫像也是頻繁被提及的技術,這樣可以根據目標用戶的動機和行為上進行產品設計,遠遠優于為腦中虛構的東西做設計。”
這里有來自去哪兒、TalkingData、FreeWheel、百分點、天云大數據的5篇優質內容教你如何設計精準的用戶畫像產品。
Qunar用戶畫像構建策略及應用實踐
40億移動設備的用戶畫像和標簽架構實踐
廣告平臺中用戶畫像和標注噪聲處理的實踐
百分點蘇海波博士:為什么你做的用戶畫像模型不精準?
用戶畫像不應脫離社會關系,談復雜網絡的關鍵技術和應用實踐
數據驅動
講大數據離不開數據驅動。數據驅動相關案例分別來自鏈家網、諸葛io、LinkedIn和滴滴。
數據驅動在鏈家網搜索優化與推薦策略中的實踐
基于Spark的用戶行為路徑分析的產品化實踐
4億用戶的LinkedIn數據產品設計原則和架構實現
數據驅動管理竟成滴滴獲10億美元投資的最大黑手?
Hadoop
今年1月,Hadoop過上了10歲生日,我也在年初策劃了Hadoop十年的專欄,共約了十篇稿件,Cloudera的陳飚老師的文章在這一年中流傳甚廣,非常值得一看。另外InfoQ將這十篇文章集中到一起,做成了《架構師特刊:Hadoop十年回顧》的電子書分享給了大家,有興趣可以下載下來讀一讀,將對Hadoop生態形成非常好的理解。在這里再次對十位作者老師表示謝意,謝謝大家的無私分享!
深度 | 資深架構師教你一篇文看懂Hadoop
《架構師特刊:Hadoop十年回顧》迷你書免費下載
Apache Spark
在2016年,Spark迎來了最近兩年的一個最大的版本的發布:Spark 2.0。但是在Spark上我做的工作并不夠,原本很想做個很好的專題,但是屢屢碰壁之后只能罷了,畢竟對于Spark開發者來說,這么大熱的一年,任何實踐都足夠上沙龍和大會。
關鍵七步,用Apache Spark構建實時分析Dashboard
Spark在GrowingIO數據無埋點全量采集場景下的實踐
是時候了解一些Spark生態系統中的圖數據分析知識了
以Python為例,教你Spark 應用開發
Apache Kyline
Bay的大數據OLAP框架Kylin項目一經開源,即獲得了業界眾多的稱贊,并被邀請加入Apache軟件基金會的孵化項目,在2014年11月,正式經投票加入了Apache大家庭,項目名字也改成了“Apache Kylin”。
InfoQ在Kylin開源的一開始就持續關注這個項目,分享了很多的案例,促進了Kylin社區的進一步發展。這些內容我們也集中到了電子書中:《架構師特刊:Apache Kylin實踐》。
Apache Kylin發布新版流處理引擎
使用超大規模數據分析技術支持大數據預測
Apache Kylin在電信運營商的實踐和案例分享
Apache Kylin在美團數十億數據OLAP場景下的實踐
漲姿勢:百度地圖的工程師都是如何利用Apache Kylin處理數據的
Apache Kylin企業實踐,電子書免費下載!
Druid
Druid作為一個大數據的OLAP系統,在這一年里收獲了很多的關注。國內也有了Druid中文社區,組織了好幾次Druid Meetup。
PB級數據快速聚合查詢,Druid和Caravel在去哪兒大住宿的實踐
驅動海量大數據實時多維分析,優酷為什么會選擇Druid?
推薦系統
推薦系統部分有百分點、京東、達觀數據的企業實踐,也有解說播客和博客的推薦系統原理和實踐的文章。還有一篇最新的推薦系統進展,Youtube的大規模推薦系統。
最后也同樣奉上兩本電子書:《推薦系統:理論篇》和《推薦系統:實踐篇》。
百分點億級個性化推薦系統的發展歷程和實踐架構
京東618智能賣場:個性化技術在大促會場上的實踐
推薦系統實踐與優化
如何基于用戶歷史行為進行精準個性化推薦
三周時間,搭建一個產品級的播客podcast推薦系統實踐解析
博客推薦系統:防過載又創價值
用一個大家都懂的方式來聊聊YouTube基于深度神經網絡的推薦系統
想抓住用戶的心思?《推薦系統(理論篇)》免費電子書下載!
架構師必讀:《推薦系統(實踐)》免費電子書下載!
大數據平臺與數據挖掘實踐
數據平臺部分積攢的內容也非常多:攜程、去哪兒、百分點、諸葛io、騰訊、挖財、有贊、鏈家網、美團、卷皮、達觀數據和明略數據。
攜程大數據實時風控的架構及實踐
去哪兒網支付系統架構演進
如何針對技術和業務人員痛點,搭建標準智能數據平臺?
大數據平臺變革浪潮中,這家初創公司積累的值得借鑒的業務架構實踐經驗
騰訊億級排行榜系統實踐及挑戰
挖財基于大數據的信貸審批系統實踐
用Elasticsearch構建電商搜索平臺,一個極有代表性的基礎技術架構和算法實踐案例
房源推薦、房屋估價、經紀人畫像...,鏈家如何利用數據挖掘技術服務房地產?
攜程基于Storm的實時大數據平臺實踐
美團大數據平臺架構實踐 [ 文章 + 視頻 ]
從搭臺到唱戲,電商卷皮BI的實踐演進和架構體系
從Storm到Heron,Twitter的實時計算框架有哪些重大進化?
如何建立完整可用的安全大數據平臺
達觀數據分析平臺架構和Hive實踐
一線專家談談:數據挖掘在實際領域中的那些事兒
這5種必知的大數據處理框架技術,你的項目到底應該使用其中的哪幾種
數據庫
大數據少不了數據存儲,推薦大家再看看第一篇黃東旭老師的開源數據庫現狀。
一篇文章,掌握所有開源數據庫的現狀
如何在不增加投入的情況下讓你的數據庫快上200倍
GPU高速查詢統計和典型場景:從“小時”到“毫秒”級的進化
一文掌握云數據庫現狀與前沿技術
怎樣打造一個分布式數據庫 | 數據庫功能深度解析
MongoDB在58同城百億量級數據下的應用實踐
10億級流數據交互查詢,為什么拋棄MySQL選擇VoltDB?
優酷土豆的Redis服務平臺化之路
分布式MySQL集群方案,看看京東是怎么做的
知識圖譜
LinkedIn知識圖譜的構建與實踐
企業級大數據知識圖譜產品構建與應用