中文字幕精品亚洲无线码二区,国产三级一区二区,国产成人综合网在线观看

創業公司應該如何開展大數據團隊建設工作？

責任編輯：editor005

作者：公子義

2016-04-06 14:23:09

摘自：簡書

巧妙善用互聯網上的大數據, 小型創業團隊就可以為自己快速積攢早期創業所需的資源,從而降低創業成本,提高收益率。認識用戶行為，找到相似用戶，基于內容興趣進行用戶畫像;根據用戶對內容上的喜好更好地進行CDN的預分發。

大數據之所以能稱得上一個時代，來自于整個社會的集體狂歡。數據源于各行各業，這場變革帶來的機遇自然蘊藏于各行各業之中。緊盯這個市場等待機遇的，無所謂IT巨頭或是初創企業，無所謂團隊規模是大是小。

大數據

　　大數據能為企業帶來什么?

更多的訂單，更低的成本，更快捷的管理，更新的業務模式。

巧妙善用互聯網上的大數據, 小型創業團隊就可以為自己快速積攢早期創業所需的資源,從而降低創業成本,提高收益率。

然而我們卻看到，在每輪技術變革中中小企業都是被最后照顧到的。在這場新變革的席卷下，我們不禁又要問小團隊，你的大數據在哪里?

誠然，缺技術、缺人才、缺數據等種種現實，都將小團隊置身于水深火熱之中。那么大數據時代的小團隊還有機會嗎?

公子義從事9年的大數據的研究，結合自身的實踐經驗，為大家仔細剖析面對種種問題下的小團隊該如何做好技術選型，及如何權衡面臨的大數據成用成本和數據隱私擔憂。

小團隊的大數據都有哪些挑戰?

近幾年，以Hadoop生態為代表的數據基礎設施發展很快，給大數據技術的易用性提供了很大改善，也使技術門檻降低很多。在公子義看來，小團隊在大數據方面的挑戰主要表現為人才短缺和數據來源。為了應對這兩個問題，小團隊必須要在業務上下功夫，依據核心的業務形態，深入挖掘自身數據。

　　數據應該如何挖掘呢?

具體應該怎么做呢?公子義以視頻用戶數據舉例。雖然用戶在觀看視頻的過程中，沒有太多的互動過程，但還是可以挖掘出價值非常大的高頻數據。基于用戶的拖拽、回看這樣同一份數據，我們可以做到的可以有很多：

挖掘到不同用戶對視頻內容的High點，幫助視頻的內容運營和內容創作找到用戶興趣點;

認識用戶行為，找到相似用戶，基于內容興趣進行用戶畫像;根據用戶對內容上的喜好更好地進行CDN的預分發。根據用戶行為做視頻推薦

某種意義上說，視頻推薦比商品推薦更容易。視頻作為用戶相對高頻的行為，意味著我們能抓取到用戶更多的行為數據，對用戶的喜好反映更全面;從應用場景的角度來說，用戶對于商品是否購買可能是一個很大的決定，而看不看視頻相對決定很小，決定錯誤的損失也很小。在進行視頻內容分析時，由于視頻文本挖掘的維度偏少，因此進行文本分析的價值不大。

　　通過數據挖掘分析用戶的屬性，洞察消費者!

因此，同一技術在不同的業務領域上的重視程度，和起到的作用是不一樣的。小團隊由于自身技術能力和專業人才資源都有限，一定要更加細致地了解自己的業務形態，最大程度利用已有數據。

案例研究：深圳指微科技數據工場大數據平臺架構

深圳指微科技目前除了發展自己的公司，還投資了很多生態鏈企業。隨著業務的快速增長，業務產生的數據量突飛猛漲。大家都知道，數據越集中，利用價值越大，由此深圳指微科技數據工場應運而生。

深圳指微科技數據工場主要承擔著為全公司各團隊及生態鏈建設，提供數據采集、計算、存儲等基礎能力，以及機器學習、挖掘的工具和方法的任務。除了底層的能力，數據工場也為公司及生態鏈企業提供一些具體的基礎數據服務，利用風控和額度評估、廣告精準投放、限時搶購時用數據打擊黃牛等等。通過數據工場提供的數據能力，企業不僅能夠對業務進行數據分析，也實實在在將數據應用到核心業務場景中。

深圳指微科技數據工場主要的工作是管理數據、元數據、數據權限，以及管理大量的計算。公子義認為把數據存下來不是目的，而是要通過計算運用到各個業務領域中。生態鏈的業務場景豐富，因此整個計算體系是紛繁復雜的。

　　運用好大數據才是最終的目的

為了更好適應未來的需求，深圳指微科技數據工場圍繞Hadoop生態構建底層基礎平臺。慮到擴展性，數據工場天生基于Scala設計成分布式架構。由于小米及其生態鏈企業業務場景豐富，因此在技術選型方面全生態都會涉及，如消息流、批處理、實時計算等技術都需要用到，HBase、Hive、Spark、Storm 、Impala都在不同的場景下使用。

利用Docker解決異構和資源問題：為了管理好這些紛繁的計算框架和模型，在計算的執行方面，小米使用Docker來解決對環境的不同需求和異構問題，并且與Hive、Impala、Spark這些不同的計算模型都進行了對接，去適配不同應用場景計算不同數據的模型。另外，在不同業務場景下，同一個計算邏輯也可以選用不同的計算模型，Docker 的使用也避免了資源的浪費。比如一個計算任務每天凌晨運行，為了追求吞吐量，可以放到Hive里跑;還是同樣一個計算模型，現在就要跑，可以不用更改，就放到Impala里運行。

小團隊的大數據敏捷之路

選擇熱門的技術：小公司的時間耽誤不起。選擇熱門的、常用的、經過大公司驗證的技術，一是少踩坑，二是常用的技術人才相對好找。

按需使用，不要規劃得太大。傳統BI進行數據分析時通常會建立一個大而全的模型，再根據業務需求進行調整。但小團隊的業務發展很快，因此在初期不要規劃得太大，而是根據業務需要，細分業務場景，在每個小場景里構建小的數據模型，分析用戶就建用戶模match型，分析產品用簡單的產品模型。

　　根據用戶群體建立最為簡單的數據模型

另外，小團隊要考慮到自己的應用場景是以分析型為主，還是應用型為主，之后再進行相關的技術選型，如Hive、Impala 、Presto等;而如果是以業務型為主，就要具體結合自身業務和技術能力綜合來看。在數據量不是非常大的情況下，沒必要選擇HBase這樣集群的存儲方案，有許多產品可以替代。比如MySQL這類傳統數據庫能支持的數據規模也不小。根據計算要求和數據規模綜合來選，不是超高量的不需要選太大規模的技術選型。

選擇便捷、靈活和易于管理的技術。大公司在技術和系統使用上首先考慮的是集群的利用率和吞吐量，而小公司則要從便捷、靈活和易于管理的維度來考慮。

存儲方面：建議使用以HDFS為主的存儲，因為很多計算的工具所使用的存儲都建立在它之上。對于業務未來的迅速發展，有比較好的兼容性;

計算方面：建議在選用常用的基礎設施之外，具體計算用戶交互時使用易于使用的技術：

HUE：基于web，在進行Hive 查詢時可以直接在平臺上完成，使用門檻更低;

Presto ：適應數據源多，可以連接各種各樣的數據源做計算和數據分析。由于業務數據和用戶的行為數據時分開的。使用Presto這種連接器型的分析工具時，有分析能力的人就可以直接使用這種工具，我們不需要將不同的數據還要ETL導入到一起，后續還要做加工處理，只需要在物理打通就可以。

　　在平時的工作需要重視數據的積累!

重視數據積累：小團隊在前期積累數據時，一定要多花點兒功夫，不要偷懶，把數據盡可能采集全、采集準。千萬不要等用到什么數據才去找數據，一旦發現你需要的數據之前沒積累;或是積累的是錯的;或是沒有對數據進行標識，沒辦法區分這是哪個用戶，陷入邏輯孤島，都會非常麻煩。

比如我們需要采集用戶在看一篇文章時的數據。這時我們應該將采集的維度考慮得更多，至少從用戶本身的維度、文章內容、上下文關系、用互交互事件這四個維度上考慮。采集的數據可能包括文章分類、標題、內容ID、當前該文章熱度、用戶獲取文章的渠道等等。這會讓我們更全面地了解用戶的喜好，也將用戶的路徑分析的很清楚。

哪怕未來不知道怎么用，采集更多更全的數據一定會對應用產生價值。在存儲成本較低的現狀下，多采集數據帶來的代價并不大。真正昂貴的其實是計算，而一旦沒有數據，代價將會更大。