精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

創業公司應該如何開展大數據團隊建設工作?

責任編輯:editor005

作者:公子義

2016-04-06 14:23:09

摘自:簡書

巧妙善用互聯網上的大數據, 小型創業團隊就可以為自己快速積攢早期創業所需的資源,從而降低創業成本,提高收益率。認識用戶行為,找到相似用戶,基于內容興趣進行用戶畫像;根據用戶對內容上的喜好更好地進行CDN的預分發。

大數據之所以能稱得上一個時代,來自于整個社會的集體狂歡。數據源于各行各業,這場變革帶來的機遇自然蘊藏于各行各業之中。緊盯這個市場等待機遇的,無所謂IT巨頭或是初創企業,無所謂團隊規模是大是小。

大數據

  大數據能為企業帶來什么?

更多的訂單,更低的成本,更快捷的管理,更新的業務模式。

巧妙善用互聯網上的大數據, 小型創業團隊就可以為自己快速積攢早期創業所需的資源,從而降低創業成本,提高收益率。

然而我們卻看到,在每輪技術變革中中小企業都是被最后照顧到的。在這場新變革的席卷下,我們不禁又要問小團隊,你的大數據在哪里?

誠然,缺技術、缺人才、缺數據等種種現實,都將小團隊置身于水深火熱之中。那么大數據時代的小團隊還有機會嗎?

公子義從事9年的大數據的研究,結合自身的實踐經驗,為大家仔細剖析面對種種問題下的小團隊該如何做好技術選型,及如何權衡面臨的大數據成用成本和數據隱私擔憂。

小團隊的大數據都有哪些挑戰?

近幾年,以Hadoop生態為代表的數據基礎設施發展很快,給大數據技術的易用性提供了很大改善,也使技術門檻降低很多。在公子義看來,小團隊在大數據方面的挑戰主要表現為人才短缺和數據來源。為了應對這兩個問題,小團隊必須要在業務上下功夫,依據核心的業務形態,深入挖掘自身數據。

  數據應該如何挖掘呢?

具體應該怎么做呢?公子義以視頻用戶數據舉例。雖然用戶在觀看視頻的過程中,沒有太多的互動過程,但還是可以挖掘出價值非常大的高頻數據。基于用戶的拖拽、回看這樣同一份數據,我們可以做到的可以有很多:

挖掘到不同用戶對視頻內容的High點,幫助視頻的內容運營和內容創作找到用戶興趣點;

認識用戶行為,找到相似用戶,基于內容興趣進行用戶畫像;根據用戶對內容上的喜好更好地進行CDN的預分發。根據用戶行為做視頻推薦

某種意義上說,視頻推薦比商品推薦更容易。視頻作為用戶相對高頻的行為,意味著我們能抓取到用戶更多的行為數據,對用戶的喜好反映更全面;從應用場景的角度來說,用戶對于商品是否購買可能是一個很大的決定,而看不看視頻相對決定很小,決定錯誤的損失也很小。在進行視頻內容分析時,由于視頻文本挖掘的維度偏少,因此進行文本分析的價值不大。

  通過數據挖掘分析用戶的屬性,洞察消費者!

因此,同一技術在不同的業務領域上的重視程度,和起到的作用是不一樣的。小團隊由于自身技術能力和專業人才資源都有限,一定要更加細致地了解自己的業務形態,最大程度利用已有數據。

案例研究:深圳指微科技 數據工場大數據平臺架構

深圳指微科技目前除了發展自己的公司,還投資了很多生態鏈企業。隨著業務的快速增長,業務產生的數據量突飛猛漲。大家都知道,數據越集中,利用價值越大,由此深圳指微科技數據工場應運而生。

深圳指微科技數據工場主要承擔著為全公司各團隊及生態鏈建設,提供數據采集、計算、存儲等基礎能力,以及機器學習、挖掘的工具和方法的任務。除了底層的能力,數據工場也為公司及生態鏈企業提供一些具體的基礎數據服務,利用風控和額度評估、廣告精準投放、限時搶購時用數據打擊黃牛等等。通過數據工場提供的數據能力,企業不僅能夠對業務進行數據分析,也實實在在將數據應用到核心業務場景中。

深圳指微科技數據工場主要的工作是管理數據、元數據、數據權限,以及管理大量的計算。公子義認為把數據存下來不是目的,而是要通過計算運用到各個業務領域中。生態鏈的業務場景豐富,因此整個計算體系是紛繁復雜的。

  運用好大數據才是最終的目的

為了更好適應未來的需求,深圳指微科技數據工場圍繞Hadoop生態構建底層基礎平臺。慮到擴展性,數據工場天生基于Scala設計成分布式架構。由于小米及其生態鏈企業業務場景豐富,因此在技術選型方面全生態都會涉及,如消息流、批處理、實時計算等技術都需要用到,HBase、Hive、Spark、Storm 、Impala都在不同的場景下使用。

利用Docker解決異構和資源問題: 為了管理好這些紛繁的計算框架和模型,在計算的執行方面,小米使用Docker來解決對環境的不同需求和異構問題,并且與Hive、Impala、Spark這些不同的計算模型都進行了對接,去適配不同應用場景計算不同數據的模型。另外,在不同業務場景下,同一個計算邏輯也可以選用不同的計算模型,Docker 的使用也避免了資源的浪費。比如一個計算任務每天凌晨運行,為了追求吞吐量,可以放到Hive里跑;還是同樣一個計算模型,現在就要跑,可以不用更改,就放到Impala里運行。

小團隊的大數據敏捷之路

選擇熱門的技術: 小公司的時間耽誤不起。選擇熱門的、常用的、經過大公司驗證的技術,一是少踩坑,二是常用的技術人才相對好找。

按需使用,不要規劃得太大。 傳統BI進行數據分析時通常會建立一個大而全的模型,再根據業務需求進行調整。但小團隊的業務發展很快,因此在初期不要規劃得太大,而是根據業務需要,細分業務場景,在每個小場景里構建小的數據模型,分析用戶就建用戶模match型,分析產品用簡單的產品模型。

  根據用戶群體建立最為簡單的數據模型

另外,小團隊要考慮到自己的應用場景是以分析型為主,還是應用型為主,之后再進行相關的技術選型,如Hive、Impala 、Presto等;而如果是以業務型為主,就要具體結合自身業務和技術能力綜合來看。在數據量不是非常大的情況下,沒必要選擇HBase這樣集群的存儲方案,有許多產品可以替代。比如MySQL這類傳統數據庫能支持的數據規模也不小。根據計算要求和數據規模綜合來選,不是超高量的不需要選太大規模的技術選型。

選擇便捷、靈活和易于管理的技術。 大公司在技術和系統使用上首先考慮的是集群的利用率和吞吐量,而小公司則要從便捷、靈活和易于管理的維度來考慮。

存儲方面: 建議使用以HDFS為主的存儲,因為很多計算的工具所使用的存儲都建立在它之上。對于業務未來的迅速發展,有比較好的兼容性;

計算方面: 建議在選用常用的基礎設施之外,具體計算用戶交互時使用易于使用的技術:

HUE:基于web,在進行Hive 查詢時可以直接在平臺上完成,使用門檻更低;

Presto :適應數據源多,可以連接各種各樣的數據源做計算和數據分析。由于業務數據和用戶的行為數據時分開的。使用Presto這種連接器型的分析工具時,有分析能力的人就可以直接使用這種工具,我們不需要將不同的數據還要ETL導入到一起,后續還要做加工處理,只需要在物理打通就可以。

  在平時的工作需要重視數據的積累!

重視數據積累: 小團隊在前期積累數據時,一定要多花點兒功夫,不要偷懶,把數據盡可能采集全、采集準。千萬不要等用到什么數據才去找數據,一旦發現你需要的數據之前沒積累;或是積累的是錯的;或是沒有對數據進行標識,沒辦法區分這是哪個用戶,陷入邏輯孤島,都會非常麻煩。

比如我們需要采集用戶在看一篇文章時的數據。這時我們應該將采集的維度考慮得更多,至少從用戶本身的維度、文章內容、上下文關系、用互交互事件這四個維度上考慮。采集的數據可能包括文章分類、標題、內容ID、當前該文章熱度、用戶獲取文章的渠道等等。這會讓我們更全面地了解用戶的喜好,也將用戶的路徑分析的很清楚。

哪怕未來不知道怎么用,采集更多更全的數據一定會對應用產生價值。在存儲成本較低的現狀下,多采集數據帶來的代價并不大。真正昂貴的其實是計算,而一旦沒有數據,代價將會更大。

  通過數據為公司創造價值才是小公司的最終的出發點

對于創業公司來說,在更短的時間內創造更大的價值,是企業得以存活的根本。大數據是工具,了解大數據的作用,結合業務的真實場據,滿足用戶需求,大數據才能真的幫得上你。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 洱源县| 锡林郭勒盟| 东兰县| 枣强县| 商都县| 和田市| 滕州市| 会同县| 丁青县| 鲁甸县| 龙里县| 驻马店市| 华池县| 鄢陵县| 平阳县| 当雄县| 施秉县| 濉溪县| 青龙| 龙南县| 裕民县| 衢州市| 宁乡县| 竹山县| 新疆| 油尖旺区| 兴宁市| 彭山县| 双桥区| 犍为县| 南澳县| 灵璧县| 虎林市| 奇台县| 郸城县| 铜鼓县| 离岛区| 阜新市| 威海市| 远安县| 桃江县|