精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

開篇:寫給致力于大數據技術發展的志同道合者

責任編輯:jackye

2016-08-31 09:14:52

我們是星環科技的大數據研發部門,是國內專注于大數據平臺技術研發的團隊,大數據領域平均工作經驗超過3年,一支有技術理想的團隊。

寫在開頭,我們是誰?

我們是星環科技的大數據研發部門,是國內專注于大數據平臺技術研發的團隊,大數據領域平均工作經驗超過3年,一支有技術理想的團隊。

為什么我們要創建大數據開放實驗室的公眾號?

1. 復雜的大數據技術棧

提到大數據,很多人可能都聽說過4V - Big Volume, Big Velocity, Big Variety, Big Value,大數據從業人員的工作內容也都和這4個V中的某些內容密切相關。

相比較傳統的數據庫技術,大數據的技術棧在過去幾年取得非常迅速的發展,尤其是Hadoop和Spark已經構建了一個龐大的技術生態圈。

文件系統方面,除了傳統的行式存儲,還有新的列式存儲格式如ORC,Parquet,以及一些新型的用SSD或者內存加速的存儲,如Transwarp Holodesk以及Tachyon。此外,還有Ceph等新型文件系統。

在文件系統之上,各種存儲引擎也迅速發展,如NoSQL類的HBase,MongoDB,CouchDB,它們在一些大數據場景下表現的非常出色(如高并發,文檔存儲等),而放棄另外一些特性,如事務和SQL支持;不過近年也涌現出一些新的NoSQL存儲引擎,重新拾起來SQL和事務,如VoltDB,CockroachDB,以及Transwarp Hyperbase。

計算引擎的發展更是日新月異,可以按照批處理/交互式/流式/迭代式做個大體的分類。批處理引擎在大數據領域發展的最快,MapReduce,Spark,Tez等已在大規模商用;交互式分析引擎的代表有Dremel,Presto,Impala等,目前還處于未能完全證明商用能力,但是在快速發展并且驗證的階段;流式引擎這兩年發展很快,Spark Streaming/Flink/Storm/Samza是其中的代表;迭代式引擎有Graphx,Pregel,以及Transwarp Graphene等。

數據分析領域,各種工具更是層出紛紜,如Hive,Mahout,MLlib,R,Kylin等,除了開源技術,我們研發的Transwarp Inceptor是國內經過商業檢驗的比較優秀的大數據分析工具。

數據集成和調度工具也有很多的開源項目涌現出來,如Oozie,Azkaban,Crunch,Sqoop,Flume,Kafka等等。

因為這么復雜的技術棧,以及各種層出不窮的新技術,開發者會面臨著極大的學習成本,以及很困難的選型考量。如何選擇更合適的技術方案,如何做基于大數據的新的應用的開發,如何去管理和運維大數據產品,這是新技術時代的主要問題。因此,我們希望通過大數據開放實驗室,將我們掌握的一些技術/原理等傳播給讀者,分享我們的經驗和教訓,共同促進大家對大數據技術的掌握和理解。

2. 曲折反復的發展趨勢

為了處理大數據的4個V,大數據的技術棧變得非常繁雜,同時各個技術的發展趨勢在過去幾年也有一些有意思的變化。如MPP并行計算和分布式批處理計算的方向上分分合合,低延時計算架構的演變,以及NoSQL數據庫的演進路線。

傳統的并行數據庫(如MPP架構)和基于MapReduce/Spark的分布式批處理的計算模式,在2010年左右曾經發生過比較激烈的技術方向辯論(http://database.cs.brown.edu/papers/stonebraker-cacm2010.pdf, http://www.cs.princeton.edu/courses/archive/spr11/cos448/web/docs/week10_reading2.pdf ),而后幾年,Cloudera的分析引擎Impala又將Share Nothing 的MPP(Massive Parallel Processing)處理風格引入,分歧的雙方似乎又回到了起點。不過隨著Spark等類似的內存計算引擎的興起以及完善,

MPP的技術又被拋棄,并且涌現出來性能和可擴展性更好的數據分析引擎,如Transwarp Inceptor,Presto以及SparkSQL,分布式批處理又再次和MPP技術方向分道揚鑣。

為了解決Big Velocity,滿足IoT等場景的需求,實時和低延時處理的計算架構在快速的發展過程中,如何處理批處理和交互式分析之間的平衡,也不斷推進這計算架構的演進。最經典的莫過于Lambda架構,同時也是使用比較廣泛的架構;此外Twitter的SummingBird支持以批處理或者流處理模式,或者混合模式以統一的方式來執行代碼,也是個比較新穎的架構。

NoSQL數據庫發展也非常有意思,早期因為傳統數據庫處理速度慢,事務過于復雜,SQL編譯過重等原因,不能滿足很多場景的需求,各種NoSQL數據庫快速發展起來,如HBase,Cassandra,MongoDB等,API編程開始流行。然而隨著時間推移,各個NoSQL數據庫發現了API編程的缺陷以及功能缺失導致的適用場景首先,又開始走回SQL之路,如Cassandra和MongoDB;此外,不支持事務的架構又不能保證2~3年后是否會因為不滿足業務需求而過時,也是NoSQL數據庫的一個隱憂。因此,圖靈獎得主大神Michael Stonebraker預測NoSQL數據庫最終將和SQL數據庫融合:SQL數據庫們通過增加對非結構化數據的處理,如JSON的支持來提升業務場景的可適應性;而NoSQL數據庫則開始加入SQL的支持和分布式事務(參見Michael Stonebraker的演講 “What Does ‘Big Data’ Mean and Who Will Win?”)。 在這點上,Transwarp Hyperbase早已經開始了這個技術融合,基本完成了SQL支持/分布式事務以及非結構化數據處理能力的打造。

技術的發展趨勢往往不是那么一往無前,而是一直不停的迭代,然后論證,然后互相影響,并可能出現一些方向上的變化。大數據技術也同樣如此,對于從業人員來說,在設計一個新系統的時候往往需要考慮到今后一定時間的發展趨勢,并接合著業務來推進系統的演進。這也是我們創建開發實驗室的第二個原因:與廣大從業人員一起對大數據發展的歷史故事進行梳理,分析對未來技術的趨勢的看法,然后在細分領域尋求突破,以更好的適應這個大數據時代。

3. 星環大數據技術的布道者

星環專注于大數據技術超過3年,目前Transwarp Data Hub包含4個組件來分別解決大數據的4-V技術問題。Inceptor解決了Big Volume上的ETL和Analytics的問題,Stream針對Big Velocity提供了基于SQL的解決方案,Hyperbase融合了對結構化數據和非結構化數據的處理能力,從而可以滿足Big Variety的需要,Discover幫助用戶來挖掘出big data里面的Big Value。

TDH走的是非開源路線,因此在技術傳播上沒有開源項目對大眾影響深遠。我們認為技術的共享不應該有邊界,因此希望通過這個公眾平臺,將我們研發的有意思的功能,模型,方案等新技術,通過比較合理的方式與外界共享,并通過這個平臺構建一個積極反饋的閉環。

我們的愿景

以技術之名,做一個有價值的大數據技術深度分享的平臺;

以原創為主,做一個有深度的創新思維的技術社區;

歡迎有技術理想的朋友們加入我們。

關于大數據開放實驗室

大數據開放實驗室是一個豐富的大數據學習和大數據資訊平臺,由行業內頂尖大數據公司星環科技運營,每周都會放送一定數量的博文干貨,小到各種大數據技術掃盲貼,大到各種大數據前沿技術分析文,另外還有一些大數據熱門產品的內部窺探,大數據未來的發展動向等一系列非常具有市場參考價值的文章。除此之外,大數據開放實驗室也是一個大數據技術交流和分享的圈子,用戶可以在該公眾號留言,提出自己的想法或問題,屆時會有管理員進行回答,后期甚至會有詳細的針對該問題或想法的博文放送,歡迎關注“大數據開放實驗室”。

關注公眾號“大數據開放實驗室”,獲取最新技術干貨。


鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 台安县| 孙吴县| 萍乡市| 蒙阴县| 淅川县| 盐边县| 昌宁县| 阿荣旗| 合山市| 五常市| 齐齐哈尔市| 三明市| 太谷县| 奇台县| 郎溪县| 会理县| 崇州市| 鄄城县| 长白| 湛江市| 宣城市| 蒲江县| 海兴县| 郧西县| 文昌市| 疏附县| 阳高县| 玉山县| 邛崃市| 荥经县| 温宿县| 墨竹工卡县| 侯马市| 广宗县| 泸水县| 长泰县| 大竹县| 太原市| 县级市| 衡水市| 泗水县|