亚洲精品美女久久久久网站,日本不卡一区二区三区在线观看,成人欧美一区二区三区视频不卡

開篇：寫給致力于大數據技術發展的志同道合者

責任編輯：jackye

2016-08-31 09:14:52

我們是星環科技的大數據研發部門，是國內專注于大數據平臺技術研發的團隊，大數據領域平均工作經驗超過3年，一支有技術理想的團隊。

寫在開頭，我們是誰?

我們是星環科技的大數據研發部門，是國內專注于大數據平臺技術研發的團隊，大數據領域平均工作經驗超過3年，一支有技術理想的團隊。

為什么我們要創建大數據開放實驗室的公眾號?

1. 復雜的大數據技術棧

提到大數據，很多人可能都聽說過4V - Big Volume, Big Velocity, Big Variety, Big Value，大數據從業人員的工作內容也都和這4個V中的某些內容密切相關。

相比較傳統的數據庫技術，大數據的技術棧在過去幾年取得非常迅速的發展，尤其是Hadoop和Spark已經構建了一個龐大的技術生態圈。

文件系統方面，除了傳統的行式存儲，還有新的列式存儲格式如ORC，Parquet，以及一些新型的用SSD或者內存加速的存儲，如Transwarp Holodesk以及Tachyon。此外，還有Ceph等新型文件系統。

在文件系統之上，各種存儲引擎也迅速發展，如NoSQL類的HBase，MongoDB，CouchDB，它們在一些大數據場景下表現的非常出色(如高并發，文檔存儲等)，而放棄另外一些特性，如事務和SQL支持;不過近年也涌現出一些新的NoSQL存儲引擎，重新拾起來SQL和事務，如VoltDB，CockroachDB，以及Transwarp Hyperbase。

計算引擎的發展更是日新月異，可以按照批處理/交互式/流式/迭代式做個大體的分類。批處理引擎在大數據領域發展的最快，MapReduce，Spark，Tez等已在大規模商用;交互式分析引擎的代表有Dremel，Presto，Impala等，目前還處于未能完全證明商用能力，但是在快速發展并且驗證的階段;流式引擎這兩年發展很快，Spark Streaming/Flink/Storm/Samza是其中的代表;迭代式引擎有Graphx，Pregel，以及Transwarp Graphene等。

數據分析領域，各種工具更是層出紛紜，如Hive，Mahout，MLlib，R，Kylin等，除了開源技術，我們研發的Transwarp Inceptor是國內經過商業檢驗的比較優秀的大數據分析工具。

數據集成和調度工具也有很多的開源項目涌現出來，如Oozie，Azkaban，Crunch，Sqoop，Flume，Kafka等等。

因為這么復雜的技術棧，以及各種層出不窮的新技術，開發者會面臨著極大的學習成本，以及很困難的選型考量。如何選擇更合適的技術方案，如何做基于大數據的新的應用的開發，如何去管理和運維大數據產品，這是新技術時代的主要問題。因此，我們希望通過大數據開放實驗室，將我們掌握的一些技術/原理等傳播給讀者，分享我們的經驗和教訓，共同促進大家對大數據技術的掌握和理解。

2. 曲折反復的發展趨勢

為了處理大數據的4個V，大數據的技術棧變得非常繁雜，同時各個技術的發展趨勢在過去幾年也有一些有意思的變化。如MPP并行計算和分布式批處理計算的方向上分分合合，低延時計算架構的演變，以及NoSQL數據庫的演進路線。

傳統的并行數據庫(如MPP架構)和基于MapReduce/Spark的分布式批處理的計算模式，在2010年左右曾經發生過比較激烈的技術方向辯論(http://database.cs.brown.edu/papers/stonebraker-cacm2010.pdf， http://www.cs.princeton.edu/courses/archive/spr11/cos448/web/docs/week10_reading2.pdf )，而后幾年，Cloudera的分析引擎Impala又將Share Nothing 的MPP(Massive Parallel Processing)處理風格引入，分歧的雙方似乎又回到了起點。不過隨著Spark等類似的內存計算引擎的興起以及完善，

MPP的技術又被拋棄，并且涌現出來性能和可擴展性更好的數據分析引擎，如Transwarp Inceptor，Presto以及SparkSQL，分布式批處理又再次和MPP技術方向分道揚鑣。

為了解決Big Velocity，滿足IoT等場景的需求，實時和低延時處理的計算架構在快速的發展過程中，如何處理批處理和交互式分析之間的平衡，也不斷推進這計算架構的演進。最經典的莫過于Lambda架構，同時也是使用比較廣泛的架構;此外Twitter的SummingBird支持以批處理或者流處理模式，或者混合模式以統一的方式來執行代碼，也是個比較新穎的架構。

NoSQL數據庫發展也非常有意思，早期因為傳統數據庫處理速度慢，事務過于復雜，SQL編譯過重等原因，不能滿足很多場景的需求，各種NoSQL數據庫快速發展起來，如HBase，Cassandra，MongoDB等，API編程開始流行。然而隨著時間推移，各個NoSQL數據庫發現了API編程的缺陷以及功能缺失導致的適用場景首先，又開始走回SQL之路，如Cassandra和MongoDB;此外，不支持事務的架構又不能保證2~3年后是否會因為不滿足業務需求而過時，也是NoSQL數據庫的一個隱憂。因此，圖靈獎得主大神Michael Stonebraker預測NoSQL數據庫最終將和SQL數據庫融合：SQL數據庫們通過增加對非結構化數據的處理，如JSON的支持來提升業務場景的可適應性;而NoSQL數據庫則開始加入SQL的支持和分布式事務(參見Michael Stonebraker的演講 “What Does ‘Big Data’ Mean and Who Will Win?”)。在這點上，Transwarp Hyperbase早已經開始了這個技術融合，基本完成了SQL支持/分布式事務以及非結構化數據處理能力的打造。

技術的發展趨勢往往不是那么一往無前，而是一直不停的迭代，然后論證，然后互相影響，并可能出現一些方向上的變化。大數據技術也同樣如此，對于從業人員來說，在設計一個新系統的時候往往需要考慮到今后一定時間的發展趨勢，并接合著業務來推進系統的演進。這也是我們創建開發實驗室的第二個原因：與廣大從業人員一起對大數據發展的歷史故事進行梳理，分析對未來技術的趨勢的看法，然后在細分領域尋求突破，以更好的適應這個大數據時代。

3. 星環大數據技術的布道者

星環專注于大數據技術超過3年，目前Transwarp Data Hub包含4個組件來分別解決大數據的4-V技術問題。Inceptor解決了Big Volume上的ETL和Analytics的問題，Stream針對Big Velocity提供了基于SQL的解決方案，Hyperbase融合了對結構化數據和非結構化數據的處理能力，從而可以滿足Big Variety的需要，Discover幫助用戶來挖掘出big data里面的Big Value。

TDH走的是非開源路線，因此在技術傳播上沒有開源項目對大眾影響深遠。我們認為技術的共享不應該有邊界，因此希望通過這個公眾平臺，將我們研發的有意思的功能，模型，方案等新技術，通過比較合理的方式與外界共享，并通過這個平臺構建一個積極反饋的閉環。

我們的愿景

以技術之名，做一個有價值的大數據技術深度分享的平臺;

以原創為主，做一個有深度的創新思維的技術社區;

歡迎有技術理想的朋友們加入我們。

關于大數據開放實驗室

大數據開放實驗室是一個豐富的大數據學習和大數據資訊平臺，由行業內頂尖大數據公司星環科技運營，每周都會放送一定數量的博文干貨，小到各種大數據技術掃盲貼，大到各種大數據前沿技術分析文，另外還有一些大數據熱門產品的內部窺探，大數據未來的發展動向等一系列非常具有市場參考價值的文章。除此之外，大數據開放實驗室也是一個大數據技術交流和分享的圈子，用戶可以在該公眾號留言，提出自己的想法或問題，屆時會有管理員進行回答，后期甚至會有詳細的針對該問題或想法的博文放送，歡迎關注“大數據開放實驗室”。

關注公眾號“大數據開放實驗室”，獲取最新技術干貨。