天天在线精品视频在线观看,天天在线精品视频在线观看,欧美日韩综合在线视频免费看

思明軟件大數據技術平臺打造歷程和Impala實戰(zhàn)分享

責任編輯：editor006

2014-11-13 17:04:55

摘自：CSDN

在采訪思明數據劉誠忠的過程中，他表示當下大數據領域企業(yè)級市場靠技術壟斷獲取高額利潤的玩法已經過時了，技術的成本會不斷降低，這是大勢所趨，這個市場的巨頭會出現在技術很好，但服務更好的公司里。劉誠忠：客戶首先關心我面臨的數據如何發(fā)揮價值

在采訪思明數據劉誠忠的過程中，他表示當下大數據領域企業(yè)級市場靠技術壟斷獲取高額利潤的玩法已經過時了，技術的成本會不斷降低，這是大勢所趨，這個市場的巨頭會出現在技術很好，但服務更好的公司里。而站在用戶的角度，用戶們首先關心的是如何讓數據發(fā)揮價值，然后才是這套解決方案依賴何種技術，是否能快速應用，是否能適應后面可能的擴展，相對技術來說第一點是更難的。

事實上今天的企業(yè)客戶，特別在大數據技術領域，更需要的是長期的合作伙伴。他們不只需要購買技術密集的產品，還需要和大數據的技術專家一起研究如何讓數據發(fā)揮出價值，利用技術公司的豐富經驗跟企業(yè)現有的業(yè)務進行碰撞，一起探討新的數據應用場景，這是客戶最需要的，也是思明數據最擅長的。下一步才是考慮使用何種技術方案的問題。一個經驗豐富的大數據公司不只是處理大數據，應該能幫助企業(yè)客戶發(fā)現數據、帶來數據、進而整合出合理的數據模型，然后再考慮展現，最后反映到企業(yè)的日常決策中，形成運營-數據-決策的良性閉環(huán)。

思明數據走的是擁抱開源但堅持自主研發(fā)的路線，他們在提供產品的同時也提供解決方案。為了和各大發(fā)行版兼容，思明的大數據基礎平臺保持完全的標準化和開放性，在平臺方面主要是bug fix的跟蹤和patch跟蹤，解決各個組件的依賴問題，發(fā)布穩(wěn)定的，驗證可用的大數據平臺版本。針對思明軟件大數據技術平臺的具體打造歷程，我們采訪了思明軟件技術經理劉誠忠，以下是采訪實錄。

　　思明軟件技術經理劉誠忠

思明數據的團隊、定位、優(yōu)勢

CSDN：首先介紹下自己和思明數據，目前的技術團隊情況如何？

劉誠忠：我2008年畢業(yè)于北航計算機系，在VMware中國研發(fā)工作4年，做網絡虛擬化和虛擬機在線遷移優(yōu)化的工作，接下來在國內領先的廣告技術公司秒針系統負責分布式系統的設計實現，目前在思明數據擔任研發(fā)經理，負責大數據技術平臺方面的研發(fā)工作。思明數據是新興的一家本土大數據技術公司，我們的核心技術團隊基本上都是計算機，數學和信息學背景，90%以上都是清華、北大、北航、北郵、中科大、CMU這些海內外名校畢業(yè)，可以說是國內大數據技術人才密度最高的公司。

CSDN：目前企業(yè)級的大數據應用、實施和分析領域，國內外的市場態(tài)勢如何？思明數據在其中的定位是怎么樣的？具備哪些獨特的優(yōu)勢？

劉誠忠：傳統數據應用分析這塊，基本是IBM、HP、Oracle等國際軟件巨頭的天下，這些先基于單機然后再擴展的方案，都是性能優(yōu)先于擴展性的解決方案，而且各家都是閉源的技術封閉形成技術壟斷，因此在過去的幾十年里賺走很大利潤。我們當前面臨的這次技術升級，是來自于整個社會電子化以后信息的爆炸，導致可利用的需要處理的數據量暴增，而傳統體系架構并沒有發(fā)生革命性的根本變化，比如量子計算機，具備擴展性的方案基本還是X86的天下，通過線性擴展去應付增長的數據，這給來自Google的內部實踐然后由雅虎的一些工程師參考設計最后流行起來的Hadoop技術路線一個蓬勃發(fā)展的機會。

基本上新興的大數據解決方案，都建立在一個相對簡單廉價的分布式文件系統（HDFS）基礎上，圍繞大數據移動成本極高的關鍵點來設計，通過架構獲得性能優(yōu)勢和擴展性，相對于傳統方案來說，這具有更好的擴展性和更低的成本。當然傳統的軟件廠商也在努力去適應這個技術潮流，有的公司會把原有產品和Hadoop這些工具整合打通比如Oracle，有的會和Hadoop商業(yè)發(fā)行版進行合作一起打造整體解決方案比如EMC和MapR合作，所以總的來說在當前企業(yè)級大數據應用分析特別是交互式分析這塊，還是傳統商業(yè)軟件轉型和新興的基于開源標準的商業(yè)產品PK的態(tài)勢。但是值得注意的是，基于Hadoop社區(qū)的整個產品族趨勢已經形成，這個路線已經是勢不可擋了，這意味著很難再重新做一套Hadoop這樣底層基礎架構的東西并且獲得大家的認可支持，阿里的技術團隊能把Oceanbase這么多年堅持做下來是個奇跡，我個人對此抱有敬意。

思明數據走的是擁抱開源但堅持自主研發(fā)的路線，我們提供產品的同時也提供解決方案。思明的大數據基礎平臺會保持完全的標準化和開放性，這是為了和各大發(fā)行版兼容，在平臺方面我們主要是bug fix的跟蹤和patch跟蹤，解決各個組件的依賴問題，發(fā)布穩(wěn)定的，驗證可用的大數據平臺版本。在此基礎上，我們一方面提供企業(yè)級使用必備的功能組件，包括運維管理、任務管理、用戶審計、訪問安全、權限控制、實時分析引擎等核心組件，另一方面開發(fā)豐富的上層應用，我們的實時分析引擎是國內首家整合了MPP和迭代計算的混合引擎，屏蔽下面各種組件的復雜性，向上層應用提供一致性的SQL接口；數據挖掘平臺致力于讓普通業(yè)務人員也能夠輕松創(chuàng)建和訓練模型，讓業(yè)務人員輕松轉型數據科學家；可視化展現平臺能夠讓客戶快速創(chuàng)建基于HTML5的類似數據魔方這樣的報表工具，直觀感受數據的威力；數據工廠則擁有業(yè)內領先的大數據實時增量同步的功能。總的來說，思明立足于扎實的技術功底提供標準化的平臺搭建，又有強大的上層應用開發(fā)能力，幫助客戶發(fā)揮數據的價值。

附圖：思明大數據產品圖示：

　　用戶最關心的是什么

CSDN：思明數據的用戶分布如何，有沒有一些重量級的客戶？

劉誠忠：我們服務過的用戶已經覆蓋了金融、零售、通信等多個領域，典型的客戶比如中國銀聯、郵政儲蓄銀行、CCTV、中國聯通、國家統計局、蘇寧云商、國美在線、貴州電網等等，這些客戶都有一個共同點，就是他們有豐富的數據，迫切需要從這些數據中提煉信息，進一步引導決策。一般來說客戶分為兩類，一類是單純的企業(yè)信息架構的技術升級，我們會提供大數據技術平臺產品，幫助企業(yè)進行升級；另一類是面臨新的數據驅動的業(yè)務，需要信息技術支撐，我們會從業(yè)務入手，搭建整套解決方案。因此，思明數據可以說是國內為數不多的，既能夠提供基礎的大數據平臺，又能夠提供與業(yè)務密切相關的上層大數據應用的，最完整的大數據整體解決方案提供商。

CSDN：站在客戶的角度，最關心的問題有哪些？你們如何應對？

劉誠忠：客戶首先關心我面臨的數據如何發(fā)揮價值，然后才是這套解決方案依賴何種技術，是否能快速應用，是否能適應后面可能的擴展。相對技術來說第一點是更難的，這要求和業(yè)務方緊密合作，思明的技術團隊植根于數據挖掘應用領域多年，有豐富的經驗幫助企業(yè)做各種數據驅動的業(yè)務提升，事實上今天的企業(yè)客戶是不希望一個公司只賣產品的，特別在新興技術領域，思明更愿意做的是長期的企業(yè)合作伙伴，我們的技術專家會和業(yè)務方坐在一起長達數月，討論研究出如何讓數據發(fā)揮出價值，用我們的經驗跟客戶已有的業(yè)務進行碰撞，一起探討一些新的數據應用場景，這是我們最擅長的，也是在我們看來客戶最需要的。

第二點才是采用何種技術方案，比如如何搭建底層存儲計算的大數據基礎平臺，但這還只是一個基礎性的設施，這對真正企業(yè)的解決方案來說，只是一部分。大數據技術要在客戶那里落地，有無數隱形成本，需要考慮包括ETL、運維管理、權限審計、業(yè)務應用、可視化展現等諸多環(huán)節(jié)，思明數據是國內目前對大數據提供解決方案最完整的技術公司，我們的產品覆蓋了從數據遷移，數據基礎平臺到數據挖掘應用，數據展現的全棧，這樣的好處是能夠保證最大的一致性對客戶服務，降低交付成本，以最敏捷的方式讓客戶迅速得到業(yè)務提升。

思明軟件大數據技術平臺打造歷程

CSDN：能否分享下思明軟件大數據技術平臺的打造歷程？

劉誠忠：經驗很多，教訓更多，整個技術團隊基本都是踩著坑過來的，像我是從秒針系統過來，也有從Ebay、百度、酷我這些互聯網公司過來的同事。拿我自己來說，我和我的團隊在2012年開始基于PostgreSQL9.1（pg）做一款分布式數據庫集群，采用分區(qū)的一些水平擴展常用方式，用10臺機器實現了秒級查詢TB級別數據的目標，當時團隊就3個人，主要精力花在元數據庫的設計，數據如何高效的分表導入集群，以及利用文件系統的已有機制便捷的實現一個任務工作流，但是對SQL的解析這塊非常弱，幾乎只能跑最簡單的SQL，因此使用范圍很有限。

不過我們后來在2013年把Cloudera Impala進行了hack，使用Impala作為pg集群的引擎，得到了很好的SQL覆蓋面和不輸于Impala的性能。在2012年底開始，我們用C++基于pg, rabbitmq消息隊列自己設計實現了一套分布式存儲計算平臺，這個軟件里的各個模塊充斥著各種程序員喜歡的名字比如Amoeba之類，上線后運行至今，處理每天秒針對全網幾十億廣告曝光點擊的海量統計日志，分別出實時報表和每天的批處理報表，現在看來這個架構類似于混合的Storm和Hadoop。

當時一個清華畢業(yè)的工程師用一個模板類非常精簡的實現了Map和Reduce原語，然后我們搭建了核心的批處理模塊，再基于此開發(fā)消息隊列流轉經過的各個運算模塊，最后使用PostgreSQL數據庫作為結果匯總，類似這樣的經驗還有好幾次，2012年的時候我們使用KFS的集群已經上百臺，很多問題KFS開發(fā)團隊都沒遇到過，只能自己維護一個版本。我們當時一直在自主開發(fā)這些系統，也一直在關注Hadoop社區(qū)的進展，同時做各種嘗試和性能對比，對Hadoop的穩(wěn)定性和可調試性一直都不太滿意，直到Hadoop2.0出來后，我們認為開源標準這邊的趨勢已經形成，才放心的開始切換到使用Hadoop的路線，于是技術團隊又開心的在Hadoop社區(qū)的產品族里做各種嘗試。

總的來說，我們技術團隊的大多數人有比較類似的教訓，那就是大數據基礎技術的研發(fā)成本是很高的，大家各自為戰(zhàn)去開發(fā)這些復雜度非常高的系統是一件非常不劃算的事情，在目前開源技術成熟的情況下，緊密結合主流的標準技術是一種對未來負責任的做法，也是更為安全的方案，有個例子是當時Hive出來時對SQL支持很不完善，開源社區(qū)有很多人自己開發(fā)parser去支持更好的SQL語法，但是這些項目2013年后大部分都停了，因為后面Hive0.12，0.13沖得很快趕了上來，大家發(fā)現使用標準的Hive更容易和整個生態(tài)圈的產品協同合作，于是又紛紛轉了回來。在我看來，開源就類似于三體里的安全聲明，對某一個細分的技術方向發(fā)出號召，大家一起來打造優(yōu)質的東西，而不是互相不知情各自為戰(zhàn)，這樣的組織方式帶來的好處就是大大降低了后面技術升級時被淘汰的風險。

所以對思明而言，我們提供企業(yè)服務，客戶在上線這樣大規(guī)模的信息架構系統面臨什么風險是我們的第一考慮要素，吃了這么多年閉源商業(yè)軟件的虧，客戶都明白不能被鎖在某一個廠商的平臺上，如果要換其他平臺應該能夠無縫的切換過去，這就要求我們對客戶盡量提供業(yè)界標準的通用技術架構，我們的自主研發(fā)產品都是以添加功能的方式放入這個平臺而不是侵入性很強的修改方式，保證整體的移植性不受影響，這樣就有利于客戶后面的技術升級，降低風險。

本文導讀

第1頁：【先鋒】思明軟件大數據技術平臺打造歷程和Impala實戰(zhàn)分享

第2頁：思明軟件大數據技術平臺打造歷程和Impala實戰(zhàn)分享

[page]

Impala實踐經驗分享

CSDN：你是Impala實踐領域的大牛，在Impala的使用上有哪些分享給大家的？

劉誠忠：我們只是實踐者，Cloudera Impala有很好的代碼質量，是不錯的SQL引擎學習資料，最好的學習就是去hack，這是在VMware工作時我的經理何英女士灌輸的理念。Impala目前還是一個半開放的狀態(tài)，因為核心團隊對代碼質量要的很高，并不希望很多人參與一起開發(fā)，所以雖然是開源，但并沒有形成大的社區(qū)，至今交流也主要是Mail List和Google Group，這對于希望在這基礎上做二次開發(fā)的技術人員很不方便，比如應該給出更完整的測試集和bug跟蹤。也是因為這個原因，雖然在國外很多商業(yè)公司生產環(huán)境中得到使用，但是并沒有什么很大的聲音發(fā)出來。總的來說，Impala是經過驗證的成熟的SQL on Hadoop引擎，適合企業(yè)做大數據的交互式分析，使用Cloudera發(fā)行版的企業(yè)，應該能放心的使用，我們嘗試過把Impala跑在標準的Apache社區(qū)版上，問題也不大，主要是注意下幾個組件之間版本的依賴問題。另外相比于Apache Drill、Shark on Spark、 Facebook Presto這些方案，Impala的成熟度是最高的。

我們在2013年時做的工作是把Impala修改為一個兼容Hadoop和傳統數據庫的混合引擎，當時的需求是數據雖然在分布式系統里，但有一個表在MySql里需要實時更新，而有的查詢是要聯合這個表來查，當時找不到現成的方案（我們現在會傾向把這樣的表放入HBase），只好嘗試在Impala里面加入這部分功能，后來去BDTC2013分享的時候發(fā)現巨杉的同學們也在做類似的工作，原因是他們銀行的客戶有這樣的數據孤島，想和數據倉庫的內容一致性的去查。

想要和大家多分享的一點是按照我們的經驗做基于MPP方案的分布式數據庫集群是沒有前途的，除非數據類型很單一且穩(wěn)定，原因在于大數據背景下ETL的成本很高，一個簡單統一，適應冗余和噪聲的分布式文件系統是必需的，這方面數據庫基于schema有天然的劣勢，不適合作為大數據的基礎存儲支撐，所以我不看好基于傳統數據庫去做擴展這條路，這不是一個正確的方向，往下走只會指數級消耗更多的成本。另外引擎這邊經常看到Shark on Spark和Impala在做一些比較，我們都自己驗證過，簡單來說單用戶性能差別不大，并發(fā)上來了Impala基本上是完勝，尤其是在16-256的并發(fā)數下，再多的并發(fā)我們沒有測過，這個結果和Cloudera官方的結果基本一致，隨著并發(fā)上升，Impala的查詢時間幾乎是線性增長，這是很好的表現。

當然現在的情況來說，Shark后面將要被今年7月份新出的Spark SQL取代，我們也在持續(xù)關注，因為Hive本質上是在把SQL往Map Reduce(MR)翻譯，但和Hive綁定緊密的Shark其實是要把SQL往Spark上的RDD運算翻譯，這導致很多工程上的trade off很難維護，Spark SQL會作為更純粹的基于Spark的SQL引擎往下走。另外對Hive本身的優(yōu)化像Apache Tez也在逐漸成熟，著重從最大限度減少I/O的角度去優(yōu)化從簡MR本身的執(zhí)行流程，最新的Hive0.13已經包含了這部分功能，因此實際上Hive現在的性能已經在慢慢趕上來了。正是考慮到這些技術進步的速度和空間，在服務客戶時，我們一般不會刻意引導客戶采用某一種引擎，這往往是不明智的，因為具體查詢情況要根據實際查詢的數據集特點和執(zhí)行樹的復雜度來考慮，我們一般做法是提供給客戶混合的查詢引擎，可以自適應的選擇MPP的方式或者是迭代計算的方式。

社區(qū)里還有很多Spark和Impala的比較，我不認為有什么好比的，Spark是更精細的Map Reduce計算框架，因為使用設計良好的迭代方式，能夠適應較為復雜的執(zhí)行流程，特別是多趟Map Reduce的執(zhí)行流程。對SQL on Hadoop來說，絕大多數SQL查詢還是比較簡單的數據執(zhí)行流程，從MR框架的角度看，往往只有很少甚至一個Reducer，對于這種類型的任務，使用基于MPP的方式是很自然的，就好像你當然可以使用一把不錯的菜刀做各種廚房工作，但是在切水果時你還是會希望手里有一把水果刀。Spark在復雜計算方面前途無量，這和Cloudera的目標——使用Impala進行交互式的SQL查詢并不矛盾。思明不會在某一種技術上下注，我們更關注客戶實際需求，解決實際問題。

巨頭=技術+服務

CSDN：目前大數據分析和應用領域最大的挑戰(zhàn)有哪些？能否談談大數據分析行業(yè)未來的一些發(fā)展？

劉誠忠：首先企業(yè)級市場靠技術壟斷獲取高額利潤的玩法已經過時了，這是肯定的，技術的成本會不斷降低，這是大勢所趨，這個市場的巨頭會出現在技術很好但服務更好的公司里。我覺得目前最大的挑戰(zhàn)還是落地，對于企業(yè)來說有一套技術領先的平臺是遠遠不夠的，這個不是技術問題。一個經驗豐富的大數據公司不只是處理大數據，應該能幫助企業(yè)客戶發(fā)現數據、帶來數據、進而整合出合理的數據模型，然后再考慮展現，最后反映到企業(yè)的日常決策中，形成運營-數據-決策的良性閉環(huán)，這是一個系統工程。

在未來幾年，這個行業(yè)會很快細分，在每一個領域都會出現2-3家專注于一小塊的公司，專業(yè)的大數據咨詢公司會很快出現，產業(yè)鏈的上下游都會有公司去做，就好像現在硅谷的情況一樣。在面向消費者的領域，國內的IT公司已經走到了全世界的最前面，接下來該輪到面向企業(yè)的領域了。最后想說的是我們是一家非常年輕有沖勁的公司，有豐富的大數據落地經驗，是一家技術主導但又很接地氣的公司。我們還在創(chuàng)業(yè)早期，經常需要同時負責研發(fā)，項目和售前工作，所以希望每個人都是以一敵百的精英，歡迎有共同理想的，對自己有信心的高手加入我們，一起打造本土最好的大數據技術公司。

序號	公司名稱	成立時間	CEO/CTO	官方微博	公司產品/方向
中國創(chuàng)新“先鋒”企業(yè)系列報道
1.	云適配	2012年	陳本峰		網站適配
2.	友友	2010年	姚宏宇	@友友微博	C、C++、Java產品研發(fā)
3.	聚合數據	2010年	左磊	@聚合數據	移動數據服務
4.	Anchora	2009年	魯為民		MoPaaS和InPaaS
5.	夠快	2012年	蔣爍淼	@夠快科技	云存儲
6.	文思海輝	2012年	吳凱	@文思海輝	OpenStack公有云
7.	搜狐云	2011年	邱英波		SendCloud
8.	聯想云存儲	2009年	羅予晉		云存儲
9.	南京訊之智	2012年	謝晚霞		大數據實時分析
10.	上海圣何賽	2012年	金劍		云管理、云存儲
11.	國云科技	2010年	季統凱	@國云科技	云操作系統
12.	SSO365	2012年	趙健		云安全、云身份認證
13.	ClouDil云方案	2001年	葉濱	@世紀鼎利	通信運營商
14.	多備份	2013年	胡茂華	@木浪	云備份
15.	上海越誠軟件	2011年	王煒		基于云的建站軟件超市
16.	云智慧	2009年	殷晉	@監(jiān)控寶	云監(jiān)控、基于大數據APM
17.	深圳澤云	2012年	何巨彬		高性能存儲系統
18.	深圳智冠	2004年	盧慧莉		手靜脈生物識別、虛擬化
19.	北京沃安科技	2009年	曹學武	@沃安科技	移動視頻技術提供商
20.	星環(huán)信息科技	2013年	孫元浩	@星環(huán)科技	大數據分析平臺
21.	杭州數云	2011年	宣曉華	@杭州數云	數據挖掘
22.	紅象云騰	2012年	童小軍	@RedHadoop	基于Hadoop的大數據平臺
23.	APICloud	2013年	鄒達	@APICloud	云API和端API
24.	SequoiaDB	2012年	王濤	@SequoiaDB	大數據、云計算、NoSQL
25.	Syscloud	2012年	張雄國		云主機、云托管、虛擬數據中心
26.	易思捷	2008年	楊炳富	@易思捷虛擬化和云計算	數據中心，虛擬化
27.	親加通訊云	2011年	須澤中	@親加通訊云	通訊云
28.	OneAPM	2008年	何曉陽	@藍海訊通OneAPM	基于SaaS平臺的APM
29.	TalkingData	2011年	崔曉波	@Talkingdata	移動大數據平臺
30.	北森	2002年	紀偉國	@北森官方微博	基于互聯網人才管理軟件
31.	聽云	2007年	Wood Chen	@聽云	基于SaaS的APM
32.	萬國數據	2000年	黃偉	@萬國數據	基于世界級數據中心高可用IT服務提供商
33.	思明軟件	2013年	馮是聰	@思明軟件	大數據分析

備注：2014年11月13日更新，持續(xù)更新中......

備注：云先鋒系列文章是由CSDN云計算頻道打造的，主要報道（免費）國內外在云計算、大數據方面具有獨特競爭優(yōu)勢的企業(yè)，以傳播技術為目的，推動中國云計算技術的發(fā)展，歡迎投稿！[email protected]。

CSDN誠邀您參加中國大數據有獎大調查活動，只需回答23個問題就有機會獲得最高價值2700元的大獎（共10個），速度參與進來吧！

第八屆中國大數據技術大會（Big Data Technology Conference 2014，BDTC 2014）將于2014年12月12日-14日在北京新云南皇冠假日酒店召開。傳承自2008年，歷經七屆沉淀，“中國大數據技術大會”是目前國內最具影響、規(guī)模最大的大數據領域技術盛會。本屆會議，你不僅可以了解到Apache Hadoop提交者Uma Maheswara Rao G（兼項目管理委員會成員）、Yi Liu，以及Apache Hadoop和Tez項目管理委員會成員Bikas Saha等分享的通用大數據開源項目的最新成果和發(fā)展趨勢，還將斬獲來自騰訊、阿里、Cloudera、LinkedIn、網易等機構的數十場干貨分享。

Impala 先鋒迭代計算