精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據業界動態 → 正文

那些年我們遇到過的Hadoop問題

責任編輯:editor005 作者:jeff |來源:企業網D1Net  2015-01-15 13:35:27 本文摘自:平民大數據

我們的Hadoop版本經歷過0.20.X、1.0.3、2.3.0 ,在我手上經歷過的主要是1.0.3 和2.3.0的版本,這期間遇到過一些問題,有些是經驗不足導致,有些是不按規范操作引起的,有些是版本自身bug,正因為經歷了這些問題才豐富了自身經 驗,今天簡單介紹一下這兩年多我們遇到過的問題,希望對你能有一些借鑒。

---------------hadoop1.0.3-----------------

fsimage文件損壞 2012年9月,hadoop集群跨機房遷移,新機房供電不穩,突然掉電(只出現過這一次)導致namenode的fsimage文件損壞,啟動namenode失敗。想通過secondNamenode還原上個小時的fsimage,發現secondnamenode已經3天不work了,禍不單行。后面沒辦法只能分析調試源碼,發現是hdfs目錄樹中有葉子目錄找不到父節點,導致namenode啟動報錯,之后通過本地程序調試將游離的葉子刪除,正常加載。故障從下午4點持續到晚上10點。驚心動魄!體會:越忙會越亂,越出狀況要越冷靜!

userlog 用戶作業打印了大量system.out,導致磁盤頻繁報警。解決方案:通過配置user.log.limit限制每個task的標準輸出大小。

公平調度器 新集群統一采用了jdk1.7版本,jdk1.7默認的排序算法為timsort,如果用戶同時提交兩個資源使用差不多的作業,公平調度無法比較這兩個作業的優先級,直接進入死循環判斷,導致調度器不work。解決方案:將jobtraker的jdk 降回1.6。有興趣的同學可以自行去研究下timsort算法。

jobTraker堆棧溢出 在hadoop 1.0中jobTraker 默認會在內存中保留歷史作業,有兩個條件:1.保留24小時,2.單用戶保留最新的100個。第一次出現這種情況時比較緊張,啥都沒看直接重啟(后面變聰明遇到新情況都會注意先備份現場,再緊急恢復,以備后續分析)。之后基本是隔一個月出現一次故障。在沒找到具體原因前,我們出了個策略,通知用戶每月集群會例行維護一次,每次維護會提前一周通知。通過稍微降低服務質量來換取解決難題的時間。這個方法其實是非常有效的,特別是對一個技術儲備、人力資源不足的團隊。相同的手法我們在日志平臺運營中也用到過。

上億reduce用戶通過shell提交作業,因參數輸入錯位導致設置了1億個reduce,直接把JobTraker搞掛。解決方案:限制每個作業能提交的最大task數。

IPV6 因操作系統(centos5.8)支持ipv6,hadoop默認使用了ipv6建立連接,而交換機又不支持ipv6,導致出現大量的連接不能釋放。解決方案:通過配置使其綁定到ipv4 。

HADOOP_OPTS=-Djava.net.preferIPv4Stack=true

關鍵字:Hadoop調度器

本文摘自:平民大數據

x 那些年我們遇到過的Hadoop問題 掃一掃
分享本文到朋友圈
當前位置:大數據業界動態 → 正文

那些年我們遇到過的Hadoop問題

責任編輯:editor005 作者:jeff |來源:企業網D1Net  2015-01-15 13:35:27 本文摘自:平民大數據

我們的Hadoop版本經歷過0.20.X、1.0.3、2.3.0 ,在我手上經歷過的主要是1.0.3 和2.3.0的版本,這期間遇到過一些問題,有些是經驗不足導致,有些是不按規范操作引起的,有些是版本自身bug,正因為經歷了這些問題才豐富了自身經 驗,今天簡單介紹一下這兩年多我們遇到過的問題,希望對你能有一些借鑒。

---------------hadoop1.0.3-----------------

fsimage文件損壞 2012年9月,hadoop集群跨機房遷移,新機房供電不穩,突然掉電(只出現過這一次)導致namenode的fsimage文件損壞,啟動namenode失敗。想通過secondNamenode還原上個小時的fsimage,發現secondnamenode已經3天不work了,禍不單行。后面沒辦法只能分析調試源碼,發現是hdfs目錄樹中有葉子目錄找不到父節點,導致namenode啟動報錯,之后通過本地程序調試將游離的葉子刪除,正常加載。故障從下午4點持續到晚上10點。驚心動魄!體會:越忙會越亂,越出狀況要越冷靜!

userlog 用戶作業打印了大量system.out,導致磁盤頻繁報警。解決方案:通過配置user.log.limit限制每個task的標準輸出大小。

公平調度器 新集群統一采用了jdk1.7版本,jdk1.7默認的排序算法為timsort,如果用戶同時提交兩個資源使用差不多的作業,公平調度無法比較這兩個作業的優先級,直接進入死循環判斷,導致調度器不work。解決方案:將jobtraker的jdk 降回1.6。有興趣的同學可以自行去研究下timsort算法。

jobTraker堆棧溢出 在hadoop 1.0中jobTraker 默認會在內存中保留歷史作業,有兩個條件:1.保留24小時,2.單用戶保留最新的100個。第一次出現這種情況時比較緊張,啥都沒看直接重啟(后面變聰明遇到新情況都會注意先備份現場,再緊急恢復,以備后續分析)。之后基本是隔一個月出現一次故障。在沒找到具體原因前,我們出了個策略,通知用戶每月集群會例行維護一次,每次維護會提前一周通知。通過稍微降低服務質量來換取解決難題的時間。這個方法其實是非常有效的,特別是對一個技術儲備、人力資源不足的團隊。相同的手法我們在日志平臺運營中也用到過。

上億reduce用戶通過shell提交作業,因參數輸入錯位導致設置了1億個reduce,直接把JobTraker搞掛。解決方案:限制每個作業能提交的最大task數。

IPV6 因操作系統(centos5.8)支持ipv6,hadoop默認使用了ipv6建立連接,而交換機又不支持ipv6,導致出現大量的連接不能釋放。解決方案:通過配置使其綁定到ipv4 。

HADOOP_OPTS=-Djava.net.preferIPv4Stack=true

關鍵字:Hadoop調度器

本文摘自:平民大數據

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 武鸣县| 伽师县| 桐梓县| 科尔| 改则县| 马龙县| 龙江县| 格尔木市| 赣州市| 万盛区| 南木林县| 华坪县| 宣威市| 兴宁市| 扶沟县| 炎陵县| 怀集县| 庆元县| 张家川| 陆川县| 晋城| 南宁市| 嘉兴市| 冕宁县| 遂昌县| 田林县| 汾阳市| 津市市| 伊宁县| 宁武县| 新乡市| 舞钢市| 金堂县| 云阳县| 南安市| 乌兰浩特市| 电白县| 营口市| 洪江市| 江阴市| 晴隆县|