應(yīng)用程序,網(wǎng)絡(luò),服務(wù)器,移動設(shè)備以及IT基礎(chǔ)設(shè)施中的其它各類計算機生成了大量的數(shù)據(jù)或者“事件”,這些信息可以被自動記錄到日志文件以供將來參考使用。
許多組織把日志數(shù)據(jù)文件看作是無用的東西,一般都是直接就刪除掉了,或者讓它們隨意留存在服務(wù)器上的某個位置。但是,前Splunk公司高管和聯(lián)合創(chuàng)始人及舊金山Loggly公司CEO Kord Campbell認為,這種狀況一定要改變。
Campbell說,更多的公司(尤其是基于云的軟件供應(yīng)商)越來越對日志數(shù)據(jù)管理和分析感興趣,它可以成為改善應(yīng)用性能和發(fā)現(xiàn)有價值業(yè)務(wù)理解的一種手段。
TechTarget近期電話采訪了Campbell,了解了更多關(guān)于日志文件管理的內(nèi)容。他把他新的SaaS公司稱作是處理機器生成數(shù)據(jù)的搜索引擎。Campbell談到了日志文件的歷史和起源,并解釋了為什么他認為它們是“原始的大數(shù)據(jù)”。下面是談話內(nèi)容的一些節(jié)選:
“日志文件”這個詞從哪里來的呢?
Kord Campbell:回想過去葡萄牙人曾以探險而著稱,大部分探險都是為了尋找新航線,進而能更快速地獲得香料,因為香料就是那個時代的“大數(shù)據(jù)”(如果你愿意這么比方的話),它是每個人都想獲取到手的有價物品。但是,不管他們什么時候出去環(huán)游航線,都會有這樣一個問題:他們真的不知道自己到了什么鬼地方。在你想找某種東西的時候,搞清楚你在哪里這個問題是非常重要的。
確實如此。但是,這與日志文件有什么關(guān)系呢?
Campbell:有一件事情是探險家們經(jīng)常會討論的問題,把樹上的圓木砍下一段,放到船甲板上。然后,他們砍下圓木的一部分碎片把它扔到水里,然后跟蹤看木屑多長時間可以漂浮通過船的長度。這樣做可以幫助他們判斷他們速度有多快,知道你的速度有多快對于知道你處在世界上的哪個位置非常有價值。他們開始做記錄,這就變成了日志薄。后來,到了計算機時代,有人想捕獲某臺計算機上一段時間發(fā)生的事情,就有人建議說“我們可以稱它為日志文件”。
現(xiàn)在比較典型的日志數(shù)據(jù)文件看起來會是什么樣子?
Campbell:日志數(shù)據(jù)文件名副其實是文件中的一堆行信息。它是可以閱讀的文本文件。通常前面會加上日期戳,然后后面是你希望輸入到日志行中的任意文本。有時候我們也把它成為臨時數(shù)據(jù),但是現(xiàn)實中許多時間日志文件是非常結(jié)構(gòu)化的。它們有非常特殊的結(jié)構(gòu),因為是軟件產(chǎn)生的日志文件本身。日志文件有非常廣泛的用途,不同的計算機有許多種不同類型的日志。
我們認為許多公司今天并沒有做太多日志數(shù)據(jù)管理和分析方面的工作,您同意這種說法嗎?
Campbell:確實是這樣。許多公司實際上都沒有日志,但是他們即將開始記錄日志,因為他們將需要為改善他們業(yè)務(wù)的健康狀況而作。當然也有很多公司一直在做日志記錄,尤其是SaaS,PaaS和IaaS類的公司以及那些服務(wù)的用戶。
為什么您把事件日志文件稱為是原始大數(shù)據(jù)呢?
Campbell:日志文件數(shù)據(jù)量是巨大的,通常是非常驚人的數(shù)量。你知道黑莓制造商RIM一天就產(chǎn)生大約38TB的日志文件數(shù)據(jù)嗎?而在線游戲公司Zynga一天產(chǎn)生大約10TB的數(shù)據(jù)。這些公司在接下來幾年里可能會發(fā)展到一天大約100TB的數(shù)據(jù)量,因為他們將宣布向公眾提供產(chǎn)品,希望理解人們?nèi)绾文芨玫厥褂盟麄兊漠a(chǎn)品。他們需要做好日志記錄的準備。現(xiàn)在,他們使用時間大數(shù)據(jù)(全是事件序列數(shù)據(jù)),為了應(yīng)用程序運營管理和決策的正常運行。他們還使用警告提醒和監(jiān)控,以便在出現(xiàn)某些問題的時候他們可以提醒某人。
您可以給我再講一個日志數(shù)據(jù)管理的案例嗎?
Campbell:我總是會問人們他們用日志做什么,因為有數(shù)以百計甚至可能數(shù)以百萬計的日志文件案例。曾經(jīng)與某個人交流發(fā)現(xiàn)他實際上是想對散布在多個地區(qū)的所有風(fēng)力發(fā)電機組記錄日志,記錄設(shè)備運轉(zhuǎn)多快,以及指向了哪個方向。所有從這些計算機中產(chǎn)生的臨時的,非結(jié)構(gòu)化的數(shù)據(jù),有時候也有結(jié)構(gòu)化數(shù)據(jù)都要放到一個位置去。那就是我們要解決的一種問題。我們把所有信息集中放到一個地方,并使得它易于搜索,這樣你就不必去無數(shù)個不同的服務(wù)器查看想想要查看的信息了。