在使用大數(shù)據(jù)(Big Data)的實(shí)際應(yīng)用場景中,記錄檔是一個(gè)很重要的資料來源。相比其他資料來源,記錄資訊總在源源不斷的產(chǎn)生中,不論是系統(tǒng)或代碼中設(shè)定好的觸發(fā)/生成機(jī)制,還是系統(tǒng)(例如 Web Server、Database Server等)配置自動(dòng)生成的記錄,甚至包括了系統(tǒng)或應(yīng)用執(zhí)行發(fā)生異常或錯(cuò)誤的情況,例如,SQL Server Azure VM上AlwaysOn高可用(HA)方案的運(yùn)行狀態(tài)相關(guān)的記錄。
而記錄檔裡所潛藏的價(jià)值也正被大數(shù)據(jù)技術(shù)所挖掘,透過對于記錄檔一些基礎(chǔ)資料的統(tǒng)計(jì)、挖掘及分析,可以進(jìn)一步獲得很多非常有用的資訊,例如,對網(wǎng)站記錄的分析,可以獲得頁面的點(diǎn)擊的情況、外部訪問的情況、用戶端/服務(wù)端錯(cuò)誤的情況等,從而進(jìn)一步分析網(wǎng)頁運(yùn)行的流暢度、使用率分佈、訪問者行為等。
在 Azure 中提供了 HDInsight 云端服務(wù)來説明大家進(jìn)行大數(shù)據(jù)開發(fā)工作,可以把相關(guān)資料檔案存儲在 Azure Storage 中,然后利用 HDinsight 節(jié)點(diǎn)來對這些資料進(jìn)行分析。
在 Azure HDInsight 的查詢控制臺(Query Console)中,最近提供了一些輔助性的解決方案,其中就包括了如何快速、簡捷地建立記錄檔分析的應(yīng)用。如下圖可在 HDInsight 服務(wù)頁面的底部進(jìn)入查詢控制臺:
在查詢控制臺可以看到一些解決方案的樣例,就包括了對 Azure WebSites 記錄檔分析的解決方案,見下圖:
在搭建和運(yùn)行 Azure WebSites 網(wǎng)站時(shí),需要對記錄選項(xiàng)進(jìn)行配置,確??梢愿鶕?jù)需要保留網(wǎng)站的運(yùn)行記錄資訊,如下圖:
在查詢控制臺的記錄分析解決方案中,提供了 step-by-step 的執(zhí)行嚮導(dǎo),并提供了詳細(xì)的解釋資訊,便于大家瞭解其中相關(guān)的技術(shù)細(xì)節(jié)。如下圖:
其中,關(guān)鍵步驟包括了基于記錄檔的資料結(jié)構(gòu),建立 Hive 的表及分區(qū),如下圖,解決方案中列出了具體建立過程的語句:
解決方案提供了一些常見的分析,并提供了樣例程式,可以基于這些代碼進(jìn)行修改,滿足自己的需要。
執(zhí)行結(jié)果可以通過 Excel 來展現(xiàn),并可以利用大家熟悉的工具,例如 PivotChart,來做進(jìn)一步分析。
此外,還可以通過查詢控制臺,查看任務(wù)的輸出及執(zhí)行的Log。