概觀

指標是 Hadoop 程式公開的統計資訊,用於監控、效能調整和除錯。預設情況下有許多指標可用,對於進行疑難排解非常有用。此頁面顯示可用指標的詳細資料。

每個區段描述指標分組的每個內容。

Metrics 2.0 架構的文件 在此

jvm 內容

JvmMetrics

每個指標記錄包含標籤,例如 ProcessName、SessionID 和 Hostname,以及指標的其他資訊。

名稱 說明
MemNonHeapUsedM 目前使用的非堆疊記憶體 (MB)
MemNonHeapCommittedM 目前已提交的非堆疊記憶體 (MB)
MemNonHeapMaxM 最大非堆疊記憶體大小 (MB)
MemHeapUsedM 目前使用的堆疊記憶體 (MB)
MemHeapCommittedM 目前已提交的堆疊記憶體 (MB)
MemHeapMaxM 最大堆疊記憶體大小 (MB)
MemMaxM 最大記憶體大小 (MB)
ThreadsNew 目前 NEW 執行緒數目
ThreadsRunnable 目前 RUNNABLE 執行緒數目
ThreadsBlocked 目前 BLOCKED 執行緒數目
ThreadsWaiting 目前 WAITING 執行緒數目
ThreadsTimedWaiting 目前 TIMED_WAITING 執行緒數目
ThreadsTerminated 目前 TERMINATED 執行緒數目
GcInfo 總計 GC 次數和 GC 時間 (毫秒),依據 GC 類型分組。 例如) GcCountPS Scavenge=6、GCTimeMillisPS Scavenge=40、GCCountPS MarkSweep=0、GCTimeMillisPS MarkSweep=0
GcCount 總計 GC 次數
GcTimeMillis 總計 GC 時間 (毫秒)
LogFatal 總計 FATAL 記錄數目
LogError 總計 ERROR 記錄數目
LogWarn 總計 WARN 記錄數目
LogInfo 總計 INFO 記錄數目
GcNumWarnThresholdExceeded 超過 GC 警告閾值的次數
GcNumInfoThresholdExceeded 超過 GC 資訊閾值的次數
GcTotalExtraSleepTime 總計 GC 額外睡眠時間 (毫秒)
GcTimePercentage 如果將 dfs.namenode.gc.time.monitor.enable 設為 true,則 JVM 在觀察視窗中花費在 GC 暫停的時間百分比 (0..100)。使用 dfs.namenode.gc.time.monitor.sleep.interval.ms 指定睡眠間隔 (毫秒)。使用 dfs.namenode.gc.time.monitor.observation.window.ms 指定觀察視窗 (毫秒)。

rpc context

rpc

每個指標記錄包含標籤,例如 Hostname 和埠號 (伺服器繫結的號碼),以及指標的其他資訊。rpc.metrics.timeunit 組態可用於設定 RPC 指標的時間單位。RPC 指標使用的預設時間單位為毫秒 (根據以下說明)。

名稱 說明
ReceivedBytes 接收的總位元組數目
已傳送位元組 已傳送位元組總數
RpcQueueTimeNumOps RPC 呼叫總數
RpcQueueTimeAvgTime 平均佇列時間(毫秒)
RpcLockWaitTimeNumOps RPC 呼叫總數(與 RpcQueueTimeNumOps 相同)
RpcLockWaitTimeAvgTime 平均鎖定取得等待時間(毫秒)
RpcProcessingTimeNumOps RPC 呼叫總數(與 RpcQueueTimeNumOps 相同)
RpcProcessingAvgTime 平均處理時間(毫秒)
RpcAuthenticationFailures 驗證失敗總數
RpcAuthenticationSuccesses 驗證成功總數
RpcAuthorizationFailures 授權失敗總數
RpcAuthorizationSuccesses 授權成功總數
NumOpenConnections 目前開啟的連線數
CallQueueLength 目前呼叫佇列長度
numDroppedConnections 中斷連線總數
rpcQueueTimenumsNumOps 如果將 rpc.metrics.quantile.enable 設為 true,則顯示 RPC 呼叫總數(num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
rpcQueueTimenums50thPercentileLatency 如果將 rpc.metrics.quantile.enable 設為 true,則顯示 RPC 佇列時間的第 50 個百分位數(num 秒粒度,單位為毫秒)。numrpc.metrics.percentiles.intervals 指定。
rpcQueueTimenums75thPercentileLatency 如果將 rpc.metrics.quantile.enable 設為 true,則顯示 RPC 佇列時間的第 75 個百分位數(num 秒粒度,單位為毫秒)。numrpc.metrics.percentiles.intervals 指定。
rpcQueueTimenums90thPercentileLatency 如果將 rpc.metrics.quantile.enable 設為 true,則顯示 RPC 佇列時間的第 90 個百分位數(num 秒粒度,單位為毫秒)。numrpc.metrics.percentiles.intervals 指定。
rpcQueueTimenums95thPercentileLatency 如果將 rpc.metrics.quantile.enable 設為 true,則顯示 RPC 佇列時間的第 95 個百分位數(num 秒粒度,單位為毫秒)。numrpc.metrics.percentiles.intervals 指定。
rpcQueueTimenums99thPercentileLatency 如果將 rpc.metrics.quantile.enable 設為 true,則顯示 RPC 佇列時間的第 99 個百分位數(num 秒粒度,單位為毫秒)。numrpc.metrics.percentiles.intervals 指定。
rpcProcessingTimenumsNumOps 如果將 rpc.metrics.quantile.enable 設為 true,則顯示 RPC 呼叫總數(num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
rpcProcessingTimenums50thPercentileLatency 如果 rpc.metrics.quantile.enable 設為 true,則以毫秒為單位顯示 RPC 處理時間的第 50 個百分位數(num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
rpcProcessingTimenums75thPercentileLatency 如果 rpc.metrics.quantile.enable 設為 true,則以毫秒為單位顯示 RPC 處理時間的第 75 個百分位數(num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
rpcProcessingTimenums90thPercentileLatency 如果 rpc.metrics.quantile.enable 設為 true,則以毫秒為單位顯示 RPC 處理時間的第 90 個百分位數(num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
rpcProcessingTimenums95thPercentileLatency 如果 rpc.metrics.quantile.enable 設為 true,則以毫秒為單位顯示 RPC 處理時間的第 95 個百分位數(num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
rpcProcessingTimenums99thPercentileLatency 如果 rpc.metrics.quantile.enable 設為 true,則以毫秒為單位顯示 RPC 處理時間的第 99 個百分位數(num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
rpcLockWaitTimenumsNumOps 如果將 rpc.metrics.quantile.enable 設為 true,則顯示 RPC 呼叫總數(num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
rpcLockWaitTimenums50thPercentileLatency 如果 rpc.metrics.quantile.enable 設為 true,則以毫秒為單位顯示 RPC 鎖定等待時間的第 50 個百分位數(num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
rpcLockWaitTimenums75thPercentileLatency 如果 rpc.metrics.quantile.enable 設為 true,則以毫秒為單位顯示 RPC 鎖定等待時間的第 75 個百分位數(num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
rpcLockWaitTimenums90thPercentileLatency 如果 rpc.metrics.quantile.enable 設為 true,則以毫秒為單位顯示 RPC 鎖定等待時間的第 90 個百分位數(num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
rpcLockWaitTimenums95thPercentileLatency 如果 rpc.metrics.quantile.enable 設為 true,則以毫秒為單位顯示 RPC 鎖定等待時間的第 95 個百分位數(num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
rpcLockWaitTimenums99thPercentileLatency 如果將 rpc.metrics.quantile.enable 設為 true,則顯示以毫秒為單位的 RPC 鎖定等待時間第 99 個百分位數(num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
TotalRequests RPC 伺服器處理的請求總數。
TotalRequestsPerSeconds RPC 伺服器每秒處理的請求總數。

RetryCache/NameNodeRetryCache

RetryCache 指標可協助監控 NameNode 故障轉移。每個指標記錄都包含 Hostname 標籤。

名稱 說明
CacheHit RetryCache 命中總數
CacheCleared RetryCache 清除總數
CacheUpdated RetryCache 更新總數

FairCallQueue

只有在啟用 FairCallQueue 時,FairCallQueue 指標才會存在。每個指標都存在於每個優先順序層級。

名稱 說明
FairCallQueueSize_pPriority 優先順序佇列中的呼叫目前數量
FairCallQueueOverflowedCalls_pPriority 優先順序佇列中溢出的呼叫總數

DecayRpcSchedulerDetailed

只有在使用 DecayRpcScheduler(已啟用 FairCallQueue)時,DecayRpcSchedulerDetailed 指標才會存在。它是 FairCallQueue 指標的附加項目。針對每個優先順序層級,都會公開 rpcqueue 和 rpcprocessing 詳細指標。

名稱 說明
DecayRPCSchedulerPriority.Priority.RpcQueueTime 每個優先順序的 RpcQueueTime 指標
DecayRPCSchedulerPriority.Priority.RpcProcessingTime 每個優先順序的 RpcProcessingTime 指標

rpcdetailed 內容

rpcdetailed 內容的指標會由 RPC 層以統一的方式公開。會針對每個 RPC 公開兩個指標,依據其名稱。名稱為「(RPC 方法名稱)NumOps」的指標表示方法呼叫的總數,而名稱為「(RPC 方法名稱)AvgTime」的指標則顯示方法呼叫的平均執行時間(毫秒)。請注意,AvgTime 指標不包含取得資料結構鎖定時所花的時間(請參閱 RpcLockWaitTimeAvgTime)。

rpcdetailed

每個指標記錄都包含標籤,例如 Hostname 和埠號(伺服器繫結的號碼),作為指標的附加資訊。

未呼叫的 RPC 相關指標未包含在指標記錄中。

名稱 說明
methodnameNumOps 呼叫方法的總次數
methodnameAvgTime 方法的平均執行時間(毫秒)

dfs 內容

namenode

每個指標記錄都包含標籤,例如 ProcessName、SessionId 和 Hostname,作為指標的附加資訊。

名稱 說明
CreateFileOps 建立的檔案總數
FilesCreated 透過建立或 mkdir 作業建立的檔案和目錄總數
FilesAppended 附加的檔案總數
GetBlockLocations getBlockLocations 作業總數
FilesRenamed 重新命名作業的總數(並非重新命名的檔案/目錄數)
GetListingOps 目錄清單作業總數
DeleteFileOps 刪除作業總數
FilesDeleted 透過刪除或重新命名作業刪除的檔案和目錄總數
FileInfoOps getfileInfo 和 getLinkFileInfo 作業總數
AddBlockOps 成功進行的 addBlock 作業總數
GetAdditionalDatanodeOps getAdditionalDatanode 作業總數
CreateSymlinkOps createSymlink 作業總數
GetLinkTargetOps getLinkTarget 作業總數
FilesInGetListingOps 透過目錄清單作業列出的檔案和目錄總數
SuccessfulReReplications 成功的區塊重新複製總數
NumTimesReReplicationNotScheduled 無法排程區塊重新複製的次數
TimeoutReReplications 逾時區塊重新複製的總數
AllowSnapshotOps allowSnapshot 作業總數
DisallowSnapshotOps disallowSnapshot 作業總數
CreateSnapshotOps createSnapshot 作業總數
DeleteSnapshotOps deleteSnapshot 作業總數
RenameSnapshotOps renameSnapshot 作業總數
ListSnapshottableDirOps snapshottableDirectoryStatus 作業總數
SnapshotDiffReportOps getSnapshotDiffReport 作業總數
TransactionsNumOps 記錄交易總數
TransactionsAvgTime 記錄交易的平均時間(毫秒)
SyncsNumOps 記錄同步總數
SyncsAvgTime 記錄同步的平均時間(毫秒)
SyncsTimenums(50/75/90/95/99)thPercentileLatency 以毫秒為單位計算的 Journal 同步時間的第 50/75/90/95/99 個百分位數(num 秒粒度)。預設會關閉百分位數測量,不會觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。
TransactionsBatchedInSync 同步中批次處理的 Journal 交易總數
TransactionsBatchedInSyncnums(50/75/90/95/99)thPercentileCount 批次處理的 Journal 交易數量的第 50/75/90/95/99 個百分位數(num 秒粒度)。預設會關閉百分位數測量,不會觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。
StorageBlockReportNumOps DataNode 中個別儲存處理區塊報告的總數
StorageBlockReportAvgTime 處理區塊報告的平均時間(以毫秒為單位)
StorageBlockReportnums(50/75/90/95/99)thPercentileLatency 區塊報告處理時間的第 50/75/90/95/99 個百分位數(num 秒粒度)。預設會關閉百分位數測量,不會觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。
CacheReportNumOps DataNode 處理快取報告的總數
CacheReportAvgTime 處理快取報告的平均時間(以毫秒為單位)
CacheReportnums(50/75/90/95/99)thPercentileLatency 快取報告處理時間的第 50/75/90/95/99 個百分位數(num 秒粒度)。預設會關閉百分位數測量,不會觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。
SafeModeTime FSNameSystem 啟動與安全模式最後離開之間的時間間隔(以毫秒為單位)。 (有時不等於安全模式中的時間,請參閱 HDFS-5156
FsImageLoadTime 啟動時載入 FS 映像的時間(以毫秒為單位)
GetEditNumOps 從 SecondaryNameNode 下載編輯的總數
GetEditAvgTime 下載編輯的平均時間(以毫秒為單位)
GetImageNumOps 從 SecondaryNameNode 下載 fsimage 的總數
GetImageAvgTime 下載 fsimage 的平均時間(以毫秒為單位)
PutImageNumOps 上傳 fsimage 到 SecondaryNameNode 的總數
PutImageAvgTime 平均 fsimage 上傳時間(毫秒)
TotalFileOps 執行檔案作業的總數
NNStartedTimeInMillis NameNode 啟動時間(毫秒)
GenerateEDEKTimeNumOps 產生 EDEK 的總數
GenerateEDEKTimeAvgTime 產生 EDEK 的平均時間(毫秒)
GenerateEDEKTimenums(50/75/90/95/99)thPercentileLatency 產生 EDEK 所花費時間的第 50/75/90/95/99 個百分位數(num 秒粒度)。百分位數量測預設為關閉,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。
WarmUpEDEKTimeNumOps 暖化 EDEK 的總數
WarmUpEDEKTimeAvgTime 暖化 EDEK 的平均時間(毫秒)
WarmUpEDEKTimenums(50/75/90/95/99)thPercentileLatency 暖化 EDEK 所花費時間的第 50/75/90/95/99 個百分位數(num 秒粒度)。百分位數量測預設為關閉,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。
ResourceCheckTimenums(50/75/90/95/99)thPercentileLatency NameNode 資源檢查延遲的第 50/75/90/95/99 個百分位數(num 秒粒度)。百分位數量測預設為關閉,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。
EditLogTailTimeNumOps 備用 NameNode 執行編輯記錄尾隨的總次數
EditLogTailTimeAvgTime 備用 NameNode 在執行編輯記錄尾隨時所花的平均時間(毫秒)
EditLogTailTimenums(50/75/90/95/99)thPercentileLatency 備用 NameNode 在執行編輯記錄尾隨時所花費時間的第 50/75/90/95/99 個百分位數(num 秒粒度)。百分位數量測預設為關閉,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。
EditLogFetchTimeNumOps 備用 NameNode 從日誌節點擷取遠端編輯串流的總次數
EditLogFetchTimeAvgTime 備用 NameNode 在從日誌節點擷取遠端編輯串流時所花的平均時間(毫秒)
EditLogFetchTimenums(50/75/90/95/99)thPercentileLatency 備用 NameNode 在從日誌節點擷取編輯串流時所花費時間的第 50/75/90/95/99 個百分位數(num 秒粒度)。百分位數量測預設為關閉,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。
NumEditLogLoadedNumOps 備用 NameNode 載入編輯的總次數
NumEditLogLoadedAvgCount 備用 NameNode 在每次編輯記錄尾隨中載入的平均編輯數
NumEditLogLoadednums(50/75/90/95/99)thPercentileCount 備用 NameNode 在每次編輯記錄尾隨中載入的編輯數的第 50/75/90/95/99 個百分位數(num 秒粒度)。百分位數量測預設為關閉,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。
EditLogTailIntervalNumOps 備用 NameNode 在編輯記錄尾隨之間的總區間數
EditLogTailIntervalAvgTime 備用 NameNode 在編輯記錄尾隨之間的平均區間時間(毫秒)
EditLogTailIntervalnums(50/75/90/95/99)thPercentileLatency 備用 NameNode 以毫秒為單位計算編輯記錄尾端之間時間的第 50/75/90/95/99 百分位數(num 秒粒度)。預設關閉百分位數量測,不觀察任何間隔。間隔由 dfs.metrics.percentiles.intervals 指定。
PendingEditsCount 目前待處理編輯的數量

FSNamesystem

每個指標記錄包含標籤,例如 HAState 和 Hostname,作為指標的附加資訊。

名稱 說明
MissingBlocks 目前遺失區塊的數量
ExpiredHeartbeats 過期心跳訊號的總數
TransactionsSinceLastCheckpoint 自上次檢查點以來交易的總數
TransactionsSinceLastLogRoll 自上次編輯記錄轉換以來交易的總數
LastWrittenTransactionId 寫入編輯記錄的最後一個交易 ID
LastCheckpointTime 自上次檢查點以來經過的毫秒數
CapacityTotal 資料節點目前的原始容量(以位元組為單位)
CapacityTotalGB 資料節點目前的原始容量(以 GB 為單位)
CapacityUsed 所有資料節點目前已使用的容量(以位元組為單位)
CapacityUsedGB 所有資料節點目前已使用的容量(以 GB 為單位)
CapacityRemaining 目前剩餘容量(以位元組為單位)
CapacityRemainingGB 目前剩餘容量(以 GB 為單位)
CapacityUsedNonDFS 資料節點目前用於非 DFS 用途的空間(以位元組為單位)
TotalLoad 目前的連線數量
SnapshottableDirectories 目前可建立快照的目錄數量
快照 目前快照的數量
NumEncryptionZones 目前加密區域的數量
BlocksTotal 系統中目前已配置區塊的數量
FilesTotal 目前檔案和目錄的數量
PendingReplicationBlocks 目前待複製區塊的數量
UnderReplicatedBlocks 目前複製不足的區塊數量
CorruptBlocks 目前副本損毀的區塊數量。
ScheduledReplicationBlocks 目前排定複製的區塊數量
PendingDeletionBlocks 目前待刪除區塊的數量
ExcessBlocks 目前過剩區塊的數量
PostponedMisreplicatedBlocks (僅限 HA)目前延後複製的區塊數量
PendingDataNodeMessageCount (僅限 HA)目前待處理區塊相關訊息的數量,供備用 NameNode 之後處理
MillisSinceLastLoadedEdits (僅限 HA)自備用 NameNode 載入編輯記錄以來經過的毫秒數。在 active NameNode 中,設定為 0
BlockCapacity 目前區塊容量的數量
NumLiveDataNodes 目前為活動狀態的資料節點數量
NumDeadDataNodes 目前已死亡的資料節點數目
NumDecomLiveDataNodes 已解除委任且目前為運作中的資料節點數目
NumDecomDeadDataNodes 已解除委任且目前已死亡的資料節點數目
NumDecommissioningDataNodes 目前處於解除委任狀態的資料節點數目
VolumeFailuresTotal 所有資料節點的磁碟區故障總數
EstimatedCapacityLostTotal 因磁碟區故障而損失的總容量估計值
StaleDataNodes 因心跳延遲而標示為過時的資料節點目前數目
NumStaleStorages 標示為內容過時的儲存空間數目(在 NameNode 重新啟動/故障轉移後,在收到第一個區塊報告之前)
MissingReplOneBlocks 目前複製因子為 1 的遺失區塊數目
HighestPriorityLowRedundancyReplicatedBlocks 目前風險最高的非損毀、低備援複製區塊數目(有 0 或 1 個複製品)。將優先復原。
HighestPriorityLowRedundancyECBlocks 目前風險最高的非損毀、低備援 EC 區塊數目。將優先復原。
NumFilesUnderConstruction 目前正在建立中的檔案數目
NumActiveClients 目前持有租約的活躍用戶端數目
HAState (僅限 HA)NameNode 的目前狀態:初始化、活躍、待命或停止狀態
FSState 檔案系統的目前狀態:安全模式或運作中
LockQueueLength 等待取得 FSNameSystem 鎖定的執行緒數目
ReadLockLongHoldCount 讀取鎖定已持有超過閾值的次數
WriteLockLongHoldCount 寫入鎖定已持有超過閾值的次數
TotalSyncCount 編輯記錄檔執行的同步作業總數
TotalSyncTimes 各種編輯記錄檔在同步作業中所花費的總毫秒數
NameDirSize NameNode 名稱目錄大小(以位元組為單位)
NumTimedOutPendingReconstructions 逾時重建的數目。並非逾時獨特區塊的數目。
NumInMaintenanceLiveDataNodes 目前處於維護狀態的運作中資料節點數目
NumInMaintenanceDeadDataNodes 目前處於維護狀態的已死亡資料節點數目
NumEnteringMaintenanceDataNodes 目前進入維護狀態的資料節點數目
FSN(Read/Write)LockOperationNameNanosNumOps 透過作業取得鎖定的總數
FSN(Read/Write)LockOperationNameNanosAvgTime 透過作業持有鎖定的平均時間(以奈秒為單位)
FSN(讀取/寫入)LockOverallNanosNumOps 所有作業取得鎖定的總次數
FSN(讀取/寫入)LockOverallNanosAvgTime 所有作業持有鎖定的平均時間(以奈秒為單位)

JournalNode

從 JournalNode 的角度來看,日誌的伺服器端量度。每個量度記錄包含 Hostname 標籤,以及量度作為額外資訊。

名稱 說明
Syncs60sNumOps 同步作業的次數(1 分鐘粒度)
Syncs60s50thPercentileLatencyMicros 同步延遲的第 50 個百分位數(以微秒為單位)(1 分鐘粒度)
Syncs60s75thPercentileLatencyMicros 同步延遲的第 75 個百分位數(以微秒為單位)(1 分鐘粒度)
Syncs60s90thPercentileLatencyMicros 同步延遲的第 90 個百分位數(以微秒為單位)(1 分鐘粒度)
Syncs60s95thPercentileLatencyMicros 同步延遲的第 95 個百分位數(以微秒為單位)(1 分鐘粒度)
Syncs60s99thPercentileLatencyMicros 同步延遲的第 99 個百分位數(以微秒為單位)(1 分鐘粒度)
Syncs300sNumOps 同步作業的次數(5 分鐘粒度)
Syncs300s50thPercentileLatencyMicros 同步延遲的第 50 個百分位數(以微秒為單位)(5 分鐘粒度)
Syncs300s75thPercentileLatencyMicros 同步延遲的第 75 個百分位數(以微秒為單位)(5 分鐘粒度)
Syncs300s90thPercentileLatencyMicros 同步延遲的第 90 個百分位數(以微秒為單位)(5 分鐘粒度)
Syncs300s95thPercentileLatencyMicros 同步延遲的第 95 個百分位數(以微秒為單位)(5 分鐘粒度)
Syncs300s99thPercentileLatencyMicros 同步延遲的第 99 個百分位數(以微秒為單位)(5 分鐘粒度)
Syncs3600sNumOps 同步作業的次數(1 小時粒度)
Syncs3600s50thPercentileLatencyMicros 同步延遲的第 50 個百分位數(以微秒為單位)(1 小時粒度)
Syncs3600s75thPercentileLatencyMicros 同步延遲的第 75 個百分位數(以微秒為單位)(1 小時粒度)
Syncs3600s90thPercentileLatencyMicros 同步延遲的第 90 個百分位數(以微秒為單位)(1 小時粒度)
Syncs3600s95thPercentileLatencyMicros 同步延遲的第 95 個百分位數(以微秒為單位)(1 小時粒度)
Syncs3600s99thPercentileLatencyMicros 同步延遲的第 99 個百分位數(以微秒為單位)(1 小時粒度)
NumTransactionsBatchedInSync60sNumOps 交易在同步作業中批次處理的次數(1 分鐘粒度)
NumTransactionsBatchedInSync60s50thPercentileLatencyMicros 同步計數中批次處理交易的第 50 個百分位數(1 分鐘粒度)
NumTransactionsBatchedInSync60s75thPercentileLatencyMicros 同步計數中批次處理交易的第 75 個百分位數(1 分鐘粒度)
NumTransactionsBatchedInSync60s90thPercentileLatencyMicros 同步計數中批次處理交易的第 90 個百分位數(1 分鐘粒度)
NumTransactionsBatchedInSync60s95thPercentileLatencyMicros 同步計數中批次處理交易的第 95 個百分位數(1 分鐘粒度)
NumTransactionsBatchedInSync60s99thPercentileLatencyMicros 同步計數中批次處理交易的第 99 個百分位數(1 分鐘粒度)
NumTransactionsBatchedInSync300sNumOps 同步操作中批次處理交易的次數(5 分鐘粒度)
NumTransactionsBatchedInSync300s50thPercentileLatencyMicros 同步計數中批次處理交易的第 50 個百分位數(5 分鐘粒度)
NumTransactionsBatchedInSync300s75thPercentileLatencyMicros 同步計數中批次處理交易的第 75 個百分位數(5 分鐘粒度)
NumTransactionsBatchedInSync300s90thPercentileLatencyMicros 同步計數中批次處理交易的第 90 個百分位數(5 分鐘粒度)
NumTransactionsBatchedInSync300s95thPercentileLatencyMicros 同步計數中批次處理交易的第 95 個百分位數(5 分鐘粒度)
NumTransactionsBatchedInSync300s99thPercentileLatencyMicros 同步計數中批次處理交易的第 99 個百分位數(5 分鐘粒度)
NumTransactionsBatchedInSync3600sNumOps 同步操作中批次處理交易的次數(1 小時粒度)
NumTransactionsBatchedInSync3600s50thPercentileLatencyMicros 同步計數中批次處理交易的第 50 個百分位數(1 小時粒度)
NumTransactionsBatchedInSync3600s75thPercentileLatencyMicros 同步計數中批次處理交易的第 75 個百分位數(1 小時粒度)
NumTransactionsBatchedInSync3600s90thPercentileLatencyMicros 同步計數中批次處理交易的第 90 個百分位數(1 小時粒度)
NumTransactionsBatchedInSync3600s95thPercentileLatencyMicros 同步計數中批次處理交易的第 95 個百分位數(1 小時粒度)
NumTransactionsBatchedInSync3600s99thPercentileLatencyMicros 同步計數中批次處理交易的第 99 個百分位數(1 小時粒度)
BatchesWritten 自啟動以來寫入的批次總數
TxnsWritten 自啟動以來寫入的交易總數
BytesWritten 自啟動以來寫入的位元組總數
BatchesWrittenWhileLagging 此節點落後時寫入的批次總數
LastWriterEpoch 目前的寫入紀元編號
CurrentLagTxns 此 JournalNode 延遲的交易數量
LastWrittenTxId 儲存在此 JournalNode 上的最高交易 ID
LastPromisedEpoch 此節點已承諾不接受任何較低紀元的最後一個紀元編號,或在未做出任何承諾時為 0
LastJournalTimestamp 最後一次成功寫入交易的時間戳記
TxnsServedViaRpc 透過 RPC 機制服務的交易數量
BytesServedViaRpc 透過 RPC 機制服務的位元組數量
RpcRequestCacheMissAmountNumMisses 由於快取中缺乏資料而無法服務的 RPC 請求數量
RpcRequestCacheMissAmountAvgTxns 請求錯過快取的平均交易數量;例如,如果請求交易 ID 10,而快取中最舊的交易是 ID 15,則會將值 5 加入此平均值
RpcEmptyResponses 傳回零次編輯的 RPC 請求數量

datanode

每個指標記錄包含標籤,例如 SessionId 和 Hostname,作為指標的附加資訊。

名稱 說明
BytesWritten 寫入 DataNode 的總位元組數
BytesRead 從 DataNode 讀取的總位元組數
ReadTransferRateNumOps 資料讀取傳輸的總數量
ReadTransferRateAvgTime 從 DataNode 讀取的位元組平均傳輸速率,以每秒位元組為單位。
ReadTransferRatenums(50/75/90/95/99)thPercentileRate 從 DataNode 讀取的位元組傳輸速率的 50/75/90/95/99 百分位數,以每秒位元組為單位。
BlocksWritten 寫入 DataNode 的區塊總數
BlocksRead 從 DataNode 讀取的區塊總數
BlocksReplicated 複製的區塊總數
BlocksRemoved 移除的區塊總數
BlocksVerified 驗證的區塊總數
BlockVerificationFailures 驗證失敗的總數
BlocksCached 快取的區塊總數
BlocksUncached 未快取的區塊總數
ReadsFromLocalClient 從本機用戶端讀取作業的總數
ReadsFromRemoteClient 遠端用戶端讀取作業總數
WritesFromLocalClient 本機用戶端寫入作業總數
WritesFromRemoteClient 遠端用戶端寫入作業總數
BlocksGetLocalPathInfo 取得區塊本機路徑名稱作業總數
RamDiskBlocksWrite 寫入記憶體的區塊總數
RamDiskBlocksWriteFallback 寫入記憶體但未滿足的區塊總數 (已轉移至磁碟)
RamDiskBytesWrite 寫入記憶體的位元組總數
RamDiskBlocksReadHits 記憶體中區塊讀取次數總數
RamDiskBlocksEvicted 記憶體中驅逐的區塊總數
RamDiskBlocksEvictedWithoutRead 從未從記憶體中讀取即驅逐的區塊總數
RamDiskBlocksEvictionWindowMsNumOps 記憶體中驅逐的區塊數
RamDiskBlocksEvictionWindowMsAvgTime 記憶體中區塊在被驅逐前的平均時間 (毫秒)
RamDiskBlocksEvictionWindowsnums(50/75/90/95/99)thPercentileLatency 記憶體寫入與驅逐之間的 50/75/90/95/99 百分位數延遲 (num 秒粒度)。預設關閉百分位數測量,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。
RamDiskBlocksLazyPersisted 由延遲寫入器寫入磁碟的區塊總數
RamDiskBlocksDeletedBeforeLazyPersisted 在延遲寫入至磁碟前由應用程式刪除的區塊總數
RamDiskBytesLazyPersisted 由延遲寫入器寫入磁碟的位元組總數
RamDiskBlocksLazyPersistWindowMsNumOps 由延遲寫入器寫入磁碟的區塊數
RamDiskBlocksLazyPersistWindowMsAvgTime 由延遲寫入器寫入磁碟的區塊平均時間 (毫秒)
RamDiskBlocksLazyPersistWindowsnums(50/75/90/95/99)thPercentileLatency 記憶體寫入與磁碟持續之間的 50/75/90/95/99 百分位數延遲 (num 秒粒度)。預設關閉百分位數測量,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。
FsyncCount fsync 總數
VolumeFailures 發生的磁碟機故障總數
ReadBlockOpNumOps 讀取作業總數
ReadBlockOpAvgTime 讀取作業平均時間 (毫秒)
WriteBlockOpNumOps 寫入作業總數
WriteBlockOpAvgTime 寫入作業平均時間 (毫秒)
BlockChecksumOpNumOps blockChecksum 作業總數
BlockChecksumOpAvgTime 區塊檢查和操作的平均時間(毫秒)
CopyBlockOpNumOps 區塊複製操作的總數
CopyBlockOpAvgTime 區塊複製操作的平均時間(毫秒)
ReplaceBlockOpNumOps 區塊取代操作的總數
ReplaceBlockOpAvgTime 區塊取代操作的平均時間(毫秒)
HeartbeatsNumOps 心跳總數
HeartbeatsAvgTime 心跳平均時間(毫秒)
HeartbeatsForServiceId-NNIdNumOps 傳送至特定服務 ID 和 NN ID 的心跳總數
HeartbeatsForServiceId-NNIdAvgTime 傳送至特定服務 ID 和 NN ID 的心跳平均時間(毫秒)
HeartbeatsTotalNumOps 心跳總數,與 HeartbeatsNumOps 相同
HeartbeatsTotalAvgTime 心跳總平均時間(毫秒)
HeartbeatsTotalForServiceId-NNIdNumOps 傳送至特定服務 ID 和 NN ID 的心跳總數,與 HeartbeatsForServiceId-NNIdNumOps 相同
HeartbeatsTotalForServiceId-NNIdAvgTime 傳送至特定服務 ID 和 NN ID 的心跳總平均時間(毫秒)
LifelinesNumOps 生命線訊息總數
LifelinesAvgTime 生命線訊息處理的平均時間(毫秒)
LifelinesForServiceId-NNIdNumOps 傳送至特定服務 ID 和 NN ID 的生命線訊息總數
LifelinesForServiceId-NNIdAvgTime 傳送至特定服務 ID 和 NN ID 的生命線訊息處理平均時間(毫秒)
BlockReportsNumOps 區塊報告操作的總數
BlockReportsAvgTime 區塊報告操作的平均時間(毫秒)
BlockReportsServiceId-NNIdNumOps 傳送至特定服務 ID 和 NN ID 的區塊報告操作總數
BlockReportsServiceId-NNIdAvgTime 傳送至特定服務 ID 和 NN ID 的區塊報告操作平均時間(毫秒)
IncrementalBlockReportsNumOps 增量區塊報告操作的總數
IncrementalBlockReportsAvgTime 增量區塊報告操作的平均時間(毫秒)
IncrementalBlockReportsServiceId-NNIdNumOps 傳送至特定服務 ID 和 NN ID 的增量區塊報告操作總數
IncrementalBlockReportsServiceId-NNIdAvgTime 特定服務 ID 和 nnId 的增量區塊報告作業平均時間(毫秒)
CacheReportsNumOps 快取報告作業總數
CacheReportsAvgTime 快取報告作業平均時間(毫秒)
PacketAckRoundTripTimeNanosNumOps 確認往返總數
PacketAckRoundTripTimeNanosAvgTime 從確認傳送至接收的平均時間,減去下游確認時間(奈秒)
PacketAckRoundTripTimeNanosnums(50/75/90/95/99)thPercentileLatency 從確認傳送至接收的 50/75/90/95/99 百分位數延遲,減去下游確認時間(奈秒)(num 秒粒度)。預設關閉百分位數量測,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。
FlushNanosNumOps 快取清除總數
FlushNanosAvgTime 快取清除平均時間(奈秒)
FlushNanosnums(50/75/90/95/99)thPercentileLatency 快取清除的 50/75/90/95/99 百分位數時間(奈秒)(num 秒粒度)。預設關閉百分位數量測,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。
FsyncNanosNumOps fsync 總數
FsyncNanosAvgTime fsync 平均時間(奈秒)
FsyncNanosnums(50/75/90/95/99)thPercentileLatency fsync 的 50/75/90/95/99 百分位數時間(奈秒)(num 秒粒度)。預設關閉百分位數量測,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。
SendDataPacketBlockedOnNetworkNanosNumOps 傳送封包總數
SendDataPacketBlockedOnNetworkNanosAvgTime 傳送封包的平均等待時間(奈秒)
SendDataPacketBlockedOnNetworkNanosnums(50/75/90/95/99)thPercentileLatency 傳送封包的 50/75/90/95/99 百分位數等待時間(奈秒)(num 秒粒度)。預設關閉百分位數量測,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。
SendDataPacketTransferNanosNumOps 傳送封包總數
SendDataPacketTransferNanosAvgTime 傳送封包的平均傳輸時間(奈秒)
SendDataPacketTransferNanosnums(50/75/90/95/99)thPercentileLatency 傳送封包的 50/75/90/95/99 百分位數傳輸時間(奈秒)(num 秒粒度)。預設關閉百分位數量測,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。
TotalWriteTime 寫入操作花費的總毫秒數
TotalReadTime 讀取操作花費的總毫秒數
RemoteBytesRead 遠端用戶端讀取的位元組數
RemoteBytesWritten 遠端用戶端寫入的位元組數
BPServiceActorInfo 區塊池服務執行者的資訊
BlocksInPendingIBR 待處理增量區塊報告 (IBR) 中的區塊數
BlocksReceivingInPendingIBR 待處理增量區塊報告 (IBR) 中處於接收狀態的區塊數
BlocksReceivedInPendingIBR 待處理增量區塊報告 (IBR) 中處於已接收狀態的區塊數
BlocksDeletedInPendingIBR 待處理增量區塊報告 (IBR) 中處於已刪除狀態的區塊數
EcReconstructionTasks 抹除編碼重建工作總數
EcFailedReconstructionTasks 抹除編碼重建工作失敗總數
EcInvalidReconstructionTasks 抹除編碼重建工作失效總數
EcDecodingTimeNanos 解碼工作花費的總奈秒數
EcReconstructionBytesRead 抹除編碼工作者讀取的總位元組數
EcReconstructionBytesWritten 抹除編碼工作者寫入的總位元組數
EcReconstructionRemoteBytesRead 抹除編碼工作者遠端讀取的總位元組數

FsVolume

每個磁碟區的指標包含與資料節點磁碟區 IO 相關的統計資料。每個磁碟區的指標預設為關閉。它們可以透過將 dfs.datanode .fileio.profiling.percentage.fraction 設為介於 1 到 100 之間的整數值來啟用。將此值設為 0 表示未啟用剖析。但啟用每個磁碟區的指標可能會影響效能。每個指標記錄包含標籤,例如主機名稱,以及指標的其他資訊。

名稱 說明
TotalMetadataOperations 元資料操作的總數 (單調遞增)。元資料操作包括 stat、list、mkdir、delete、move、open 和 posix_fadvise。
MetadataOperationRateNumOps 指標間隔時間內的元資料操作數
MetadataOperationRateAvgTime 元資料操作的平均時間(毫秒)
MetadataOperationLatencynums(50/75/90/95/99)thPercentileLatency 元資料操作延遲的 50/75/90/95/99 百分位數(毫秒,num 秒粒度)。預設關閉百分位數測量,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。
TotalDataFileIos 資料檔案 I/O 操作的總數目(單調遞增)
DataFileIoRateNumOps 公制區間時間內的資料檔案 I/O 操作數目
DataFileIoRateAvgTime 資料檔案 I/O 操作的平均時間(毫秒)
DataFileIoLatencynums(50/75/90/95/99)thPercentileLatency 資料檔案 I/O 操作延遲的 50/75/90/95/99 百分位數(毫秒,num 秒粒度)。預設關閉百分位數測量,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。
FlushIoRateNumOps 公制區間時間內的檔案快取 I/O 操作數目
FlushIoRateAvgTime 檔案快取 I/O 操作的平均時間(毫秒)
FlushIoLatencynums(50/75/90/95/99)thPercentileLatency 檔案快取 I/O 操作延遲的 50/75/90/95/99 百分位數(毫秒,num 秒粒度)。預設關閉百分位數測量,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。
SyncIoRateNumOps 公制區間時間內的檔案同步 I/O 操作數目
SyncIoRateAvgTime 檔案同步 I/O 操作的平均時間(毫秒)
SyncIoLatencynums(50/75/90/95/99)thPercentileLatency 檔案同步 I/O 操作延遲的 50/75/90/95/99 百分位數(毫秒,num 秒粒度)。預設關閉百分位數測量,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。
ReadIoRateNumOps 公制區間時間內的檔案讀取 I/O 操作數目
ReadIoRateAvgTime 檔案讀取 I/O 操作的平均時間(毫秒)
ReadIoLatencynums(50/75/90/95/99)thPercentileLatency 檔案讀取 I/O 操作延遲的 50/75/90/95/99 百分位數(毫秒,num 秒粒度)。預設關閉百分位數測量,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。
WriteIoRateNumOps 公制區間時間內的檔案寫入 I/O 操作數目
WriteIoRateAvgTime 檔案寫入 I/O 作業的平均時間(以毫秒為單位)
WriteIoLatencynums(50/75/90/95/99)thPercentileLatency 檔案寫入 I/O 作業延遲時間的第 50/75/90/95/99 個百分位數(以毫秒為單位)(num 秒粒度)。預設關閉百分位數測量,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。
TransferIoRateNumOps 度量區間時間內檔案傳輸 I/O 作業的數量
TransferIoRateAvgTime 檔案傳輸 I/O 作業的平均時間(以毫秒為單位)
TransferIoLatencynums(50/75/90/95/99)thPercentileLatency 檔案傳輸 I/O 作業延遲時間的第 50/75/90/95/99 個百分位數(以毫秒為單位)(num 秒粒度)。預設關閉百分位數測量,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。
NativeCopyIoRateNumOps 度量區間時間內檔案 nativeCopy I/O 作業的數量
NativeCopyIoRateAvgTime 檔案 nativeCopy I/O 作業的平均時間(以毫秒為單位)
NativeCopyIoLatencynums(50/75/90/95/99)thPercentileLatency 檔案 nativeCopy I/O 作業延遲時間的第 50/75/90/95/99 個百分位數(以毫秒為單位)(num 秒粒度)。預設關閉百分位數測量,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。
TotalFileIoErrors 檔案 I/O 錯誤作業的總數(單調遞增)
FileIoErrorRateNumOps 度量區間時間內檔案 I/O 錯誤作業的數量
FileIoErrorRateAvgTime 測量從作業開始到發生失敗的平均時間(以毫秒為單位)

RBFMetrics

RBFMetrics 顯示路由器聯盟中子叢集資訊的彙總值度量。

名稱 說明
NumFiles 目前檔案和目錄的數量
NumBlocks 目前已配置區塊的數量
NumOfBlocksPendingReplication 目前待複製區塊的數量
NumOfBlocksUnderReplicated 目前複製不足的區塊數量
NumOfBlocksPendingDeletion 目前待刪除區塊的數量
ProvidedSpace 聯盟叢集中掛載的總遠端儲存容量
NumInMaintenanceLiveDataNodes 目前處於維護狀態的運作中資料節點數目
NumInMaintenanceDeadDataNodes 目前處於維護狀態的已死亡資料節點數目
NumEnteringMaintenanceDataNodes 目前進入維護狀態的資料節點數目
TotalCapacity DataNodes 目前原始容量(以位元組為單位)(長整數基本型別,可能會溢位)
UsedCapacity 所有資料節點中目前使用的容量(以位元組為單位,長整數基本類型,可能會溢位)
RemainingCapacity 目前剩餘容量(以位元組為單位,長整數基本類型,可能會溢位)
TotalCapacityBigInt 資料節點目前未處理的容量(以位元組為單位,使用 BigInteger)
UsedCapacityBigInt 所有資料節點中目前使用的容量(以位元組為單位,使用 BigInteger)
RemainingCapacityBigInt 目前剩餘容量(以位元組為單位,使用 BigInteger)
NumOfMissingBlocks 目前遺失區塊的數量
NumLiveNodes 目前為活動狀態的資料節點數量
NumDeadNodes 目前已死亡的資料節點數目
NumStaleNodes 因心跳延遲而標示為過時的資料節點目前數目
NumDecomLiveNodes 已解除委任且目前為運作中的資料節點數目
NumDecomDeadNodes 已解除委任且目前已死亡的資料節點數目
NumDecommissioningNodes 目前處於解除委任狀態的資料節點數目
Namenodes 所有名稱節點的目前資訊
Nameservices 每個已註冊名稱服務的目前資訊
MountTable 聯合檔案系統的掛載表格
Routers 所有路由器的目前資訊
NumNameservices 名稱服務數量
NumNamenodes 名稱節點數量
NumExpiredNamenodes 過期名稱節點數量
NodeUsage 資料節點使用量的最大值、中位數、最小值和標準差

RouterRPCMetrics

RouterRPCMetrics 顯示基於路由器的聯合中路由器元件的統計資料。

名稱 說明
ProcessingOp 路由器在內部處理的作業數量
ProxyOp 路由器代理到名稱節點的作業數量
ProxyOpFailureStandby 無法到達 NN 的作業數量
ProxyOpFailureCommunicate 達到備用 NN 的作業數量
ProxyOpNotImplemented 未實作的作業數量
RouterFailureStateStore 由於狀態儲存區無法使用而導致的失敗要求數量
RouterFailureReadOnly 由於唯讀掛載點而導致的失敗要求數量
RouterFailureLocked 由於路徑鎖定而導致的失敗要求數量
RouterFailureSafemode 由於安全模式而導致的失敗要求數量
ProcessingNumOps 路由器在指標的區間時間內在內部處理的作業數量
ProcessingAvgTime 路由器處理作業的平均時間(以奈秒為單位)
ProxyNumOps 路由器在指標的區間時間內代理作業到名稱節點的次數
ProxyAvgTime 路由器代理作業到名稱節點的平均時間(以奈秒為單位)

StateStoreMetrics

StateStoreMetrics 顯示基於路由器的聯合中狀態儲存區元件的統計資料。

名稱 說明
ReadsNumOps 指定時間區段內 State Store 的 GET 交易次數
ReadsAvgTime State Store 的 GET 交易平均時間(毫秒)
WritesNumOps 指定時間區段內 State Store 的 PUT 交易次數
WritesAvgTime State Store 的 PUT 交易平均時間(毫秒)
RemovesNumOps 指定時間區段內 State Store 的 REMOVE 交易次數
RemovesAvgTime State Store 的 REMOVE 交易平均時間(毫秒)
FailuresNumOps 指定時間區段內 State Store 的失敗交易次數
FailuresAvgTime State Store 的失敗交易平均時間(毫秒)
CacheBaseRecordSize State Store 中要快取的儲存記錄數

yarn 背景

ClusterMetrics

ClusterMetrics 顯示 YARN 集群的指標,從 ResourceManager 的角度來看。每個指標記錄包含 Hostname 標籤作為額外資訊,以及指標。

名稱 說明
NumActiveNMs 目前活動的 NodeManager 數目
numDecommissioningNMs 目前正在停用的 NodeManager 數目
NumDecommissionedNMs 目前已停用的 NodeManager 數目
NumShutdownNMs 目前正常關閉的 NodeManager 數目。請注意,這不包含強制終止的 NodeManager。
NumLostNMs 目前因未傳送心跳而遺失的 NodeManager 數目。
NumUnhealthyNMs 目前不正常的 NodeManager 數目
NumRebootedNMs 目前重新開機的 NodeManager 數目
AMLaunchDelayNumOps 已啟動的 AM 總數
AMLaunchDelayAvgTime 在 AM 容器配置後,RM 花費的平均時間(毫秒)來啟動 AM 容器
AMRegisterDelayNumOps 已註冊的 AM 總數
AMRegisterDelayAvgTime 在 AM 容器啟動後,AM 花費的平均時間(毫秒)來向 RM 註冊

QueueMetrics

QueueMetrics 顯示應用程式佇列,從 ResourceManager 的角度來看。每個指標記錄顯示每個佇列的統計資料,並包含標籤,例如佇列名稱和 Hostname,作為額外資訊,以及指標。

running_num 指標中,例如 running_0,您可以在 yarn-site.xml 中設定屬性 yarn.resourcemanager.metrics.runtime.buckets 來變更區段。預設值為 60,300,1440

名稱 說明
running_0 執行時間小於 60 分鐘的目前執行中應用程式數量
running_60 執行時間介於 60 到 300 分鐘的目前執行中應用程式數量
running_300 執行時間介於 300 到 1440 分鐘的目前執行中應用程式數量
running_1440 執行時間大於 1440 分鐘的目前執行中應用程式數量
AppsSubmitted 已提交應用程式的總數
AppsRunning 目前執行中應用程式的數量
AppsPending 尚未由任何容器指派的目前應用程式數量
AppsCompleted 已完成應用程式的總數
AppsKilled 已終止應用程式的總數
AppsFailed 已失敗應用程式的總數
AllocatedMB 目前已配置的記憶體 (MB)
AllocatedVCores 目前已配置的 CPU (虛擬核心)
AllocatedContainers 目前已配置的容器數量
AggregateContainersAllocated 已配置容器的總數
aggregateNodeLocalContainersAllocated 已配置的節點本機容器總數
aggregateRackLocalContainersAllocated 已配置的機架本機容器總數
aggregateOffSwitchContainersAllocated 已配置的關閉交換器容器總數
AggregateContainersReleased 已釋放容器的總數
AvailableMB 目前可用的記憶體 (MB)
AvailableVCores 目前可用的 CPU (虛擬核心)
PendingMB 排定由排程器完成的目前記憶體要求 (MB)
PendingVCores 排定由排程器完成的目前 CPU 要求 (虛擬核心)
PendingContainers 排定由排程器完成的目前容器數量
ReservedMB 目前保留的記憶體 (MB)
ReservedVCores 目前保留的 CPU (虛擬核心)
ReservedContainers 目前保留的容器數量
ActiveUsers 目前活躍使用者數量
ActiveApplications 目前活躍應用程式數量
AppAttemptFirstContainerAllocationDelayNumOps 所有嘗試中第一個已配置容器的總數
AppAttemptFirstContainerAllocationDelayAvgTime RM 花費在所有嘗試中配置第一個容器的平均時間。對於受管理的 AM,第一個容器是 AM 容器。因此,這表示配置 AM 容器的時間長度。對於未受管理的 AM,這是配置未受管理的 AM 要求的第一個容器的時間長度。
FairShareMB (僅限 FairScheduler) 目前公平共享的記憶體 (MB)
FairShareVCores (僅限 FairScheduler) CPU 的目前公平共享,以虛擬核心為單位
MinShareMB (僅限 FairScheduler) 記憶體的最小共享,以 MB 為單位
MinShareVCores (僅限 FairScheduler) CPU 的最小共享,以虛擬核心為單位
MaxShareMB (僅限 FairScheduler) 記憶體的最大共享,以 MB 為單位
MaxShareVCores (僅限 FairScheduler) CPU 的最大共享,以虛擬核心為單位

NodeManagerMetrics

NodeManagerMetrics 顯示節點中容器的統計資料。每個指標記錄都包含 Hostname 標籤,作為指標的附加資訊。

名稱 說明
containersLaunched 已啟動容器的總數
containersCompleted 已成功完成容器的總數
containersFailed 已失敗容器的總數
containersKilled 已終止容器的總數
containersIniting 目前正在初始化的容器數目
containersRunning 目前正在執行的容器數目
allocatedContainers 目前已配置的容器數量
allocatedGB 目前已配置的記憶體,以 GB 為單位
availableGB 目前可用的記憶體,以 GB 為單位
allocatedVcores 目前已使用的 vcore
availableVcores 目前可用的 vcore
containerLaunchDuration NM 啟動容器的平均時間,以毫秒為單位
badLocalDirs 目前不良的本機目錄數目。目前,NM 程序無法讀取/寫入/執行的磁碟或磁碟已滿都視為不良。
badLogDirs 目前不良的記錄目錄數目。目前,NM 程序無法讀取/寫入/執行的磁碟或磁碟已滿都視為不良。
goodLocalDirsDiskUtilizationPerc 所有良好本機目錄的目前磁碟使用率百分比
goodLogDirsDiskUtilizationPerc 所有良好記錄目錄的目前磁碟使用率百分比

ContainerMetrics

ContainerMetrics 顯示容器的資源使用率統計資料。每個指標記錄都包含標籤,例如 ContainerPid 和 Hostname,作為指標的附加資訊。

名稱 說明
pMemLimitMBs 容器的實體記憶體限制,以 MB 為單位
vMemLimitMBs 容器的虛擬記憶體限制,以 MB 為單位
vCoreLimit 容器的 CPU 限制,以 vcore 數目為單位
launchDurationMs 容器啟動持續時間(毫秒)
localizationDurationMs 容器本機化持續時間(毫秒)
StartTime 容器啟動時間(毫秒)
FinishTime 容器完成時間(毫秒)
ExitCode 容器退出代碼
PMemUsageMBsNumUsage 已用實體記憶體量度總數
PMemUsageMBsAvgMBs 已用實體記憶體平均值(MB)
PMemUsageMBsStdevMBs 已用實體記憶體標準差(MB)
PMemUsageMBsMinMBs 已用實體記憶體最小值(MB)
PMemUsageMBsMaxMBs 已用實體記憶體最大值(MB)
PMemUsageMBsIMinMBs 目前 區間 已用實體記憶體最小值(MB)(區間 時間由 yarn.nodemanager.container-metrics.period-ms 指定)
PMemUsageMBsIMaxMBs 目前 區間 已用實體記憶體最大值(MB)(區間 時間由 yarn.nodemanager.container-metrics.period-ms 指定)
PMemUsageMBsINumUsage 目前 區間 已用實體記憶體量度總數(區間 時間由 yarn.nodemanager.container-metrics.period-ms 指定)
PCpuUsagePercentNumUsage 已用實體 CPU 核心百分比量度總數
PCpuUsagePercentAvgPercents 已用實體 CPU 核心百分比平均值
PCpuUsagePercentStdevPercents 已用實體 CPU 核心百分比標準差
PCpuUsagePercentMinPercents 已用實體 CPU 核心百分比最小值
PCpuUsagePercentMaxPercents 已用實體 CPU 核心百分比最大值
PCpuUsagePercentIMinPercents 目前 區間 已用實體 CPU 核心百分比最小值(區間 時間由 yarn.nodemanager.container-metrics.period-ms 指定)
PCpuUsagePercentIMaxPercents 目前 區間 已用實體 CPU 核心百分比最大值(區間 時間由 yarn.nodemanager.container-metrics.period-ms 指定)
PCpuUsagePercentINumUsage 目前 區間 已用實體 CPU 核心量度總數(區間 時間由 yarn.nodemanager.container-metrics.period-ms 指定)
MilliVcoreUsageNumUsage 已用 vcore 量度總數
MilliVcoreUsageAvgMilliVcores 已用 vcore 平均值的 1000 倍
MilliVcoreUsageStdevMilliVcores 已用 vcore 標準差的 1000 倍
MilliVcoreUsageMinMilliVcores 已用 vcore 最小值的 1000 倍
MilliVcoreUsageMaxMilliVcores 已用 vcore 最大值的 1000 倍
MilliVcoreUsageIMinMilliVcores 目前區間中使用的平均 vcore 的 1000 倍(區間時間由 yarn.nodemanager.container-metrics.period-ms 指定)
MilliVcoreUsageIMaxMilliVcores 目前區間中使用的最大 vcore 的 1000 倍(區間時間由 yarn.nodemanager.container-metrics.period-ms 指定)
MilliVcoreUsageINumUsage 目前區間中使用的 vcore 的總數(區間時間由 yarn.nodemanager.container-metrics.period-ms 指定)
PMemUsageMBHistogramNumUsage 已使用實體記憶體的總數(1 秒粒度)
PMemUsageMBHistogram50thPercentileMBs 已使用實體記憶體的第 50 個百分位數(以 MB 為單位)(1 秒粒度)
PMemUsageMBHistogram75thPercentileMBs 已使用實體記憶體的第 75 個百分位數(以 MB 為單位)(1 秒粒度)
PMemUsageMBHistogram90thPercentileMBs 已使用實體記憶體的第 90 個百分位數(以 MB 為單位)(1 秒粒度)
PMemUsageMBHistogram95thPercentileMBs 已使用實體記憶體的第 95 個百分位數(以 MB 為單位)(1 秒粒度)
PMemUsageMBHistogram99thPercentileMBs 已使用實體記憶體的第 99 個百分位數(以 MB 為單位)(1 秒粒度)
PCpuUsagePercentHistogramNumUsage 已使用實體 CPU 核心數的總數(1 秒粒度)
PCpuUsagePercentHistogram50thPercentilePercents 已使用實體 CPU 核心數的第 50 個百分位數(1 秒粒度)
PCpuUsagePercentHistogram75thPercentilePercents 已使用實體 CPU 核心數的第 75 個百分位數(1 秒粒度)
PCpuUsagePercentHistogram90thPercentilePercents 已使用實體 CPU 核心數的第 90 個百分位數(1 秒粒度)
PCpuUsagePercentHistogram95thPercentilePercents 已使用實體 CPU 核心數的第 95 個百分位數(1 秒粒度)
PCpuUsagePercentHistogram99thPercentilePercents 已使用實體 CPU 核心數的第 99 個百分位數(1 秒粒度)

ugi context

UgiMetrics

UgiMetrics 與使用者和群組資訊相關。每個指標記錄都包含 Hostname 標籤作為指標的附加資訊。

名稱 說明
LoginSuccessNumOps 成功 Kerberos 登入的總數
LoginSuccessAvgTime 成功 Kerberos 登入的平均時間(以毫秒為單位)
LoginFailureNumOps 失敗 Kerberos 登入的總數
LoginFailureAvgTime 失敗 Kerberos 登入的平均時間(以毫秒為單位)
getGroupsNumOps 群組解析的總數
getGroupsAvgTime 群組解析的平均時間(以毫秒為單位)
getGroupsnumsNumOps 群組解析的總數(num 秒粒度)。numhadoop.user.group.metrics.percentiles.intervals 指定。
getGroupsnums50thPercentileLatency 以毫秒為單位顯示群組解析時間的第 50 個百分位數(num 秒粒度)。numhadoop.user.group.metrics.percentiles.intervals 指定。
getGroupsnums75thPercentileLatency 以毫秒為單位顯示群組解析時間的第 75 個百分位數(num 秒粒度)。numhadoop.user.group.metrics.percentiles.intervals 指定。
getGroupsnums90thPercentileLatency 以毫秒為單位顯示群組解析時間的第 90 個百分位數(num 秒粒度)。numhadoop.user.group.metrics.percentiles.intervals 指定。
getGroupsnums95thPercentileLatency 以毫秒為單位顯示群組解析時間的第 95 個百分位數(num 秒粒度)。numhadoop.user.group.metrics.percentiles.intervals 指定。
getGroupsnums99thPercentileLatency 以毫秒為單位顯示群組解析時間的第 99 個百分位數(num 秒粒度)。numhadoop.user.group.metrics.percentiles.intervals 指定。

公制系統內容

MetricsSystem

MetricsSystem 顯示公制快照和發布的統計資料。每個公制記錄包含 Hostname 標籤,以及公制資料。

名稱 說明
NumActiveSources 目前活動中公制來源的數量
NumAllSources 公制來源的總數量
NumActiveSinks 目前活動中接收器的數量
NumAllSinks 接收器的總數量(通常小於 NumActiveSinks,請參閱 HADOOP-9946
SnapshotNumOps 從公制來源快照統計資料的總操作數
SnapshotAvgTime 從公制來源快照統計資料的平均時間(以毫秒為單位)
PublishNumOps 發布統計資料至接收器的總操作數
PublishAvgTime 發布統計資料至接收器的平均時間(以毫秒為單位)
DroppedPubAll 已中斷發布的總數量
Sink_instanceNumOps instance 的接收器操作總數
Sink_instanceAvgTime instance 的接收器操作平均時間(以毫秒為單位)
Sink_實例已中斷 實例中斷的接收器作業總數
Sink_實例Qsize 接收器作業的目前佇列長度

預設內容

StartupProgress

StartupProgress 指標顯示 NameNode 啟動的統計資料。根據名稱,每個啟動階段會公開四個指標。啟動階段LoadingFsImageLoadingEditsSavingCheckpointSafeMode。每個指標記錄包含主機名稱標籤作為額外資訊以及指標。

名稱 說明
ElapsedTime 總經過時間(毫秒)
PercentComplete NameNode 啟動進度中完成的目前速率(最大值不是 100,而是 1.0)
階段Count 階段中完成的步驟總數
階段ElapsedTime 階段中總經過時間(毫秒)
階段Total 階段中的步驟總數
階段PercentComplete 階段中完成的目前速率(最大值不是 100,而是 1.0)