指標是 Hadoop 程式公開的統計資訊,用於監控、效能調整和除錯。預設情況下有許多指標可用,對於進行疑難排解非常有用。此頁面顯示可用指標的詳細資料。
每個區段描述指標分組的每個內容。
Metrics 2.0 架構的文件 在此。
每個指標記錄包含標籤,例如 ProcessName、SessionID 和 Hostname,以及指標的其他資訊。
名稱 | 說明 |
---|---|
MemNonHeapUsedM |
目前使用的非堆疊記憶體 (MB) |
MemNonHeapCommittedM |
目前已提交的非堆疊記憶體 (MB) |
MemNonHeapMaxM |
最大非堆疊記憶體大小 (MB) |
MemHeapUsedM |
目前使用的堆疊記憶體 (MB) |
MemHeapCommittedM |
目前已提交的堆疊記憶體 (MB) |
MemHeapMaxM |
最大堆疊記憶體大小 (MB) |
MemMaxM |
最大記憶體大小 (MB) |
ThreadsNew |
目前 NEW 執行緒數目 |
ThreadsRunnable |
目前 RUNNABLE 執行緒數目 |
ThreadsBlocked |
目前 BLOCKED 執行緒數目 |
ThreadsWaiting |
目前 WAITING 執行緒數目 |
ThreadsTimedWaiting |
目前 TIMED_WAITING 執行緒數目 |
ThreadsTerminated |
目前 TERMINATED 執行緒數目 |
GcInfo |
總計 GC 次數和 GC 時間 (毫秒),依據 GC 類型分組。 例如) GcCountPS Scavenge=6、GCTimeMillisPS Scavenge=40、GCCountPS MarkSweep=0、GCTimeMillisPS MarkSweep=0 |
GcCount |
總計 GC 次數 |
GcTimeMillis |
總計 GC 時間 (毫秒) |
LogFatal |
總計 FATAL 記錄數目 |
LogError |
總計 ERROR 記錄數目 |
LogWarn |
總計 WARN 記錄數目 |
LogInfo |
總計 INFO 記錄數目 |
GcNumWarnThresholdExceeded |
超過 GC 警告閾值的次數 |
GcNumInfoThresholdExceeded |
超過 GC 資訊閾值的次數 |
GcTotalExtraSleepTime |
總計 GC 額外睡眠時間 (毫秒) |
GcTimePercentage |
如果將 dfs.namenode.gc.time.monitor.enable 設為 true,則 JVM 在觀察視窗中花費在 GC 暫停的時間百分比 (0..100)。使用 dfs.namenode.gc.time.monitor.sleep.interval.ms 指定睡眠間隔 (毫秒)。使用 dfs.namenode.gc.time.monitor.observation.window.ms 指定觀察視窗 (毫秒)。 |
每個指標記錄包含標籤,例如 Hostname 和埠號 (伺服器繫結的號碼),以及指標的其他資訊。rpc.metrics.timeunit
組態可用於設定 RPC 指標的時間單位。RPC 指標使用的預設時間單位為毫秒 (根據以下說明)。
名稱 | 說明 |
---|---|
ReceivedBytes |
接收的總位元組數目 |
已傳送位元組 |
已傳送位元組總數 |
RpcQueueTimeNumOps |
RPC 呼叫總數 |
RpcQueueTimeAvgTime |
平均佇列時間(毫秒) |
RpcLockWaitTimeNumOps |
RPC 呼叫總數(與 RpcQueueTimeNumOps 相同) |
RpcLockWaitTimeAvgTime |
平均鎖定取得等待時間(毫秒) |
RpcProcessingTimeNumOps |
RPC 呼叫總數(與 RpcQueueTimeNumOps 相同) |
RpcProcessingAvgTime |
平均處理時間(毫秒) |
RpcAuthenticationFailures |
驗證失敗總數 |
RpcAuthenticationSuccesses |
驗證成功總數 |
RpcAuthorizationFailures |
授權失敗總數 |
RpcAuthorizationSuccesses |
授權成功總數 |
NumOpenConnections |
目前開啟的連線數 |
CallQueueLength |
目前呼叫佇列長度 |
numDroppedConnections |
中斷連線總數 |
rpcQueueTime numsNumOps |
如果將 rpc.metrics.quantile.enable 設為 true,則顯示 RPC 呼叫總數(num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcQueueTime nums50thPercentileLatency |
如果將 rpc.metrics.quantile.enable 設為 true,則顯示 RPC 佇列時間的第 50 個百分位數(num 秒粒度,單位為毫秒)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcQueueTime nums75thPercentileLatency |
如果將 rpc.metrics.quantile.enable 設為 true,則顯示 RPC 佇列時間的第 75 個百分位數(num 秒粒度,單位為毫秒)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcQueueTime nums90thPercentileLatency |
如果將 rpc.metrics.quantile.enable 設為 true,則顯示 RPC 佇列時間的第 90 個百分位數(num 秒粒度,單位為毫秒)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcQueueTime nums95thPercentileLatency |
如果將 rpc.metrics.quantile.enable 設為 true,則顯示 RPC 佇列時間的第 95 個百分位數(num 秒粒度,單位為毫秒)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcQueueTime nums99thPercentileLatency |
如果將 rpc.metrics.quantile.enable 設為 true,則顯示 RPC 佇列時間的第 99 個百分位數(num 秒粒度,單位為毫秒)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcProcessingTime numsNumOps |
如果將 rpc.metrics.quantile.enable 設為 true,則顯示 RPC 呼叫總數(num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcProcessingTime nums50thPercentileLatency |
如果 rpc.metrics.quantile.enable 設為 true,則以毫秒為單位顯示 RPC 處理時間的第 50 個百分位數(num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcProcessingTime nums75thPercentileLatency |
如果 rpc.metrics.quantile.enable 設為 true,則以毫秒為單位顯示 RPC 處理時間的第 75 個百分位數(num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcProcessingTime nums90thPercentileLatency |
如果 rpc.metrics.quantile.enable 設為 true,則以毫秒為單位顯示 RPC 處理時間的第 90 個百分位數(num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcProcessingTime nums95thPercentileLatency |
如果 rpc.metrics.quantile.enable 設為 true,則以毫秒為單位顯示 RPC 處理時間的第 95 個百分位數(num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcProcessingTime nums99thPercentileLatency |
如果 rpc.metrics.quantile.enable 設為 true,則以毫秒為單位顯示 RPC 處理時間的第 99 個百分位數(num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcLockWaitTime numsNumOps |
如果將 rpc.metrics.quantile.enable 設為 true,則顯示 RPC 呼叫總數(num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcLockWaitTime nums50thPercentileLatency |
如果 rpc.metrics.quantile.enable 設為 true,則以毫秒為單位顯示 RPC 鎖定等待時間的第 50 個百分位數(num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcLockWaitTime nums75thPercentileLatency |
如果 rpc.metrics.quantile.enable 設為 true,則以毫秒為單位顯示 RPC 鎖定等待時間的第 75 個百分位數(num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcLockWaitTime nums90thPercentileLatency |
如果 rpc.metrics.quantile.enable 設為 true,則以毫秒為單位顯示 RPC 鎖定等待時間的第 90 個百分位數(num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcLockWaitTime nums95thPercentileLatency |
如果 rpc.metrics.quantile.enable 設為 true,則以毫秒為單位顯示 RPC 鎖定等待時間的第 95 個百分位數(num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcLockWaitTime nums99thPercentileLatency |
如果將 rpc.metrics.quantile.enable 設為 true,則顯示以毫秒為單位的 RPC 鎖定等待時間第 99 個百分位數(num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
TotalRequests |
RPC 伺服器處理的請求總數。 |
TotalRequestsPerSeconds |
RPC 伺服器每秒處理的請求總數。 |
RetryCache 指標可協助監控 NameNode 故障轉移。每個指標記錄都包含 Hostname 標籤。
名稱 | 說明 |
---|---|
CacheHit |
RetryCache 命中總數 |
CacheCleared |
RetryCache 清除總數 |
CacheUpdated |
RetryCache 更新總數 |
只有在啟用 FairCallQueue 時,FairCallQueue 指標才會存在。每個指標都存在於每個優先順序層級。
名稱 | 說明 |
---|---|
FairCallQueueSize_p Priority |
優先順序佇列中的呼叫目前數量 |
FairCallQueueOverflowedCalls_p Priority |
優先順序佇列中溢出的呼叫總數 |
只有在使用 DecayRpcScheduler(已啟用 FairCallQueue)時,DecayRpcSchedulerDetailed 指標才會存在。它是 FairCallQueue 指標的附加項目。針對每個優先順序層級,都會公開 rpcqueue 和 rpcprocessing 詳細指標。
名稱 | 說明 |
---|---|
DecayRPCSchedulerPriority. Priority.RpcQueueTime |
每個優先順序的 RpcQueueTime 指標 |
DecayRPCSchedulerPriority. Priority.RpcProcessingTime |
每個優先順序的 RpcProcessingTime 指標 |
rpcdetailed 內容的指標會由 RPC 層以統一的方式公開。會針對每個 RPC 公開兩個指標,依據其名稱。名稱為「(RPC 方法名稱)NumOps」的指標表示方法呼叫的總數,而名稱為「(RPC 方法名稱)AvgTime」的指標則顯示方法呼叫的平均執行時間(毫秒)。請注意,AvgTime 指標不包含取得資料結構鎖定時所花的時間(請參閱 RpcLockWaitTimeAvgTime)。
每個指標記錄都包含標籤,例如 Hostname 和埠號(伺服器繫結的號碼),作為指標的附加資訊。
未呼叫的 RPC 相關指標未包含在指標記錄中。
名稱 | 說明 |
---|---|
methodnameNumOps |
呼叫方法的總次數 |
methodnameAvgTime |
方法的平均執行時間(毫秒) |
每個指標記錄都包含標籤,例如 ProcessName、SessionId 和 Hostname,作為指標的附加資訊。
名稱 | 說明 |
---|---|
CreateFileOps |
建立的檔案總數 |
FilesCreated |
透過建立或 mkdir 作業建立的檔案和目錄總數 |
FilesAppended |
附加的檔案總數 |
GetBlockLocations |
getBlockLocations 作業總數 |
FilesRenamed |
重新命名作業的總數(並非重新命名的檔案/目錄數) |
GetListingOps |
目錄清單作業總數 |
DeleteFileOps |
刪除作業總數 |
FilesDeleted |
透過刪除或重新命名作業刪除的檔案和目錄總數 |
FileInfoOps |
getfileInfo 和 getLinkFileInfo 作業總數 |
AddBlockOps |
成功進行的 addBlock 作業總數 |
GetAdditionalDatanodeOps |
getAdditionalDatanode 作業總數 |
CreateSymlinkOps |
createSymlink 作業總數 |
GetLinkTargetOps |
getLinkTarget 作業總數 |
FilesInGetListingOps |
透過目錄清單作業列出的檔案和目錄總數 |
SuccessfulReReplications |
成功的區塊重新複製總數 |
NumTimesReReplicationNotScheduled |
無法排程區塊重新複製的次數 |
TimeoutReReplications |
逾時區塊重新複製的總數 |
AllowSnapshotOps |
allowSnapshot 作業總數 |
DisallowSnapshotOps |
disallowSnapshot 作業總數 |
CreateSnapshotOps |
createSnapshot 作業總數 |
DeleteSnapshotOps |
deleteSnapshot 作業總數 |
RenameSnapshotOps |
renameSnapshot 作業總數 |
ListSnapshottableDirOps |
snapshottableDirectoryStatus 作業總數 |
SnapshotDiffReportOps |
getSnapshotDiffReport 作業總數 |
TransactionsNumOps |
記錄交易總數 |
TransactionsAvgTime |
記錄交易的平均時間(毫秒) |
SyncsNumOps |
記錄同步總數 |
SyncsAvgTime |
記錄同步的平均時間(毫秒) |
SyncsTime nums(50/75/90/95/99)thPercentileLatency |
以毫秒為單位計算的 Journal 同步時間的第 50/75/90/95/99 個百分位數(num 秒粒度)。預設會關閉百分位數測量,不會觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。 |
TransactionsBatchedInSync |
同步中批次處理的 Journal 交易總數 |
TransactionsBatchedInSync nums(50/75/90/95/99)thPercentileCount |
批次處理的 Journal 交易數量的第 50/75/90/95/99 個百分位數(num 秒粒度)。預設會關閉百分位數測量,不會觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。 |
StorageBlockReportNumOps |
DataNode 中個別儲存處理區塊報告的總數 |
StorageBlockReportAvgTime |
處理區塊報告的平均時間(以毫秒為單位) |
StorageBlockReport nums(50/75/90/95/99)thPercentileLatency |
區塊報告處理時間的第 50/75/90/95/99 個百分位數(num 秒粒度)。預設會關閉百分位數測量,不會觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。 |
CacheReportNumOps |
DataNode 處理快取報告的總數 |
CacheReportAvgTime |
處理快取報告的平均時間(以毫秒為單位) |
CacheReport nums(50/75/90/95/99)thPercentileLatency |
快取報告處理時間的第 50/75/90/95/99 個百分位數(num 秒粒度)。預設會關閉百分位數測量,不會觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。 |
SafeModeTime |
FSNameSystem 啟動與安全模式最後離開之間的時間間隔(以毫秒為單位)。 (有時不等於安全模式中的時間,請參閱 HDFS-5156) |
FsImageLoadTime |
啟動時載入 FS 映像的時間(以毫秒為單位) |
GetEditNumOps |
從 SecondaryNameNode 下載編輯的總數 |
GetEditAvgTime |
下載編輯的平均時間(以毫秒為單位) |
GetImageNumOps |
從 SecondaryNameNode 下載 fsimage 的總數 |
GetImageAvgTime |
下載 fsimage 的平均時間(以毫秒為單位) |
PutImageNumOps |
上傳 fsimage 到 SecondaryNameNode 的總數 |
PutImageAvgTime |
平均 fsimage 上傳時間(毫秒) |
TotalFileOps |
執行檔案作業的總數 |
NNStartedTimeInMillis |
NameNode 啟動時間(毫秒) |
GenerateEDEKTimeNumOps |
產生 EDEK 的總數 |
GenerateEDEKTimeAvgTime |
產生 EDEK 的平均時間(毫秒) |
GenerateEDEKTime nums(50/75/90/95/99)thPercentileLatency |
產生 EDEK 所花費時間的第 50/75/90/95/99 個百分位數(num 秒粒度)。百分位數量測預設為關閉,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。 |
WarmUpEDEKTimeNumOps |
暖化 EDEK 的總數 |
WarmUpEDEKTimeAvgTime |
暖化 EDEK 的平均時間(毫秒) |
WarmUpEDEKTime nums(50/75/90/95/99)thPercentileLatency |
暖化 EDEK 所花費時間的第 50/75/90/95/99 個百分位數(num 秒粒度)。百分位數量測預設為關閉,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。 |
ResourceCheckTime nums(50/75/90/95/99)thPercentileLatency |
NameNode 資源檢查延遲的第 50/75/90/95/99 個百分位數(num 秒粒度)。百分位數量測預設為關閉,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。 |
EditLogTailTimeNumOps |
備用 NameNode 執行編輯記錄尾隨的總次數 |
EditLogTailTimeAvgTime |
備用 NameNode 在執行編輯記錄尾隨時所花的平均時間(毫秒) |
EditLogTailTime nums(50/75/90/95/99)thPercentileLatency |
備用 NameNode 在執行編輯記錄尾隨時所花費時間的第 50/75/90/95/99 個百分位數(num 秒粒度)。百分位數量測預設為關閉,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。 |
EditLogFetchTimeNumOps |
備用 NameNode 從日誌節點擷取遠端編輯串流的總次數 |
EditLogFetchTimeAvgTime |
備用 NameNode 在從日誌節點擷取遠端編輯串流時所花的平均時間(毫秒) |
EditLogFetchTime nums(50/75/90/95/99)thPercentileLatency |
備用 NameNode 在從日誌節點擷取編輯串流時所花費時間的第 50/75/90/95/99 個百分位數(num 秒粒度)。百分位數量測預設為關閉,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。 |
NumEditLogLoadedNumOps |
備用 NameNode 載入編輯的總次數 |
NumEditLogLoadedAvgCount |
備用 NameNode 在每次編輯記錄尾隨中載入的平均編輯數 |
NumEditLogLoaded nums(50/75/90/95/99)thPercentileCount |
備用 NameNode 在每次編輯記錄尾隨中載入的編輯數的第 50/75/90/95/99 個百分位數(num 秒粒度)。百分位數量測預設為關閉,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。 |
EditLogTailIntervalNumOps |
備用 NameNode 在編輯記錄尾隨之間的總區間數 |
EditLogTailIntervalAvgTime |
備用 NameNode 在編輯記錄尾隨之間的平均區間時間(毫秒) |
EditLogTailInterval nums(50/75/90/95/99)thPercentileLatency |
備用 NameNode 以毫秒為單位計算編輯記錄尾端之間時間的第 50/75/90/95/99 百分位數(num 秒粒度)。預設關閉百分位數量測,不觀察任何間隔。間隔由 dfs.metrics.percentiles.intervals 指定。 |
PendingEditsCount |
目前待處理編輯的數量 |
每個指標記錄包含標籤,例如 HAState 和 Hostname,作為指標的附加資訊。
名稱 | 說明 |
---|---|
MissingBlocks |
目前遺失區塊的數量 |
ExpiredHeartbeats |
過期心跳訊號的總數 |
TransactionsSinceLastCheckpoint |
自上次檢查點以來交易的總數 |
TransactionsSinceLastLogRoll |
自上次編輯記錄轉換以來交易的總數 |
LastWrittenTransactionId |
寫入編輯記錄的最後一個交易 ID |
LastCheckpointTime |
自上次檢查點以來經過的毫秒數 |
CapacityTotal |
資料節點目前的原始容量(以位元組為單位) |
CapacityTotalGB |
資料節點目前的原始容量(以 GB 為單位) |
CapacityUsed |
所有資料節點目前已使用的容量(以位元組為單位) |
CapacityUsedGB |
所有資料節點目前已使用的容量(以 GB 為單位) |
CapacityRemaining |
目前剩餘容量(以位元組為單位) |
CapacityRemainingGB |
目前剩餘容量(以 GB 為單位) |
CapacityUsedNonDFS |
資料節點目前用於非 DFS 用途的空間(以位元組為單位) |
TotalLoad |
目前的連線數量 |
SnapshottableDirectories |
目前可建立快照的目錄數量 |
快照 |
目前快照的數量 |
NumEncryptionZones |
目前加密區域的數量 |
BlocksTotal |
系統中目前已配置區塊的數量 |
FilesTotal |
目前檔案和目錄的數量 |
PendingReplicationBlocks |
目前待複製區塊的數量 |
UnderReplicatedBlocks |
目前複製不足的區塊數量 |
CorruptBlocks |
目前副本損毀的區塊數量。 |
ScheduledReplicationBlocks |
目前排定複製的區塊數量 |
PendingDeletionBlocks |
目前待刪除區塊的數量 |
ExcessBlocks |
目前過剩區塊的數量 |
PostponedMisreplicatedBlocks |
(僅限 HA)目前延後複製的區塊數量 |
PendingDataNodeMessageCount |
(僅限 HA)目前待處理區塊相關訊息的數量,供備用 NameNode 之後處理 |
MillisSinceLastLoadedEdits |
(僅限 HA)自備用 NameNode 載入編輯記錄以來經過的毫秒數。在 active NameNode 中,設定為 0 |
BlockCapacity |
目前區塊容量的數量 |
NumLiveDataNodes |
目前為活動狀態的資料節點數量 |
NumDeadDataNodes |
目前已死亡的資料節點數目 |
NumDecomLiveDataNodes |
已解除委任且目前為運作中的資料節點數目 |
NumDecomDeadDataNodes |
已解除委任且目前已死亡的資料節點數目 |
NumDecommissioningDataNodes |
目前處於解除委任狀態的資料節點數目 |
VolumeFailuresTotal |
所有資料節點的磁碟區故障總數 |
EstimatedCapacityLostTotal |
因磁碟區故障而損失的總容量估計值 |
StaleDataNodes |
因心跳延遲而標示為過時的資料節點目前數目 |
NumStaleStorages |
標示為內容過時的儲存空間數目(在 NameNode 重新啟動/故障轉移後,在收到第一個區塊報告之前) |
MissingReplOneBlocks |
目前複製因子為 1 的遺失區塊數目 |
HighestPriorityLowRedundancyReplicatedBlocks |
目前風險最高的非損毀、低備援複製區塊數目(有 0 或 1 個複製品)。將優先復原。 |
HighestPriorityLowRedundancyECBlocks |
目前風險最高的非損毀、低備援 EC 區塊數目。將優先復原。 |
NumFilesUnderConstruction |
目前正在建立中的檔案數目 |
NumActiveClients |
目前持有租約的活躍用戶端數目 |
HAState |
(僅限 HA)NameNode 的目前狀態:初始化、活躍、待命或停止狀態 |
FSState |
檔案系統的目前狀態:安全模式或運作中 |
LockQueueLength |
等待取得 FSNameSystem 鎖定的執行緒數目 |
ReadLockLongHoldCount |
讀取鎖定已持有超過閾值的次數 |
WriteLockLongHoldCount |
寫入鎖定已持有超過閾值的次數 |
TotalSyncCount |
編輯記錄檔執行的同步作業總數 |
TotalSyncTimes |
各種編輯記錄檔在同步作業中所花費的總毫秒數 |
NameDirSize |
NameNode 名稱目錄大小(以位元組為單位) |
NumTimedOutPendingReconstructions |
逾時重建的數目。並非逾時獨特區塊的數目。 |
NumInMaintenanceLiveDataNodes |
目前處於維護狀態的運作中資料節點數目 |
NumInMaintenanceDeadDataNodes |
目前處於維護狀態的已死亡資料節點數目 |
NumEnteringMaintenanceDataNodes |
目前進入維護狀態的資料節點數目 |
FSN(Read/Write)Lock OperationNameNanosNumOps |
透過作業取得鎖定的總數 |
FSN(Read/Write)Lock OperationNameNanosAvgTime |
透過作業持有鎖定的平均時間(以奈秒為單位) |
FSN(讀取/寫入)LockOverallNanosNumOps |
所有作業取得鎖定的總次數 |
FSN(讀取/寫入)LockOverallNanosAvgTime |
所有作業持有鎖定的平均時間(以奈秒為單位) |
從 JournalNode 的角度來看,日誌的伺服器端量度。每個量度記錄包含 Hostname 標籤,以及量度作為額外資訊。
名稱 | 說明 |
---|---|
Syncs60sNumOps |
同步作業的次數(1 分鐘粒度) |
Syncs60s50thPercentileLatencyMicros |
同步延遲的第 50 個百分位數(以微秒為單位)(1 分鐘粒度) |
Syncs60s75thPercentileLatencyMicros |
同步延遲的第 75 個百分位數(以微秒為單位)(1 分鐘粒度) |
Syncs60s90thPercentileLatencyMicros |
同步延遲的第 90 個百分位數(以微秒為單位)(1 分鐘粒度) |
Syncs60s95thPercentileLatencyMicros |
同步延遲的第 95 個百分位數(以微秒為單位)(1 分鐘粒度) |
Syncs60s99thPercentileLatencyMicros |
同步延遲的第 99 個百分位數(以微秒為單位)(1 分鐘粒度) |
Syncs300sNumOps |
同步作業的次數(5 分鐘粒度) |
Syncs300s50thPercentileLatencyMicros |
同步延遲的第 50 個百分位數(以微秒為單位)(5 分鐘粒度) |
Syncs300s75thPercentileLatencyMicros |
同步延遲的第 75 個百分位數(以微秒為單位)(5 分鐘粒度) |
Syncs300s90thPercentileLatencyMicros |
同步延遲的第 90 個百分位數(以微秒為單位)(5 分鐘粒度) |
Syncs300s95thPercentileLatencyMicros |
同步延遲的第 95 個百分位數(以微秒為單位)(5 分鐘粒度) |
Syncs300s99thPercentileLatencyMicros |
同步延遲的第 99 個百分位數(以微秒為單位)(5 分鐘粒度) |
Syncs3600sNumOps |
同步作業的次數(1 小時粒度) |
Syncs3600s50thPercentileLatencyMicros |
同步延遲的第 50 個百分位數(以微秒為單位)(1 小時粒度) |
Syncs3600s75thPercentileLatencyMicros |
同步延遲的第 75 個百分位數(以微秒為單位)(1 小時粒度) |
Syncs3600s90thPercentileLatencyMicros |
同步延遲的第 90 個百分位數(以微秒為單位)(1 小時粒度) |
Syncs3600s95thPercentileLatencyMicros |
同步延遲的第 95 個百分位數(以微秒為單位)(1 小時粒度) |
Syncs3600s99thPercentileLatencyMicros |
同步延遲的第 99 個百分位數(以微秒為單位)(1 小時粒度) |
NumTransactionsBatchedInSync60sNumOps |
交易在同步作業中批次處理的次數(1 分鐘粒度) |
NumTransactionsBatchedInSync60s50thPercentileLatencyMicros |
同步計數中批次處理交易的第 50 個百分位數(1 分鐘粒度) |
NumTransactionsBatchedInSync60s75thPercentileLatencyMicros |
同步計數中批次處理交易的第 75 個百分位數(1 分鐘粒度) |
NumTransactionsBatchedInSync60s90thPercentileLatencyMicros |
同步計數中批次處理交易的第 90 個百分位數(1 分鐘粒度) |
NumTransactionsBatchedInSync60s95thPercentileLatencyMicros |
同步計數中批次處理交易的第 95 個百分位數(1 分鐘粒度) |
NumTransactionsBatchedInSync60s99thPercentileLatencyMicros |
同步計數中批次處理交易的第 99 個百分位數(1 分鐘粒度) |
NumTransactionsBatchedInSync300sNumOps |
同步操作中批次處理交易的次數(5 分鐘粒度) |
NumTransactionsBatchedInSync300s50thPercentileLatencyMicros |
同步計數中批次處理交易的第 50 個百分位數(5 分鐘粒度) |
NumTransactionsBatchedInSync300s75thPercentileLatencyMicros |
同步計數中批次處理交易的第 75 個百分位數(5 分鐘粒度) |
NumTransactionsBatchedInSync300s90thPercentileLatencyMicros |
同步計數中批次處理交易的第 90 個百分位數(5 分鐘粒度) |
NumTransactionsBatchedInSync300s95thPercentileLatencyMicros |
同步計數中批次處理交易的第 95 個百分位數(5 分鐘粒度) |
NumTransactionsBatchedInSync300s99thPercentileLatencyMicros |
同步計數中批次處理交易的第 99 個百分位數(5 分鐘粒度) |
NumTransactionsBatchedInSync3600sNumOps |
同步操作中批次處理交易的次數(1 小時粒度) |
NumTransactionsBatchedInSync3600s50thPercentileLatencyMicros |
同步計數中批次處理交易的第 50 個百分位數(1 小時粒度) |
NumTransactionsBatchedInSync3600s75thPercentileLatencyMicros |
同步計數中批次處理交易的第 75 個百分位數(1 小時粒度) |
NumTransactionsBatchedInSync3600s90thPercentileLatencyMicros |
同步計數中批次處理交易的第 90 個百分位數(1 小時粒度) |
NumTransactionsBatchedInSync3600s95thPercentileLatencyMicros |
同步計數中批次處理交易的第 95 個百分位數(1 小時粒度) |
NumTransactionsBatchedInSync3600s99thPercentileLatencyMicros |
同步計數中批次處理交易的第 99 個百分位數(1 小時粒度) |
BatchesWritten |
自啟動以來寫入的批次總數 |
TxnsWritten |
自啟動以來寫入的交易總數 |
BytesWritten |
自啟動以來寫入的位元組總數 |
BatchesWrittenWhileLagging |
此節點落後時寫入的批次總數 |
LastWriterEpoch |
目前的寫入紀元編號 |
CurrentLagTxns |
此 JournalNode 延遲的交易數量 |
LastWrittenTxId |
儲存在此 JournalNode 上的最高交易 ID |
LastPromisedEpoch |
此節點已承諾不接受任何較低紀元的最後一個紀元編號,或在未做出任何承諾時為 0 |
LastJournalTimestamp |
最後一次成功寫入交易的時間戳記 |
TxnsServedViaRpc |
透過 RPC 機制服務的交易數量 |
BytesServedViaRpc |
透過 RPC 機制服務的位元組數量 |
RpcRequestCacheMissAmountNumMisses |
由於快取中缺乏資料而無法服務的 RPC 請求數量 |
RpcRequestCacheMissAmountAvgTxns |
請求錯過快取的平均交易數量;例如,如果請求交易 ID 10,而快取中最舊的交易是 ID 15,則會將值 5 加入此平均值 |
RpcEmptyResponses |
傳回零次編輯的 RPC 請求數量 |
每個指標記錄包含標籤,例如 SessionId 和 Hostname,作為指標的附加資訊。
名稱 | 說明 |
---|---|
BytesWritten |
寫入 DataNode 的總位元組數 |
BytesRead |
從 DataNode 讀取的總位元組數 |
ReadTransferRateNumOps |
資料讀取傳輸的總數量 |
ReadTransferRateAvgTime |
從 DataNode 讀取的位元組平均傳輸速率,以每秒位元組為單位。 |
ReadTransferRate nums(50/75/90/95/99)thPercentileRate |
從 DataNode 讀取的位元組傳輸速率的 50/75/90/95/99 百分位數,以每秒位元組為單位。 |
BlocksWritten |
寫入 DataNode 的區塊總數 |
BlocksRead |
從 DataNode 讀取的區塊總數 |
BlocksReplicated |
複製的區塊總數 |
BlocksRemoved |
移除的區塊總數 |
BlocksVerified |
驗證的區塊總數 |
BlockVerificationFailures |
驗證失敗的總數 |
BlocksCached |
快取的區塊總數 |
BlocksUncached |
未快取的區塊總數 |
ReadsFromLocalClient |
從本機用戶端讀取作業的總數 |
ReadsFromRemoteClient |
遠端用戶端讀取作業總數 |
WritesFromLocalClient |
本機用戶端寫入作業總數 |
WritesFromRemoteClient |
遠端用戶端寫入作業總數 |
BlocksGetLocalPathInfo |
取得區塊本機路徑名稱作業總數 |
RamDiskBlocksWrite |
寫入記憶體的區塊總數 |
RamDiskBlocksWriteFallback |
寫入記憶體但未滿足的區塊總數 (已轉移至磁碟) |
RamDiskBytesWrite |
寫入記憶體的位元組總數 |
RamDiskBlocksReadHits |
記憶體中區塊讀取次數總數 |
RamDiskBlocksEvicted |
記憶體中驅逐的區塊總數 |
RamDiskBlocksEvictedWithoutRead |
從未從記憶體中讀取即驅逐的區塊總數 |
RamDiskBlocksEvictionWindowMsNumOps |
記憶體中驅逐的區塊數 |
RamDiskBlocksEvictionWindowMsAvgTime |
記憶體中區塊在被驅逐前的平均時間 (毫秒) |
RamDiskBlocksEvictionWindows nums(50/75/90/95/99)thPercentileLatency |
記憶體寫入與驅逐之間的 50/75/90/95/99 百分位數延遲 (num 秒粒度)。預設關閉百分位數測量,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。 |
RamDiskBlocksLazyPersisted |
由延遲寫入器寫入磁碟的區塊總數 |
RamDiskBlocksDeletedBeforeLazyPersisted |
在延遲寫入至磁碟前由應用程式刪除的區塊總數 |
RamDiskBytesLazyPersisted |
由延遲寫入器寫入磁碟的位元組總數 |
RamDiskBlocksLazyPersistWindowMsNumOps |
由延遲寫入器寫入磁碟的區塊數 |
RamDiskBlocksLazyPersistWindowMsAvgTime |
由延遲寫入器寫入磁碟的區塊平均時間 (毫秒) |
RamDiskBlocksLazyPersistWindows nums(50/75/90/95/99)thPercentileLatency |
記憶體寫入與磁碟持續之間的 50/75/90/95/99 百分位數延遲 (num 秒粒度)。預設關閉百分位數測量,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。 |
FsyncCount |
fsync 總數 |
VolumeFailures |
發生的磁碟機故障總數 |
ReadBlockOpNumOps |
讀取作業總數 |
ReadBlockOpAvgTime |
讀取作業平均時間 (毫秒) |
WriteBlockOpNumOps |
寫入作業總數 |
WriteBlockOpAvgTime |
寫入作業平均時間 (毫秒) |
BlockChecksumOpNumOps |
blockChecksum 作業總數 |
BlockChecksumOpAvgTime |
區塊檢查和操作的平均時間(毫秒) |
CopyBlockOpNumOps |
區塊複製操作的總數 |
CopyBlockOpAvgTime |
區塊複製操作的平均時間(毫秒) |
ReplaceBlockOpNumOps |
區塊取代操作的總數 |
ReplaceBlockOpAvgTime |
區塊取代操作的平均時間(毫秒) |
HeartbeatsNumOps |
心跳總數 |
HeartbeatsAvgTime |
心跳平均時間(毫秒) |
HeartbeatsFor ServiceId- NNIdNumOps |
傳送至特定服務 ID 和 NN ID 的心跳總數 |
HeartbeatsFor ServiceId- NNIdAvgTime |
傳送至特定服務 ID 和 NN ID 的心跳平均時間(毫秒) |
HeartbeatsTotalNumOps |
心跳總數,與 HeartbeatsNumOps 相同 |
HeartbeatsTotalAvgTime |
心跳總平均時間(毫秒) |
HeartbeatsTotalFor ServiceId- NNIdNumOps |
傳送至特定服務 ID 和 NN ID 的心跳總數,與 HeartbeatsFor ServiceId- NNIdNumOps 相同 |
HeartbeatsTotalFor ServiceId- NNIdAvgTime |
傳送至特定服務 ID 和 NN ID 的心跳總平均時間(毫秒) |
LifelinesNumOps |
生命線訊息總數 |
LifelinesAvgTime |
生命線訊息處理的平均時間(毫秒) |
LifelinesFor ServiceId- NNIdNumOps |
傳送至特定服務 ID 和 NN ID 的生命線訊息總數 |
LifelinesFor ServiceId- NNIdAvgTime |
傳送至特定服務 ID 和 NN ID 的生命線訊息處理平均時間(毫秒) |
BlockReportsNumOps |
區塊報告操作的總數 |
BlockReportsAvgTime |
區塊報告操作的平均時間(毫秒) |
BlockReports ServiceId- NNIdNumOps |
傳送至特定服務 ID 和 NN ID 的區塊報告操作總數 |
BlockReports ServiceId- NNIdAvgTime |
傳送至特定服務 ID 和 NN ID 的區塊報告操作平均時間(毫秒) |
IncrementalBlockReportsNumOps |
增量區塊報告操作的總數 |
IncrementalBlockReportsAvgTime |
增量區塊報告操作的平均時間(毫秒) |
IncrementalBlockReports ServiceId- NNIdNumOps |
傳送至特定服務 ID 和 NN ID 的增量區塊報告操作總數 |
IncrementalBlockReports ServiceId- NNIdAvgTime |
特定服務 ID 和 nnId 的增量區塊報告作業平均時間(毫秒) |
CacheReportsNumOps |
快取報告作業總數 |
CacheReportsAvgTime |
快取報告作業平均時間(毫秒) |
PacketAckRoundTripTimeNanosNumOps |
確認往返總數 |
PacketAckRoundTripTimeNanosAvgTime |
從確認傳送至接收的平均時間,減去下游確認時間(奈秒) |
PacketAckRoundTripTimeNanos nums(50/75/90/95/99)thPercentileLatency |
從確認傳送至接收的 50/75/90/95/99 百分位數延遲,減去下游確認時間(奈秒)(num 秒粒度)。預設關閉百分位數量測,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。 |
FlushNanosNumOps |
快取清除總數 |
FlushNanosAvgTime |
快取清除平均時間(奈秒) |
FlushNanos nums(50/75/90/95/99)thPercentileLatency |
快取清除的 50/75/90/95/99 百分位數時間(奈秒)(num 秒粒度)。預設關閉百分位數量測,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。 |
FsyncNanosNumOps |
fsync 總數 |
FsyncNanosAvgTime |
fsync 平均時間(奈秒) |
FsyncNanos nums(50/75/90/95/99)thPercentileLatency |
fsync 的 50/75/90/95/99 百分位數時間(奈秒)(num 秒粒度)。預設關閉百分位數量測,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。 |
SendDataPacketBlockedOnNetworkNanosNumOps |
傳送封包總數 |
SendDataPacketBlockedOnNetworkNanosAvgTime |
傳送封包的平均等待時間(奈秒) |
SendDataPacketBlockedOnNetworkNanos nums(50/75/90/95/99)thPercentileLatency |
傳送封包的 50/75/90/95/99 百分位數等待時間(奈秒)(num 秒粒度)。預設關閉百分位數量測,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。 |
SendDataPacketTransferNanosNumOps |
傳送封包總數 |
SendDataPacketTransferNanosAvgTime |
傳送封包的平均傳輸時間(奈秒) |
SendDataPacketTransferNanos nums(50/75/90/95/99)thPercentileLatency |
傳送封包的 50/75/90/95/99 百分位數傳輸時間(奈秒)(num 秒粒度)。預設關閉百分位數量測,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。 |
TotalWriteTime |
寫入操作花費的總毫秒數 |
TotalReadTime |
讀取操作花費的總毫秒數 |
RemoteBytesRead |
遠端用戶端讀取的位元組數 |
RemoteBytesWritten |
遠端用戶端寫入的位元組數 |
BPServiceActorInfo |
區塊池服務執行者的資訊 |
BlocksInPendingIBR |
待處理增量區塊報告 (IBR) 中的區塊數 |
BlocksReceivingInPendingIBR |
待處理增量區塊報告 (IBR) 中處於接收狀態的區塊數 |
BlocksReceivedInPendingIBR |
待處理增量區塊報告 (IBR) 中處於已接收狀態的區塊數 |
BlocksDeletedInPendingIBR |
待處理增量區塊報告 (IBR) 中處於已刪除狀態的區塊數 |
EcReconstructionTasks |
抹除編碼重建工作總數 |
EcFailedReconstructionTasks |
抹除編碼重建工作失敗總數 |
EcInvalidReconstructionTasks |
抹除編碼重建工作失效總數 |
EcDecodingTimeNanos |
解碼工作花費的總奈秒數 |
EcReconstructionBytesRead |
抹除編碼工作者讀取的總位元組數 |
EcReconstructionBytesWritten |
抹除編碼工作者寫入的總位元組數 |
EcReconstructionRemoteBytesRead |
抹除編碼工作者遠端讀取的總位元組數 |
每個磁碟區的指標包含與資料節點磁碟區 IO 相關的統計資料。每個磁碟區的指標預設為關閉。它們可以透過將 dfs.datanode .fileio.profiling.percentage.fraction
設為介於 1 到 100 之間的整數值來啟用。將此值設為 0 表示未啟用剖析。但啟用每個磁碟區的指標可能會影響效能。每個指標記錄包含標籤,例如主機名稱,以及指標的其他資訊。
名稱 | 說明 |
---|---|
TotalMetadataOperations |
元資料操作的總數 (單調遞增)。元資料操作包括 stat、list、mkdir、delete、move、open 和 posix_fadvise。 |
MetadataOperationRateNumOps |
指標間隔時間內的元資料操作數 |
MetadataOperationRateAvgTime |
元資料操作的平均時間(毫秒) |
MetadataOperationLatency nums(50/75/90/95/99)thPercentileLatency |
元資料操作延遲的 50/75/90/95/99 百分位數(毫秒,num 秒粒度)。預設關閉百分位數測量,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。 |
TotalDataFileIos |
資料檔案 I/O 操作的總數目(單調遞增) |
DataFileIoRateNumOps |
公制區間時間內的資料檔案 I/O 操作數目 |
DataFileIoRateAvgTime |
資料檔案 I/O 操作的平均時間(毫秒) |
DataFileIoLatency nums(50/75/90/95/99)thPercentileLatency |
資料檔案 I/O 操作延遲的 50/75/90/95/99 百分位數(毫秒,num 秒粒度)。預設關閉百分位數測量,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。 |
FlushIoRateNumOps |
公制區間時間內的檔案快取 I/O 操作數目 |
FlushIoRateAvgTime |
檔案快取 I/O 操作的平均時間(毫秒) |
FlushIoLatency nums(50/75/90/95/99)thPercentileLatency |
檔案快取 I/O 操作延遲的 50/75/90/95/99 百分位數(毫秒,num 秒粒度)。預設關閉百分位數測量,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。 |
SyncIoRateNumOps |
公制區間時間內的檔案同步 I/O 操作數目 |
SyncIoRateAvgTime |
檔案同步 I/O 操作的平均時間(毫秒) |
SyncIoLatency nums(50/75/90/95/99)thPercentileLatency |
檔案同步 I/O 操作延遲的 50/75/90/95/99 百分位數(毫秒,num 秒粒度)。預設關閉百分位數測量,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。 |
ReadIoRateNumOps |
公制區間時間內的檔案讀取 I/O 操作數目 |
ReadIoRateAvgTime |
檔案讀取 I/O 操作的平均時間(毫秒) |
ReadIoLatency nums(50/75/90/95/99)thPercentileLatency |
檔案讀取 I/O 操作延遲的 50/75/90/95/99 百分位數(毫秒,num 秒粒度)。預設關閉百分位數測量,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。 |
WriteIoRateNumOps |
公制區間時間內的檔案寫入 I/O 操作數目 |
WriteIoRateAvgTime |
檔案寫入 I/O 作業的平均時間(以毫秒為單位) |
WriteIoLatency nums(50/75/90/95/99)thPercentileLatency |
檔案寫入 I/O 作業延遲時間的第 50/75/90/95/99 個百分位數(以毫秒為單位)(num 秒粒度)。預設關閉百分位數測量,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。 |
TransferIoRateNumOps |
度量區間時間內檔案傳輸 I/O 作業的數量 |
TransferIoRateAvgTime |
檔案傳輸 I/O 作業的平均時間(以毫秒為單位) |
TransferIoLatency nums(50/75/90/95/99)thPercentileLatency |
檔案傳輸 I/O 作業延遲時間的第 50/75/90/95/99 個百分位數(以毫秒為單位)(num 秒粒度)。預設關閉百分位數測量,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。 |
NativeCopyIoRateNumOps |
度量區間時間內檔案 nativeCopy I/O 作業的數量 |
NativeCopyIoRateAvgTime |
檔案 nativeCopy I/O 作業的平均時間(以毫秒為單位) |
NativeCopyIoLatency nums(50/75/90/95/99)thPercentileLatency |
檔案 nativeCopy I/O 作業延遲時間的第 50/75/90/95/99 個百分位數(以毫秒為單位)(num 秒粒度)。預設關閉百分位數測量,不觀察任何區間。區間由 dfs.metrics.percentiles.intervals 指定。 |
TotalFileIoErrors |
檔案 I/O 錯誤作業的總數(單調遞增) |
FileIoErrorRateNumOps |
度量區間時間內檔案 I/O 錯誤作業的數量 |
FileIoErrorRateAvgTime |
測量從作業開始到發生失敗的平均時間(以毫秒為單位) |
RBFMetrics 顯示路由器聯盟中子叢集資訊的彙總值度量。
名稱 | 說明 |
---|---|
NumFiles |
目前檔案和目錄的數量 |
NumBlocks |
目前已配置區塊的數量 |
NumOfBlocksPendingReplication |
目前待複製區塊的數量 |
NumOfBlocksUnderReplicated |
目前複製不足的區塊數量 |
NumOfBlocksPendingDeletion |
目前待刪除區塊的數量 |
ProvidedSpace |
聯盟叢集中掛載的總遠端儲存容量 |
NumInMaintenanceLiveDataNodes |
目前處於維護狀態的運作中資料節點數目 |
NumInMaintenanceDeadDataNodes |
目前處於維護狀態的已死亡資料節點數目 |
NumEnteringMaintenanceDataNodes |
目前進入維護狀態的資料節點數目 |
TotalCapacity |
DataNodes 目前原始容量(以位元組為單位)(長整數基本型別,可能會溢位) |
UsedCapacity |
所有資料節點中目前使用的容量(以位元組為單位,長整數基本類型,可能會溢位) |
RemainingCapacity |
目前剩餘容量(以位元組為單位,長整數基本類型,可能會溢位) |
TotalCapacityBigInt |
資料節點目前未處理的容量(以位元組為單位,使用 BigInteger) |
UsedCapacityBigInt |
所有資料節點中目前使用的容量(以位元組為單位,使用 BigInteger) |
RemainingCapacityBigInt |
目前剩餘容量(以位元組為單位,使用 BigInteger) |
NumOfMissingBlocks |
目前遺失區塊的數量 |
NumLiveNodes |
目前為活動狀態的資料節點數量 |
NumDeadNodes |
目前已死亡的資料節點數目 |
NumStaleNodes |
因心跳延遲而標示為過時的資料節點目前數目 |
NumDecomLiveNodes |
已解除委任且目前為運作中的資料節點數目 |
NumDecomDeadNodes |
已解除委任且目前已死亡的資料節點數目 |
NumDecommissioningNodes |
目前處於解除委任狀態的資料節點數目 |
Namenodes |
所有名稱節點的目前資訊 |
Nameservices |
每個已註冊名稱服務的目前資訊 |
MountTable |
聯合檔案系統的掛載表格 |
Routers |
所有路由器的目前資訊 |
NumNameservices |
名稱服務數量 |
NumNamenodes |
名稱節點數量 |
NumExpiredNamenodes |
過期名稱節點數量 |
NodeUsage |
資料節點使用量的最大值、中位數、最小值和標準差 |
RouterRPCMetrics 顯示基於路由器的聯合中路由器元件的統計資料。
名稱 | 說明 |
---|---|
ProcessingOp |
路由器在內部處理的作業數量 |
ProxyOp |
路由器代理到名稱節點的作業數量 |
ProxyOpFailureStandby |
無法到達 NN 的作業數量 |
ProxyOpFailureCommunicate |
達到備用 NN 的作業數量 |
ProxyOpNotImplemented |
未實作的作業數量 |
RouterFailureStateStore |
由於狀態儲存區無法使用而導致的失敗要求數量 |
RouterFailureReadOnly |
由於唯讀掛載點而導致的失敗要求數量 |
RouterFailureLocked |
由於路徑鎖定而導致的失敗要求數量 |
RouterFailureSafemode |
由於安全模式而導致的失敗要求數量 |
ProcessingNumOps |
路由器在指標的區間時間內在內部處理的作業數量 |
ProcessingAvgTime |
路由器處理作業的平均時間(以奈秒為單位) |
ProxyNumOps |
路由器在指標的區間時間內代理作業到名稱節點的次數 |
ProxyAvgTime |
路由器代理作業到名稱節點的平均時間(以奈秒為單位) |
StateStoreMetrics 顯示基於路由器的聯合中狀態儲存區元件的統計資料。
名稱 | 說明 |
---|---|
ReadsNumOps |
指定時間區段內 State Store 的 GET 交易次數 |
ReadsAvgTime |
State Store 的 GET 交易平均時間(毫秒) |
WritesNumOps |
指定時間區段內 State Store 的 PUT 交易次數 |
WritesAvgTime |
State Store 的 PUT 交易平均時間(毫秒) |
RemovesNumOps |
指定時間區段內 State Store 的 REMOVE 交易次數 |
RemovesAvgTime |
State Store 的 REMOVE 交易平均時間(毫秒) |
FailuresNumOps |
指定時間區段內 State Store 的失敗交易次數 |
FailuresAvgTime |
State Store 的失敗交易平均時間(毫秒) |
Cache BaseRecordSize |
State Store 中要快取的儲存記錄數 |
ClusterMetrics 顯示 YARN 集群的指標,從 ResourceManager 的角度來看。每個指標記錄包含 Hostname 標籤作為額外資訊,以及指標。
名稱 | 說明 |
---|---|
NumActiveNMs |
目前活動的 NodeManager 數目 |
numDecommissioningNMs |
目前正在停用的 NodeManager 數目 |
NumDecommissionedNMs |
目前已停用的 NodeManager 數目 |
NumShutdownNMs |
目前正常關閉的 NodeManager 數目。請注意,這不包含強制終止的 NodeManager。 |
NumLostNMs |
目前因未傳送心跳而遺失的 NodeManager 數目。 |
NumUnhealthyNMs |
目前不正常的 NodeManager 數目 |
NumRebootedNMs |
目前重新開機的 NodeManager 數目 |
AMLaunchDelayNumOps |
已啟動的 AM 總數 |
AMLaunchDelayAvgTime |
在 AM 容器配置後,RM 花費的平均時間(毫秒)來啟動 AM 容器 |
AMRegisterDelayNumOps |
已註冊的 AM 總數 |
AMRegisterDelayAvgTime |
在 AM 容器啟動後,AM 花費的平均時間(毫秒)來向 RM 註冊 |
QueueMetrics 顯示應用程式佇列,從 ResourceManager 的角度來看。每個指標記錄顯示每個佇列的統計資料,並包含標籤,例如佇列名稱和 Hostname,作為額外資訊,以及指標。
在 running_
num 指標中,例如 running_0
,您可以在 yarn-site.xml 中設定屬性 yarn.resourcemanager.metrics.runtime.buckets
來變更區段。預設值為 60,300,1440
。
名稱 | 說明 |
---|---|
running_0 |
執行時間小於 60 分鐘的目前執行中應用程式數量 |
running_60 |
執行時間介於 60 到 300 分鐘的目前執行中應用程式數量 |
running_300 |
執行時間介於 300 到 1440 分鐘的目前執行中應用程式數量 |
running_1440 |
執行時間大於 1440 分鐘的目前執行中應用程式數量 |
AppsSubmitted |
已提交應用程式的總數 |
AppsRunning |
目前執行中應用程式的數量 |
AppsPending |
尚未由任何容器指派的目前應用程式數量 |
AppsCompleted |
已完成應用程式的總數 |
AppsKilled |
已終止應用程式的總數 |
AppsFailed |
已失敗應用程式的總數 |
AllocatedMB |
目前已配置的記憶體 (MB) |
AllocatedVCores |
目前已配置的 CPU (虛擬核心) |
AllocatedContainers |
目前已配置的容器數量 |
AggregateContainersAllocated |
已配置容器的總數 |
aggregateNodeLocalContainersAllocated |
已配置的節點本機容器總數 |
aggregateRackLocalContainersAllocated |
已配置的機架本機容器總數 |
aggregateOffSwitchContainersAllocated |
已配置的關閉交換器容器總數 |
AggregateContainersReleased |
已釋放容器的總數 |
AvailableMB |
目前可用的記憶體 (MB) |
AvailableVCores |
目前可用的 CPU (虛擬核心) |
PendingMB |
排定由排程器完成的目前記憶體要求 (MB) |
PendingVCores |
排定由排程器完成的目前 CPU 要求 (虛擬核心) |
PendingContainers |
排定由排程器完成的目前容器數量 |
ReservedMB |
目前保留的記憶體 (MB) |
ReservedVCores |
目前保留的 CPU (虛擬核心) |
ReservedContainers |
目前保留的容器數量 |
ActiveUsers |
目前活躍使用者數量 |
ActiveApplications |
目前活躍應用程式數量 |
AppAttemptFirstContainerAllocationDelayNumOps |
所有嘗試中第一個已配置容器的總數 |
AppAttemptFirstContainerAllocationDelayAvgTime |
RM 花費在所有嘗試中配置第一個容器的平均時間。對於受管理的 AM,第一個容器是 AM 容器。因此,這表示配置 AM 容器的時間長度。對於未受管理的 AM,這是配置未受管理的 AM 要求的第一個容器的時間長度。 |
FairShareMB |
(僅限 FairScheduler) 目前公平共享的記憶體 (MB) |
FairShareVCores |
(僅限 FairScheduler) CPU 的目前公平共享,以虛擬核心為單位 |
MinShareMB |
(僅限 FairScheduler) 記憶體的最小共享,以 MB 為單位 |
MinShareVCores |
(僅限 FairScheduler) CPU 的最小共享,以虛擬核心為單位 |
MaxShareMB |
(僅限 FairScheduler) 記憶體的最大共享,以 MB 為單位 |
MaxShareVCores |
(僅限 FairScheduler) CPU 的最大共享,以虛擬核心為單位 |
NodeManagerMetrics 顯示節點中容器的統計資料。每個指標記錄都包含 Hostname 標籤,作為指標的附加資訊。
名稱 | 說明 |
---|---|
containersLaunched |
已啟動容器的總數 |
containersCompleted |
已成功完成容器的總數 |
containersFailed |
已失敗容器的總數 |
containersKilled |
已終止容器的總數 |
containersIniting |
目前正在初始化的容器數目 |
containersRunning |
目前正在執行的容器數目 |
allocatedContainers |
目前已配置的容器數量 |
allocatedGB |
目前已配置的記憶體,以 GB 為單位 |
availableGB |
目前可用的記憶體,以 GB 為單位 |
allocatedVcores |
目前已使用的 vcore |
availableVcores |
目前可用的 vcore |
containerLaunchDuration |
NM 啟動容器的平均時間,以毫秒為單位 |
badLocalDirs |
目前不良的本機目錄數目。目前,NM 程序無法讀取/寫入/執行的磁碟或磁碟已滿都視為不良。 |
badLogDirs |
目前不良的記錄目錄數目。目前,NM 程序無法讀取/寫入/執行的磁碟或磁碟已滿都視為不良。 |
goodLocalDirsDiskUtilizationPerc |
所有良好本機目錄的目前磁碟使用率百分比 |
goodLogDirsDiskUtilizationPerc |
所有良好記錄目錄的目前磁碟使用率百分比 |
ContainerMetrics 顯示容器的資源使用率統計資料。每個指標記錄都包含標籤,例如 ContainerPid 和 Hostname,作為指標的附加資訊。
名稱 | 說明 |
---|---|
pMemLimitMBs |
容器的實體記憶體限制,以 MB 為單位 |
vMemLimitMBs |
容器的虛擬記憶體限制,以 MB 為單位 |
vCoreLimit |
容器的 CPU 限制,以 vcore 數目為單位 |
launchDurationMs |
容器啟動持續時間(毫秒) |
localizationDurationMs |
容器本機化持續時間(毫秒) |
StartTime |
容器啟動時間(毫秒) |
FinishTime |
容器完成時間(毫秒) |
ExitCode |
容器退出代碼 |
PMemUsageMBsNumUsage |
已用實體記憶體量度總數 |
PMemUsageMBsAvgMBs |
已用實體記憶體平均值(MB) |
PMemUsageMBsStdevMBs |
已用實體記憶體標準差(MB) |
PMemUsageMBsMinMBs |
已用實體記憶體最小值(MB) |
PMemUsageMBsMaxMBs |
已用實體記憶體最大值(MB) |
PMemUsageMBsIMinMBs |
目前 區間 已用實體記憶體最小值(MB)(區間 時間由 yarn.nodemanager.container-metrics.period-ms 指定) |
PMemUsageMBsIMaxMBs |
目前 區間 已用實體記憶體最大值(MB)(區間 時間由 yarn.nodemanager.container-metrics.period-ms 指定) |
PMemUsageMBsINumUsage |
目前 區間 已用實體記憶體量度總數(區間 時間由 yarn.nodemanager.container-metrics.period-ms 指定) |
PCpuUsagePercentNumUsage |
已用實體 CPU 核心百分比量度總數 |
PCpuUsagePercentAvgPercents |
已用實體 CPU 核心百分比平均值 |
PCpuUsagePercentStdevPercents |
已用實體 CPU 核心百分比標準差 |
PCpuUsagePercentMinPercents |
已用實體 CPU 核心百分比最小值 |
PCpuUsagePercentMaxPercents |
已用實體 CPU 核心百分比最大值 |
PCpuUsagePercentIMinPercents |
目前 區間 已用實體 CPU 核心百分比最小值(區間 時間由 yarn.nodemanager.container-metrics.period-ms 指定) |
PCpuUsagePercentIMaxPercents |
目前 區間 已用實體 CPU 核心百分比最大值(區間 時間由 yarn.nodemanager.container-metrics.period-ms 指定) |
PCpuUsagePercentINumUsage |
目前 區間 已用實體 CPU 核心量度總數(區間 時間由 yarn.nodemanager.container-metrics.period-ms 指定) |
MilliVcoreUsageNumUsage |
已用 vcore 量度總數 |
MilliVcoreUsageAvgMilliVcores |
已用 vcore 平均值的 1000 倍 |
MilliVcoreUsageStdevMilliVcores |
已用 vcore 標準差的 1000 倍 |
MilliVcoreUsageMinMilliVcores |
已用 vcore 最小值的 1000 倍 |
MilliVcoreUsageMaxMilliVcores |
已用 vcore 最大值的 1000 倍 |
MilliVcoreUsageIMinMilliVcores |
目前區間中使用的平均 vcore 的 1000 倍(區間時間由 yarn.nodemanager.container-metrics.period-ms 指定) |
MilliVcoreUsageIMaxMilliVcores |
目前區間中使用的最大 vcore 的 1000 倍(區間時間由 yarn.nodemanager.container-metrics.period-ms 指定) |
MilliVcoreUsageINumUsage |
目前區間中使用的 vcore 的總數(區間時間由 yarn.nodemanager.container-metrics.period-ms 指定) |
PMemUsageMBHistogramNumUsage |
已使用實體記憶體的總數(1 秒粒度) |
PMemUsageMBHistogram50thPercentileMBs |
已使用實體記憶體的第 50 個百分位數(以 MB 為單位)(1 秒粒度) |
PMemUsageMBHistogram75thPercentileMBs |
已使用實體記憶體的第 75 個百分位數(以 MB 為單位)(1 秒粒度) |
PMemUsageMBHistogram90thPercentileMBs |
已使用實體記憶體的第 90 個百分位數(以 MB 為單位)(1 秒粒度) |
PMemUsageMBHistogram95thPercentileMBs |
已使用實體記憶體的第 95 個百分位數(以 MB 為單位)(1 秒粒度) |
PMemUsageMBHistogram99thPercentileMBs |
已使用實體記憶體的第 99 個百分位數(以 MB 為單位)(1 秒粒度) |
PCpuUsagePercentHistogramNumUsage |
已使用實體 CPU 核心數的總數(1 秒粒度) |
PCpuUsagePercentHistogram50thPercentilePercents |
已使用實體 CPU 核心數的第 50 個百分位數(1 秒粒度) |
PCpuUsagePercentHistogram75thPercentilePercents |
已使用實體 CPU 核心數的第 75 個百分位數(1 秒粒度) |
PCpuUsagePercentHistogram90thPercentilePercents |
已使用實體 CPU 核心數的第 90 個百分位數(1 秒粒度) |
PCpuUsagePercentHistogram95thPercentilePercents |
已使用實體 CPU 核心數的第 95 個百分位數(1 秒粒度) |
PCpuUsagePercentHistogram99thPercentilePercents |
已使用實體 CPU 核心數的第 99 個百分位數(1 秒粒度) |
UgiMetrics 與使用者和群組資訊相關。每個指標記錄都包含 Hostname 標籤作為指標的附加資訊。
名稱 | 說明 |
---|---|
LoginSuccessNumOps |
成功 Kerberos 登入的總數 |
LoginSuccessAvgTime |
成功 Kerberos 登入的平均時間(以毫秒為單位) |
LoginFailureNumOps |
失敗 Kerberos 登入的總數 |
LoginFailureAvgTime |
失敗 Kerberos 登入的平均時間(以毫秒為單位) |
getGroupsNumOps |
群組解析的總數 |
getGroupsAvgTime |
群組解析的平均時間(以毫秒為單位) |
getGroups numsNumOps |
群組解析的總數(num 秒粒度)。num 由 hadoop.user.group.metrics.percentiles.intervals 指定。 |
getGroups nums50thPercentileLatency |
以毫秒為單位顯示群組解析時間的第 50 個百分位數(num 秒粒度)。num 由 hadoop.user.group.metrics.percentiles.intervals 指定。 |
getGroups nums75thPercentileLatency |
以毫秒為單位顯示群組解析時間的第 75 個百分位數(num 秒粒度)。num 由 hadoop.user.group.metrics.percentiles.intervals 指定。 |
getGroups nums90thPercentileLatency |
以毫秒為單位顯示群組解析時間的第 90 個百分位數(num 秒粒度)。num 由 hadoop.user.group.metrics.percentiles.intervals 指定。 |
getGroups nums95thPercentileLatency |
以毫秒為單位顯示群組解析時間的第 95 個百分位數(num 秒粒度)。num 由 hadoop.user.group.metrics.percentiles.intervals 指定。 |
getGroups nums99thPercentileLatency |
以毫秒為單位顯示群組解析時間的第 99 個百分位數(num 秒粒度)。num 由 hadoop.user.group.metrics.percentiles.intervals 指定。 |
MetricsSystem 顯示公制快照和發布的統計資料。每個公制記錄包含 Hostname 標籤,以及公制資料。
名稱 | 說明 |
---|---|
NumActiveSources |
目前活動中公制來源的數量 |
NumAllSources |
公制來源的總數量 |
NumActiveSinks |
目前活動中接收器的數量 |
NumAllSinks |
接收器的總數量(通常小於 NumActiveSinks ,請參閱 HADOOP-9946) |
SnapshotNumOps |
從公制來源快照統計資料的總操作數 |
SnapshotAvgTime |
從公制來源快照統計資料的平均時間(以毫秒為單位) |
PublishNumOps |
發布統計資料至接收器的總操作數 |
PublishAvgTime |
發布統計資料至接收器的平均時間(以毫秒為單位) |
DroppedPubAll |
已中斷發布的總數量 |
Sink_ instanceNumOps |
instance 的接收器操作總數 |
Sink_ instanceAvgTime |
instance 的接收器操作平均時間(以毫秒為單位) |
Sink_ 實例已中斷 |
實例中斷的接收器作業總數 |
Sink_ 實例Qsize |
接收器作業的目前佇列長度 |
StartupProgress 指標顯示 NameNode 啟動的統計資料。根據名稱,每個啟動階段會公開四個指標。啟動階段為 LoadingFsImage
、LoadingEdits
、SavingCheckpoint
和 SafeMode
。每個指標記錄包含主機名稱標籤作為額外資訊以及指標。
名稱 | 說明 |
---|---|
ElapsedTime |
總經過時間(毫秒) |
PercentComplete |
NameNode 啟動進度中完成的目前速率(最大值不是 100,而是 1.0) |
階段Count |
階段中完成的步驟總數 |
階段ElapsedTime |
階段中總經過時間(毫秒) |
階段Total |
階段中的步驟總數 |
階段PercentComplete |
階段中完成的目前速率(最大值不是 100,而是 1.0) |