メインコンテンツまでスキップ

監視サーバー

監視機能は、AI Infrastructure - Metal Cloud サービスにバンドルされています。

メトリック、ログ、イベントを収集して視覚化すると、潜在的な問題を特定し、将来のワークロードを最適化するのに役立ちます。ニーズに最適な可観測性ソリューションを選択できます。

メトリクス クラスター(同じ VPC内 シングルサーバー

ノードとダウンノードの総数

GPU モデル、ドライバー、CUDA バージョン

制御状態

アップタイム

GPU とダウン GPU の総数

GPU 使用率

GPU メモリ

CPU 使用率

システムメモリ

ルートストレージの使用状況

ローカルディスクの使用状況

各 GPU の詳細 消費電力、温度、GPU 使用率、VRAM 使用状況

ネットワーク帯域幅 インバウンド/アウトバウンド

送受信されたネットワークパケット

ネットワークエラー率 受信/送信

システムファン速度

システム電圧

共通アラート