Hướng dẫn sử dụng GPU Telemetry
FPT Cloud sử dụng NVIDIA GPU Telemetry tích hợp với kube-prometheus-stack là bộ công cụ theo dõi và giám sát cho hệ thống sử dụng GPU trên Kubernetes. Bộ công cụ giám sát bao gồm collector, time-series database lưu trữ chỉ số (metric) và visualization (giao diện trực quan hóa). Bộ công cụ sử dụng các ứng dụng mã nguồn mở phổ biến là Prometheus và Grafana. Prometheus cũng bao gồm Alertmanager để tạo và quản lý các cảnh báo. Prometheus được triển khai cùng với kube-state-metrics và node_exporter để hiển thị các chỉ số mức cluster cho các đối tượng API Kubernetes và các chỉ số mức node, ví dụ như mức sử dụng GPU.
Kiểm tra custom metric của GPU bằng câu lệnh sau:
kubectl get --raw /apis/custom.metrics.k8s.io/v1beta1 | jq -r . | grep DCGM
Truy cập Prometheus kiểm tra metric của GPU DCGM:
kubectl port-forward service/kube-prometheus-stack-1679-prometheus 9090:63090
Trên giao diện Prometheus thao tác như hình dưới đây để kiểm tra metric GPU DCGM:
Truy cập Grafana Dashboard:
kubectl port-forward service/kube-prometheus-stack-1679050354-grafana 80:63080
Default user và mật khẩu để đăng nhập vào Grafana là:
- User:
admin - Password:
prom-operator
Import Grafana Dashboard cho GPU
Để import Dashboard, truy cập giao diện Grafana, mục Dashboards > Manage > Import. Nếu sử dụng Dashboard của FPT Cloud, nhập nội dung FPT Cloud GPU Dashboard JSON > Load.
Dashboard GPU của NVIDIA FPT Cloud:


