kubeflow
diff --git a/‎README.md‎
Lines changed: 17 additions & 0 deletions b/‎README.md‎
Lines changed: 17 additions & 0 deletions
diff --git a/‎applications/profiles/upstream/overlays/kubeflow/kustomization.yaml‎
Lines changed: 0 additions & 1 deletion b/‎applications/profiles/upstream/overlays/kubeflow/kustomization.yaml‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎common/observability/base/dashboards/gpu-availability-allocation-dashboard.yaml‎
Lines changed: 22 additions & 0 deletions b/‎common/observability/base/dashboards/gpu-availability-allocation-dashboard.yaml‎
Lines changed: 22 additions & 0 deletions
diff --git a/‎common/observability/base/dashboards/gpu-cluster-usage-dashboard.yaml‎
Lines changed: 30 additions & 0 deletions b/‎common/observability/base/dashboards/gpu-cluster-usage-dashboard.yaml‎
Lines changed: 30 additions & 0 deletions
diff --git a/‎common/observability/base/dashboards/gpu-namespace-usage-dashboard.yaml‎
Lines changed: 22 additions & 0 deletions b/‎common/observability/base/dashboards/gpu-namespace-usage-dashboard.yaml‎
Lines changed: 22 additions & 0 deletions
diff --git a/‎common/observability/base/dashboards/kustomization.yaml‎
Lines changed: 6 additions & 0 deletions b/‎common/observability/base/dashboards/kustomization.yaml‎
Lines changed: 6 additions & 0 deletions
diff --git a/‎common/observability/base/kepler/clusterrole.yaml‎
Lines changed: 11 additions & 0 deletions b/‎common/observability/base/kepler/clusterrole.yaml‎
Lines changed: 11 additions & 0 deletions
diff --git a/‎common/observability/base/kepler/clusterrolebinding.yaml‎
Lines changed: 12 additions & 0 deletions b/‎common/observability/base/kepler/clusterrolebinding.yaml‎
Lines changed: 12 additions & 0 deletions
diff --git a/‎common/observability/base/kepler/daemonset.yaml‎
Lines changed: 54 additions & 0 deletions b/‎common/observability/base/kepler/daemonset.yaml‎
Lines changed: 54 additions & 0 deletions
diff --git a/‎common/observability/base/kepler/kustomization.yaml‎
Lines changed: 9 additions & 0 deletions b/‎common/observability/base/kepler/kustomization.yaml‎
Lines changed: 9 additions & 0 deletions
@@ -84,6 +84,7 @@ This repository periodically synchronizes all official Kubeflow components from
 | Cert Manager | common/cert-manager | [1.19.4](https://github.com/cert-manager/cert-manager/releases/tag/v1.19.4) | 3m | 128Mi | 0GB |
 | Dex | common/dex | [2.45.0](https://github.com/dexidp/dex/releases/tag/v2.45.0) | 3m | 27Mi | 0GB |
 | OAuth2-Proxy | common/oauth2-proxy | [7.14.3](https://github.com/oauth2-proxy/oauth2-proxy/releases/tag/v7.14.3) | 3m | 27Mi | 0GB |
+| Observability | common/observability | [3426](https://github.com/kubeflow/manifests/issues/3426) | - | - | 0GB |
 | **Total** | | | **4380m** | **12341Mi** | **65GB** |
 
 
@@ -177,6 +178,22 @@ Install the Kubeflow namespace:
 kustomize build common/kubeflow-namespace/base | kubectl apply -f -
 ```
 
+#### Observability Stack (Optional)
+
+This component provides an optional monitoring stack for GPU metrics (NVIDIA/AMD) and energy consumption (Kepler), along with Grafana dashboards. It includes Prometheus and Grafana operators and is deployed in the `kubeflow-monitoring-system` namespace.
+
+Install the observability base component:
+
+```sh
+./tests/observability_install.sh
+```
+
+To opt into Kepler for energy metrics:
+
+```sh
+kustomize build common/observability/components/kepler | kubectl apply -f -
+```
+
 #### Cert-manager
 
 Cert-manager is used by many Kubeflow components to provide certificates for admission webhooks.
 
@@ -12,7 +12,6 @@ commonLabels:
 
 patchesStrategicMerge:
 - patches/kfam.yaml
-- patches/remove-namespace.yaml
 
 configurations:
 - params.yaml
 
@@ -0,0 +1,22 @@
+apiVersion: v1
+kind: ConfigMap
+metadata:
+  name: gpu-availability-allocation-dashboard
+  namespace: kubeflow-monitoring-system
+  labels:
+    grafana_dashboard: "1"
+data:
+  gpu-availability-allocation.json: |
+    {
+      "title": "GPU Availability & Allocation",
+      "panels": [
+        {
+          "title": "Pending GPU workloads",
+          "type": "stat",
+          "targets": [
+            { "expr": "count(kube_pod_status_phase{phase=\"Pending\"} * on(pod, namespace) group_left() kube_pod_container_resource_requests{resource=\"nvidia.com/gpu\"})", "legendFormat": "Pending NVIDIA GPU Pods" }
+          ]
+        }
+      ],
+      "datasource": { "uid": "prometheus" }
+    }
@@ -0,0 +1,30 @@
+apiVersion: v1
+kind: ConfigMap
+metadata:
+  name: gpu-cluster-usage-dashboard
+  namespace: kubeflow-monitoring-system
+  labels:
+    grafana_dashboard: "1"
+data:
+  gpu-cluster-usage.json: |
+    {
+      "title": "GPU Cluster Usage",
+      "panels": [
+        {
+          "title": "Cluster-wide GPU Utilization %",
+          "type": "timeseries",
+          "targets": [
+            { "expr": "avg(DCGM_FI_DEV_GPU_UTIL) or avg(amd_gpu_utilization)", "legendFormat": "GPU Utilization" }
+          ]
+        },
+        {
+          "title": "GPU Memory Used vs Total per Node",
+          "type": "timeseries",
+          "targets": [
+            { "expr": "sum(DCGM_FI_DEV_FB_USED) by (node)", "legendFormat": "{{node}} Used" },
+            { "expr": "sum(DCGM_FI_DEV_FB_FREE + DCGM_FI_DEV_FB_USED) by (node)", "legendFormat": "{{node}} Total" }
+          ]
+        }
+      ],
+      "datasource": { "uid": "prometheus" }
+    }
@@ -0,0 +1,22 @@
+apiVersion: v1
+kind: ConfigMap
+metadata:
+  name: gpu-namespace-usage-dashboard
+  namespace: kubeflow-monitoring-system
+  labels:
+    grafana_dashboard: "1"
+data:
+  gpu-namespace-usage.json: |
+    {
+      "title": "GPU Namespace Usage",
+      "panels": [
+        {
+          "title": "Per-namespace GPU Utilization over time",
+          "type": "timeseries",
+          "targets": [
+            { "expr": "sum(DCGM_FI_DEV_GPU_UTIL) by (namespace)", "legendFormat": "{{namespace}}" }
+          ]
+        }
+      ],
+      "datasource": { "uid": "prometheus" }
+    }
@@ -0,0 +1,6 @@
+apiVersion: kustomize.config.k8s.io/v1beta1
+kind: Kustomization
+resources:
+- gpu-cluster-usage-dashboard.yaml
+- gpu-namespace-usage-dashboard.yaml
+- gpu-availability-allocation-dashboard.yaml
@@ -0,0 +1,11 @@
+apiVersion: rbac.authorization.k8s.io/v1
+kind: ClusterRole
+metadata:
+  name: kepler-role
+rules:
+- apiGroups: [""]
+  resources: ["nodes", "pods", "namespaces"]
+  verbs: ["get", "list", "watch"]
+- apiGroups: [""]
+  resources: ["endpoints"]
+  verbs: ["get"]
@@ -0,0 +1,12 @@
+apiVersion: rbac.authorization.k8s.io/v1
+kind: ClusterRoleBinding
+metadata:
+  name: kepler-role-binding
+roleRef:
+  apiGroup: rbac.authorization.k8s.io
+  kind: ClusterRole
+  name: kepler-role
+subjects:
+- kind: ServiceAccount
+  name: kepler-sa
+  namespace: kubeflow-monitoring-system
@@ -0,0 +1,54 @@
+apiVersion: apps/v1
+kind: DaemonSet
+metadata:
+  name: kepler
+  namespace: kubeflow-monitoring-system
+  labels:
+    app.kubernetes.io/name: kepler
+spec:
+  selector:
+    matchLabels:
+      app.kubernetes.io/name: kepler
+  template:
+    metadata:
+      labels:
+        app.kubernetes.io/name: kepler
+    spec:
+      serviceAccountName: kepler-sa
+      hostPID: true
+      hostNetwork: true
+      containers:
+      - name: kepler
+        image: quay.io/sustainable_computing_io/kepler:v0.7.11
+        ports:
+        - name: http
+          containerPort: 9102
+        resources:
+          requests:
+            cpu: 100m
+            memory: 128Mi
+          limits:
+            cpu: 500m
+            memory: 512Mi
+        securityContext:
+          privileged: true
+        volumeMounts:
+        - name: proc
+          mountPath: /proc
+          readOnly: true
+        - name: sys
+          mountPath: /sys
+          readOnly: true
+        - name: containerd
+          mountPath: /var/run/containerd
+          readOnly: true
+      volumes:
+      - name: proc
+        hostPath:
+          path: /proc
+      - name: sys
+        hostPath:
+          path: /sys
+      - name: containerd
+        hostPath:
+          path: /var/run/containerd
@@ -0,0 +1,9 @@
+apiVersion: kustomize.config.k8s.io/v1beta1
+kind: Kustomization
+resources:
+- namespace.yaml
+- serviceaccount.yaml
+- clusterrole.yaml
+- clusterrolebinding.yaml
+- daemonset.yaml
+- service.yaml