Skip to content
Open
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
18 changes: 13 additions & 5 deletions docs.json
Original file line number Diff line number Diff line change
Expand Up @@ -329,7 +329,8 @@
"pages": [
"tutorials/video/kandinsky/kandinsky-5"
]
}
},
"tutorials/video/bernini-r"
]
},
{
Expand Down Expand Up @@ -367,6 +368,7 @@
"tutorials/utility/video-segment-sam3",
"tutorials/utility/remove-background-birefnet",
"tutorials/utility/moge",
"tutorials/utility/depth-anything-3",
{
"group": "Face Detection",
"pages": [
Expand Down Expand Up @@ -2854,7 +2856,8 @@
"pages": [
"zh/tutorials/video/kandinsky/kandinsky-5"
]
}
},
"zh/tutorials/video/bernini-r"
]
},
{
Expand Down Expand Up @@ -2892,6 +2895,7 @@
"zh/tutorials/utility/video-segment-sam3",
"zh/tutorials/utility/remove-background-birefnet",
"zh/tutorials/utility/moge",
"zh/tutorials/utility/depth-anything-3",
{
"group": "人脸检测",
"pages": [
Expand Down Expand Up @@ -5379,7 +5383,8 @@
"pages": [
"ja/tutorials/video/kandinsky/kandinsky-5"
]
}
},
"ja/tutorials/video/bernini-r"
]
},
{
Expand Down Expand Up @@ -5417,6 +5422,7 @@
"ja/tutorials/utility/video-segment-sam3",
"ja/tutorials/utility/remove-background-birefnet",
"ja/tutorials/utility/moge",
"ja/tutorials/utility/depth-anything-3",
{
"group": "顔検出",
"pages": [
Expand Down Expand Up @@ -7982,7 +7988,8 @@
"pages": [
"ko/tutorials/video/kandinsky/kandinsky-5"
]
}
},
"ko/tutorials/video/bernini-r"
]
},
{
Expand Down Expand Up @@ -8020,6 +8027,7 @@
"ko/tutorials/utility/video-segment-sam3",
"ko/tutorials/utility/remove-background-birefnet",
"ko/tutorials/utility/moge",
"ko/tutorials/utility/depth-anything-3",
{
"group": "얼굴 감지",
"pages": [
Expand Down Expand Up @@ -10390,4 +10398,4 @@
"destination": "/zh/:slug*"
}
]
}
}
124 changes: 124 additions & 0 deletions ja/tutorials/utility/depth-anything-3.mdx
Original file line number Diff line number Diff line change
@@ -0,0 +1,124 @@
---
title: "ComfyUI Depth Anything 3 公式サンプル"
description: "ComfyUI で Depth Anything 3 を使用した画像と動画の単眼・多視点深度推定を学びましょう。"
sidebarTitle: "Depth Anything 3"
translationSourceHash: d646a0e3
translationFrom: tutorials/utility/depth-anything-3.mdx
---

import UpdateReminder from '/snippets/ja/tutorials/update-reminder.mdx'

# ComfyUI Depth Anything 3 概要

[Depth Anything 3 (DA3)](https://github.com/ByteDance-Seed/Depth-Anything-3) は、ByteDance Seed が開発したビジョントランスフォーマーで、カメラポーズの有無にかかわらず、任意のビジュアル入力から空間的に一貫したジオメトリを復元します。単一の DINO エンコーダと統一された深度-レイ表現により、同一モデルファミリーで単眼深度、多視点深度、カメラポーズ推定、3D 再構築をカバーします。

主な機能:

- **統一された単眼・多視点深度**:単一または複数の画像から深度を推定
- **カメラポーズ推定**:順序なし画像セットからカメラ位置を復元
- **3D 再構築**:多視点入力をサポート
- **動画深度推定**:動画入力のフレームごとの深度シーケンスを生成
- **複数のモデルバリアント**:Small、Base、Mono/Metric Large

<UpdateReminder/>

<Tip>
ComfyUI は Depth Anything 3 ノードをネイティブサポートしています。始める前に [ComfyUI](https://github.com/Comfy-Org/ComfyUI) を最新バージョンに更新してください。
</Tip>

## モデルインストール

Depth Anything 3 チェックポイントをダウンロードし、対応する ComfyUI フォルダに保存します:

- **Small** ([depth_anything_3_small.safetensors](https://huggingface.co/Comfy-Org/Depth-Anything-3/resolve/main/geometry_estimation/depth_anything_3_small.safetensors)) — 軽量で高速な推論
- **Base** ([depth_anything_3_base.safetensors](https://huggingface.co/Comfy-Org/Depth-Anything-3/resolve/main/geometry_estimation/depth_anything_3_base.safetensors)) — バランスの取れた性能
- **Mono-Large** ([depth_anything_3_mono_large.safetensors](https://huggingface.co/Comfy-Org/Depth-Anything-3/resolve/main/geometry_estimation/depth_anything_3_mono_large.safetensors)) — 単眼深度に最適(空検出対応)
- **Metric-Large** ([depth_anything_3_metric_large.safetensors](https://huggingface.co/Comfy-Org/Depth-Anything-3/resolve/main/geometry_estimation/depth_anything_3_metric_large.safetensors)) — メートル単位の物理深度(空検出対応)

```
ComfyUI/
├── models/
│ ├── geometry_estimation/
│ │ ├── depth_anything_3_small.safetensors
│ │ ├── depth_anything_3_base.safetensors
│ │ ├── depth_anything_3_mono_large.safetensors
│ │ └── depth_anything_3_metric_large.safetensors
```

## サンプルワークフロー

---

## 1. 画像深度推定

**機能説明:** 1 枚の画像をアップロードし、**Image Depth Estimation (Depth Anything 3)** を実行して深度マップを生成します。**Depth Preview** に元画像と深度出力のサイドバイサイド比較が表示されます。

<CardGroup cols={2}>
<Card title="ワークフローをダウンロード" icon="download" href="https://github.com/Comfy-Org/workflow_templates/blob/main/templates/utility_depth_anything3_image_depth_estimation.json">
JSON をダウンロード または テンプレートライブラリで "Depth Anything 3" を検索
</Card>
<Card title="サンプル画像をダウンロード" icon="image" href="https://raw.githubusercontent.com/Comfy-Org/workflow_templates/main/input/retro_futuristic_home.png">
このワークフローのサンプル入力画像を取得
</Card>
</CardGroup>

<div style={{display: 'flex', gap: '1rem', flexWrap: 'wrap'}}>
<img src="https://raw.githubusercontent.com/Comfy-Org/workflow_templates/main/templates/utility_depth_anything3_image_depth_estimation-1.webp" alt="画像深度推定出力" style={{maxWidth: '48%', height: 'auto'}} />
<img src="https://raw.githubusercontent.com/Comfy-Org/workflow_templates/main/templates/utility_depth_anything3_image_depth_estimation-2.webp" alt="画像深度推定比較" style={{maxWidth: '48%', height: 'auto'}} />
</div>

### 実行手順

1. **LoadImage** — 入力画像を読み込む
2. **LoadDA3Model** — Depth Anything 3 バリアントを選択
3. **実行** — Queue をクリックするか `Cmd+Enter` を押す
4. ワークフローが深度マップと並列比較を出力

<Card title="サブグラフについて" icon="book-open" href="/ja/interface/features/subgraph">
このワークフローはモジュール処理にサブグラフノードを使用しています。サブグラフのカスタマイズと拡張についてはサブグラフのドキュメントをご覧ください。
</Card>

---

## 2. 動画深度推定

**機能説明:** 動画をアップロードし、**Video Depth Estimation (Depth Anything 3)** を実行してフレームごとの深度シーケンスを生成します。サブグラフ内では **GetVideoComponents** が入力動画をフレームに分割し、**LoadDA3Model** がモデルを読み込み、**SetVideoComponents** が深度フレームを動画に再構成します。

<CardGroup cols={2}>
<Card title="ワークフローをダウンロード" icon="download" href="https://github.com/Comfy-Org/workflow_templates/blob/main/templates/utility_depth_anything3_video_depth_estimation.json">
JSON をダウンロード または テンプレートライブラリで "Depth Anything 3" を検索
</Card>
<Card title="Comfy Cloud で実行" icon="cloud" href="https://cloud.comfy.org/?template=utility_depth_anything3_video_depth_estimation&utm_source=docs&utm_medium=referral&utm_campaign=depth-anything-3">
Comfy Cloud で開く
</Card>
</CardGroup>

![動画深度推定プレビュー](https://raw.githubusercontent.com/Comfy-Org/workflow_templates/main/templates/utility_depth_anything3_video_depth_estimation-1.webp)

### 実行手順

1. **LoadVideo** — 入力動画を読み込む
2. **モデルを選択** — **Small**、**Base**、**Mono-Large**、**Metric-Large** から選択
3. **実行** — Queue をクリックするか `Cmd+Enter` を押す
4. ワークフローがフレームごとの深度マップ動画を出力

<Card title="サブグラフについて" icon="book-open" href="/ja/interface/features/subgraph">
このワークフローはモジュール処理にサブグラフノードを使用しています。サブグラフのカスタマイズと拡張についてはサブグラフのドキュメントをご覧ください。
</Card>

## モデルバリアント

| バリアント | head_type | 空検出 | 信頼度 | カメラデコーダ | 最適な用途 |
|-----------|-----------|:-------:|:------:|:--------------:|------------|
| **Small** | dualdpt | ❌ | ✅ | ✅ | 高速推論、モバイル/エッジ |
| **Base** | dualdpt | ❌ | ✅ | ✅ | バランスの取れた性能 |
| **Mono-Large** | dpt | ✅ | ❌ | ❌ | 空検出対応の単眼深度 |
| **Metric-Large** | dpt | ✅ | ❌ | ❌ | メートル単位の物理深度 |

- **Small** と **Base** は `dualdpt` ヘッドタイプを使用し、信頼度推定とカメラデコーダをサポート(多視点アプリケーション向け)。
- **Mono-Large** と **Metric-Large** は `dpt` ヘッドタイプを使用し、空検出に対応。Metric-Large はメートル単位の生深度を出力。

## コミュニティリソース

- [Depth Anything 3 GitHub (ByteDance-Seed)](https://github.com/ByteDance-Seed/Depth-Anything-3) — 研究論文とコード
- [Comfy-Org/Depth-Anything-3](https://huggingface.co/Comfy-Org/Depth-Anything-3) — 公式 ComfyUI モデル重み
138 changes: 138 additions & 0 deletions ja/tutorials/video/bernini-r.mdx
Original file line number Diff line number Diff line change
@@ -0,0 +1,138 @@
---
title: "ComfyUI Bernini-R 公式サンプル"
description: "ComfyUI で Bernini-R を使用した画像・動画編集(再照明、スタイル転送、被写体挿入など)を学びましょう。"
sidebarTitle: "Bernini-R"
translationSourceHash: 6d8b19fc
translationFrom: tutorials/video/bernini-r.mdx
---

import UpdateReminder from '/snippets/ja/tutorials/update-reminder.mdx'

# ComfyUI Bernini-R 概要

[Bernini-R](https://github.com/bytedance/Bernini) は、ByteDance の **レンダラーのみ** の Wan 2.2 モデルで、コンテキスト内における画像・動画コンディショニング用に設計されています。条件ストリーム(ソース動画、参照画像、参照動画)を使用して生成をガイドするため、LoRA 訓練やファインチューニングは不要です。

主な機能:

- **複数タスクを1つに統合**:画像/動画生成、編集、再照明、スタイル転送、被写体挿入
- **コンテキスト内条件制御**:参照画像/動画を視覚的プロンプトとしてトークン注入
- **軽量設計**:レンダラーのみ — 拡散ベースの text-to-video バックボーンは不要
- **柔軟な入力対応**:単一または複数の参照画像、動画 to 動画、参照誘導編集

Bernini-R がサポートする6つのタスクタイプ:

| タスク | 入力 | 説明 |
|-------|------|------|
| **t2v** | テキストプロンプト | テキストから動画生成 |
| **v2v** | ソース動画 | 動画 to 動画スタイル転送 |
| **rv2v** | ソース動画 + 参照画像 | 参照誘導動画編集(再照明、被写体挿入) |
| **r2v** | 参照画像 | 参照 to 動画生成 |
| **ads2v** | ソース動画 + 参照動画 | 画像/動画コンテンツをソース動画に挿入 |
| **img** | ソース画像 | 画像編集 |

<UpdateReminder/>

<Tip>
ComfyUI は Bernini-R ノードをネイティブサポートしています。始める前に [ComfyUI](https://github.com/Comfy-Org/ComfyUI) を最新バージョンに更新してください。
</Tip>

## モデルインストール

必要なモデルウェイトをダウンロードし、対応する ComfyUI フォルダに保存します:

**text_encoders:**
- [umt5_xxl_fp8_e4m3fn_scaled.safetensors](https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/text_encoders/umt5_xxl_fp8_e4m3fn_scaled.safetensors?download=true)

**vae:**
- [Wan2_1_VAE_bf16.safetensors](https://huggingface.co/Kijai/WanVideo_comfy/resolve/main/Wan2_1_VAE_bf16.safetensors?download=true)

**loras:**
- [lightx2v_T2V_14B_cfg_step_distill_v2_lora_rank64_bf16.safetensors](https://huggingface.co/Kijai/WanVideo_comfy/resolve/main/lightx2v_T2V_14B_cfg_step_distill_v2_lora_rank64_bf16.safetensors?download=true)

**diffusion_models:**
- [wan2.2_bernini_r_fp16.safetensors](https://huggingface.co/Comfy-Org/Bernini-R/resolve/main/wan2.2_bernini_r_fp16.safetensors)

```
ComfyUI/
├── models/
│ ├── text_encoders/
│ │ └── umt5_xxl_fp8_e4m3fn_scaled.safetensors
│ ├── vae/
│ │ └── Wan2_1_VAE_bf16.safetensors
│ ├── loras/
│ │ └── lightx2v_T2V_14B_cfg_step_distill_v2_lora_rank64_bf16.safetensors
│ ├── diffusion_models/
│ │ └── wan2.2_bernini_r_fp16.safetensors
```

## サンプルワークフロー

---

## 1. 画像編集

**機能説明:** 照明が一致した編集画像を生成し、前後の比較を並べて表示します。ポートレートやプロダクトの再照明、写真コレクションの一貫した照明、E コマースカタログ撮影に最適です。

<CardGroup cols={2}>
<Card title="ワークフローをダウンロード" icon="download" href="https://github.com/Comfy-Org/workflow_templates/blob/main/templates/video_bernini_r_image_editing.json">
JSON をダウンロード または テンプレートライブラリで "Bernini-R" を検索
</Card>
<Card title="Comfy Cloud で実行" icon="cloud" href="https://cloud.comfy.org/?template=video_bernini_r_image_editing&utm_source=docs&utm_medium=referral&utm_campaign=bernini-r">
Comfy Cloud で開く
</Card>
</CardGroup>

<div style={{display: 'flex', gap: '1rem', flexWrap: 'wrap'}}>
<img src="https://raw.githubusercontent.com/Comfy-Org/workflow_templates/main/templates/video_bernini_r_image_editing-1.webp" alt="Bernini-R 画像編集出力" style={{maxWidth: '48%', height: 'auto'}} />
<img src="https://raw.githubusercontent.com/Comfy-Org/workflow_templates/main/templates/video_bernini_r_image_editing-2.webp" alt="Bernini-R 画像編集比較" style={{maxWidth: '48%', height: 'auto'}} />
</div>

### 実行手順

1. **タスクタイプを選択** — タスクを選択(Image Editing、Subject to Image など)
2. **入力を接続** — ソース画像とオプションの参照画像を読み込む
3. **プロンプトを作成** — 必要な編集内容を記述
4. **実行** — Queue をクリックするか `Cmd+Enter` を押す

**参照画像入力:** 1枚以上の参照画像が必要な場合に使用(被写体、服、シーン、小道具)。プロンプト内で `image0`、`image1` などを使って各画像を参照します。**Image Editing** タスクでは不要です。代わりに `source_image` を使用します。

<Card title="サブグラフについて" icon="book-open" href="/ja/interface/features/subgraph">
このワークフローはモジュール処理にサブグラフノードを使用しています。サブグラフのカスタマイズと拡張についてはサブグラフのドキュメントをご覧ください。
</Card>

---

## 2. 動画編集

**機能説明:** Bernini-R で一貫した再照明の編集動画を生成します。ソース動画、オプションの参照画像や参照動画を接続し、タスクタイプを選択し、プロンプトを作成して実行します。

<CardGroup cols={2}>
<Card title="ワークフローをダウンロード" icon="download" href="https://github.com/Comfy-Org/workflow_templates/blob/main/templates/video_bernini_r_video_editing.json">
JSON をダウンロード または テンプレートライブラリで "Bernini-R" を検索
</Card>
<Card title="Comfy Cloud で実行" icon="cloud" href="https://cloud.comfy.org/?template=video_bernini_r_video_editing&utm_source=docs&utm_medium=referral&utm_campaign=bernini-r">
Comfy Cloud で開く
</Card>
</CardGroup>

![Bernini-R 動画編集プレビュー](https://raw.githubusercontent.com/Comfy-Org/workflow_templates/main/templates/video_bernini_r_video_editing-1.webp)

### 実行手順

1. **ソース動画を読み込む** — 入力動画を接続
2. **(オプション)参照を読み込む** — 参照画像または参照動画
3. **タスクタイプを選択** — v2v、rv2v、r2v、または ads2v
4. **プロンプトを作成** — 必要な編集内容を記述
5. **実行** — Queue をクリックするか `Cmd+Enter` を押す

**参照画像入力:** 1枚以上の参照画像が必要な場合に使用(rv2v、r2v、複数衣装)。バッチ処理された各画像が独自のコンテキスト内トークンになります。参照物が異なる役割を持つ場合は、プロンプト内で `image0`、`image1` などを使用します。

<Card title="サブグラフについて" icon="book-open" href="/ja/interface/features/subgraph">
このワークフローはモジュール処理にサブグラフノードを使用しています。サブグラフのカスタマイズと拡張についてはサブグラフのドキュメントをご覧ください。
</Card>

## コミュニティリソース

- [Bernini GitHub (bytedance/Bernini)](https://github.com/bytedance/Bernini) — 研究論文とタスクドキュメント
- [Comfy-Org/Bernini-R](https://huggingface.co/Comfy-Org/Bernini-R) — 公式 ComfyUI モデル重み
- [Bernini: Latent Semantic Planning for Video Diffusion](https://arxiv.org/abs/2605.22344) — 研究論文
Loading
Loading