Windows ネイティブ + Blackwell GPU 対応フォーク
Tencent HY-WorldPlay を Windows ネイティブ環境 と NVIDIA Blackwell アーキテクチャ GPU (RTX 6000 Blackwell 等) で動作させるためのフォークです。
公式版は Linux 専用ですが、このフォークは WSL (Windows Subsystem for Linux) なしで Windows 上で直接動作 します。
- パス変換の問題なし
- ファイルシステムのオーバーヘッドなし
- Windows ネイティブツールとの完全な互換性
NVIDIA の最新アーキテクチャ Blackwell (sm_120) に完全対応。
- RTX 6000 Blackwell (96GB VRAM)
- PyTorch Nightly cu130 で最新GPU機能を活用
- 大容量 VRAM を活かしたシングルGPU推論
Windows では flash-attn のビルドが困難ですが、このフォークは PyTorch ネイティブの Scaled Dot Product Attention (SDPA) に自動フォールバック します。
- 手動でのビルド作業不要
- 品質は同等を維持
- エラーなく即座に動作開始
公式版はコマンドラインのみですが、このフォークは ブラウザベースの WebUI を提供。
- 画像アップロード
- プロンプト入力
- カメラ軌道設定
- モデル選択
- ワンクリック生成
run-wp.bat をダブルクリックするだけで:
- 仮想環境の自動有効化
- 環境変数の自動設定
- 空きポートの自動検出
- ブラウザの自動起動
| 項目 | 公式版 | このフォーク |
|---|---|---|
| 対応OS | Linux のみ | Windows 10/11 ネイティブ |
| GPU アーキテクチャ | sm_90 (Hopper) | sm_120 (Blackwell) |
| flash-attn | 必須(ビルド必要) | 不要(自動フォールバック) |
| 分散処理 | torchrun (マルチGPU) | シングルGPU最適化 |
| 環境構築 | conda | Python venv |
| 起動方法 | コマンドライン | ダブルクリック / WebUI |
| ユーザーインターフェース | なし | Gradio WebUI |
| パス処理 | POSIX パス | Windows パス対応 |
| フォント | Linux フォント | Windows フォント |
クリックして展開
WORLD_SIZE/LOCAL_RANKのデフォルト値設定(シングルGPU対応)- Windows フォントパスへの対応 (
C:/Windows/Fonts/)
- シングルGPU時の
init_device_meshスキップ処理 world_size == 1の判定追加
flash_attnインポートの try-except 処理- PyTorch SDPA へのフォールバック実装
- 分散通信関数のガード処理追加
- 非初期化時のパススルー
- Windows 一時ディレクトリの使用 (
tempfile.gettempdir())
- Gradio WebUI の実装
- ポーズ文字列からの自動フレーム数計算
- 長時間生成のタイムアウト対策
| 項目 | 要件 |
|---|---|
| OS | Windows 10 / 11 |
| GPU | NVIDIA Blackwell アーキテクチャ (RTX 6000 Blackwell 等) |
| VRAM | 72GB 以上(シングルGPU推論時) |
| Python | 3.12 |
| PyTorch | Nightly (cu130) |
git clone https://github.com/hiroki-abe-58/HY-WorldPlay-WinBlackwell.git
cd HY-WorldPlay-WinBlackwellpython -m venv venv
.\venv\Scripts\activate# PyTorch Nightly (cu130)
pip install torch torchvision torchaudio --pre --index-url https://download.pytorch.org/whl/nightly/cu130
# その他の依存関係
pip install -r requirements.txt
pip install gradio loguru# HuggingFace トークンを設定
$env:HF_TOKEN = "your_huggingface_token"
# ダウンロードスクリプトを実行
.\download-models.bat注意: Vision Encoder は FLUX.1-Redux-dev へのアクセス承認が必要です。
# 方法A: バッチファイル(推奨)
.\run-wp.bat
# 方法B: 直接起動
.\venv\Scripts\activate
python app.py --port 7860WASD スタイルのポーズ文字列でカメラを制御できます。
| アクション | キー | 説明 |
|---|---|---|
| 前進 | w |
カメラを前方に移動 |
| 後退 | s |
カメラを後方に移動 |
| 左移動 | a |
カメラを左にストレイフ |
| 右移動 | d |
カメラを右にストレイフ |
| 上を向く | up |
カメラを上にピッチ |
| 下を向く | down |
カメラを下にピッチ |
| 左を向く | left |
カメラを左にヨー |
| 右を向く | right |
カメラを右にヨー |
形式: アクション-持続時間 (例: w-31 = 31 latent 分前進)
例:
w-31- 前進(125フレーム生成)w-15,d-16- 前進してから右移動a-10,w-5,right-16- 複雑な軌道
ckpts/
├── HY-WorldPlay/
│ ├── ar_model/ # AR モデル(50ステップ)
│ ├── ar_distilled_action_model/ # AR 蒸留モデル(4ステップ、高速)
│ └── bidirectional_model/ # 双方向モデル
└── HunyuanVideo-1.5/
├── vae/ # VAE
├── scheduler/ # スケジューラ
├── transformer/480p_i2v/ # Transformer
├── text_encoder/
│ ├── llm/ # Qwen2.5-VL-7B-Instruct
│ ├── byt5-small/ # ByT5
│ └── Glyph-SDXL-v2/ # Glyph エンコーダ
└── vision_encoder/siglip/ # SigLIP Vision Encoder
"No module named 'flash_attn'" エラー
想定内の動作です。 自動的に PyTorch SDPA にフォールバックするため、無視して問題ありません。
CUDA out of memory
- WebUI で「CPU Offloading」を有効化
- 動画の長さを短く設定
ダウンロードが遅い
pip install "huggingface_hub[hf_xet]"ポートが使用中
run-wp.bat は自動的に 7860〜7900 の範囲で空きポートを探します。
- Tencent-Hunyuan/HY-WorldPlay - オリジナルリポジトリ
- Tencent-Hunyuan/HunyuanVideo-1.5 - ベース動画モデル
- Gradio - WebUI フレームワーク
Tencent Hunyuan Community License