ModelCloud
diff --git a/‎defuser/defuser.py‎
Lines changed: 1 addition & 1 deletion b/‎defuser/defuser.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎defuser/model_registry.py‎
Lines changed: 99 additions & 0 deletions b/‎defuser/model_registry.py‎
Lines changed: 99 additions & 0 deletions
diff --git a/‎defuser/modeling/model_patches.py‎
Lines changed: 197 additions & 3 deletions b/‎defuser/modeling/model_patches.py‎
Lines changed: 197 additions & 3 deletions
@@ -200,7 +200,7 @@ def convert_model(
     if not check_model_compatibility(model):
         return False
 
-    apply_model_patches(model)
+    apply_model_patches(model, max_layers=max_layers)
 
     # If fused blocks have already been structurally replaced at load model before,
     # there is no need to perform runtime defusing again
 
@@ -16,6 +16,39 @@ class PATCH(str, Enum):
 
 
 MODEL_CONFIG = {
+    "dbrx": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
+    "deepseek_v2": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
+    "deepseek_v3": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
+    "dia": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
+    "dots1": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
+    "ernie4_5_moe": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
+    "ernie4_5_vl_moe": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
+    "exaone_moe": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
+    "flex_olmo": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
+    "glm": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
+    "glm4": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
     "mixtral": {
         "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
         PATCH.REPLACE_MODULE: [
@@ -96,6 +129,9 @@ class PATCH(str, Enum):
             )
         ],
     },
+    "glm4_moe_lite": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
     "glm4v": {
         "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
         PATCH.REPLACE_MODULE: [
@@ -116,9 +152,39 @@ class PATCH(str, Enum):
             ),
         ],
     },
+    "glm4v_moe": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
+    "glm_image": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
+    "glm_moe_dsa": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
+    "glm_ocr": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
     "gpt_oss": {
         "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
     },
+    "granitemoe": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
+    "granitemoehybrid": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
+    "granitemoeshared": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
+    "hunyuan_v1_moe": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
+    "jamba": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
+    "jetmoe": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
     "llama4": {
         "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
         PATCH.EXPERTS_DEFUSE: [
@@ -128,7 +194,40 @@ class PATCH(str, Enum):
             }
         ],
     },
+    "lfm2_moe": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
+    "longcat_flash": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
+    "minimax": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
+    "minimax_m2": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
+    "nemotron_h": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
+    "olmoe": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
+    "phi3": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
+    "phi4_multimodal": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
     "phimoe": {
         "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
     },
+    "qwen3_vl_moe": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
+    "solar_open": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
+    "zamba2": {
+        "min_transformers_version": MIN_SUPPORTED_TRANSFORMERS_VERSION,
+    },
 }
@@ -8,6 +8,13 @@
 from logbar import LogBar
 
 from defuser import DEBUG_ON
+from defuser.modeling.runtime_defusion import (
+    patch_dbrx_experts,
+    patch_longcat_flash_experts,
+    patch_parallel_experts,
+    patch_split_gate_up_mlp,
+)
+from defuser.utils.common import is_within_max_layers
 import torch
 
 logger = LogBar(__name__)
@@ -68,7 +75,7 @@ def patched_init_weights(self, module):
 
 
 @register_model_patch("qwen3_omni_moe")
-def patch_qwen3_omni_text_runtime(model) -> list[str]:
+def patch_qwen3_omni_text_runtime(model, max_layers: int | None = None) -> list[str]:
     """Restore text-only ``forward`` and ``generate`` behavior after class swapping."""
     model_cls = type(model)
     if not getattr(model_cls, "__module__", "").startswith("transformers.models.qwen3_omni_moe."):
@@ -98,6 +105,193 @@ def forward(self, *args, **kwargs):
     return applied
 
 
+def _patch_modules_by_class(
+    model,
+    patchers: dict[str, Callable],
+    *,
+    max_layers: int | None = None,
+) -> list[str]:
+    applied = []
+    for name, module in list(model.named_modules()):
+        if not is_within_max_layers(name, max_layers):
+            continue
+        class_path = f"{module.__class__.__module__}.{module.__class__.__name__}"
+        patcher = patchers.get(class_path)
+        if patcher is None:
+            continue
+        if patcher(module):
+            applied.append(name)
+    return applied
+
+
+def _patch_split_gate_up_mlps(
+    model,
+    patchers: dict[str, str],
+    *,
+    max_layers: int | None = None,
+) -> list[str]:
+    return _patch_modules_by_class(
+        model,
+        {
+            class_path: (lambda module, variant=variant: patch_split_gate_up_mlp(module, variant=variant))
+            for class_path, variant in patchers.items()
+        },
+        max_layers=max_layers,
+    )
+
+
+_STANDARD_SPLIT_GATE_UP_CLASSES = {
+    "transformers.models.dia.modeling_dia.DiaMLP": "standard",
+    "transformers.models.glm.modeling_glm.GlmMLP": "standard",
+    "transformers.models.glm4.modeling_glm4.Glm4MLP": "standard",
+    "transformers.models.glm_image.modeling_glm_image.GlmImageTextMLP": "standard",
+    "transformers.models.glm_ocr.modeling_glm_ocr.GlmOcrTextMLP": "standard",
+    "transformers.models.phi3.modeling_phi3.Phi3MLP": "standard",
+    "transformers.models.phi4_multimodal.modeling_phi4_multimodal.Phi4MultimodalMLP": "standard",
+    "transformers.models.phi4_multimodal.modeling_phi4_multimodal.Phi4MultimodalAudioMLP": "phi4_audio",
+    "transformers.models.zamba2.modeling_zamba2.Zamba2MLP": "zamba2",
+}
+
+
+@register_model_patch("dia")
+def patch_dia_runtime(model, max_layers: int | None = None) -> list[str]:
+    return _patch_split_gate_up_mlps(
+        model,
+        {"transformers.models.dia.modeling_dia.DiaMLP": _STANDARD_SPLIT_GATE_UP_CLASSES["transformers.models.dia.modeling_dia.DiaMLP"]},
+        max_layers=max_layers,
+    )
+
+
+@register_model_patch("glm")
+def patch_glm_runtime(model, max_layers: int | None = None) -> list[str]:
+    return _patch_split_gate_up_mlps(
+        model,
+        {"transformers.models.glm.modeling_glm.GlmMLP": _STANDARD_SPLIT_GATE_UP_CLASSES["transformers.models.glm.modeling_glm.GlmMLP"]},
+        max_layers=max_layers,
+    )
+
+
+@register_model_patch("glm4")
+def patch_glm4_runtime(model, max_layers: int | None = None) -> list[str]:
+    return _patch_split_gate_up_mlps(
+        model,
+        {"transformers.models.glm4.modeling_glm4.Glm4MLP": _STANDARD_SPLIT_GATE_UP_CLASSES["transformers.models.glm4.modeling_glm4.Glm4MLP"]},
+        max_layers=max_layers,
+    )
+
+
+@register_model_patch("glm_image")
+def patch_glm_image_runtime(model, max_layers: int | None = None) -> list[str]:
+    return _patch_split_gate_up_mlps(
+        model,
+        {"transformers.models.glm_image.modeling_glm_image.GlmImageTextMLP": _STANDARD_SPLIT_GATE_UP_CLASSES["transformers.models.glm_image.modeling_glm_image.GlmImageTextMLP"]},
+        max_layers=max_layers,
+    )
+
+
+@register_model_patch("glm_ocr")
+def patch_glm_ocr_runtime(model, max_layers: int | None = None) -> list[str]:
+    return _patch_split_gate_up_mlps(
+        model,
+        {"transformers.models.glm_ocr.modeling_glm_ocr.GlmOcrTextMLP": _STANDARD_SPLIT_GATE_UP_CLASSES["transformers.models.glm_ocr.modeling_glm_ocr.GlmOcrTextMLP"]},
+        max_layers=max_layers,
+    )
+
+
+@register_model_patch("phi3")
+def patch_phi3_runtime(model, max_layers: int | None = None) -> list[str]:
+    return _patch_split_gate_up_mlps(
+        model,
+        {"transformers.models.phi3.modeling_phi3.Phi3MLP": _STANDARD_SPLIT_GATE_UP_CLASSES["transformers.models.phi3.modeling_phi3.Phi3MLP"]},
+        max_layers=max_layers,
+    )
+
+
+@register_model_patch("phi4_multimodal")
+def patch_phi4_multimodal_runtime(model, max_layers: int | None = None) -> list[str]:
+    return _patch_split_gate_up_mlps(
+        model,
+        {
+            "transformers.models.phi4_multimodal.modeling_phi4_multimodal.Phi4MultimodalMLP":
+                _STANDARD_SPLIT_GATE_UP_CLASSES[
+                    "transformers.models.phi4_multimodal.modeling_phi4_multimodal.Phi4MultimodalMLP"
+                ],
+            "transformers.models.phi4_multimodal.modeling_phi4_multimodal.Phi4MultimodalAudioMLP":
+                _STANDARD_SPLIT_GATE_UP_CLASSES[
+                    "transformers.models.phi4_multimodal.modeling_phi4_multimodal.Phi4MultimodalAudioMLP"
+                ],
+        },
+        max_layers=max_layers,
+    )
+
+
+@register_model_patch("zamba2")
+def patch_zamba2_runtime(model, max_layers: int | None = None) -> list[str]:
+    return _patch_split_gate_up_mlps(
+        model,
+        {"transformers.models.zamba2.modeling_zamba2.Zamba2MLP": _STANDARD_SPLIT_GATE_UP_CLASSES["transformers.models.zamba2.modeling_zamba2.Zamba2MLP"]},
+        max_layers=max_layers,
+    )
+
+
+@register_model_patch("dbrx")
+def patch_dbrx_runtime(model, max_layers: int | None = None) -> list[str]:
+    return _patch_modules_by_class(
+        model,
+        {"transformers.models.dbrx.modeling_dbrx.DbrxExperts": patch_dbrx_experts},
+        max_layers=max_layers,
+    )
+
+
+def _patch_parallel_runtime(model, class_path: str, *, max_layers: int | None = None) -> list[str]:
+    return _patch_modules_by_class(model, {class_path: patch_parallel_experts}, max_layers=max_layers)
+
+
+@register_model_patch("granitemoe")
+def patch_granitemoe_runtime(model, max_layers: int | None = None) -> list[str]:
+    return _patch_parallel_runtime(
+        model,
+        "transformers.models.granitemoe.modeling_granitemoe.GraniteMoeParallelExperts",
+        max_layers=max_layers,
+    )
+
+
+@register_model_patch("granitemoehybrid")
+def patch_granitemoehybrid_runtime(model, max_layers: int | None = None) -> list[str]:
+    return _patch_parallel_runtime(
+        model,
+        "transformers.models.granitemoehybrid.modeling_granitemoehybrid.GraniteMoeHybridParallelExperts",
+        max_layers=max_layers,
+    )
+
+
+@register_model_patch("granitemoeshared")
+def patch_granitemoeshared_runtime(model, max_layers: int | None = None) -> list[str]:
+    return _patch_parallel_runtime(
+        model,
+        "transformers.models.granitemoeshared.modeling_granitemoeshared.GraniteMoeSharedParallelExperts",
+        max_layers=max_layers,
+    )
+
+
+@register_model_patch("jetmoe")
+def patch_jetmoe_runtime(model, max_layers: int | None = None) -> list[str]:
+    return _patch_parallel_runtime(
+        model,
+        "transformers.models.jetmoe.modeling_jetmoe.JetMoeParallelExperts",
+        max_layers=max_layers,
+    )
+
+
+@register_model_patch("longcat_flash")
+def patch_longcat_flash_runtime(model, max_layers: int | None = None) -> list[str]:
+    return _patch_modules_by_class(
+        model,
+        {"transformers.models.longcat_flash.modeling_longcat_flash.LongcatFlashExperts": patch_longcat_flash_experts},
+        max_layers=max_layers,
+    )
+
+
 def apply_model_class_patches(model_type) -> list[str]:
     """Run any registered pre-construction patch for ``model_type``."""
     patch_model_class = _MODEL_CLASS_PATCH_REGISTRY.get(model_type)
@@ -110,15 +304,15 @@ def apply_model_class_patches(model_type) -> list[str]:
     return applied
 
 
-def apply_model_patches(model) -> list[str]:
+def apply_model_patches(model, max_layers: int | None = None) -> list[str]:
     """Run any registered runtime patch for the instantiated ``model``."""
     config = getattr(model, "config", None)
     model_type = getattr(config, "model_type", None)
     patch = _MODEL_PATCH_REGISTRY.get(model_type)
     if patch is None:
         return []
 
-    applied = patch(model)
+    applied = patch(model, max_layers=max_layers)
     if applied and DEBUG_ON:
         logger.debug(f"Applied model patches for model_type={model_type}: {', '.join(applied)}")
     return applied