[infer] vllm video/audio inference (#7566)

2025-04-02 02:27:04 +08:00
parent 2bfcad2394
commit 5e22597ff1
10 changed files with 329 additions and 285 deletions
--- a/src/llamafactory/model/model_utils/visual.py
+++ b/src/llamafactory/model/model_utils/visual.py
@@ -262,9 +262,7 @@ _register_composite_model(
    projector_key="visual.merger",
    vision_model_keys=["visual.patch_embed", "visual.blocks", "audio_tower"],
    language_model_keys=["model", "lm_head"],
-    lora_conflict_keys=[
-        "patch_embed",
-    ],
+    lora_conflict_keys=["patch_embed"],
 )