[config] update args (#7231)

Former-commit-id: f71a901840811bf560df671ec63a146ff99140c6
2025-03-10 23:04:43 +08:00
parent cf58a6d860
commit 71a1c1321a
16 changed files with 89 additions and 74 deletions
--- a/src/llamafactory/model/model_utils/attention.py
+++ b/src/llamafactory/model/model_utils/attention.py
@@ -17,6 +17,7 @@ from typing import TYPE_CHECKING
 from transformers.utils import is_flash_attn_2_available, is_torch_sdpa_available

 from ...extras import logging
+from ...extras.constants import AttentionFunction
 from ...extras.misc import check_version


@@ -33,34 +34,34 @@ def configure_attn_implementation(
    config: "PretrainedConfig", model_args: "ModelArguments", is_trainable: bool
 ) -> None:
    if getattr(config, "model_type", None) == "gemma2" and is_trainable:
-        if model_args.flash_attn == "auto" or model_args.flash_attn == "fa2":
+        if model_args.flash_attn == AttentionFunction.AUTO or model_args.flash_attn == AttentionFunction.FA2:
            if is_flash_attn_2_available():
                check_version("transformers>=4.42.4")
                check_version("flash_attn>=2.6.3")
-                if model_args.flash_attn != "fa2":
-                    logger.warning_rank0("Gemma-2 should use flash attention 2, change `flash_attn` to fa2.")
-                    model_args.flash_attn = "fa2"
+                if model_args.flash_attn != AttentionFunction.FA2:
+                    logger.warning_rank0("Gemma 2 should use flash attention 2, change `flash_attn` to fa2.")
+                    model_args.flash_attn = AttentionFunction.FA2
            else:
                logger.warning_rank0("FlashAttention-2 is not installed, use eager attention.")
-                model_args.flash_attn = "disabled"
-        elif model_args.flash_attn == "sdpa":
+                model_args.flash_attn = AttentionFunction.DISABLED
+        elif model_args.flash_attn == AttentionFunction.SDPA:
            logger.warning_rank0(
                "Gemma-2 should use soft-capping attention, while the SDPA attention does not support it."
            )

-    if model_args.flash_attn == "auto":
+    if model_args.flash_attn == AttentionFunction.AUTO:
        return

-    elif model_args.flash_attn == "disabled":
+    elif model_args.flash_attn == AttentionFunction.DISABLED:
        requested_attn_implementation = "eager"

-    elif model_args.flash_attn == "sdpa":
+    elif model_args.flash_attn == AttentionFunction.SDPA:
        if not is_torch_sdpa_available():
            logger.warning_rank0("torch>=2.1.1 is required for SDPA attention.")
            return

        requested_attn_implementation = "sdpa"
-    elif model_args.flash_attn == "fa2":
+    elif model_args.flash_attn == AttentionFunction.FA2:
        if not is_flash_attn_2_available():
            logger.warning_rank0("FlashAttention-2 is not installed.")
            return
--- a/src/llamafactory/model/model_utils/rope.py
+++ b/src/llamafactory/model/model_utils/rope.py
@@ -20,6 +20,7 @@ import math
 from typing import TYPE_CHECKING

 from ...extras import logging
+from ...extras.constants import RopeScaling


 if TYPE_CHECKING:
@@ -39,33 +40,32 @@ def configure_rope(config: "PretrainedConfig", model_args: "ModelArguments", is_
        logger.warning_rank0("Current model does not support RoPE scaling.")
        return

-    rope_kwargs = {}
+    rope_kwargs = {"rope_type": getattr(model_args.rope_scaling, "value", model_args.rope_scaling)}  # handle enum
    if model_args.model_max_length is not None:
-        if is_trainable and model_args.rope_scaling == "dynamic":
+        if is_trainable and model_args.rope_scaling == RopeScaling.DYNAMIC:
            logger.warning_rank0(
                "Dynamic NTK scaling may not work well with fine-tuning. "
                "See: https://github.com/huggingface/transformers/pull/24653"
            )

        current_max_length = getattr(config, "max_position_embeddings", None)
-        if current_max_length and model_args.model_max_length > current_max_length:
-            logger.info_rank0(f"Enlarge max model length from {current_max_length} to {model_args.model_max_length}.")
-            setattr(config, "max_position_embeddings", model_args.model_max_length)
-            rope_kwargs["factor"] = float(math.ceil(model_args.model_max_length / current_max_length))
-        else:
-            logger.warning_rank0("Input length is smaller than max length. Consider increase input length.")
-            rope_kwargs["factor"] = 1.0
+        if (not current_max_length) or model_args.model_max_length <= current_max_length:
+            logger.warning_rank0("Input length is smaller than max length. Disabling rope scaling.")
+            return

-        if model_args.rope_scaling == "dynamic":
+        logger.info_rank0(f"Enlarge max model length from {current_max_length} to {model_args.model_max_length}.")
+        setattr(config, "max_position_embeddings", model_args.model_max_length)
+        rope_kwargs["factor"] = float(math.ceil(model_args.model_max_length / current_max_length))
+        if model_args.rope_scaling == RopeScaling.DYNAMIC:
            rope_kwargs["original_max_position_embeddings"] = current_max_length
-        elif model_args.rope_scaling == "llama3":
+        elif model_args.rope_scaling == RopeScaling.LLAMA3:
            rope_kwargs["original_max_position_embeddings"] = current_max_length
            rope_kwargs["low_freq_factor"] = 1.0
            rope_kwargs["high_freq_factor"] = 4.0
    else:
        rope_kwargs["factor"] = 2.0

-    setattr(config, "rope_scaling", {"rope_type": model_args.rope_scaling, **rope_kwargs})
+    setattr(config, "rope_scaling", rope_kwargs)
    logger.info_rank0(
-        f"Using {model_args.rope_scaling} scaling strategy and setting scaling factor to {rope_kwargs['factor']}."
+        f"Using {rope_kwargs['rope_type']} scaling strategy and setting scaling factor to {rope_kwargs['factor']}."
    )
--- a/src/llamafactory/model/model_utils/visual.py
+++ b/src/llamafactory/model/model_utils/visual.py
@@ -166,7 +166,7 @@ def get_forbidden_modules(config: "PretrainedConfig", finetuning_args: "Finetuni
            logger.info_rank0(f"Set multi model projector not trainable: {projector_key}.")
            forbidden_modules.add(projector_key)

-        if finetuning_args.train_mm_proj_only:
+        if finetuning_args.freeze_language_model:
            language_model_keys = COMPOSITE_MODELS[model_type].language_model_keys
            logger.info_rank0(f"Set language model not trainable: {language_model_keys}.")
            forbidden_modules.update(language_model_keys)