change to right-padding, update reward score #803

Former-commit-id: baa90415bc8f5ebd423d001378b51c3a3a6c2ec7
2023-09-08 20:04:31 +08:00
parent bb1b67c076
commit 612d97db6f
15 changed files with 97 additions and 59 deletions
--- a/src/llmtuner/webui/components/train.py
+++ b/src/llmtuner/webui/components/train.py
@@ -56,7 +56,6 @@ def create_train_tab(top_elems: Dict[str, "Component"], runner: "Runner") -> Dic
            save_steps = gr.Slider(value=100, minimum=10, maximum=5000, step=10)
            warmup_steps = gr.Slider(value=0, minimum=0, maximum=5000, step=1)
            compute_type = gr.Radio(choices=["fp16", "bf16"], value="fp16")
-            padding_side = gr.Radio(choices=["left", "right"], value="left")

    with gr.Accordion(label="LoRA config", open=False) as lora_tab:
        with gr.Row():
@@ -122,7 +121,6 @@ def create_train_tab(top_elems: Dict[str, "Component"], runner: "Runner") -> Dic
        save_steps,
        warmup_steps,
        compute_type,
-        padding_side,
        lora_rank,
        lora_dropout,
        lora_target,
@@ -168,7 +166,6 @@ def create_train_tab(top_elems: Dict[str, "Component"], runner: "Runner") -> Dic
        save_steps=save_steps,
        warmup_steps=warmup_steps,
        compute_type=compute_type,
-        padding_side=padding_side,
        lora_tab=lora_tab,
        lora_rank=lora_rank,
        lora_dropout=lora_dropout,
--- a/src/llmtuner/webui/locales.py
+++ b/src/llmtuner/webui/locales.py
@@ -287,16 +287,6 @@ LOCALES = {
            "info": "是否启用 FP16 或 BF16 混合精度训练。"
        }
    },
-    "padding_side": {
-        "en": {
-            "label": "Padding side",
-            "info": "The side on which the model should have padding applied."
-        },
-        "zh": {
-            "label": "填充位置",
-            "info": "使用左填充或右填充。"
-        }
-    },
    "lora_tab": {
        "en": {
            "label": "LoRA configurations"
--- a/src/llmtuner/webui/runner.py
+++ b/src/llmtuner/webui/runner.py
@@ -87,7 +87,6 @@ class Runner:
        save_steps: int,
        warmup_steps: int,
        compute_type: str,
-        padding_side: str,
        lora_rank: int,
        lora_dropout: float,
        lora_target: str,
@@ -129,7 +128,6 @@ class Runner:
            logging_steps=logging_steps,
            save_steps=save_steps,
            warmup_steps=warmup_steps,
-            padding_side=padding_side,
            lora_rank=lora_rank,
            lora_dropout=lora_dropout,
            lora_target=lora_target or DEFAULT_MODULE.get(model_name.split("-")[0], "q_proj,v_proj"),
@@ -142,7 +140,6 @@ class Runner:

        if args["stage"] == "ppo":
            args["reward_model"] = reward_model
-            args["padding_side"] = "left"
            val_size = 0

        if args["stage"] == "dpo":