1. add custom eval dataset support

2. merge load dataset and split dataset function Former-commit-id: 963d97ba07e7efa3a4544c4d077283d9e112b3ad
2024-07-05 15:52:10 +08:00
parent 9a1a5f9778
commit 5f2bd04799
15 changed files with 93 additions and 42 deletions
--- a/src/llamafactory/hparams/data_args.py
+++ b/src/llamafactory/hparams/data_args.py
@@ -33,6 +33,11 @@ class DataArguments:
        default=None,
        metadata={"help": "The name of provided dataset(s) to use. Use commas to separate multiple datasets."},
    )
+    eval_dataset: Optional[str] = field(
+        default=None,
+        metadata={"help": "The name of provided dataset(s) to use for eval during training. "
+                          "Use commas to separate multiple datasets."},
+    )
    dataset_dir: str = field(
        default="data",
        metadata={"help": "Path to the folder containing the datasets."},
@@ -105,6 +110,10 @@ class DataArguments:
        default=None,
        metadata={"help": "Path to save or load the tokenized datasets."},
    )
+    eval_tokenized_path: Optional[str] = field(
+        default=None,
+        metadata={"help": "Path to save or load the tokenized eval datasets."},
+    )

    def __post_init__(self):
        if self.streaming and self.val_size > 1e-6 and self.val_size < 1: