feat: add batch size of map function in the preprocessed dataset

Former-commit-id: 94b6cf06c2f84d0619b1a2dccaf8abb51de9951c
2024-09-02 13:52:47 +09:00
parent 7367c6ec21
commit 3622856994
2 changed files with 7 additions and 0 deletions
--- a/src/llamafactory/hparams/data_args.py
+++ b/src/llamafactory/hparams/data_args.py
@@ -109,6 +109,10 @@ class DataArguments:
        default=None,
        metadata={"help": "Path to save or load the tokenized datasets."},
    )
+    dataset_map_batch_size: Optional[int] = field(
+        default=None,
+        metadata={"help": "Batch size for dataset mapping."},
+    )

    def __post_init__(self):
        def split_arg(arg):