[v0] Fix reward model training safetensors saving (#10137)

2026-03-16 22:33:09 +00:00 · 2026-01-27 16:27:14 +08:00
parent f9f11dcb97
commit 7ef19eea00
1 changed files with 21 additions and 0 deletions
--- a/src/llamafactory/train/rm/trainer.py
+++ b/src/llamafactory/train/rm/trainer.py
@@ -109,6 +109,27 @@ class PairwiseTrainer(Trainer):
        else:
            return loss
    @override
    def _save(self, output_dir: Optional[str] = None, state_dict=None):
        if state_dict is None:
            state_dict = self.model.state_dict()
        if self.args.save_safetensors:
            from collections import defaultdict
            ptrs = defaultdict(list)
            for name, tensor in state_dict.items():
                if isinstance(tensor, torch.Tensor):
                    ptrs[id(tensor)].append(name)
            for names in ptrs.values():
                if len(names) > 1:
                    names.sort()
                    for name in names[1:]:
                        state_dict.pop(name, None)
        super()._save(output_dir, state_dict)
    def save_predictions(self, predict_results: "PredictionOutput") -> None:
        r"""Save model predictions to `output_dir`.