support quantization in export model

Former-commit-id: f32500ae6edccab7d14df4c92467e15986866def
2023-12-15 23:44:50 +08:00
parent 9121722999
commit 296711d502
9 changed files with 120 additions and 32 deletions
--- a/src/llmtuner/model/loader.py
+++ b/src/llmtuner/model/loader.py
@@ -62,7 +62,7 @@ def load_model_and_tokenizer(
    patcher.configure_rope(config, model_args, is_trainable)
    patcher.configure_flashattn(config_kwargs, model_args)
    patcher.configure_longlora(config, model_args, is_trainable)
-    patcher.configure_quantization(config, config_kwargs, model_args)
+    patcher.configure_quantization(config, config_kwargs, tokenizer, model_args, finetuning_args)

    model = AutoModelForCausalLM.from_pretrained(
        model_args.model_name_or_path,