Update config.py

Signed-off-by: Wang, Chang <[email protected]>
intel · Aug 6, 2024 · 827c95d · 827c95d
1 parent 1de8b17
commit 827c95d
Showing 1 changed file with 8 additions and 4 deletions.
diff --git a/intel_extension_for_transformers/transformers/utils/config.py b/intel_extension_for_transformers/transformers/utils/config.py
@@ -914,7 +914,8 @@ def __init__(
         self.true_sequential = true_sequential
         self.layer_wise = layer_wise
         self.seq_len = seq_len
-        self.llm_int8_skip_modules = kwargs.get("llm_int8_skip_modules", ["lm_head", "output_layer", "embed_out"])
+        self.llm_int8_skip_modules = kwargs.get("llm_int8_skip_modules", 
+                                                ["lm_head", "transformer.output_layer", "embed_out"])
         self.use_ggml = use_ggml
         self.use_quant = use_quant
         self.use_neural_speed = use_neural_speed
@@ -1012,7 +1013,8 @@ def __init__(
         self.seq_len = seq_len
         self.use_double_quant = use_double_quant
         self.double_quant_scale_dtype = double_quant_scale_dtype
-        self.llm_int8_skip_modules = kwargs.get("llm_int8_skip_modules", ["lm_head", "output_layer", "embed_out"])
+        self.llm_int8_skip_modules = kwargs.get("llm_int8_skip_modules", 
+                                                ["lm_head", "transformer.output_layer", "embed_out"])
         self.use_ggml = use_ggml
         self.use_quant = use_quant
         self.use_neural_speed = use_neural_speed
@@ -1081,7 +1083,8 @@ def __init__(
         self.seq_len = seq_len
         self.use_double_quant = use_double_quant
         self.double_quant_scale_dtype = double_quant_scale_dtype
-        self.llm_int8_skip_modules = kwargs.get("llm_int8_skip_modules", ["lm_head", "output_layer", "embed_out"])
+        self.llm_int8_skip_modules = kwargs.get("llm_int8_skip_modules", 
+                                                ["lm_head", "transformer.output_layer", "embed_out"])
         self.use_ggml = use_ggml
         self.use_neural_speed = use_neural_speed
         self.device = kwargs.get("device", "auto")
@@ -1157,7 +1160,8 @@ def __init__(
         self.iters = iters
         self.seq_len = seq_len
         self.quant_lm_head = quant_lm_head
-        self.llm_int8_skip_modules = kwargs.get("llm_int8_skip_modules", ["lm_head", "output_layer", "embed_out"])
+        self.llm_int8_skip_modules = kwargs.get("llm_int8_skip_modules", 
+                                                ["lm_head", "transformer.output_layer", "embed_out"])
         if self.quant_lm_head:
             self.llm_int8_skip_modules = []
         self.use_ggml = use_ggml