Set backup_mode to None for 8 bit WC

openvinotoolkit · Oct 7, 2024 · 9f70ac5 · 9f70ac5
1 parent dc4525d
commit 9f70ac5
Show file tree

Hide file tree

Showing 4 changed files with 20 additions and 3 deletions.
diff --git a/nncf/quantization/quantize_model.py b/nncf/quantization/quantize_model.py
@@ -395,7 +395,7 @@ def compress_weights(
     scale_estimation: Optional[bool] = None,
     gptq: Optional[bool] = None,
     lora_correction: Optional[bool] = None,
-    backup_mode: BackupMode = BackupMode.INT8_ASYM,
+    backup_mode: Optional[BackupMode] = None,
     advanced_parameters: Optional[AdvancedCompressionParameters] = None,
 ) -> TModel:
     """
@@ -446,7 +446,7 @@ def compress_weights(
     :type gptq: bool
     :param lora_correction: Indicates whether to use Lora Correction algorithm.
     :type lora_correction: bool
-    :param backup_mode: Defines a backup mode for mixed-precision weight compression. Defaults to INT8_ASYM.
+    :param backup_mode: Defines a backup mode for mixed-precision weight compression.
         NONE stands for original floating-point precision of the model weights.
             In this mode, weights are retained in their original precision without any quantization.
         INT8_SYM stands for 8-bit integer symmetric quantization without zero point.
@@ -482,6 +482,9 @@ def compress_weights(
                 "Set them to None."
             )
 
+        if backup_mode is not None:
+            raise AttributeError("Torch backend does not support backup_mode option.")
+
         if is_wrapped_model(model):
             if not model.nncf.trace_parameters:
                 raise ValueError(
@@ -509,6 +512,9 @@ def compress_weights(
                 f"but given {mode.value} mode."
             )
 
+        if backup_mode is not None:
+            raise AttributeError("TorchFX backend does not support backup_mode option.")
+
         if any((awq, scale_estimation, gptq, lora_correction)):
             raise AttributeError(
                 "TorchFX backend does not support 'awq', 'scale_estimation', 'gptq',"
@@ -549,7 +555,7 @@ def compress_weights(
                 "Default values of `ratio` (1) and `group_size` (-1) parameters can not be overridden"
             )
 
-        if backup_mode != BackupMode.INT8_ASYM:
+        if backup_mode is not None:
             raise AttributeError("INT8 modes do not support the `backup_mode` option")
 
         options = {
@@ -589,6 +595,8 @@ def compress_weights(
             if dataset is None
             else SensitivityMetric.MAX_ACTIVATION_VARIANCE
         )
+    if backup_mode is None:
+        backup_mode = BackupMode.INT8_ASYM
     if ratio != 1 and dataset is None and sensitivity_metric != SensitivityMetric.WEIGHT_QUANTIZATION_ERROR:
         raise AttributeError(
             f"Mixed precision selection based on the given sensitivity metric={sensitivity_metric.value} requires "

diff --git a/tests/openvino/native/quantization/test_weights_compression.py b/tests/openvino/native/quantization/test_weights_compression.py
@@ -706,6 +706,7 @@ def test_raise_error_channel_size_is_not_divisible_by_group_size():
         {"gptq": True},
         {"awq": True},
         {"backup_mode": BackupMode.NONE},
+        {"backup_mode": BackupMode.INT8_ASYM},
         {"backup_mode": BackupMode.INT8_SYM},
     ),
 )

diff --git a/tests/torch/fx/test_compress_weights.py b/tests/torch/fx/test_compress_weights.py
@@ -15,6 +15,7 @@
 import torch
 from torch._export import capture_pre_autograd_graph
 
+from nncf import BackupMode
 from nncf import CompressWeightsMode
 from nncf.common.factory import NNCFGraphFactory
 from nncf.data.dataset import Dataset
@@ -208,6 +209,9 @@ def test_compress_weights_functional_model(mode):
         {"scale_estimation": True},
         {"lora_correction": True},
         {"dataset": Dataset([1])},
+        {"backup_mode": BackupMode.NONE},
+        {"backup_mode": BackupMode.INT8_ASYM},
+        {"backup_mode": BackupMode.INT8_SYM},
     ),
 )
 def test_raise_error_with_unsupported_params_for_int8(mode, params):

diff --git a/tests/torch/ptq/test_weights_compression.py b/tests/torch/ptq/test_weights_compression.py
@@ -13,6 +13,7 @@
 import torch
 import torch.nn.functional as F
 
+from nncf import BackupMode
 from nncf import CompressWeightsMode
 from nncf import SensitivityMetric
 from nncf.quantization import compress_weights
@@ -214,6 +215,9 @@ def forward(self, input):
         {"awq": True},
         {"scale_estimation": True},
         {"lora_correction": True},
+        {"backup_mode": BackupMode.NONE},
+        {"backup_mode": BackupMode.INT8_ASYM},
+        {"backup_mode": BackupMode.INT8_SYM},
     ),
 )
 def test_raise_error_with_unsupported_params_for_int8(mode, params):