通过Git克隆已量化的模型仓库:
git clone https://www.modelscope.cn/models/linglingdan/MiniCPM-V_2_6_awq_int4
安装AutoAWQ
的一个分支,该分支已提交PR,等待官方合并:
git clone https://github.com/LDLINGLINGLING/AutoAWQ.git
cd AutoAWQ
pip install -e .
3. 以上模型可以直接使用vllm进行推理,
通过Git克隆模型仓库,并确保已安装git-lfs
:
git clone https://huggingface.co/openbmb/MiniCPM-V-2_6
也可以通过ModelScope克隆模型仓库:
git clone https://www.modelscope.cn/models/openbmb/minicpm-v-2_6
安装AutoAWQ
的一个分支,该分支已提交PR,等待官方合并:
git clone https://github.com/LDLINGLINGLING/AutoAWQ.git
cd AutoAWQ
pip install -e .
修改AutoAWQ/examples/minicpmv2.6_quantize.py
中的参数:
parser.add_argument('--model-path', type=str, default="/root/ld/ld_model_pretrained/Minicpmv2_6",
help='Path to the model directory.')
parser.add_argument('--quant-path', type=str, default="/root/ld/ld_model_pretrained/Minicpmv2_6_awq_new",
help='Path to save the quantized model.')
# 修改以上模型地址和量化后保存地址
运行量化脚本(需要访问huggingface):
cd AutoAWQ/examples
python minicpmv2.6_quantize.py
量化完成后,在quant_path
下将会得到您的AWQ量化模型。
量化过程中显存占用仅为7.3GB。
以上模型可以直接使用vllm进行推理,