Skip to content

Latest commit

 

History

History
24 lines (21 loc) · 1.66 KB

File metadata and controls

24 lines (21 loc) · 1.66 KB

TensorRT-runtime with Triton-inference-server

Trong trường hợp muốn deploy mô hình sử dụng TensorRT-runtime thay vì ONNX-runtime (model thường phải convert sang ONNX trước khi sang TensorRT), file weight phải được convert theo đúng phiên bản TensorRT mà docker triton-inference-server đang sử dụng. Do vậy, ta truy cập vào môi trường docker hiện tại như sau:

  • Lấy ID của Docker đang chạy triton-inference-server
damnguyen@rnd3:~$ docker ps

CONTAINER ID   IMAGE                                   COMMAND                  CREATED        STATUS        PORTS                                                           NAMES
6ef0b4972292   nvcr.io/nvidia/tritonserver:21.12-py3   "/opt/tritonserver/n…"   23 hours ago   Up 23 hours   0.0.0.0:8000-8002->8000-8002/tcp, :::8000-8002->8000-8002/tcp   cranky_hamilton
b09d98350935   quay.io/cloudhut/kowl:master-645e3b4    "./kowl"                 6 days ago     Up 6 days                                                                     gifted_davinci

ta có CONTAINER ID của triton là 6ef0b4972292

  • Chạy bash sử dụng triton container
damnguyen@rnd3:~$ docker exec -it 6ef0b4972292 bash
root@6ef0b4972292:/opt/tritonserver#
  • Convert model ONNX sang TensorRT (cú pháp tương tự khi làm việc với engine TensorRT thông thường)
/usr/src/tensorrt/bin/trtexec --onnx=<path-to-onnx> --saveEngine=<path-to-save-plan-file>