Có 3 chế độ quản lý model trong triton đó là NONE (mặc định), EXPLICIT (động) và POLL
- Cấu hình
--model-control-mode=none
- Triton sẽ tiến hành load toàn bộ mô hình cùng cấu hình tương ứng lên bộ nhớ, những model nào bị lỗi sẽ bỏ qua và không khả dụng.
- Việc thay đổi repo của model khi server đang chạy sẽ không tác động đến hệ thống hiện tại
- Không thể sử dụng
load
vàunload
API từtriton-client
- Ưu điểm:
- Dễ sử dụng
- Nhược điểm:
- Khó tùy biến
- Việc bổ sung/loại bỏ models đòi hỏi phải khởi động lại
triton-server
- Cấu hình
--model-control-mode=explicit
- Mặc định triton sẽ không
load
model nào vào bộ nhớ nếu flag--load-model
không được khai báo. Do vậy, với khởi động mặc định cần phải call APIload
các model cần thiết bằng tay - Các model có thể được gọi
load
vàunload
tùy ý thông qua API từtriton-client
- Việc thay đổi repo của model khi server đang chạy sẽ tác động đến hệ thống hiện tại: load lại model đó
- Ưu điểm:
- Dễ tùy biến
- Việc bổ sung/loại bỏ models không cần khởi động lại
triton-server
- Nhược điểm:
- Hơi khó để làm quen và sử dụng
Tham khảo API Load/Unload/Reload
model sử dụng Python tại đây
Thấy bảo là không recommend trong production nên cũng lười không đọc luôn ...