fix(autogptq): do not use_triton with qwen-vl (#1985 )

* Enhance autogptq backend to support VL models * update dependencies for autogptq * remove redundant auto-gptq dependency * Convert base64 to image_url for Qwen-VL model * implemented model inference for qwen-vl * remove user prompt from generated answer * fixed write image error * fixed use_triton issue when loading Qwen-VL model --------- Co-authored-by: Binghua Wu <bingwu@estee.com>
ci: push latest images for dockerhub (#1984 )
2026-02-03 03:02:38 -05:00 · 2024-04-11 12:33:58 +02:00 · 2024-04-10 10:31:59 +02:00 · 2024-04-10 09:08:00 +02:00 · 2024-04-10 09:07:41 +02:00 · 2024-04-10 09:07:21 +02:00
4 changed files with 5 additions and 4 deletions
--- a/.github/workflows/image_build.yml
+++ b/.github/workflows/image_build.yml
@@ -280,6 +280,7 @@ jobs:
        run: |
          docker pull localai/localai:${{ steps.meta.outputs.version }}
          docker tag localai/localai:${{ steps.meta.outputs.version }} localai/localai:${{ inputs.latest-image }}
+          docker push localai/localai:${{ inputs.latest-image }}
          docker pull quay.io/go-skynet/local-ai:${{ steps.meta.outputs.version }}
          docker tag quay.io/go-skynet/local-ai:${{ steps.meta.outputs.version }} quay.io/go-skynet/local-ai:${{ inputs.latest-image }}
          docker push quay.io/go-skynet/local-ai:${{ inputs.latest-image }}
@@ -289,6 +290,7 @@ jobs:
        run: |
          docker pull localai/localai:${{ steps.meta_aio_dockerhub.outputs.version }}
          docker tag localai/localai:${{ steps.meta_aio_dockerhub.outputs.version }} localai/localai:${{ inputs.latest-image-aio }}
+          docker push localai/localai:${{ inputs.latest-image-aio }}
          docker pull quay.io/go-skynet/local-ai:${{ steps.meta_aio.outputs.version }}
          docker tag quay.io/go-skynet/local-ai:${{ steps.meta_aio.outputs.version }} quay.io/go-skynet/local-ai:${{ inputs.latest-image-aio }}
          docker push quay.io/go-skynet/local-ai:${{ inputs.latest-image-aio }}
--- a/4
+++ b/4
@@ -5,7 +5,7 @@ BINARY_NAME=local-ai

 # llama.cpp versions
 GOLLAMA_STABLE_VERSION?=2b57a8ae43e4699d3dc5d1496a1ccd42922993be
-CPPLLAMA_VERSION?=cc4a95426d17417d3c83f12bdb514fbe8abe2a88
+CPPLLAMA_VERSION?=1b67731e184e27a465b8c5476061294a4af668ea

 # gpt4all version
 GPT4ALL_REPO?=https://github.com/nomic-ai/gpt4all
@@ -16,7 +16,7 @@ RWKV_REPO?=https://github.com/donomii/go-rwkv.cpp
 RWKV_VERSION?=661e7ae26d442f5cfebd2a0881b44e8c55949ec6

 # whisper.cpp version
-WHISPER_CPP_VERSION?=13c22321d1ac758ce68a429c23104e234b440769
+WHISPER_CPP_VERSION?=8f253ef3af1c62c04316ba4afa7145fc4d701a8c

 # bert.cpp version
 BERT_VERSION?=6abe312cded14042f6b7c3cd8edf082713334a4d
--- a/backend/python/autogptq/autogptq.py
+++ b/backend/python/autogptq/autogptq.py
@@ -39,7 +39,6 @@ class BackendServicer(backend_pb2_grpc.BackendServicer):
                self.model_name = "Qwen-VL-Chat"
                model = AutoModelForCausalLM.from_pretrained(model_path, 
                    trust_remote_code=request.TrustRemoteCode,
-                    use_triton=request.UseTriton,
                    device_map="auto").eval()
            else:
                model = AutoGPTQForCausalLM.from_quantized(model_path,
--- a/docs/data/version.json
+++ b/docs/data/version.json
@@ -1,3 +1,3 @@
 {
-  "version": "v2.11.0"
+  "version": "v2.12.1"
 }
Author	SHA1	Message	Date
Sebastian.W	0004ec8be3	fix(autogptq): do not use_triton with qwen-vl (#1985 ) * Enhance autogptq backend to support VL models * update dependencies for autogptq * remove redundant auto-gptq dependency * Convert base64 to image_url for Qwen-VL model * implemented model inference for qwen-vl * remove user prompt from generated answer * fixed write image error * fixed use_triton issue when loading Qwen-VL model --------- Co-authored-by: Binghua Wu <bingwu@estee.com>	2024-04-11 12:33:58 +02:00
Ettore Di Giacinto	d692b2c32a	ci: push latest images for dockerhub (#1984 ) Fixes: #1983 Signed-off-by: Ettore Di Giacinto <mudler@users.noreply.github.com>	2024-04-10 10:31:59 +02:00
LocalAI [bot]	7e2f8bb408	⬆️ Update ggerganov/whisper.cpp (#1980 ) Signed-off-by: GitHub <noreply@github.com> Co-authored-by: mudler <mudler@users.noreply.github.com>	2024-04-10 09:08:00 +02:00
LocalAI [bot]	951e39d36c	⬆️ Update ggerganov/llama.cpp (#1979 ) Signed-off-by: GitHub <noreply@github.com> Co-authored-by: mudler <mudler@users.noreply.github.com>	2024-04-10 09:07:41 +02:00
LocalAI [bot]	aeb3f835ae	⬆️ Update docs version mudler/LocalAI (#1978 ) Signed-off-by: GitHub <noreply@github.com> Co-authored-by: mudler <mudler@users.noreply.github.com>	2024-04-10 09:07:21 +02:00