LocalAI

mirror of https://github.com/mudler/LocalAI.git synced 2025-12-25 15:39:49 -05:00

Author	SHA1	Message	Date
Ettore Di Giacinto	0a168830ea	chore(deps): Bump llama.cpp to '5b6c9bc0f3c8f55598b9999b65aff7ce4119bc15' and refactor usage of base params (#7706 ) * chore(deps): Bump llama.cpp to '5b6c9bc0f3c8f55598b9999b65aff7ce4119bc15' and refactor usage of base params Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * chore: update AGENTS.md Signed-off-by: Ettore Di Giacinto <mudler@localai.io> --------- Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-12-24 00:28:27 +01:00
Ettore Di Giacinto	fc6057a952	chore(deps): bump llama.cpp to '0e1ccf15c7b6d05c720551b537857ecf6194d420' (#7684 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-12-22 09:50:42 +01:00
Ettore Di Giacinto	2387b266d8	chore(llama.cpp): Add Missing llama.cpp Options to gRPC Server (#7584 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-12-15 21:55:20 +01:00
Simon Redman	5de539ab07	fix(7355): Update llama-cpp grpc for v3 interface (#7566 ) * fix(7355): Update llama-cpp grpc for v3 interface Signed-off-by: Simon Redman <simon@ergotech.com> * feat(llama-gprc): Trim whitespace from servers list Signed-off-by: Simon Redman <simon@ergotech.com> * Trim trailing spaces in grpc-server.cpp Signed-off-by: Simon Redman <simon@ergotech.com> --------- Signed-off-by: Simon Redman <simon@ergotech.com>	2025-12-14 11:40:33 +01:00
Ettore Di Giacinto	0b130fb811	fix(llama.cpp): handle corner cases with tool array content (#7528 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-12-12 08:15:45 +01:00
Ettore Di Giacinto	74ee1463fe	chore(deps/llama-cpp): bump to '2fa51c19b028180b35d316e9ed06f5f0f7ada2c1' (#7484 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-12-09 15:41:37 +01:00
Ettore Di Giacinto	024aa6a55b	chore(deps): bump llama.cpp to 'bde188d60f58012ada0725c6dd5ba7c69fe4dd87' (#7434 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-12-05 00:17:35 +01:00
Ettore Di Giacinto	e3bcba5c45	chore: ⬆️ Update ggml-org/llama.cpp to `7f8ef50cce40e3e7e4526a3696cb45658190e69a` (#7402 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-12-01 07:50:40 +01:00
Ettore Di Giacinto	468ac608f3	chore(deps): bump llama.cpp to 'd82b7a7c1d73c0674698d9601b1bbb0200933f29' (#7392 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-11-29 08:58:07 +01:00
Ettore Di Giacinto	7a94d237c4	chore(deps): bump llama.cpp to '583cb83416467e8abf9b37349dcf1f6a0083745a (#7358 ) chore(deps): bump llama.cpp to '583cb83416467e8abf9b37349dcf1f6a0083745a' Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-11-26 08:23:21 +01:00
Ettore Di Giacinto	e88db7d142	fix(llama.cpp): handle corner cases with tool content (#7324 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-11-21 09:21:49 +01:00
Ettore Di Giacinto	d7f9f3ac93	feat: add support to logitbias and logprobs (#7283 ) * feat: add support to logprobs in results Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * feat: add support to logitbias Signed-off-by: Ettore Di Giacinto <mudler@localai.io> --------- Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-11-16 13:27:36 +01:00
Ettore Di Giacinto	03e9f4b140	fix: handle tool errors (#7271 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-11-14 17:23:56 +01:00
Ettore Di Giacinto	7129409bf6	chore(deps): bump llama.cpp to `c4abcb2457217198efdd67d02675f5fddb7071c2` (#7266 ) * chore(deps): bump llama.cpp to '92bb442ad999a0d52df0af2730cd861012e8ac5c' Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * DEBUG Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Bump Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * test/debug Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Revert "DEBUG" This reverts commit 2501ca3ff242076d623c13c86b3d6afcec426281. Signed-off-by: Ettore Di Giacinto <mudler@localai.io> --------- Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-11-14 12:16:52 +01:00
Ettore Di Giacinto	3728552e94	feat: import models via URI (#7245 ) * feat: initial hook to install elements directly Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * WIP: ui changes Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Move HF api client to pkg Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Add simple importer for gguf files Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Add opcache Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * wire importers to CLI Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Add omitempty to config fields Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Fix tests Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Add MLX importer Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Small refactors to star to use HF for discovery Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Add tests Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Common preferences Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Add support to bare HF repos Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * feat(importer/llama.cpp): add support for mmproj files Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * add mmproj quants to common preferences Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Fix vlm usage in tokenizer mode with llama.cpp Signed-off-by: Ettore Di Giacinto <mudler@localai.io> --------- Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-11-12 20:48:56 +01:00
Mikhail Khludnev	04fe0b0da8	fix(reranker): llama-cpp sort score desc, crop top_n (#7211 ) Signed-off-by: Mikhail Khludnev <mkhl@apache.org>	2025-11-12 09:13:01 +01:00
Ettore Di Giacinto	679d43c2f5	feat: respect context and add request cancellation (#7187 ) * feat: respect context Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * workaround fasthttp Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * feat(ui): allow to abort call Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Refactor Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * chore: improving error Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Respect context also with MCP Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Tie to both contexts Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Make detection more robust Signed-off-by: Ettore Di Giacinto <mudler@localai.io> --------- Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-11-09 18:19:19 +01:00
Ettore Di Giacinto	02cc8cbcaa	feat(llama.cpp): consolidate options and respect tokenizer template when enabled (#7120 ) * feat(llama.cpp): expose env vars as options for consistency This allows to configure everything in the YAML file of the model rather than have global configurations Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * feat(llama.cpp): respect usetokenizertemplate and use llama.cpp templating system to process messages Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * WIP Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Detect template exists if use tokenizer template is enabled Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Better recognization of chat Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Fixes to support tool calls while using templates from tokenizer Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Fixups Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Drop template guessing, fix passing tools to tokenizer Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Extract grammar and other options from chat template, add schema struct Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * WIP Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * WIP Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Automatically set use_jinja Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Cleanups, identify by default gguf models for chat Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Update docs Signed-off-by: Ettore Di Giacinto <mudler@localai.io> --------- Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-11-07 21:23:50 +01:00
Ettore Di Giacinto	424acd66ad	feat(llama.cpp): allow to set cache-ram and ctx_shift (#7009 ) * feat(llama.cpp): allow to set cache-ram and ctx_shift Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Apply suggestion from @mudler Signed-off-by: Ettore Di Giacinto <mudler@users.noreply.github.com> --------- Signed-off-by: Ettore Di Giacinto <mudler@localai.io> Signed-off-by: Ettore Di Giacinto <mudler@users.noreply.github.com>	2025-11-02 17:33:29 +01:00
Chakib Benziane	32c0ab3a7f	fix: properly terminate llama.cpp kv_overrides array with empty key + updated doc (#6672 ) * fix: properly terminate kv_overrides array with empty key The llama model loading function expects KV overrides to be terminated with an empty key (key[0] == 0). Previously, the kv_overrides vector was not being properly terminated, causing an assertion failure. This commit ensures that after parsing all KV override strings, we add a final terminating entry with an empty key to satisfy the C-style array termination requirement. This fixes the assertion error and allows the model to load correctly with custom KV overrides. Fixes #6643 - Also included a reference to the usage of the `overrides` option in the advanced-usage section. Signed-off-by: blob42 <contact@blob42.xyz> * doc: document the `overrides` option --------- Signed-off-by: blob42 <contact@blob42.xyz>	2025-10-23 09:31:55 +02:00
Ettore Di Giacinto	cd1e1124ea	fix(llama.cpp): correctly set grammar triggers (#6432 ) * fix(llama.cpp): correctly set grammar triggers Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Do not enable lazy by default Signed-off-by: Ettore Di Giacinto <mudler@localai.io> --------- Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-10-10 19:50:17 +02:00
Ettore Di Giacinto	791bc769c1	chore(deps): bump llama.cpp to '1deee0f8d494981c32597dca8b5f8696d399b0f2' (#6421 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-10-10 09:51:22 +02:00
Ettore Di Giacinto	9878f27813	chore(deps): bump llama.cpp to '835b2b915c52bcabcd688d025eacff9a07b65f52' (#6347 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-09-26 23:26:14 +02:00
jongames	f2b9452ec4	fix: reranking models limited to 512 tokens in llama.cpp backend (#6344 ) Fix reranking models being limited to 512 tokens input in llama.cpp backend Signed-off-by: JonGames <18472148+jongames@users.noreply.github.com>	2025-09-25 23:32:07 +00:00
Ettore Di Giacinto	6410c99bf2	fix(llama-cpp): correctly calculate embeddings (#6259 ) * chore(tests): check embeddings differs in llama.cpp Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * fix(llama.cpp): use the correct field for embedding Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * fix(llama.cpp): use embedding type none Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * chore(tests): add test-cases in aio-e2e suite Signed-off-by: Ettore Di Giacinto <mudler@localai.io> --------- Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-09-13 23:11:54 +02:00
Ettore Di Giacinto	739573e41b	feat(flash_attention): set auto for flash_attention in llama.cpp (#6168 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-08-31 17:59:09 +02:00
Ettore Di Giacinto	259383cf5e	chore(deps): bump llama.cpp to '45363632cbd593537d541e81b600242e0b3d47fc' (#6122 ) Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-08-23 08:39:10 +02:00
Ettore Di Giacinto	576e821298	chore(deps): bump llama.cpp to 'df36bce667bf14f8e538645547754386f9516326 (#6062 ) chore(deps): bump llama.cpp to 'df36bce667bf14f8e538645547754386f9516326' Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-08-15 13:28:15 +02:00
Ettore Di Giacinto	ec1276e5a9	fix(llama.cpp): do not default to linear rope (#5982 ) This seems to somehow sneaked in during the initial pass to gRPC server, instead of setting linear rope when required, we did default to it if not specified. Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-08-06 23:20:28 +02:00
Ettore Di Giacinto	294f7022f3	feat: do not bundle llama-cpp anymore (#5790 ) * Build llama.cpp separately Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * WIP Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * WIP Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * WIP Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Start to try to attach some tests Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Add git and small fixups Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * fix: correctly autoload external backends Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Try to run AIO tests Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Slightly update the Makefile helps Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Adapt auto-bumper Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Try to run linux test Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Add llama-cpp into build pipelines Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Add default capability (for cpu) Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Drop llama-cpp specific logic from the backend loader Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * drop grpc install in ci for tests Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * fixups Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Pass by backends path for tests Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Build protogen at start Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * fix(tests): set backends path consistently Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Correctly configure the backends path Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Try to build for darwin Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * WIP Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Compile for metal on arm64/darwin Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Try to run build off from cross-arch Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Add to the backend index nvidia-l4t and cpu's llama-cpp backends Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Build also darwin-x86 for llama-cpp Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Disable arm64 builds temporary Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Test backend build on PR Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Fixup build backend reusable workflow Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * pass by skip drivers Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Use crane Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Skip drivers Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Fixups Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * x86 darwin Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Add packaging step for llama.cpp Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * fixups Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Fix leftover from bark-cpp extraction Signed-off-by: Ettore Di Giacinto <mudler@localai.io> * Try to fix hipblas build Signed-off-by: Ettore Di Giacinto <mudler@localai.io> --------- Signed-off-by: Ettore Di Giacinto <mudler@localai.io>	2025-07-18 13:24:12 +02:00

30 Commits