LocalAI

mirror of https://github.com/mudler/LocalAI.git synced 2026-06-28 18:37:43 -04:00

Files

Ettore Di Giacinto 0b84fda496 docs(paged): add the bf16-tau opt-in line to the decode plots

Per request, the plots now show all four series: llama.cpp (standard), vLLM,
LocalAI's llama.cpp patches (bit-exact hero), and LocalAI's patches + bf16-tau
(opt-in ceiling, +3% to +17% over the patches, ahead of vLLM at every dense width
and MoE npl>=32). Subtitle flags bf16-tau as opt-in / not bit-exact.

Assisted-by: Claude:opus-4.8 [Claude Code]
Signed-off-by: Ettore Di Giacinto <mudler@localai.io>

2026-06-27 22:25:02 +00:00

final_benchmark.csv

docs(paged): re-measure DGX benchmarks on one harness (stock/patched/bf16-tau)

2026-06-27 22:05:59 +00:00

LOCALAI_LLAMACPP_BACKEND_PLAN.md

chore(paged): keep patches/ patch-only; README to backend root, docs to docs/

2026-06-27 13:20:05 +00:00

PAGED_BITEXACT_NOTE.md

chore(paged): keep patches/ patch-only; README to backend root, docs to docs/

2026-06-27 13:20:05 +00:00

paged-burst-bench.cpp

chore(paged): keep patches/ patch-only; README to backend root, docs to docs/