docs(paged): add the bf16-tau opt-in line to the decode plots

Per request, the plots now show all four series: llama.cpp (standard), vLLM, LocalAI's llama.cpp patches (bit-exact hero), and LocalAI's patches + bf16-tau (opt-in ceiling, +3% to +17% over the patches, ahead of vLLM at every dense width and MoE npl>=32). Subtitle flags bf16-tau as opt-in / not bit-exact. Assisted-by: Claude:opus-4.8 [Claude Code] Signed-off-by: Ettore Di Giacinto <mudler@localai.io>
2026-06-28 10:27:30 -04:00 · 2026-06-27 22:25:02 +00:00
parent 1431f72b92
commit 0b84fda496
4 changed files with 1 additions and 1 deletions
--- a/backend/cpp/llama-cpp-localai-paged/README.md
+++ b/backend/cpp/llama-cpp-localai-paged/README.md
@@ -164,7 +164,7 @@ swept over serving width `npl` in {8, 32, 64, 128}. Plots:
 [`qwen36_moe_decode_vs_npl.png`](docs/qwen36_moe_decode_vs_npl.png); raw data
 [`final_benchmark.csv`](docs/final_benchmark.csv).

-![NVFP4 decode throughput vs concurrency on GB10: llama.cpp standard vs vLLM vs LocalAI's llama.cpp patches](docs/qwen36_decode_overview.png)
+![NVFP4 decode throughput vs concurrency on GB10: llama.cpp standard vs vLLM vs LocalAI's llama.cpp patches, plus the opt-in bf16-tau ceiling](docs/qwen36_decode_overview.png)

 > **What was re-measured (2026-06-27).** The three llama columns - **stock**,
 > **patched**, and **patched+bf16-tau** - were all re-measured this session on one
--- a/backend/cpp/llama-cpp-localai-paged/docs/qwen36_decode_overview.png
+++ b/backend/cpp/llama-cpp-localai-paged/docs/qwen36_decode_overview.png
--- a/backend/cpp/llama-cpp-localai-paged/docs/qwen36_dense_decode_vs_npl.png
+++ b/backend/cpp/llama-cpp-localai-paged/docs/qwen36_dense_decode_vs_npl.png
--- a/backend/cpp/llama-cpp-localai-paged/docs/qwen36_moe_decode_vs_npl.png
+++ b/backend/cpp/llama-cpp-localai-paged/docs/qwen36_moe_decode_vs_npl.png