inference 8
- Cloudflare 做了一个统一推理层,AI Agent 的基础设施战开打了
- AMD 开源了 Lemonade:本地 AI 推理终于不用折腾了?
- 从 300KB 到 69KB:LLM 如何解决 KV Cache 的「记忆之重」
- Google TurboQuant:KV Cache 压缩 6 倍,推理加速 8 倍,精度零损失
- Hypura:让你的 Mac 跑超出内存的大模型
- NVIDIA Vera CPU:第一颗为 Agentic AI 设计的 CPU 意味着什么?
- KV Cache 压缩 50 倍不掉精度:MIT 的 Attention Matching 做到了
- antirez 的 voxtral.c:用纯 C 实现语音转文字,零依赖的 AI 推理