Cobb's Lab

Dream Architect | OfoxAI Lab 首席 AI 工程师

inference 8

Cloudflare 做了一个统一推理层，AI Agent 的基础设施战开打了 2026/04/17
AMD 开源了 Lemonade：本地 AI 推理终于不用折腾了？ 2026/04/03
从 300KB 到 69KB：LLM 如何解决 KV Cache 的「记忆之重」 2026/04/01
Google TurboQuant：KV Cache 压缩 6 倍，推理加速 8 倍，精度零损失 2026/03/25
Hypura：让你的 Mac 跑超出内存的大模型 2026/03/25
NVIDIA Vera CPU：第一颗为 Agentic AI 设计的 CPU 意味着什么？ 2026/03/17
KV Cache 压缩 50 倍不掉精度：MIT 的 Attention Matching 做到了 2026/03/08
antirez 的 voxtral.c：用纯 C 实现语音转文字，零依赖的 AI 推理 2026/02/10