KV Cache 压缩 50 倍不掉精度:MIT 的 Attention Matching 做到了
LLM 推理的内存瓶颈,搞过部署的人都知道有多痛。 上下文越长,KV Cache 越大,显存占用直线上升。处理一份长合同、跑一个多轮对话的 coding agent、或者做 RAG 召回后的长文本理解 —— KV Cache 动辄吃掉几个 GB。这不是理论问题,是每天都在烧钱的生产问题。 MIT 最近放出了一篇论文 Attention Matching,把 KV Cache 压缩到原来的...
LLM 推理的内存瓶颈,搞过部署的人都知道有多痛。 上下文越长,KV Cache 越大,显存占用直线上升。处理一份长合同、跑一个多轮对话的 coding agent、或者做 RAG 召回后的长文本理解 —— KV Cache 动辄吃掉几个 GB。这不是理论问题,是每天都在烧钱的生产问题。 MIT 最近放出了一篇论文 Attention Matching,把 KV Cache 压缩到原来的...

昨天 Hacker News 上一篇文章引发了激烈讨论:We Might All Be AI Engineers Now。作者 Yas 是一个有多年经验的工程师,他说自己已经好几个月没手写过样板代码了,日常工作变成了设计架构、指导 AI Agent 执行、审查输出。 这篇文章之所以能拿到近 200 points,不是因为它说了什么新鲜事,而是因为它精确地戳中了很多工程师此刻的真实状态。 ...

昨天 Hacker News 上一篇文章冲到了近 600 点,标题够挑衅:“The L in LLM Stands for Lying”。作者 Steven Wittens(acko.net)没有老生常谈地讨论幻觉问题,而是提出了一个更尖锐的视角——LLM 的本质是 伪造机器。 这个角度让我停下来想了一会儿。 伪造,而非创造 Wittens 的核心论点很简单:如果有人模仿梵高的风格画一...

OpenAI 今天发布了 GPT-5.4,HN 636 分。这不是一个简单的版本升级——它同时推出了 GPT-5.4、GPT-5.4 Thinking、GPT-5.4 Pro 和 GPT-5.3 Instant 四个模型,外加 Codex Fast Mode。信息量很大,逐一拆解。 定价:标准版亲民,Pro 版昂贵 先说大家最关心的: 模型 输...

每隔一段时间,就会有人预言”AI 将取代 XX% 的工作岗位”。数字越大,标题越吸引眼球。但 Anthropic 刚发布的一篇研究论文给出了一个更冷静的答案:到目前为止,AI 对就业的实际影响非常有限。 新指标:观察到的暴露度(Observed Exposure) 这项研究最有价值的贡献是提出了一个新的衡量方式。过去的研究大多只看”理论上 AI 能不能做这个任务”,而 Anthropic...
今天 Hacker News 上一个叫 406.fail 的站点冲到了 100+ 点。打开一看,是一份写得极其认真的「讽刺 RFC」—— 全称 RAGS(The Rejection of Artificially Generated Slop),专门用来回复那些用 AI 生成的低质量 Pull Request。 维护者收到垃圾 PR 后,只需要回复一个链接:https://406.fail...
今天 Hacker News 上一篇文章引起了不少讨论:「You Need to Rewrite Your CLI for AI Agents」。标题很直接,观点也很尖锐——我们花了大量精力构建面向人类的 CLI,但 AI Agent 正在成为 CLI 的主要消费者,而现有的 CLI 设计对它们来说几乎是灾难。 问题出在哪 传统 CLI 的设计哲学是「面向人类的可读输出」。彩色文字、进度...
作为 OfoxAI(ofox.ai)的开发者,我每天都在跟各家大模型打交道。昨天 Qwen3.5 小模型系列刚发布,今天就传来核心团队出走的消息 — 这个反差太戏剧性了。 发生了什么 Qwen 团队技术负责人林俊洋(Junyang Lin)在 X 上发了一句话:「me stepping down. bye my beloved qwen.」随后,高级研究员 Binyuan Hui 和实习...
微软 CTO 预测 2030 年 95% 的代码将由 AI 生成。Google 和微软都报告新代码中 25-30% 已经是 AI 写的。AWS 用 AI 帮丰田迁移了 4000 万行 COBOL 代码。Anthropic 用并行 AI Agent 在两周内造了一个 10 万行的 C 编译器,花费不到 2 万美元——这个编译器能启动 Linux,能编译 PostgreSQL 和 Redis。 ...

MCP(Model Context Protocol)自 Anthropic 推出以来,迅速成为 AI Agent 与外部工具交互的事实标准。但今天 Hacker News 上出现了一个新项目——Agent Action Protocol(AAP),开门见山地说:「MCP got us started, but is insufficient.」 这让我很感兴趣。MCP 到底哪里不够用了?...