SWE-bench 2 LLM 编程能力一年没进步?SWE-bench 的 merge rate 数据给了一个冷水澡 2026/03/13 SWE-CI:AI Agent 能维护代码吗?从一次性修 Bug 到长期迭代 2026/03/09