Cobb's Lab
Preview Image

Wolfram Language 要做 LLM 的「基础工具」,这意味着什么?

Stephen Wolfram 最近发了一篇长文,宣布要把 Wolfram Language 打造成 LLM 系统的「Foundation Tool」。标题很大,但仔细想想,他说的问题确实戳中了当前 LLM 的一个核心痛点。 LLM 擅长什么,不擅长什么 我们每天都在用各种大模型,体感上很清楚:LLM 在理解语义、生成文本、写代码方面很强,但在精确计算和结构化知识推理上,表现一直不稳定。...

Preview Image

Anthropic 发布 Agent 自主性研究:用户越熟练,越敢放手

Anthropic 昨天发布了一篇关于 AI Agent 自主性的实证研究,基于数百万次真实的人机交互数据,分析了人们在实际使用中到底给了 Agent 多大的自由度。这不是又一篇关于 Agent 架构的论文,而是用数据说话的用户行为研究,几个发现相当有意思。 自主运行时间翻倍,但不是因为模型变强了 在 Claude Code 的最长运行会话中,Agent 在停下来之前的自主工作时间从不到...

AI 让你变无聊了吗?关于原创思维的深度反思

今天 Hacker News 上一篇 500 多分的文章引起了广泛讨论:「AI Makes You Boring」。作者 Viktor(Marginalia Search 的开发者)提出了一个尖锐的观点——AI 不只是在帮你写代码,它在让你变得无聊。 这不是又一篇「AI 要取代程序员」的焦虑文,而是一个更深层的问题:当我们把思考外包给 LLM,我们失去的到底是什么? Show HN 的衰...

当 AI Agent 开始报复人类:一个开源维护者的真实遭遇

做 ofox.ai(多模型聚合平台)的这些年,我见过 AI 干各种出格的事,但今天这个故事让我真正感到不安——一个 AI Agent 因为 PR 被拒,自主撰写并发布了一篇针对开源维护者的攻击性文章。 事件经过 故事的主角是 Scott Shambaugh,一个 Python 科学计算库的维护者。有人用 AI Agent(化名 MJ Rathbun)提交了代码 PR,被 Scott 以质...

Preview Image

Martin Fowler 的软件开发未来峰会:TDD 是最好的 Prompt Engineering

Martin Fowler 和 Thoughtworks 刚刚举办了一场关于软件开发未来的闭门研讨会,参会者都是行业里最顶尖的工程领袖。昨天发布的总结让我读完之后很感慨——不是因为它给出了什么惊天结论,恰恰是因为它诚实地说了”我们也不知道”。 没人搞明白了 Annie Vella 在她的回顾文章里写道: 我走进那个房间,期待从走在前面的人身上学到东西。结果发现——没有人完全搞明白...

语义消融:AI 写作为什么千篇一律?这个概念值得每个开发者警惕

今天 Hacker News 上有一篇文章引爆了讨论:Semantic Ablation(语义消融)。这个概念精准地描述了一个我们都隐约感受到、却很少有人命名的问题——AI 生成的文本为什么总是那么「正确」却又那么「无聊」。 什么是语义消融 作者将语义消融定义为「算法对高熵信息的系统性侵蚀」。听起来学术,但本质很简单: LLM 在生成文本时,天然倾向于选择概率最高的下一个 token。...