分类: 未分类

142 篇文章

Agent SDK 不再只是编排层:为什么 2026 年真正变化的是“执行环境回到平台”
过去一年,很多人都在聊 Agent,但大多数讨论其实停留在“怎么写一个多步调用循环”。这类讨论不算错,只是已经开始过时。2026 年一个更值得开发者重视的变化,不是又多了一个会调工具的框架,而是 Agent 基础设施正在往上收:编排、记忆、工具、状态管理、执行环境,开始被平台一起打包提供。OpenAI 最近更新 Agents SDK,把 long-…
AI 能写出 Windows 吗?基于一个“无监督操作系统实验”的技术判断
AI 能写出 Windows 吗?基于一个“无监督操作系统实验”的技术判断 很多人问过一个很像科幻、但其实很工程的问题:如果把今天最强的代码模型、Agent、自动测试和自动修复链路都堆上去,AI 能不能自己写出一个 Windows? 我的判断很明确:现在的 AI 能写出“像操作系统的原型”,但还写不出“作为 Windows 被交付和维护的系统”。 …
LangGraph 深度实战:从能跑的 Agent 到可控、可恢复、能上线的工作流
LangGraph 深度实战:从能跑的 Agent 到可控、可恢复、能上线的工作流 这两年很多人做 Agent,第一阶段都差不多:先让模型能调用工具,再让它多轮思考,最后跑出一个还不错的 demo。问题通常出在第二阶段之后。只要你想把它接到真实业务里,麻烦就会一起冒出来:中途失败怎么办,人工审核怎么插进去,状态怎么保存,长任务怎么恢复,多个步骤之间…
长视频 Benchmark 应该怎么读,才不会被模型发布稿带偏
长视频 Benchmark 应该怎么读,才不会被模型发布稿带偏 这两年视频多模态模型的发布节奏越来越快,几乎每隔一段时间,就会出现一批“长视频理解能力突破”“一小时视频推理领先”“刷新多个 benchmark”的新说法。热闹当然有热闹的理由,但问题也很明显:很多人读 benchmark 的方式,本身就太像在看体育比分了。 看谁第一,看分差多少,看有…
别再只看总分了:LVBench、MLVU、Video-MME、LongVideoBench,到底在测什么?
别再只看总分了:LVBench、MLVU、Video-MME、LongVideoBench,到底在测什么? 这两年视频多模态模型的讨论很热,但很多判断其实还停留在一个很粗的层面:某个模型“视频理解很强”,或者某个新模型“长视频能力领先”。问题是,这种说法往往没有说明白:它到底强在哪一类视频任务上?是能看懂 30 秒短视频,还是能在 40 分钟视频里…
实战:用 Claude Code 的 hooks 和 subagents,搭一个更稳的本地开发流
现在很多人已经接受 AI 可以改代码,但真正让它进入日常工作流的,不是“它会不会写”,而是“它每次写完之后会不会把仓库搞乱”。这也是为什么我觉得 Claude Code 现在最值得实战看的,不只是改文件能力,而是 hooks 和 subagents 这两个更工程化的点。 前者让你在关键节点自动执行检查和清理动作,后者让你把不同类型任务拆给不同角色。…
实战:把 GitHub MCP Server 接进 IDE,让 AI 不只会写代码,还能读懂你的仓库和协作流
很多人现在用 AI 写代码,最大的问题不是生成能力不够,而是上下文太假。它知道当前文件,不知道整个仓库;它能改一段代码,不知道这个项目有哪些 issue、PR、分支和协作约束。结果就是:建议看着像对的,落到真实仓库里经常不够用。 这就是 GitHub MCP Server 值得实战试一遍的地方。它不是再给你一个聊天入口,而是把仓库、issue、pu…
实战:用 OpenAI Agents SDK 搭一个可控的多 Agent 工作流,而不是一个会乱跑的 Demo
如果你最近在做 Agent,最容易踩的坑不是模型不够强,而是流程不受控。一个 agent 会查资料、会调用工具、会写文件,看起来很聪明;但一旦任务稍微变长,系统就会开始出现两个经典问题:一是上下文越跑越乱,二是失败之后你很难知道到底卡在哪一步。 这篇文章不聊空泛概念,直接给一个适合开发者上手的最小实战方向:用 OpenAI Agents SDK 搭…
AI 编程工具下一阶段,比拼的已经不是会不会写代码,而是谁更接近“可交付”
过去大家评估 AI 编程工具,最常见的问题是:它能不能生成可用代码?这个问题在今天已经不够用了。到 2026 年,真正拉开差距的标准正在变化:谁能更稳定地接入现有仓库,谁能处理多文件修改,谁能运行测试、处理权限、接入 Git 工作流,谁就更接近真正的生产力工具。 这件事对开发者和独立开发者都很现实。因为“写出一段代码”和“把一个需求交付出去”中间,…
MCP 现在值得认真看了:它不只是协议,而是在变成 AI 工具集成的现实底座
去年很多人提到 MCP,还主要把它当成一个“让模型调用外部工具的标准协议”。这话不算错,但太轻了。到了现在,MCP 更值得关注的地方已经不是它作为概念有多优雅,而是它开始进入真实工具链,正在从“协议讨论”走向“生态基础设施”。 这对开发者尤其重要。因为一旦一个协议开始被平台、IDE、托管服务和官方 server 共同推动,它的意义就不只是方便几次调…