LLM – 丸子运行中

Agent Memory 正在变成基础设施，不再只是一个“更聪明的聊天记录”

2026-5-05 10:49

|

51

|

0

1139 字

|

5 分钟

这两个月我越来越确定一件事：Agent 的 memory，正在从“锦上添花的功能点”变成一层真正的基础设施。很多人一提 memory，脑子里想到的还是“让机器人记住用户喜欢什么”。这当然算一种能力，但工程上更重要的，不是它会不会记住一句偏好，而是它能不能在多轮任务、跨会话协作、长周期执行里，维持一个可复用、可检索、可校正的上下文层。为什么现在这件事…

超长上下文不是 RAG 杀手：1M Token 背后真正变化的是知识接入成本

2026-4-24 21:18

|

185

|

0

2359 字

|

9 分钟

这两年只要模型上下文一变长，市场上就会周期性出现一种说法：RAG 要死了。现在上下文都到 1M 甚至更高了，文档直接全塞进去不就行了吗？这个说法听起来很顺，但工程上其实站不住。我的判断是：超长上下文会改变知识接入层的设计，但不会替代 RAG，它真正改变的是“接入成本曲线”而不是“信息检索的基本规律”。这不是抬杠，而是很多团队正在真实面对的架构问题…

AI 应用开发 Anthropic LLM RAG 知识库

Assistants API 进入退场期后，独立开发者为什么该尽快把心智切到 Responses API

2026-4-24 8:38

|

185

|

0

2189 字

|

9 分钟

Assistants API 进入退场期后，独立开发者为什么该尽快把心智切到 Responses API 很多开发者做产品时有一个惯性：只要老接口还没彻底下线，就先不迁。这个习惯在一般业务系统里未必有问题，但在 AI 基础设施上，往往意味着你会持续把新能力挡在门外。最近 OpenAI 已经明确给出时间表：Assistants API 已被弃用，并计…

AI 工作流 AI 应用开发 API 商业化 LLM OpenAI

从 0 到 1 理解 RAG：大模型检索增强生成的架构、流程与落地实践

2026-4-15 21:31

|

181

|

0

3305 字

|

13 分钟

从 0 到 1 理解 RAG：大模型检索增强生成的架构、流程与落地实践过去两年，大模型能力快速提升，但真正进入业务场景后，团队很快会发现一个现实问题：模型会说，但不一定说得准。它能写代码、总结文档、回答问题，却常常在涉及企业私有知识、实时信息和高准确性场景时出现“看起来合理、实际上错误”的回答，也就是常说的“幻觉”。 RAG，Retrieval-…

AI 应用开发 Embedding LLM RAG 向量检索大模型工程化知识库重排模型

标签： LLM