标签: 大模型

3 篇文章

DeepSeek 给创业团队的启发:不是所有小团队都该学它,但都该学会它的取舍
DeepSeek 这家公司很容易被讲成一个爽文:一个中国小团队,用更低成本做出了接近顶级闭源模型的能力,然后让全球 AI 行业重新计算训练成本和开源策略。这个叙事有吸引力,但如果只停在“年轻人很强”“成本很低”“国产突破”,对创业团队其实帮助不大。 更值得拆的是:DeepSeek 到底是什么样的团队,它真正做成了什么,以及普通创业团队能从中学什么、…
Transformer 到底是什么:一篇写给开发者的通俗技术科普
这几年,不管你是在看大模型、做 AI 应用,还是只是在用各种 AI 编程工具,几乎都会碰到一个词:Transformer。 很多介绍一上来就讲注意力机制、矩阵运算、位置编码,讲得没错,但对大多数开发者来说,问题其实更基础:Transformer 到底解决了什么问题?它为什么突然成了今天大模型的底座? 这篇文章不打算把你变成论文作者,而是想用工程视角…
AI Agent 落地指南:从工作流编排到工具调用的工程实践
过去一年里,很多团队都在讨论 AI Agent,但真正落地时常常遇到同一个问题:演示效果很好,进入业务环境后却难以稳定运行。问题并不在于大模型是否足够强,而在于系统是否具备明确边界、可控流程、可观测日志和可靠的工具调用机制。本文从工程实践角度出发,拆解一个可用于企业内部场景的 Agent 系统应该怎样设计。一、先区分 Agent 与普通问答系统普通…