AI 学习区

Debug 一个行为怪怪的多步骤 agent

第 4 步歪掉但你不知道为什么。这是系统化 playbook。

RAG 系统用 hybrid search(BM25 + 向量)

纯向量搜索抓不到关键字,纯关键字搜索抓不到语义。结合起来,这是食谱。

进阶★★★★★9 分钟

从 LLM 拿结构化输出:tool use、JSON mode、schema

让模型吐有效 JSON 的三条路、各自什么时候赢,以及 production 上会吓到你的失败模式。

Speculative decoding:让推理快 2-3 倍

小模型提议 token,大模型并行验证。输出一样,延迟大幅降低。

进阶★★★★★9 分钟

LLM routing:把简单 query 送到便宜模型

大部分 query 用不到 Opus。简单 router 把成本砍 60-80%,质量损失极小 —— 前提是你盖对。

怎么大规模评测 LLM 输出质量

三种真的能规模化的 eval —— golden dataset、LLM-as-judge、在线指标,以及什么时候该用哪个。

Agent 记忆策略:从 session 到长期

四层记忆、各自什么时候重要,以及花俏框架跟 50 行自己写的取舍。

进阶★★★★★9 分钟

什么时候微调赢 prompt 工程,什么时候不赢

大部分团队太早跳到微调。决策树、实际数字,以及该按什么顺序试。

什么是 RAG？检索增强生成的实用指南

RAG 让 LLM 基于你的私有文档回答,而不是凭空乱猜。本文讲清它的工作原理、何时值得引入,以及什么时候 fine-tuning 或长 context 更划算。

2026 年的 AI 到底是什么?5 分钟看懂现况

2026 年的 AI 不是一个东西,而是一整个生态系。本文用 5 分钟帮你把名词、产品和真正能用的场景理清楚。

什么是大语言模型(LLM)?用人话解释

LLM 不会「思考」,它在预测下一个字。理解这一点,你就同时懂了它为何惊艳、又为何会一本正经胡说八道。

什么是 prompt?为什么 prompt 质量决定一切

Prompt 就是你丢给 LLM 的那段文字。但模糊跟精确的 prompt,差别就是「答案没用」跟「答案很神」。

什么是 context window?每个 LLM 都有的隐形天花板

Context window 是模型一次看得到多少文字。窗口变大开启了长文档时代,但它没有解决所有问题 — 而且它真的会花钱。

LLM 讲的 token 是什么?跟你的账单为什么有关

Token 是 LLM 真正看到的单位。它不是字、不是字符 — 而是每个 API 计费的依据。

什么是 AI agent?跟 chatbot 差在哪?

Agent 就是会行动的 LLM:点链接、跑程序、查 API,还会检查自己有没有做对、不对就重来。「重来」这件事让它强大,也让它脆弱。

什么是 fine-tuning?什么时候你才真的需要?

Fine-tuning 是用你的数据再训练模型。听起来像所有「定制 AI」需求的万能解 — 但 2026 年它几乎不该是你的第一步。

什么是 vibe coding?怎么做才不会做出垃圾

Vibe coding 就是让 AI 写 code、你掌方向。Cursor、Lovable、v0 把它变成真实工作流 — 但只有把 AI 当 junior 而不是神灯,才做得出能用的东西。

什么是 MCP(Model Context Protocol)?AI 界的 USB-C

MCP 是一个开放协议,让任何 AI 助理可以通过同一个接口接到任何工具 — 你的文件系统、GitHub、Notion、你自家数据库 — 不必每组配对都自己写集成。

什么是 API key?怎么用才不会外泄

API key 就是你连 OpenAI、Anthropic 这类付费服务的密码。外泄等于陌生人花你的钱 — 而且几乎每个人都至少漏过一次。

什么是 embedding?把语义变成数字

Embedding 是一串代表文字「意思」的数字。意思相近 = 数字相近。它是语义搜索、RAG、推荐系统背后的数学。

什么是 vector database?你真的需要吗?

Vector database 用来存 embedding、快速找相似的。大多数刚起步的 RAG app,现有的 Postgres 装个 pgvector 就够了,专门的向量 DB 可能 over-engineer。

什么是多模态(multimodal)模型?AI 能同时看、听、读

多模态的意思是同一个模型能处理文字、图片、音频、视频。新版 Claude、GPT-5、Gemini 看你的截图跟看文字一样,这改变了能做什么。

什么是 reasoning model?o3、DeepSeek R1 跟「先想再答」的转变

Reasoning model 回答前会「想一下」 — 有时想好几分钟。它们在数学跟 code 上更强、闲聊不适合、价格也更贵。重要场合才用。