LEARN · 學習區
AI 學習區
從零開始學 AI:什麼是 RAG / agent / prompt / fine-tuning / 對齊 / context window;怎麼選工具;實用情境;進階技術。
怎麼老實評測你的 RAG 系統
隨便丟 10 個 query 不叫評測。這套框架會抓到 demo 抓不到的 bug。
怎麼把 LLM API 帳單砍一半又不掉品質
Prompt caching、模型 routing、輸出 capping,加另外四個會累乘的優化。真實 production 團隊砍帳單 50-80%。
從零寫一個 agent loop(不用任何框架)
把抽象層拿掉,實際的 loop 大概 50 行。在你拿 LangGraph 之前先自己寫一次。
防 prompt injection:2026 年的現實版護欄
沒有完美的防禦。這是一套能把實際風險降 95% 的分層 playbook。
LLM observability:log、trace、eval 三件事
看不到 agent 做了什麼、為什麼,你就修不了。2026 年的工具堆疊跟真正重要的四種訊號。
用 LoRA 在本機微調 Llama 3 70B
在 2026 年自己用本機微調 70B 模型,實際需要的硬體、資料、超參數。
用 vLLM 自架高吞吐推論伺服器
什麼時候自架真的贏 API,以及怎麼讓 vLLM 在單張 GPU 上跑到 1000 req/min。
Debug 一個行為怪怪的多步驟 agent
第 4 步歪掉但你不知道為什麼。這是系統化 playbook。
RAG 系統用 hybrid search(BM25 + 向量)
純向量搜尋抓不到關鍵字,純關鍵字搜尋抓不到語意。結合起來,這是食譜。
從 LLM 拿結構化輸出:tool use、JSON mode、schema
讓模型吐有效 JSON 的三條路、各自什麼時候贏,以及 production 上會嚇到你的失敗模式。
Speculative decoding:讓推論快 2-3 倍
小模型提議 token,大模型平行驗證。輸出一樣,延遲大幅降低。
LLM routing:把簡單 query 送到便宜模型
大部分 query 用不到 Opus。簡單 router 把成本砍 60-80%,品質損失極小 —— 前提是你蓋對。
怎麼大規模評測 LLM 輸出品質
三種真的能規模化的 eval —— golden dataset、LLM-as-judge、線上指標,以及什麼時候該用哪個。
Agent 記憶策略:從 session 到長期
四層記憶、各自什麼時候重要,以及花俏框架跟 50 行自己寫的取捨。
什麼時候微調贏 prompt 工程,什麼時候不贏
大部分團隊太早跳到微調。決策樹、實際數字,以及該按什麼順序試。
15 total