跳到內容

DICTIONARY · AI 中文詞典

AI 中文詞典

transformer / RAG / agent / fine-tuning / context / prompt 等 AI 技術名詞,中文化解釋,涵蓋架構 / 技術 / 指標 / 公司 / 人物 / 模型 / 任務。

AI 對齊 (Alignment)

AI alignment

技術

研究與工程上讓 AI 系統的行為真正符合人類使用者意圖(而非字面指令或代理指標)的領域。

位元組對編碼 (BPE)

Byte Pair Encoding (BPE)

技術

一種 subword tokenizer 演算法,反覆合併訓練資料中出現頻率最高的相鄰 token 對來建立詞彙表。

思維鏈 (Chain-of-thought, CoT)

Chain-of-thought (CoT)

技術

讓模型先寫出推理步驟再給答案的提示技巧,能大幅提升數學與邏輯題的表現。

Constitutional AI(憲法式 AI)

Constitutional AI

技術

Anthropic 的訓練方法:用一組寫好的原則(「憲法」)加上 AI 自我反饋訓練模型,不靠大量人類標註就能讓模型有用且無害。

DPO(直接偏好最佳化)

DPO (Direct Preference Optimization)

技術

一種對齊技術,直接用人類偏好資料微調模型,不需訓練獎勵模型或跑 RL,是 RLHF 的簡化替代方案。

嵌入向量 (Embedding)

Embedding

技術

一串數字(向量)用來表示文字、圖片或音訊的語意,意思相近的內容在向量空間裡會靠近。

少樣本提示 (Few-shot prompting)

Few-shot prompting

技術

在 prompt 裡先給模型幾個範例示範,再讓它照樣處理新輸入的提示技巧。

微調 (Fine-tuning)

Fine-tuning

技術

在預訓練模型基礎上,用較小的專屬資料集繼續訓練,讓模型適應特定領域或任務。

護欄 (Guardrails)

Guardrails

技術

圍繞在 LLM 周邊的程式或模型,用來過濾輸入輸出、阻擋不安全內容、強制 schema、限制模型行為。

脈絡內學習 (In-context learning, ICL)

In-context learning (ICL)

技術

LLM 在推理時光看 prompt 裡的範例就能學會新任務、完全不需要更新權重的能力。

指令微調 (Instruction Tuning)

Instruction Tuning

技術

用大量「指令—回應」資料對語言模型做微調,讓它學會聽懂並執行人類指令,而不只是接續文字。

知識蒸餾 (Distillation)

Knowledge distillation

技術

用大模型(teacher)的輸出訓練小模型(student),讓小模型在更便宜的成本下保留大模型的能力。

KV 快取 (KV cache)

KV cache

技術

Transformer 推理時把過去 token 的 Key/Value tensor 快取下來、避免每步都重算的機制,也是長 context 吃記憶體的主因。

LoRA(低秩適應)

LoRA (Low-Rank Adaptation)

技術

一種高效微調技術,透過訓練小型低秩矩陣來調整大模型,不必更新全部權重。

提示工程 (Prompt engineering)

Prompt engineering

技術

寫出能讓 LLM 穩定產出高品質結果的 prompt 的技術,包含結構、範例、角色設定、限制條件。

提示注入 (Prompt injection)

Prompt injection

技術

攻擊者在輸入內容(文件、網頁、email)裡藏指令,劫持 LLM 行為的攻擊手法。

QLoRA

技術

結合 4-bit 量化與 LoRA 的微調技術,讓你用單張消費級 GPU 也能微調大型模型。

量化 (Quantization)

Quantization

技術

把模型權重從 16/32 位元浮點數壓成 8/4/2 位元,大幅減少記憶體使用並加快推理速度的技術。

ReAct(推理 + 行動)

ReAct (Reason + Act)

技術

讓模型交替寫推理(Thought)與呼叫工具(Action)的 agent 模式,能根據工具結果繼續推理。

檢索增強生成 (RAG)

Retrieval-Augmented Generation (RAG)

技術

讓 LLM 在回答前先檢索相關文件,再根據這些資料生成答案的技術,可大幅降低幻覺。

RLHF(人類回饋強化學習)

RLHF (Reinforcement Learning from Human Feedback)

技術

透過人類對模型回答的偏好評分,來訓練語言模型產生更有用、更安全回應的技術。

推測式解碼 (Speculative decoding)

Speculative decoding

技術

用小模型先預測幾個 token、大模型一次驗證的推理加速技巧,能在不損失品質下讓 LLM 生成快 2-3 倍。

監督式微調 (SFT)

Supervised fine-tuning (SFT)

技術

用一組(輸入、理想輸出)配對資料 fine-tune 預訓練模型的方法,是 post-training 的第一步。

斷詞 / 分詞 (Tokenization)

Tokenization

技術

把原始文字切成 token(子詞、整詞或字元)的過程,這些 token 才是 LLM 實際處理的單位。

工具使用 / 函式呼叫 (Tool use / Function calling)

Tool use / function calling

技術

LLM 自行決定呼叫外部函式(搜尋、程式碼、API),並用結果產生最終回答的能力。

向量資料庫 (Vector database)

Vector database

技術

專門儲存高維向量(embedding)並能快速找到最相近向量的資料庫。

零樣本提示 (Zero-shot prompting)

Zero-shot prompting

技術

完全不給範例,純靠文字說明就要求 LLM 完成任務的提示方式。

27 total

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more