命名实体识别 (NER)

从非结构化文字中识别并分类命名实体（人名、组织、地名、日期、产品）的任务。

Named entity recognition（NER，命名实体识别）是任务：在文字中找出并分类命名实体。给「Apple released the iPhone 15 in Cupertino on September 12, 2023」这句话，NER 系统应该标 Apple → ORG、iPhone 15 → PRODUCT、Cupertino → LOC、September 12, 2023 → DATE。它重要的原因是：NER 是许多信息抽取 pipeline 的基础建构单元：把新闻文章转成知识图谱、从非结构化文档填入数据库、文档敏感信息去标识（PII 检测）、法律文档分析、搜索引擎索引。LLM 之前，专用 NER 模型（spaCy、Stanford NER、Flair、中文工具像 LTP 跟 HanLP）是每个 NLP stack 的独立部分。举个例子：把一份 10 页合同喂给 LLM，prompt 写「抽出每个当事人、日期、金额、义务，返回 JSON」——现代 LLM 一次调用就高准确率搞定。同样任务在 2022 年前需要 fine-tune 过的 NER 模型加上规则后处理。对极高量 production NER（每天数百万份文档、低延迟），专用模型在成本上仍胜过 LLM API 调用。但对一次性抽取、探索性分析、中量工作，用清楚 prompt 跟 JSON 结构化输出调用 LLM 通常最简单。延伸阅读：information extraction、RAG、prompt engineering、structured output。