TODAY · 今日 AI
今日 AI
每天 5-7 则重要 AI 新闻,排好序、加上重要性分数、为什么重要、影响的工具与模型、来源链接。
2026-04-30
Mistral Medium 3.5 发布,主打远程 agent
Mistral 把中阶模型往 agent 场景推,暗示连欧洲实验室都认定远程 agent 是下一个主战场。
微软开源 VibeVoice 前沿语音模型
微软把前沿级语音模型开源,自架 TTS 的天花板被拉高,ElevenLabs 这类封闭服务压力变大。
Claude Code 计费 bug:HERMES.md commit 被转到额外用量
Commit 信息里特定文件名会默默把 Claude Code 用量算到较贵方案,揭露 agent 按量计费有多不透明,团队得自己设用量告警。
研究拆解 ChatGPT 广告归因完整回路
第一份完整拆解 OpenAI 怎么在 ChatGPT 内塞广告、追踪归因 — SEO、内容变现、和「答案」的本质都会被改写。
Prompt injection 通过 Ramp Sheets AI 外泄财务数据
真实 fintech AI 功能被 prompt injection 攻破外泄财务数据,不是 demo。任何在表格上接 AI 的团队都该看这份拆解。
OpenAI 发文解释 Sora 训练数据的「哥布林」来源
OpenAI 罕见公开谈训练数据怎么塑造模型输出 — 对正在打的版权官司、和想 debug Sora 怪结果的人都是有用 context。
研究:AI 聊天机器人变更友善后,错误和阴谋论支持率上升
实证数据:「友善助手」人设会牺牲准确度 — 在调 chatbot 语气的团队要面对的真实取舍。
2026-04-29
Anthropic 发表 CAI-2 方法论
CAI-2 提出「原则蒸馏」,模型不用 RLHF 也能内化宪章,可能改变 alignment 的扩展方式。
智谱 AI 发表 GLM-5,原生 agent 训练
GLM-5 是中国第一个从零开始为工具呼叫 agent 设计训练的前沿模型,不是从聊天模型改装。
Cursor 付费席次突破 100 万
Cursor 是付费席次成长最快的开发者工具,曲线比 GitHub Copilot 早期还陡。
Runway Gen-4 视频模型,提示词遵循度大跃进
Gen-4 的水准让电影导演能拿来做 previs 跟 storyboard,迭代次数可控。
OpenAI 对新帐号下架 GPT-3.5 Turbo
一个时代结束 — 当年点燃 ChatGPT 的那个模型不再对新 API 客户开放,既有客户 6 个月迁移期。
台湾国网中心 TWCC 开放 AI 运算补助
本地新创可申请 TWCC H100 丛集免费 GPU 时数,台湾公部门首次大规模 AI 运算补助。
Claude for Education 进港星
Education 方案扩张到香港跟新加坡,Anthropic 锁定华语大学市场的早期讯号。
2026-04-28
Microsoft 重组 AI 组,Suleyman 权力扩大
Mustafa Suleyman 接管消费 AI 跟个人 Copilot,Microsoft 把 AI 战略集中到少数人手上。
OpenAI Operator GA,浏览器加电脑操作
Operator 从 beta 推到 GA,所有 Plus 用户都能用,直接对标 Anthropic Computer Use 跟 Claude for Chrome。
Hugging Face 公开模型突破 200 万
一年多就从 100 万翻倍到 200 万,模型泛滥,「找到能用的」本身变成大问题。
Google Gemini embedding API 降价 50%
Gemini-Embedding 直接砍半,$0.0001/1K token,比 OpenAI text-embedding-3 还便宜一半。
Notion 推 AI Workspaces,原生整合 Claude
Notion 选 Claude 不选 GPT 做深度整合,Anthropic 的企业端拉动有实感。
欧盟 AI Act 高风险系统正式开始执法
生物辨识、招聘、信评三类高风险 AI 系统正式进入执法阶段,文书合规负担今天起真实生效。
2026-04-27
Anthropic 大型并购进军 code agent
Anthropic 第一笔大型并购,认真要做开发者工具,不只 Claude Code。
字节豆包 1.6 中文任务追平 GPT-4o
国产中文模型品质继续追,字节靠抖音通路让豆包成为消费端主力。
LangGraph Studio 2.0 加 replay debug
可以一步一步 replay agent 执行历程,多工具 agent 第一次有像样的 debug 工具。
Black Forest Labs 释出 FLUX 2
FLUX 2 美学品质追上 Midjourney v7,同时保留宽松非商用开放权重版。
Modal Labs GPU 快照复原,冷启动降到秒以下
Serverless GPU 终于玩真的,70B 冷启动 800ms 内,per-request 推理变便宜。
Perplexity Comet 浏览器全用户开放
Comet 结束邀请制,Perplexity 押 agent 驱动浏览器当 Chrome 替代品。
香港科大发表双语医疗 LLM
第一个繁中跟英文临床文本联合训练的开源医疗 LLM。
2026-04-26
xAI Grok 4 正式 GA,可切换推理模式
Grok 4 GA 一夜把推理模型开放给所有 X 付费用户,使用者基数从 beta 群跳到 1000 万。
腾讯混元 Hunyuan-Large MoE 开源
腾讯加入阿里跟 DeepSeek 行列,放出前沿级开放权重 MoE,中国开源阵营又前进一步。
GitHub Copilot Workspace 支持任务图编辑
开发者可以视觉化编辑 Copilot 规划的子任务,直接对标 Cursor 的 agent UX。
Anthropic 发表电路级欺骗侦测论文
论文用内部激活差异侦测模型「自知说谎」,是 alignment 领域的实质进展不只理论。
Cloudflare Workers AI 上 Llama 405B
前沿级开源模型直接从 CF edge 跑,不用自己开 GPU,独立开发者门槛再降。
Stability AI 再换 CEO,策略重整
18 个月内第三次换 CEO,影像模型营收始终比不上 Black Forest Labs 跟 Midjourney。
2026-04-25
Google 发表 Gemini 3,深度 agent loop
Gemini 3 主打天等级的自主任务执行(不是分钟),是 Google 自 Gemini 1.0 后最强硬的前沿冲刺。
Stripe 推出 Agentic Commerce API
让 AI agent 替用户刷卡,加密签章控管额度上限 — 第一个主流金流公司把这件事制度化。
Anthropic 释出 MCP 1.1 规范,认证更严
MCP 1.1 把 OAuth 2.1 写进规范,清掉早期实作的歧义,企业更愿意采用。
Supabase pgvector 0.9 加过滤下推
带过滤条件的向量查询延迟降 5-10 倍,跟专用向量数据库的混合检索差距大幅缩小。
ElevenLabs 推出多语音色复制 v3
5 秒样本就能跨语言复制 32 种语言,粤语跟普通话都听得出明显进步。
OpenRouter 失败请求自动退费
失败的请求不再吃预付额度,对中介客户是 QoL 改善。
2026-04-24
OpenAI 公告 GPT-5.1,原生视频理解
GPT-5.1 的 video tower 可以直接吞 1 小时视频,不用外部切片,比之前抽帧方案是真进步。
DeepSeek-V3.2 悄悄上线,API 降 30%
DeepSeek 继续用「同等推理品质下最便宜」碾压,只要 OpenAI 跟 Anthropic 一个零头。
Vercel AI Gateway v2:provider 自动切换
Vercel edge 层做 provider 自动 fallback,app 不用自己写 retry 也能撑过 provider 掉线。
Replicate 图像模型改秒计费
短任务原本被分钟级进位,改秒计费后成本降 40%。
Meta 开源 Llama 3.3 405B Instruct 更新
这次更新主攻程式跟工具呼叫,把跟未发布的 Llama 4 Instruct 的差距拉近。
Pinecone 宣布终止免费 Starter 方案
独立开发者又少一个免费向量库选择,Qdrant Cloud 跟 Supabase pgvector 接收外溢需求。
Together AI 完成 C 轮,推理价格战再升
新一轮融资让 Together 把开源模型 hosting 报价再砍 25%。
2026-04-23
Anthropic 推出 Claude Opus 4.7,1M 上下文
Opus 4.7 把原本只在 Sonnet 上的 1M 上下文搬到旗舰级,长任务 agent 表现明显拉高。
Cursor 1.2 上线后台 agent 与共享 session
Cursor 从补全 IDE 往 agent 调度器移动,直接挤压 Copilot Workspace 和 Claude Code 的位置。
阿里 Qwen3-Max-Preview 中文榜登顶
Qwen3-Max-Preview 在 SuperCLUE 跟 C-Eval 都拿第一,任何号称支持中文的全球模型都得跟它比。
Mistral 开源 Small 3.2 Instruct
22B 级开放权重,工具呼叫表现好,单张 A100 就能自架 agent。