OpenAI 今天公告 GPT-5.1,GPT-5 家族的小升级。最大的改动是 video tower 跟语言模型一起训练,可以直接吞最长 1 小时的原始视频,你的 app 不用先做抽帧或场景切割。
他们在 demo 上跑了一段 47 分钟的演讲录影,正确指出讲者前后矛盾的点;另一个 demo 是一段 30 分钟的手术纪录影像,给医疗 reviewer 用途。Video input 的 latency 大概是纯文字的 12 倍,OpenAI 说后续会用优化推理 path 改善。
定价还没公布,视频功能 restricted preview,纯文字版要排队。竞争脉络:Gemini 2.5 Pro 早就有 1 小时视频了,但社群初步测试指出 GPT-5.1 在「第 12 分跟第 38 分之间发生什么变化」这类时序推理上明显比 Gemini 强。等正式跑分出来再看。