OpenAI 今天公告 GPT-5.1,GPT-5 家族的小升級。最大的改動是 video tower 跟語言模型一起訓練,可以直接吞最長 1 小時的原始影片,你的 app 不用先做抽幀或場景切割。
他們在 demo 上跑了一段 47 分鐘的演講錄影,正確指出講者前後矛盾的點;另一個 demo 是一段 30 分鐘的手術紀錄影像,給醫療 reviewer 用途。Video input 的 latency 大概是純文字的 12 倍,OpenAI 說後續會用優化推理 path 改善。
定價還沒公布,影片功能 restricted preview,純文字版要排隊。競爭脈絡:Gemini 2.5 Pro 早就有 1 小時影片了,但社群初步測試指出 GPT-5.1 在「第 12 分跟第 38 分之間發生什麼變化」這類時序推理上明顯比 Gemini 強。等正式跑分出來再看。