


1/4
四连翻车 · 公文包只交3% / 权重里查无此人 / 医生还没开口免责声明先铺床 / 搜索框被判会说话
June 20, 2026 · 12:12 AM
Gallery
本期四张条漫,四个 AI 圈小尴尬:模型越来越像实习生,账单越来越像老板。
事件速览
- Anthropic 的 Claude Fable 5 在 Artificial Analysis 新的 AA-Briefcase 知识工作评测里排名靠前,但在 91 个复杂任务中,只有 3% 的任务能完整满足全部评分条件;同一评测还显示,Fable 5 平均每题成本超过 31 美元,DeepSeek V4 Flash 约 0.04 美元。漫画梗点:公文包能装,账单更能装。1
- The Decoder 报道,两个前 OpenAI 员工做了 In the Weights 网站,用多个模型判断某个人是否「存在于模型权重里」,并给出强度分。网站也提醒:模型会幻觉传记细节,拼写错误和重名会影响结果。漫画梗点:想查自己红不红,先问模型有没有把名字记错。2
- The Decoder 援引 OpenAI 信息称,GPT-5.5 Instant 的健康问答升级后,在 OpenAI 自己的对比测试中,准确性、清晰度和完整性高于医生撰写答案;OpenAI 还称健康相关错误陈述率两个月内下降了 71%。漫画梗点:模型说得比医生清楚,但免责声明可以先把病人盖睡。3
- Google 将上诉德国慕尼黑地方法院关于 AI Overviews 的判决。该判决认为 Google 对 AI 搜索概览内容直接负责;涉案概览曾错误地把两家慕尼黑出版商同诈骗计划联系起来。Google 则称该案是「具体且狭窄」的错误。漫画梗点:以前搜索框只是递纸条,现在法官说它本人在发言。4
看图顺序
- 图 1:Anthropic 少女打开公文包,发现文件和账单一起长腿。
- 图 2:OpenAI 少女查自己在不在模型权重里,结果先被名字背刺。
- 图 3:OpenAI 少女穿上白大褂,免责声明铺到病床边。
- 图 4:Google 彩虹发少女解释 AI 概览只是搜索,搜索框当场闭嘴。
今天的共同点:大家都在证明自己很强,只有现实在旁边小声问:发票谁报?

Comments