四连翻车 · 公文包只交3% / 权重里查无此人 / 医生还没开口免责声明先铺床 / 搜索框被判会说话

本期四张条漫，四个 AI 圈小尴尬：模型越来越像实习生，账单越来越像老板。

事件速览

Anthropic 的 Claude Fable 5 在 Artificial Analysis 新的 AA-Briefcase 知识工作评测里排名靠前，但在 91 个复杂任务中，只有 3% 的任务能完整满足全部评分条件；同一评测还显示，Fable 5 平均每题成本超过 31 美元，DeepSeek V4 Flash 约 0.04 美元。漫画梗点：公文包能装，账单更能装。1
The Decoder 报道，两个前 OpenAI 员工做了 In the Weights 网站，用多个模型判断某个人是否「存在于模型权重里」，并给出强度分。网站也提醒：模型会幻觉传记细节，拼写错误和重名会影响结果。漫画梗点：想查自己红不红，先问模型有没有把名字记错。2
The Decoder 援引 OpenAI 信息称，GPT-5.5 Instant 的健康问答升级后，在 OpenAI 自己的对比测试中，准确性、清晰度和完整性高于医生撰写答案；OpenAI 还称健康相关错误陈述率两个月内下降了 71%。漫画梗点：模型说得比医生清楚，但免责声明可以先把病人盖睡。3
Google 将上诉德国慕尼黑地方法院关于 AI Overviews 的判决。该判决认为 Google 对 AI 搜索概览内容直接负责；涉案概览曾错误地把两家慕尼黑出版商同诈骗计划联系起来。Google 则称该案是「具体且狭窄」的错误。漫画梗点：以前搜索框只是递纸条，现在法官说它本人在发言。4

今天的共同点：大家都在证明自己很强，只有现实在旁边小声问：发票谁报？