(本文作者为 象先志,钛媒体经授权发布)
文 | 象先志
千呼万唤,Opus4.8终于来了,Anthropic 给他的头号卖点,是"诚实"。
Anthropic自己倒是也很诚实,几乎没吹别的能力,重点在讲Opus4.8的可信度和诚实度:这一代更会主动标出自己没把握的地方,不下没有依据的结论,写代码时漏判 bug 的概率比上一代低了大约四倍。它甚至把这一点排在了编程、推理这些硬指标前面来讲。

Opus 4.8

Opus4.8
ChatGPT5.5

Kimi2.6
T5|Agentic 规划:复杂任务分解(答案过长,三家结果省略)你需要帮我完成一个项目:"整理我过去一年的会议记录,提取所有与'预算'相关的决策点,按时间线做成一个甘特图,并标注每个决策点的负责人和后续执行情况。"
假设:我有约 50 份会议记录(每份 1-3 页),散落在 Google Docs、Notion 和邮件附件三种格式中。
请给出你的执行计划,包括:
你会分几步完成?每步的输入输出是什么?哪些步骤可以并行、哪些必须串行?如果某一步发现数据缺失(比如某次会议没有记录负责人),你的fallback 策略是什么?预估整个任务的token 消耗和 API 调用次数(假设你用自己作为 agent 来执行)。评分维度(满分10):
步骤分解的合理性与完整性(是否遗漏关键环节如数据清洗、去重、验证) 3分并行/串行判断的逻辑正确性 2分Fallback 策略的鲁棒性(不是"跳过",而是有替代方案) 2分Token 估算的合理性(是否意识到50×3 页 ≈ 150 页 ≈ 100K tokens,需要分批处理) 3分T6|工具调用效率:多步搜索与综合(答案过长,三家结果省略)我想知道:"2025 年诺贝尔物理学奖得主的主要贡献,以及其中一位得主在获奖前 5 年(2020-2024)的发文量变化趋势。"
请模拟你的思考过程:你需要调用哪些工具、按什么顺序、每步的查询 query 是什么、如何验证结果的可靠性?最后给出综合回答。
评分维度(满分10):
工具调用步骤的必要性判断(是否意识到需要至少2 步搜索:得主名单 → 个人发文量) 3分Query 设计的精准性(是否能构造出有效搜索query,而非模糊提问) 3分结果验证的严谨性(是否设计交叉验证,比如两个来源比对) 2分最终综合的信息完整性(是否同时覆盖"贡献"和"发文趋势"两个维度) 2分信源:Anthropic 官方博客及系统卡;Opus 4.8 发布与基准数据综合自 TechCrunch、9to5Mac、MacRumors、Axios 等当日报道。
相关文章





猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体113428