一手实测，Opus 4.8 Vs ChatGPT 5.5 Vs Kimi 2.6 ，谁最可用？-工信会

> 自媒体 > （AI）人工智能 > 一手实测，Opus 4.8 Vs ChatGPT 5.5 Vs Kimi 2.6 ，谁最可用？

一手实测，Opus 4.8 Vs ChatGPT 5.5 Vs Kimi 2.6 ，谁最可用？

来源：钛媒体APP

2026-06-14 11:14:54

管理

（本文作者为象先志，钛媒体经授权发布）

文 | 象先志

千呼万唤，Opus4.8终于来了，Anthropic 给他的头号卖点，是"诚实"。

Anthropic自己倒是也很诚实，几乎没吹别的能力，重点在讲Opus4.8的可信度和诚实度：这一代更会主动标出自己没把握的地方，不下没有依据的结论，写代码时漏判 bug 的概率比上一代低了大约四倍。它甚至把这一点排在了编程、推理这些硬指标前面来讲。

Opus 4.8

Opus4.8

ChatGPT5.5

Kimi2.6

T5｜Agentic 规划：复杂任务分解（答案过长，三家结果省略）

你需要帮我完成一个项目："整理我过去一年的会议记录，提取所有与'预算'相关的决策点，按时间线做成一个甘特图，并标注每个决策点的负责人和后续执行情况。"

假设：我有约 50 份会议记录（每份 1-3 页），散落在 Google Docs、Notion 和邮件附件三种格式中。

请给出你的执行计划，包括：

你会分几步完成？每步的输入输出是什么？哪些步骤可以并行、哪些必须串行？如果某一步发现数据缺失（比如某次会议没有记录负责人），你的fallback 策略是什么？预估整个任务的token 消耗和 API 调用次数（假设你用自己作为 agent 来执行）。

评分维度（满分10）：

步骤分解的合理性与完整性（是否遗漏关键环节如数据清洗、去重、验证） 3分并行/串行判断的逻辑正确性 2分Fallback 策略的鲁棒性（不是"跳过"，而是有替代方案） 2分Token 估算的合理性（是否意识到50×3 页 ≈ 150 页 ≈ 100K tokens，需要分批处理） 3分T6｜工具调用效率：多步搜索与综合（答案过长，三家结果省略）

我想知道："2025 年诺贝尔物理学奖得主的主要贡献，以及其中一位得主在获奖前 5 年（2020-2024）的发文量变化趋势。"

请模拟你的思考过程：你需要调用哪些工具、按什么顺序、每步的查询 query 是什么、如何验证结果的可靠性？最后给出综合回答。

评分维度（满分10）：

工具调用步骤的必要性判断（是否意识到需要至少2 步搜索：得主名单 → 个人发文量） 3分Query 设计的精准性（是否能构造出有效搜索query，而非模糊提问） 3分结果验证的严谨性（是否设计交叉验证，比如两个来源比对） 2分最终综合的信息完整性（是否同时覆盖"贡献"和"发文趋势"两个维度） 2分

信源：Anthropic 官方博客及系统卡；Opus 4.8 发布与基准数据综合自 TechCrunch、9to5Mac、MacRumors、Axios 等当日报道。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

突发！ChatGPT上线AI理财，美国网友却炸锅了

2小时前

ChatGPT将迎上线以来最大升级！9亿周活5000万订阅加持，转型超级应用

3小时前