第二轮:看不见图,却猜对了病根这里出现了一个既尴尬又有趣的细节。
模型收到截图后,在界面上诚实地打印出一行字:

我无法直接查看图片,但根据已知的纵向分组合计坑点,问题应该是数值列(薪资、年龄)缺少显式的聚合属性。让我获取报表当前设计并修复。
没错 ------ 它看不见图片 ,但它没有放弃,而是调用工具读取了报表当前的 JSON 配置文件,然后凭借对 "纵向分组报表合计行常见问题" 的领域知识,直接定位到了问题:小计行的字段缺少 sum、avg、count 等聚合表达式绑定,导致渲染时数据为空。
它重新生成了配置,在合计行的对应字段上补充了聚合属性,再次渲染后:
人事部合计:年龄均值 33.5,人数 2,薪资合计 33,000 ✓市场部合计:年龄均值 27.33,人数 3,薪资合计 39,000 ✓研发部合计:年龄均值 29.33,人数 3,薪资合计 52,000 ✓所有小计全部正确。
这一幕揭示了什么这个过程的关键不是 "修好了",而是修好的方式 ------ 它没有依赖视觉信息,而是通过读取配置文件 领域知识推断,独立完成了诊断和修复。换句话说,即便图片这条路走不通,它还能找到另一条路绕过去。
这是 Agent 能力的体现,也恰好暴露了接下来要说的那个坑。
巨坑预警:1M 上下文 ≠ 支持图片DeepSeek V4-Pro 最亮眼的规格之一是 1,000,000 tokens 的超长上下文,乍一看比 Claude 原版还要豪横。但当我发送截图时,才发现了这个藏在光环下的盲区:
V4-Pro 当前版本是纯文本模型,完全不支持图片输入。
Claude Code 在发送图片时,V4-Pro 会收到一个占位符 [Image #1],但对实际图像内容毫无感知。所以你看到的那句 "我无法直接查看图片" 不是谦虚,是真的看不见。
对于日常编程工作流,这个限制影响面相当广:
截图报错让模型分析 → ❌ 看不见发 UI 设计稿让模型写代码 → ❌ 看不见发报表渲染结果让模型诊断问题 → ❌ 看不见粘贴终端截图 → ❌ 看不见1M 上下文能塞进去整个代码仓库,但塞不进去一张 PNG。
目前的折中办法:当需要处理图片时,临时去掉 ANTHROPIC_BASE_URL 配置,让请求回落到 Anthropic 原生 API,用完再切回来。麻烦,但能用。DeepSeek V4 的 Vision 模式已经在规划中,API 开放后这个问题会从根本上解决。
综合感受经过这两轮测试,对 Claude Code DeepSeek V4-Pro 的组合有几点直观感受:
表现亮眼的地方:
兼容性几乎无感:配置完成后,Claude Code 的所有功能正常运行,Skills、工具调用、多步骤 Agent 任务都能跑通,完全感受不到 "换了模型"。工具调用稳定:脚本执行、文件读写这类结构化任务,V4-Pro 准确率高、响应快,没有废话也没有幻觉。领域推理能力强:即使在无法看图的情况下,模型能通过读取配置文件 领域知识推断定位到问题,这种 "绕路解决" 的能力很实用。成本压缩明显:相比原生 Claude Opus,API 成本预估节省 90% 。需要踩坑提前知道的:
不支持图片(重要):1M 上下文是真的,但图片输入不支持。Claude Code 里发截图,模型只会收到占位符,完全看不见内容。这是目前最影响日常使用的限制。部分复杂任务需要引导:像报表建表这类专业 DSL 任务,第一次不一定配置到位,但接受反馈后自修正能力很强。超时要设长一点 :V4-Pro 在 max effort 模式下推理时间较长,API_TIMEOUT_MS 建议设 600000(10 分钟)以上。结语把 Claude Code 对接 DeepSeek V4-Pro,配置成本极低,三分钟搞定,换来的是开源最强 Agent 编程模型 极低 API 成本 完整的 Claude Code 工具链。
但有一点要想清楚再切换:如果你的工作流依赖截图、UI 稿、图片输入,现在切换会很痛。等 DeepSeek V4 的 Vision 模式开放 API,这套方案才算真正补全了最后一块拼图。
在那之前 ------ 纯代码任务、脚本自动化、文本推理,放心用;涉及图片的,暂时留一个 Claude 原生的后路。
测试环境:Claude Code v2.1.119,DeepSeek V4-Pro(deepseek-v4-pro),2026-04-24
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105719