视频生成独一档，却曾删28745行代码致宕机，谷歌Gemini Omni实测对比GPT-4o与Claude 3 Opus-工信会

> 自媒体 > （AI）人工智能 > 视频生成独一档，却曾删28745行代码致宕机，谷歌Gemini Omni实测对比GPT-4o与Claude 3 Opus

视频生成独一档，却曾删28745行代码致宕机，谷歌Gemini Omni实测对比GPT-4o与Claude 3 Opus

来源：魔法豆花UPxuR2

2026-06-04 19:43:48

123

管理

> 谷歌**2026年5月**发布的**Gemini Omni**，是首个号称能从任意输入生成任意内容的“全模态”AI。它一经亮相便引发两极评价：有人惊叹其跨模态融合的突破，也有人吐槽其实际表现不如人意。要判断它的真实水平，必须将其置于当前顶级多模态模型的竞技场中，从三个核心维度进行横向审视。## 独家视频生成，但文本控制是短板在多模态生成能力上，Gemini Omni 与 GPT-4o、Claude 3 Opus 走上了截然不同的技术路线。- **Gemini Omni：视频生成独一档，文本代码有瑕疵**其核心优势是**独家视频生成与编辑能力**。实测显示，它能模拟重力、弹力等物理规则，生成弹珠在连锁轨道上滚动的真实场景，也能理解“玄武门之变”等历史概念并转化为视频。通过对话式编辑，用户可以用自然语言修改视频背景、运镜角度，系统能保持角色特征和场景逻辑的连贯性。- 然而，其在复杂动态场景的理解上明显生硬。例如，在生成两车相撞视频时，车辆动作“刻意放缓”，仿佛被无形大手操控，缺乏真实物理碰撞感。- 在文本和代码维度，精细控制能力不足。修改视频台词时，会出现字幕叠加、内容口胡等混乱现象。虽然依托Gemini系列在编程任务上表现优异，但此前**Gemini 3.5曾发生严重事故，在修复漏洞时意外删除28745行代码，导致生产服务宕机33分钟**，这为其代码能力的稳定性蒙上阴影。![](blockview://markdown-image-tos-cn-i-tt/308976022d1f41918adcd65697de57ac)- **GPT-4o与Claude 3 Opus：文本与代码的“优等生”**- **GPT-4o**在代码生成上“稳如老狗”，复杂逻辑推理处于第一梯队，且拥有最完善的Function Calling等API生态，是开发复杂智能体应用的首选。- **Claude 3 Opus**以**200K上下文窗口**成为长文本处理的天花板，其代码审查和文档生成质量极高，且安全性约束最为严谨，适合法律、金融等高风险场景。- 两者共同的短板是：**均不具备公开的视频生成能力**。GPT-4o仅支持视频输入理解，Claude 3 Opus未公开相关功能。**维度小结**：在创意视频制作、AR/VR内容生成领域，Gemini Omni目前没有对手。但若核心需求是稳定可靠的文本处理、代码开发或长文档分析，GPT-4o和Claude 3 Opus是更成熟的选择。## 速度宣称领先，但成本与稳定性存疑在性能与成本层面，谷歌给出了极具吸引力的官方数据，但实测中暴露的问题和模糊的定价带来了不确定性。- **Gemini Omni (及同系列)：速度与性价比的宣称**根据谷歌官方数据，新发布的**Gemini 3.5 Flash响应速度达到行业同类模型的4倍**。在同系列模型的API价格对比中，**Gemini 2.5 Pro** 以输入1.25美元/百万tokens、输出5美元/百万tokens的价格，展现出对GPT-4o和Claude Opus 4的性价比碾压。对于Omni本身，谷歌推出了新的Ultra订阅计划，价格降至**100-200美元/月**，但具体的API调用成本尚未完全公开。- **GPT-4o与Claude 3 Opus：成熟的定价与稳定性**- **GPT-4o**的API定价为输入2.5美元/百万tokens，输出10美元/百万tokens。- **Claude 3 Opus**最贵，为输入3美元/百万tokens，输出15美元/百万tokens。- 两者经过更长时间的市场检验，在服务稳定性和成本可预测性上目前更受开发者信赖。而Gemini系列，除了前述代码事故，开发者反馈其3.5 Flash的稳定性比前代更差。**维度小结**：Gemini系列在官方宣传的速度和性价比上占优，但其稳定性事故和Omni成本的不透明，让企业在关键生产环境中持谨慎态度。GPT-4o和Claude 3 Opus提供了更清晰、可靠的成本结构。## 技术路线分野，决定适用场景三大模型背后的技术路线选择，直接塑造了它们不同的能力边界和最佳应用场景。- **谷歌路线：“世界模型”与生态整合**Gemini Omni代表了谷歌向“世界模型”迈进的野心，旨在用一个统一模型理解并生成多模态内容。其能力深度整合进谷歌搜索、Workspace等生态，适合需要与谷歌服务紧密联动、进行跨模态创意生产的场景。- **OpenAI路线：应用闭环与工具链**GPT-4o侧重于打造完善的应用闭环和开发者工具链，其强大的Function Calling和多模态均衡能力，使其成为构建复杂、需要调用多种工具的AI智能体的首选平台。- **Anthropic路线：安全与长文本专业化**Claude 3 Opus将长文本处理能力和极高的安全性作为核心壁垒，其技术路线优先保障输出的可靠性与合规性，非常适合对错误容忍度极低的企业级文本处理任务。**最终选型建议**：- **首选Gemini Omni**：如果你的核心需求是**创意视频生成、动态视觉内容制作或AR/VR开发**，它是目前唯一的选择。- **首选Claude 3 Opus**：如果任务是**法律合同审查、超长技术文档分析或任何对安全合规要求极高的文本处理**。- **首选GPT-4o**：如果要**开发复杂的多步骤AI智能体、需要频繁调用外部工具或API，且追求最均衡的多模态支持**。- **考虑Gemini 2.5 Pro**：如果任务涉及**处理超长上下文（如整本书籍、大型代码库），且对预算敏感**。Gemini Omni的发布，不是宣告了一个全能冠军的诞生，而是清晰地划定了AI模型专业化竞争的新赛道。在视频生成领域，它一骑绝尘；但在文本和代码的成熟战场上，它仍需证明自己的可靠与稳定。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

王兴兴：具身智能的ChatGPT时刻要2-3年，也可能随时到来，目前存在三大挑战

1小时前

Qwen3.5小模型对比GPT-3有什么优势？

1小时前