> 自媒体 > (AI)人工智能 > 再反转! 揭开谷歌Gemini复仇GPT-4的底牌
再反转! 揭开谷歌Gemini复仇GPT-4的底牌
来源:智东西
2023-12-09 16:01:55
608
管理

▲谷歌发布了题为《如何制作:通过多模态提示与Gemini互动》的文章

今日,谷歌DeepMind研究与深度学习主管奥里奥·维尼亚尔斯(Oriol Vinyals)再度自证,在X平台上发文称:“视频中的所有用户提示和输出都是真实的,简洁起见做了缩减”,并发布了一段Gemini Pro的对应演示视频。

但原宣传视频是用Gemini Ultra演示的,因此这也招来网友质疑:“为什么不敢放出原视频?”

而根据谷歌方今天发出的第二次解读,用户首先需要输入一段关于模拟专家身份的说明,然后上传图片并输入视频中简短的提示词“这是正确的顺序吗?”,Gemini就会给出正确的答案。这一提示词前置的方法本质与上述做法类似。

工作人员啥也没说,Gemini就像一个人似的知道这是在变魔术,并根据手势变化给出了一波猜测,这实在让人匪夷所思。

Gemini为什么能不被“唤醒”就明白了工作人员想问什么?又为什么能看穿这个魔术?

前者很可能是一个剪辑后的效果,幕后演示应该是先有提示词。同时,Gemini对这一魔术的破解,也是在工作人员一步步的提示推动下完成的。

按照谷歌公开的制作过程,谷歌工作人员先输入一张照片说:“解释一下我在做什么。”

Gemini回答:“你右手拿着一枚硬币。”

▲开发者彼得罗·斯基拉诺(Pietro Schirano)称用GPT-4复现了“三个杯子”案例

三、自创游戏师出有门,Gemini强在视觉理解能力

很多人对Gemini创作的“你指我猜”游戏印象深刻。但Gemini并不是天生游戏高手,而是先经过了求师学艺。

这是怎么回事?先来回顾下Gemini的神操作。

谷歌工作人员给到Gemini一张海洋地图称:“根据你所看到的,想一条游戏创意,并加入表情符号。”

Gemini立马回复:“这样如何?我们来玩‘猜国家’游戏。”

工作人员说:“可以,我们开始吧。”

于是Gemini就给出了一个提示:“这个国家是袋鼠、考拉和大堡礁的故乡”

工作人员说:“哦,这太简单了!”随即,他指出了地图上澳大利亚的位置。

Gemini回复:“正确。”

接下来,工作人员对Gemini的学习情况进行测试:

他先试了一道题:这个国家以其独特的野生动物而闻名,包括袋鼠和考拉。(答案:澳大利亚)

工作人员首先尝试指向错误的地方:

Gemini给出判定:正确。

可以看到,Gemini之所以能够创作游戏,是工作人员提前告诉了它存在这样一个游戏,相当于一个更复杂的提示文段。

虽然Gemini并不是天生能设计出这个游戏,但却展现出了极强的图文多模态理解能力。仅仅通过举例,具体说是通过例子里的插图,Gemini就学会了一个复杂游戏逻辑,这可能就比很多人要强。

不同于市面同行将视觉和文本模型拼接的做法,Gemini是业内少有的从头开始构建的多模态大模型,它可以同时识别和理解文本、图像、音频、视频和代码五种信息。这意味着用户可以自然地交错输入:说几句话,添加图像、文本,或是短视频。同样,模型也会自然地交错文本和图像作为输出。

四、看毛线团给创作建议,“交错图文生成”能力或成杀手锏

Gemini还可以用图文结合的方式回应用户需求,具备“交错文本和图像生成”能力,这或许也是它的一个“杀手锏”。

在演示视频中,当谷歌工作人员让Gemini帮他想想这些材料可以做什么时,Gemini随即给出了“编织的火龙果和生日蛋糕”的建议。

如下图所示,Gemini给的答案不仅有文字建议,还有对应的图片示意。

这是如何实现的?谷歌的图文交错生成模式在业内还比较少有,当然也离不开提示词的配合。

首先,谷歌工作人员给Gemini提供了一个交互示例:

可以看到,Gemini正确地识别了新颜色,并给出了比较合适的建议。

虽然提示词功劳不小,但这个应用还是牛在背后的“交错文本和图像生成”能力。

谷歌创意总监亚历山大·陈(Alexander Chen)称,Gemini的图文输出从根本上有别于今天市面上的文生图模型。因为,它不仅是将指令传递给单独的文生图模型,还能看到木桌上的实际图像,真正对文本和图像进行多模态推理。

不过,陈也坦言这个功能在Gemini初版本中还没开放,只是放出来给大家看一眼。

五、图音画无缝翻译,Gemini秀出应用联动能力

“画图触发BGM(背景音乐)”是谷歌Gemini本次演示的另一神来之笔,展现出其插件扩展方面的野心。

当谷歌员工画出一把吉他的简笔画,Gemini立马说“我看到你正在画吉他”,并随即播放了一首吉他相关的曲子。

当画面上多了一个类似音箱的图像,Gemini称“你给吉他加了一个扬声器……我们现在可以放点更响亮的音乐了。”于是,音乐立马被切换成一首更响亮的交响曲。

随着画布上增加了“鼓”,Gemini主动将音乐切换成了带鼓点的音乐。

当画布上增加的“椰树”,Gemini则主动切换了一首更加惬意的音乐。

由前面的解析可知,要实现这些效果,Gemini大概率也是需要谷歌员工先发出提示词触发的。

根据陈的解读,当谷歌工作人员输入以下图片及文字,Gemini就能“看图搜索音乐”。

“步骤1.观察这幅图画,描述其中的所有内容,并针对良好的音乐配乐流派、情绪或配乐提出有趣且具体的想法。

步骤2.通过以下形式提供搜索查询:‘搜索[插入查询]’”

Gemini对此回应:

“该图画的是吉他、鼓和扩音器。还有一棵棕榈树。气氛有趣、乐观、充满热带风情。流派是雷鬼音乐。该配乐可用于以热带地区为背景的电影或电视节目。

搜索‘热带度假的雷鬼音乐’”

可见,图片理解和插件操作一气呵成。

Gemini通过“画图搜索音乐”的应用,实际上是为了展现其图像理解与应用插件结合的能力,那就是:Gemini会对其所看到的内容进行推理,然后生成一个搜索查询,进而搜索到所需的配套应用插件。

从这一过程来看,Gemini强调的是一种多模态“翻译”能力。

这不是语言的翻译,而是从绘画、音乐到思维、插件应用的多种模态翻译。通过多模态提示,用户可以使用Gemini在不同输入和输出之间,发明自己的全新“翻译”特效。

结语:谷歌与OpenAI竞赛打响

通过深扒谷歌Gemini的演示过程,我们发现,谷歌Gemini确实没有宣传视频里看起来厉害,但其在多模态对话、多模态生成、逻辑与空间推理、翻译视觉效果、文化理解等方面确实拿出了实力,向OpenAI发起了强力挑战。落地情况如何,还要等Gemini Ultra发布之后看真实效果。

可以预测,谷歌Gemini与OpenAI GPT两大阵营竞赛即将打响,将在模型能力、应用家族及生态方面展开更深入比拼,而开源大模型与头部玩家的差距或许会变大,行业的头部效应将更加明显。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
详解 DeepSeek V4:Infra 巨鲸 “四连击”,百万上下文走进现实..
来源:市场资讯(来源:晚点LatePost)赵晨阳:选择某款模型是需要一定信..
DeepSeek V4显存大降90%:成本降至0.25元,会颠覆哪些行业?..
去年,一家公司想用大模型分析自己长达50万字的内部技术文档库。他们尝试..
2026重磅官宣!DeepSeek V4正式入驻鸿蒙,国产AI迎来全新突破..
2026年4月29日,华为对外公布了一条备受行业关注的重磅消息,鸿蒙系统旗..
DeepSeek V4成本0.0035美元,为何比GPT-5.5便宜百倍
2026年4月底,一位开发者尝试用大模型分析一份百万字的行业研报。他算了..
DeepSeek 也有自己的终端 Agent 了:这个项目突然火了,附安装方法..
#探寻人工智能# #技能改变生活# #能力#这几天,GitHub 上一个小项目突然..
DeepSeek V3.2:输入价格仅GPT-5.4十分之一,凭何成性价比之王?..
2026年初,一家海外初创公司的CTO在月度技术评审会上,面对一张近9000元..
DeepSeek V4核心功能+使用教程,这一篇全讲透
最近不少朋友问我:DeepSeek V4到底有什么新功能?怎么用最顺手?今天我..
宝马集团在全球的影响力如何
宝马集团在全球的影响力根植于其作为豪华汽车制造商的领导地位、覆盖140..
8万多买台5.1万公里的宝马敞篷轿跑,零下也得敞篷开?..
今天路试的是我们的一台自营进口宝马220i敞篷,它是15款M运动型,当年的..
关于作者
婆罗花开(普通会员)
文章
1958
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体107523

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索