
大数据文摘授权转载自夕小瑶的卖萌屋
作者:炼丹学徒
近来,AI领域迎来各个领域的大突破,ChatGPT展现出强大的语言问答能力和推理能力,然而作为一个自然语言模型,它无法处理视觉信息。
与此同时,视觉基础模型如Visual Transformer或者Stable Diffusion等,则展现出强大的视觉理解和生成能力。
Visual Transformer将ChatGPT作为逻辑处理中心,集成若干视觉基础模型,从而达到如下效果:
视觉聊天系统Visual ChatGPT可以接收和发送文本和图像
提供复杂的视觉问答,或者视觉编辑指令,可以通过多步推理调用工具来解决复杂视觉任务
可以提供反馈,总结答案,主动询问模糊的指令等
这个工作开启了ChatGPT借助视觉基础模型作为工具,进行视觉任务处理的研究方向。
论文链接:
https://arxiv.org/abs/2303.04671
开源代码:
https://github.com/microsoft/visual-chatgpt论文作者:
Chenfei Wu, Shengming Yin, Weizhen Qi, Xiaodong Wang, Zecheng Tang, Nan Duan机构:微软亚洲研究院
模型效果
工作流程
对于用户输入,添加于全局原则prompt,工具描述prompt,历史会话prompt之后,送给ChatGPT进行逻辑推理(Use VFM?)得到推理结果(就是这一次得到的GPT文本输出)。经过正则匹配进行分析,如果工具调用结束,则直接提取总结输出作为最终回复,如果是需要继续调用工具,则将提取到的工具名称、工作参数,输入视觉基础模型,从而得到,置于思考历史 中,进行下一轮推理。或者说喂给GPT的内容为:
第一次问答里,第一个API:
第一次问答里,第二个API:
第一次问答里,第三个API:
第二次问答里,第一个API:
第二次问答里,第二个API:
得到GPT的输出后,正则匹配进行工具的判断和解析,最终决定流程。API调用历史在每次回答后清空,其中只有最后总结性的回复被记录进入对话历史
细节描述


相关文章








猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体104736