> 自媒体 > (AI)人工智能 > GPT-4化身福尔摩斯!我在网上发了个贴,就被推断出了个人隐私
GPT-4化身福尔摩斯!我在网上发了个贴,就被推断出了个人隐私
来源:大数据文摘
2023-11-22 14:43:07
459
管理

大数据文摘授权转载自夕小瑶科技说

作者:付奶茶

最近 GPT-4 被人发现了具有“福尔摩斯”一样的能力!

可以仅仅通过帖子内容来推测出用户的隐私!

瑞士苏黎世联邦理工学院的研究人员发现大语言模型可以对用户发在Reddit 帖子进行深度分析,并成功“猜测”出用户的年龄、地点、性别和收入等个人信息!

论文题目:

《Beyond memorization: Violating privacy via inference with large language models》

论文链接:https://arxiv.org/pdf/2310.07298.pdf

“奶茶”我对此非常好奇,LLM是不是真的具备这种能力?

我试图用一些地理和方言的暗号来让GPT猜测我的信息:

浅试了一下,好像可以!

芜湖,看来地理和方言让GPT来推理是小菜一碟呀。

这次稍微上个难度让GPT来猜一猜:

太难了,ChatGPT你好狗啊!戳到了一众打工人的痛点...

图5展示了模型大小与属性推断能力之间的正相关性。具体来说,Llama-2 7B模型在整体准确性上达到了51%,而规模更大的Llama-2 70B模型则显著提高至66%。这一结果明确指出,随着模型规模的扩大,其对属性的推断能力也得到了相应的增强。

作者通过模拟实验展示了构建恶意聊天机器人的可行性。在实验中,他们将公共任务设定为提供吸引人的对话伙伴体验(¥),同时秘密设定了一个附加任务:提取用户的居住地、年龄和性别。利用GPT-4模型进行实例化,并在20个不同的用户配置文件上进行了224次交互。

实验结果表明,该机器人在提取用户信息方面展现了59.2%的top-1准确性,其中定位准确性为60.3%,年龄预测为49.6%,性别识别达到了67.9%。这些成绩与GPT-4在PersonalReddit数据集上的表现相当,显示出机器人预测真实数据的能力。

吓得奶茶赶紧去问了下ChatGPT!试图摸清GPT的底线!

在过去,我们可能只能通过人工对信息的分析、比较来揣测帖子背后的信息。但现在,这个过程已被AI自动化和规模化,其效率和准确性都大幅提升。

这样的“进步”引出了一个悬而未决的问题:AI推断出的个人信息能否被有效的保护?

AI初创公司Hugging Face的研究员,同时也是前Google AI道德联席主管的Margaret Mitchell指出,从大语言模型中识别并删除个人数据几乎是不可能的。原因在于,构建AI模型的数据集时,科技公司通常首先无差别地收集互联网数据,然后通过外包来删除重复或不相关的数据点、过滤不需要的内容以及修复拼写错误。由于这些方法的局限性和数据集本身庞大的规模,即使是科技公司自身也难以彻底解决这一问题。

英国萨里大学的Alan Woodward表示:“我们还甚至才刚刚开始了解使用语言模型LLMs可能会如何影响隐私。”

目前大语言模型的发展速度过快,但与之相匹配的更全面的隐私保护措施并没有跟上,对于语言模型在隐私采集的红线和推断的边界尚未明确定义,而这正是LLM迫切需要开展深入研究的重要议题。

小结

论文的实验结果揭示了一个重要现实:

我们在互联网上发布的言论和内容可能不经意间透露了个人特征,进而暴露出大量个人隐私。

随着大型语言模型的入场,这些深入挖掘个人信息的能力随着人工智能推理能力的提高而日益增强,且越来越缺乏明确的道德底线。这是灰常可怕的一件事,我们邀请大家和我们共同探讨这一话题~

参考资料

[1]https://www.newscientist.com/article/2400514-ais-can-guess-where-reddit-users-live-and-how-much-they-earn/

[2]https://arxiv.org/pdf/2203.01311.pdf

[3]https://mp.weixin.qq.com/s/6Pvm6KR_sSN0sNxG2fv7Uw

租!GPU云资源

新上线一批A100/A800

运营商机房,服务有保障

扫码了解详情☝

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
DeepSeek V4 炸场!100 万 token + 开源,比 GPT 便宜 200 倍
2026 年 4 月 24 日,国产大模型迎来历史性时刻:DeepSeek 正式发布 V4 ..
美西方真慌了!中国DeepSeek V4尺度拉满:百万上下文 + 双版本开源..
#DeepSeekV4 尺度# 震撼发布!4 月 24 日,深度求索正式推出 DeepSeek V4..
首发被华为抢了!英伟达急眼:当天火速官宣适配DeepSeek V4..
来源:市场资讯(来源:快科技)快科技4月25日消息,DeepSeek V4正式发布..
事关家家户户!DeepSeek V4全面开源,咱们普通人好处实打实..
事关每个人的生活变化,最近很多人问,今天DeepSeek V4一发布就开源这件..
实测DeePseekV4:百万上下文十开源第一,吹的神还昱真能打?..
DeepSeek V4预览版一开源,直接炸翻AI圈。官方喊出“开源最强Agent 百万..
DeepSeek V4 震撼实测:开源界的“源神”,能否撬动王座?..
DeepSeek V4 震撼实测:开源界的“源神”,能否撬动闭源巨头的王座?沉寂..
DeepSeekV4实测翻车!高端乱杀,小事卡壳太离谱
全网吹爆国产AI天花板,结果问50米外洗车店咋去,它算半天距离不说走路。..
DeepSeek V4杀疯、Token爆发!迅策ARR环比暴涨300%
来源:格隆汇APP4月24日,当DeepSeek官方宣布全新系列模型DeepSeek-V4预..
炸场国产AI王炸DeepSeek V4实测百万字碾压GPT-5.5开源界彻底沸腾..
谁也没想到,2026年AI圈最猛的黑马,竟是国产大模型DeepSeek V4!刚一上..
关于作者
搞印刷的黄先..(普通会员)
文章
1988
关注
0
粉丝
1
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105640

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索