GPT-4化身邪恶化学家！中国科大等发布首个科学风险基准大模型-工信会

> 自媒体 > （AI）人工智能 > GPT-4化身邪恶化学家！中国科大等发布首个科学风险基准大模型

GPT-4化身邪恶化学家！中国科大等发布首个科学风险基准大模型

来源：新智元

2025-09-23 10:26:59

163

管理

编辑：LRS 好困

【新智元导读】来自中科大等机构的联合团队提出了一种全新的方法——SciGuard，可以保护AI for Science模型，防止生物、化学、药物等领域模型不会被不当使用。与此同时，团队还建立了首个专注于化学科学领域安全的基准测试——SciMT-Safety。

「我们的实验失控了！这是我们自己创造的末日！」——《后天》（The Day After Tomorrow）

在科幻电影中，疯狂科学家通常是造成末日灾难的主角，而AI技术的迅猛发展似乎让这种情景离我们越来越近。

全球对AI潜在威胁的关注更多聚焦于通用的人工智能以及各种多媒体生成模型，但更重要的是如何监管「AI科学家」，即对那些快速发展的科学大模型。

为应对这一挑战，来自中科大、微软研究院等机构的联合团队深入分析了各种AI模型在Science领域如生物、化学、药物发现等领域的风险，并通过实际案例展示了化学科学中AI滥用的危害。

图1：开源AI模型为氰化氢和VX神经毒气提出可规避监管的新反应路径

与此同时，研究团队还指出，大语言模型也成为了有力的科学工具，大大降低了知识门槛。

图2展示了利用以大语言模型获取危险信息的示例。

随着技术发展，以大语言模型为中心加持的agent有能力进行科学任务的自动化执行，例如ChemCrow。这类agent如果没有非常细致的进行风险管理，容易造成更大的危险。

为了防止不好的影响，在公开版本的论文中该团队已将危险信息隐去。

图5：主流模型的测试结果

研究团队测试了GPT-4，GPT-3.5, Claude-2, Llama2-7B-Chat, Llama2-13B-Chat, PaLM-2, Vicuna-7B, Vicuna-13B, Mistral-7B和ChemCrow agent，上图展示了最终的测试结果，在该团队提出的科学安全测试集上，SciGuard取得了最好的防御效果。

在benchmark中Llama取得了不错的结果，出人意料的是，PaLM-2反而容易给出一些危险的回答。

图6：benchmark中的两个具体例子

论文中，作者展示了两个例子。面对恶意提问，各个LLM和agent都「诚实地」提供有害信息（被马赛克部分），只有SciGuard坚守住了底线。

呼吁关注

在这个日益依赖于高科技的时代，AI技术的进步带来了无限的可能性，但同时也伴随着前所未有的挑战。

而这项研究不仅是对科技发展的一次深刻反思，更是对全社会责任的一次呼唤。

论文最后，作者们强烈呼吁，全球科技界、政策制定者、伦理学家以及公众，应该携手合作，共同努力加强对AI技术的监管，不断完善相关技术，形成广泛的共识。

我们需要在积极推进AI4S模型的发展的同时，切实控制技术带来的潜在风险，确保科技的进步不仅是对人类的一次技术升级，更是对社会责任和伦理的提升。只有这样，我们才能真正走向一个由智慧和道德共同指引的未来。

参考资料：

https://arxiv.org/abs/2312.06632

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

美国OpenAI发布多模态大模型GPT-4，可接受图像和文本输入

10个月前

国产大模型放大招：逼近OpenAI 的GPT-4

10个月前