最强AI调解员弥合分歧仅1/3，KAIST测试为何戳破高分泡沫？-工信会

> 自媒体 > （AI）人工智能 > 最强AI调解员弥合分歧仅1/3，KAIST测试为何戳破高分泡沫？

最强AI调解员弥合分歧仅1/3，KAIST测试为何戳破高分泡沫？

来源：AI智识局

2026-06-14 14:00:26

管理

假设你请了8位当前最强的AI来当调解员，让它们各自独立处理600场从真实公开案件中提取的复杂纠纷。结果发现，表现最好的也只能让分歧弥合三分之一左右——这就像在一个100分的满分测试里，及格线是60分，但全班第一名也只考了33分。

这就是KAIST团队在2026年6月发布的SoCRATES评估体系测试的核心发现。在它之前，行业里流传着一些听起来很美的数字，比如“AI调解解决率80%-90%”。

但KAIST团队在亲手搭建了一套完全不同的测试环境后，直接戳破了这个泡沫：那些高分来自场景简单、没有社会认知压力的“简单题”，当题目变成涉及多轮谈判、情绪激烈、跨文化差异的“复杂应用题”时，当前最强的通用大模型作为独立调解员，无一及格。

为什么之前的“高分”不作数？这套考试到底难在哪

要理解这个巨大的落差，得先看SoCRATES到底是怎么“出题”和“打分”的。

传统测试更像是让学生背完一本书就去考原题——场景单一，评分标准也粗糙。SoCRATES做了一件不同的事：它让AI自动从网络上搜集真实冲突案例，然后整理出40个涵盖法律、组织、商业等多领域的高难度场景。

每位AI调解员需要处理600场对话，这不是简单的角色扮演，而是一场对“社会认知能力”的全面压力测试。

更有意思的是它的打分逻辑。现实中的调解，分歧往往只会在某个具体议题被提出、某方态度发生转变的那一刻才发生变化，其余时间可能都是无意义的来回。

SoCRATES首创的“关键时刻评分机制”就模拟了这一点：它不像传统方法那样给每句话都打分，而是只在双方真正讨论某个议题、立场可能发生变化的“关键时刻”才去记录共识程度。

这就像是医生只在病人进行体力活动、情绪波动的关键节点去测血压，而不是每过一分钟就测一次，这样的数据才能真实反映问题。这个机制与人类专家打分的皮尔逊相关系数达到0.82，而传统方法的相关系数仅为0.372——指标翻了一倍多，意味着它的评估结论远比之前的方法可信。

参数大就厉害？这个逻辑在调解任务中彻底失灵

测试中最反常识的发现，是模型规模与调解能力并不直接挂钩。

Qwen3家族内部，拥有2350亿参数的“大个子”，共识增益确实几倍于只有300亿参数的“小个子”，这说明同一套底子下，更大参数有用。但跨家族比较时，情况就变了：一个1200亿参数的模型，在法律和组织内部冲突场景中，表现还不如一个只有260亿参数的模型——后者参数量仅为前者的五分之一。

为什么堆参数不管用？因为调解不是考记忆力或知识储备。它需要的是在冲突中理解对方的文化背景、感知情绪的强度、选择合适的介入时机。这些属于“社会认知”能力，不是靠增大模型体积就能自然获得的。

SoCRATES设置了五条社会认知测试轴线，其中“谈判策略倾向”这条轴的冲击最大：当双方都采用竞争型或顺从型策略时，部分模型的共识增益下滑幅度最高可达64.1%——相当于原本能弥合30分，现在只能弥合10分出头。

这就好比一个平时擅长温和谈判的顾问，突然被丢进双方都寸步不让的强硬对峙里，其应对能力会急剧下降。

另一个更隐蔽的短板是文化：所有被测模型在东亚文化背景下的调解表现，普遍弱于美国文化场景。说明这些模型对非西方沟通方式和价值偏好的理解仍然不到位。

干预的时机比频率更重要

测试中一个有趣的数据对比来自两个在“干预及时性”指标上排名第一、第二的模型。它们的共识增益却排在倒数。原因何在？数据显示，这两个模型会在大约三分之一的双方发言回合中插入调解语句，频率是最优模型的两倍。

它们“话太多”，而且总是在对话早期就抢着开口，表面上看似乎很及时，但那些频繁的早期插话并没有真正推动双方共识。

这背后有一条社科领域的常识：调解不是越多干预越好，而是要在对的时间，说对的话。表现最优的模型通常只在关键分歧出现或情绪激化的瞬间介入，节奏克制。这个差别意味着，未来的AI调解优化方向不应是“让模型更积极”，而是让它更懂得“什么时候闭嘴、什么时候说话”。

为什么现实中AI调解成功率超过90%，而SoCRATES说不到30%

这是一个很自然的问题：国内多地公布的AI调解成功率普遍达到70%-96.4%，为什么和SoCRATES的结论差距这么大？

答案在于分工。目前所有已落地的AI调解系统，均定位为人类调解员的辅助工具。AI负责的是语音转写、争议焦点识别、法律条文匹配、文书生成、情绪预警等事务性工作。

比如哈尔滨呼兰区的系统让基层调解员填报工作量减少了70%以上，而最终合意确认、协议签署、司法确认环节完全由人类调解员主导。这就像手术室里，AI是那个帮医生调取病历、准备器械的助手，但手里拿着手术刀的始终是人。

AI从未被允许独立完成一场完整的调解，所以那个96.4%的成功率，本质上是“人类主导 AI辅助”模式的成绩。

SoCRATES测试的是“AI独立调解”的能力上限——在没有人类兜底的情况下，AI面对复杂纠纷能走到哪一步。答案很明确：只能走三分之一的路。

所以这两个数字并不矛盾，它们反而精准地标出了当前AI技术的合理适用边界：AI是优秀的信息处理助手和效率工具，但在需要深度社会认知、情感共情和利益权衡的决策环节，人类仍是不可替代的主体。

总的来说，SoCRATES做了一件有价值的事：它没有全盘否定AI在调解领域的潜力，而是拿掉了之前那种“简单题高分”的虚火，逼着行业去正视那些真正困难的变量。

当通用大模型在那五条社会认知轴线上怎么也翻不过去的时候，未来的技术优化方向反而清晰了——不是继续盲目堆参数，而是必须去补齐文化理解、情绪感知、策略适配这些短板。在这些能力真正成熟之前，AI做调解员的路还很长，SoCRATES给出的这个结论，至少在目前是有效的。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

港股AI决策第一股｜深演智能锚定Agentic Software长期价值

2小时前

首周调用1万亿Token，Agnes免费全模态API为何引爆开发者圈？

2小时前