假设你请了8位当前最强的AI来当调解员,让它们各自独立处理600场从真实公开案件中提取的复杂纠纷。结果发现,表现最好的也只能让分歧弥合三分之一左右——这就像在一个100分的满分测试里,及格线是60分,但全班第一名也只考了33分。

这就是KAIST团队在2026年6月发布的SoCRATES评估体系测试的核心发现。在它之前,行业里流传着一些听起来很美的数字,比如“AI调解解决率80%-90%”。
但KAIST团队在亲手搭建了一套完全不同的测试环境后,直接戳破了这个泡沫:那些高分来自场景简单、没有社会认知压力的“简单题”,当题目变成涉及多轮谈判、情绪激烈、跨文化差异的“复杂应用题”时,当前最强的通用大模型作为独立调解员,无一及格。
为什么之前的“高分”不作数?这套考试到底难在哪要理解这个巨大的落差,得先看SoCRATES到底是怎么“出题”和“打分”的。
传统测试更像是让学生背完一本书就去考原题——场景单一,评分标准也粗糙。SoCRATES做了一件不同的事:它让AI自动从网络上搜集真实冲突案例,然后整理出40个涵盖法律、组织、商业等多领域的高难度场景。
每位AI调解员需要处理600场对话,这不是简单的角色扮演,而是一场对“社会认知能力”的全面压力测试。
更有意思的是它的打分逻辑。现实中的调解,分歧往往只会在某个具体议题被提出、某方态度发生转变的那一刻才发生变化,其余时间可能都是无意义的来回。
SoCRATES首创的“关键时刻评分机制”就模拟了这一点:它不像传统方法那样给每句话都打分,而是只在双方真正讨论某个议题、立场可能发生变化的“关键时刻”才去记录共识程度。
这就像是医生只在病人进行体力活动、情绪波动的关键节点去测血压,而不是每过一分钟就测一次,这样的数据才能真实反映问题。这个机制与人类专家打分的皮尔逊相关系数达到0.82,而传统方法的相关系数仅为0.372——指标翻了一倍多,意味着它的评估结论远比之前的方法可信。
参数大就厉害?这个逻辑在调解任务中彻底失灵测试中最反常识的发现,是模型规模与调解能力并不直接挂钩。
Qwen3家族内部,拥有2350亿参数的“大个子”,共识增益确实几倍于只有300亿参数的“小个子”,这说明同一套底子下,更大参数有用。但跨家族比较时,情况就变了:一个1200亿参数的模型,在法律和组织内部冲突场景中,表现还不如一个只有260亿参数的模型——后者参数量仅为前者的五分之一。
为什么堆参数不管用?因为调解不是考记忆力或知识储备。它需要的是在冲突中理解对方的文化背景、感知情绪的强度、选择合适的介入时机。这些属于“社会认知”能力,不是靠增大模型体积就能自然获得的。
SoCRATES设置了五条社会认知测试轴线,其中“谈判策略倾向”这条轴的冲击最大:当双方都采用竞争型或顺从型策略时,部分模型的共识增益下滑幅度最高可达64.1%——相当于原本能弥合30分,现在只能弥合10分出头。
这就好比一个平时擅长温和谈判的顾问,突然被丢进双方都寸步不让的强硬对峙里,其应对能力会急剧下降。
另一个更隐蔽的短板是文化:所有被测模型在东亚文化背景下的调解表现,普遍弱于美国文化场景。说明这些模型对非西方沟通方式和价值偏好的理解仍然不到位。
干预的时机比频率更重要测试中一个有趣的数据对比来自两个在“干预及时性”指标上排名第一、第二的模型。它们的共识增益却排在倒数。原因何在?数据显示,这两个模型会在大约三分之一的双方发言回合中插入调解语句,频率是最优模型的两倍。
它们“话太多”,而且总是在对话早期就抢着开口,表面上看似乎很及时,但那些频繁的早期插话并没有真正推动双方共识。
这背后有一条社科领域的常识:调解不是越多干预越好,而是要在对的时间,说对的话。表现最优的模型通常只在关键分歧出现或情绪激化的瞬间介入,节奏克制。这个差别意味着,未来的AI调解优化方向不应是“让模型更积极”,而是让它更懂得“什么时候闭嘴、什么时候说话”。
为什么现实中AI调解成功率超过90%,而SoCRATES说不到30%这是一个很自然的问题:国内多地公布的AI调解成功率普遍达到70%-96.4%,为什么和SoCRATES的结论差距这么大?
答案在于分工。目前所有已落地的AI调解系统,均定位为人类调解员的辅助工具。AI负责的是语音转写、争议焦点识别、法律条文匹配、文书生成、情绪预警等事务性工作。
比如哈尔滨呼兰区的系统让基层调解员填报工作量减少了70%以上,而最终合意确认、协议签署、司法确认环节完全由人类调解员主导。这就像手术室里,AI是那个帮医生调取病历、准备器械的助手,但手里拿着手术刀的始终是人。
AI从未被允许独立完成一场完整的调解,所以那个96.4%的成功率,本质上是“人类主导 AI辅助”模式的成绩。
SoCRATES测试的是“AI独立调解”的能力上限——在没有人类兜底的情况下,AI面对复杂纠纷能走到哪一步。答案很明确:只能走三分之一的路。
所以这两个数字并不矛盾,它们反而精准地标出了当前AI技术的合理适用边界:AI是优秀的信息处理助手和效率工具,但在需要深度社会认知、情感共情和利益权衡的决策环节,人类仍是不可替代的主体。
总的来说,SoCRATES做了一件有价值的事:它没有全盘否定AI在调解领域的潜力,而是拿掉了之前那种“简单题高分”的虚火,逼着行业去正视那些真正困难的变量。
当通用大模型在那五条社会认知轴线上怎么也翻不过去的时候,未来的技术优化方向反而清晰了——不是继续盲目堆参数,而是必须去补齐文化理解、情绪感知、策略适配这些短板。在这些能力真正成熟之前,AI做调解员的路还很长,SoCRATES给出的这个结论,至少在目前是有效的。
相关文章




猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体113446