伊赫巴里
Tuesday, 10 March 2026
Breaking

人工智能代理被“调得更粗鲁”以提高复杂推理任务的性能

赋予AI聊天机器人打断或保持沉默的能力,可显著增强其集体智慧和准确性。

人工智能代理被“调得更粗鲁”以提高复杂推理任务的性能
7DAYES
6 days ago
69

日本 - 艾赫巴里通讯社

人工智能代理被“调得更粗鲁”以提高复杂推理任务的性能

在一项可能重新定义人机交互的引人入胜的事件中,研究人员发现,允许人工智能(AI)聊天机器人,特别是大型语言模型(LLM),采用更像人类的对话特征——例如打断能力或战略性地保持沉默——不仅能促进更自然的对话,还能显著提高其准确性和解决问题的能力。

这一发展正值AI在社会中的作用迅速扩展之际。传统上,AI的沟通以严格的轮流发言和可预测的响应为特征,这与人类对话通常混乱但有效的方式形成了鲜明对比。人类的交流充满了自发的打断、深思熟虑的停顿以及不确定性或信念的细微表达,这些都是传统AI交互中普遍缺失的元素。

这项由东京电气通信大学信息学系教授Yuichi Sei领导的研究,旨在探讨将这些我们视为理所当然的“社交线索”融入AI代理是否能增强其“集体智慧”。Sei教授指出:“当前的多个代理系统常常感觉很人工化,因为它们缺乏人类对话中混乱、实时的动态。我们想看看,赋予代理代理我们视为理所当然的社交线索,比如打断的能力或保持沉默的选择,是否会提高它们的集体智慧。”

为了实现这一目标,Sei及其同事开发了一个新颖的框架,使LLM摆脱了计算机通信的严格的来回结构。相反,他们为LLM分配了“个性”,赋予他们插话、打断其他发言者或故意保持沉默的灵活性。这不仅仅是为了模拟人类行为;研究人员发现,与标准的LLM相比,这种新发现的灵活性直接与复杂任务的准确性提高相关。

该团队首先将基于“大五”人格类型——开放性、尽责性、外向性、宜人性、神经质——的特征融入LLM。随后,他们重新编程了基于文本的LLM,使其能够逐句处理响应,而不是在下一轮之前生成完整的响应。这种对对话流程的细粒度控制使得在三种不同场景之间进行比较成为可能:固定说话顺序、动态说话顺序以及启用了打断功能的动态说话顺序。

启用了打断功能的动态顺序是最先进的场景,它引入了一个“紧急分数”。该机制允许AI代理识别关键信息——例如发现错误或关键观点——并立即表达出来,无论当前是谁的发言回合。反之,低紧急分数则表明该代理没有什么实质性的内容可以添加,从而减少了对话中的“噪音”并提高了焦点。

为了严格测试他们的假设,研究人员使用了来自“多任务语言理解”(MMLU)基准测试的1000个问题来评估他们的AI模型。这是一个全面的AI推理测试,涵盖了科学和人文学科等各个领域。结果令人信服。当一个代理最初给出了错误的答案时,固定顺序讨论的总体准确率为68.7%,动态顺序提高到73.8%,而允许打断时则达到了令人印象深刻的79.2%。在一个更具挑战性的场景中,当两个代理最初都出现错误时,准确率从37.2%(固定顺序)上升到43.7%(动态顺序),最终上升到49.5%(启用了打断功能)。

这些定量发现有力地表明,为AI代理配备“个性”和战略性打断能力,可以在复杂问题解决中产生比传统、普遍礼貌的AI交互更准确的结果。Sei教授及其团队现在正专注于探索这些发现的实际应用,特别是在创意协作领域,以了解这些“数字个性”如何影响群体决策的动态。

随着AI代理在未来与人类一起在协作环境中日益融合,这项研究提供了一个重要的见解:受个性影响的讨论,包括明智地使用打断,有时可能比严格的轮流和普遍礼貌的交流产生更好的结果。这项研究为AI通信不仅更有效率,而且更细致、更具影响力的未来铺平了道路。

标签: # 人工智能 # AI代理 # 大型语言模型 # LLM # 对话式AI # 类似人类的沟通 # 打断 # AI准确性 # 复杂推理 # 集体智慧 # AI个性 # MMLU基准测试 # Yuichi Sei