研究证实:AI大模型跨多轮对话任务表现不佳,性能最高降39%
- IT之家
- 2026-03-01 08:31:52
(相关资料图)
IT之家 3 月 1 日消息,据 THE DECODER 报道,新一代大语言模型(从 GPT-5 及后续版本开始)在任务需要跨多轮对话完成时,表现依然不佳。研究员菲利普 · 拉班(Philippe Laban)及其团队在代码、数据库、操作指令、数据转文本、数学计算、文本摘要这六大任务上对现有模型进行了测试。当信息被拆分到多条消息中(分片式),而非集中在单次提示词里(拼接式)时,模型性能会显著下降。
IT之家注意到,更新的模型表现略好一些,性能降幅从 39% 缩小到 33%,但问题远未解决。Python 任务的提升最为明显,部分模型仅损失 10%–20% 的性能。拉班认为,实际场景中的性能损失可能更严重,因为测试只使用了简单的用户模拟;如果用户在对话中途改变想法,性能下降幅度可能会更大。
原始研究发现,调低温度值(temperature)这类技术微调无法解决这一问题。研究人员建议:一旦出现异常,重新开启一段新对话,最好先让模型把所有请求总结一遍,再用这份总结作为新对话的起点。
- 研究证实:AI大模型跨多轮对话任务表现不佳2026-03-01
- 快资讯丨玉渊谭天丨“四机”集体出镜!解放2026-03-01
- 每日播报!15点30分超级杯打响 海港誓破3连2026-03-01
- 春耕农资保供快马加鞭 福建已完成化肥储备2026-03-01
- 等了71天!广州终于下了场像样的雨,强对流2026-02-28
- 万象AI记丨科技赋能、影旅融合,马年春节档2026-02-28
- 焦点热议:2026广州“英雄花开英雄城”系列2026-02-28
- 热门看点:江西上饶:鹤舞白鹤洲2026-02-28
- 抢先看!10万本2026佛山50公里徒步见证册印2026-02-28
- 保险排名前十的公司有哪些_2026年2月27日市2026-02-28
- 50次风险提示、18次临时停牌公告也拦不住,2026-02-28
- 观热点:我国水利基础设施功能最全惠及人口2026-02-28
- 每日快播:不到90天!“超短学期”来了,最2026-02-28
- 单船装载147支 北部湾港钦州码头风电叶片2026-02-28
- 富恒新材2025年亏损9520.74万 新增产能尚2026-02-28
- 视频丨GDP增长5.0%!2025年国内生产总值1402026-02-28
- 视频丨GDP增长5.0%!2025年国内生产总值1402026-02-28
- 出门带伞!广州多区暴雨黄色预警生效中2026-02-28
- 大行评级丨德银:渣打第四季业绩未达预期,2026-02-28
- 二十二年春节不停诊的乡村门诊 每日热议2026-02-27
- 出片率100%! 番禺石碁藏着一条“黄金隧道2026-02-27
- 观速讯丨孤雨晚间(02.27)主要商品操作建议2026-02-27
- 当前热门:[快讯]德明利公布2025年年度分红2026-02-27
- 江波龙:mSSD产品正在多家头部PC厂商加快导入2026-02-27
- 花都、从化今夜有雨,广州还要防范强对流天2026-02-27
- 提升青少年学生身心健康水平!教育部发布指2026-02-27
- 卓能(集团)(00131.HK)中期业绩扭亏为盈 营2026-02-27
- 焦点速看:澜起科技:2025年净利润同比增长2026-02-27
- 2026国产客车1月出口量:海格1779辆,厦门2026-02-27
- 歌舞+社火+花车 乌鲁木齐元宵节氛围感拉满2026-02-27


















