打脸!GPT-4o输出长度8k都勉强,陈丹琦团队最新LLM基
奇月 发自 凹非寺量子位 | 公众号 QbitAI 很多大模型的官方参数都声称自己可以输出长达32K tokens的内容,但这数字实际上是存在水分的?? 最近,陈丹琦团队提出了一个全新的基准测试工具LONGPROC,专门用于检测长上下文模型处理复杂信息并生成回复的能力。 实验结果有点令人意外,团队发现,包括GPT-4o等最先进的模型在内,尽管模型在常用长上下文回忆基准上表现出色,但在处理复杂的长文生成任务时仍有很大的改进空间。 具体来说,测试的所有模型都声称自己上下文窗口大小......
2025-01-25
Powered by 大众体育澳门 @2013-2022 RSS地图 HTML地图