
他告知,6月14日,Technology Media 9To5MAC昨天(6月13日)发表了一篇博客文章,该文档于6月6日发布,引起了争议,专家质疑其如何进行了评估。苹果在他的文章中指出,即使是最复杂的大规模推理模型(LRM)也可以在复杂的任务中被阻止。但是,公开的慈善研究员亚历克斯·劳恩(Alex Lawn)详细驳斥,认为苹果的结论来自实验设计失败,而不是模型推论能力中的基本限制。辩论方法是,即使是河内塔等复杂的任务,即使是目前最复杂的大型推理模型。主页注:汉诺威塔的问题是经典递归算法的问题。上帝创造了三个支柱,并放置了第一张尺寸的圆盘(从下到顶部,以黄金形式到较小的圆盘)。它st认为只有一个光盘可以同时在顶部移动,从而确保整个过程不能将大型圆盘放在小光盘上。尝试提供一个解决方案,将第一列的所有光盘移至第三列。公开慈善研究员的亚历克斯·劳恩(Alex Lawen)最近发表了一篇反驳文章“思想的幻觉”,认为苹果的发现反映了实验设计中的失败,而不是模型推断能力中的实际限制。他在文章中坦率地说,苹果的研究与生产限制和资格配置有困惑的问题,与实际推理障碍无关。法律提出了三个基本问题,挑战了苹果的结论:首先,他指出,苹果忽略了该模型的预算限制者。当涉及河内塔问题的8个或更多迪斯科问题时,诸如Claude Opus de Anthrope之类的模型接近输出限制,明确地说:“坚持保存第二,苹果的河流交叉路口作为无法填充六个以上字符的船只的容量限制。最后,苹果的自动评估脚本并没有区分输出截断的推理故障,并成为标准的标准,并认为某些战略输出是误解的,是误解的。生成一个递归的LUA功能,而不是一个一个逐一列出所有步骤,而openai o3模型可以正确地生成15个磁盘问题的SunAlgorith nubions。至少在算法生成水平上问题可以在评估方法中而不是模型本身中。