新智元报道
新智元报道
【新智元导读】LLM不会规划,大推理模型o1可以吗?ASU团队最新研究发现,o1-preview推理规划能力是所有模型之最,但仍未触及天花板。关键是,推理强,成本超高。
最先进LLM,依然无法规划
从近似检索到近似推理
在原始测试集上评估LRM
扩大问题规模
不可解的实例
在Randomized Mystery Blocksworld中,结果更糟:
- 16%的情况正确识别出了问题不可解
- 5%的情况返回了「empty plan」
准确性和成本的权衡与保证
o1的创造性解释
结论