AI挑战《超级马力欧兄弟》,Claude系列领先,推理模型为何落败?

发布时间:2025-03-11 16:11:13 来源:互联网

加利福尼亚大学圣地亚哥分校的Hao人工智能实验室最近进行了一项别开生面的研究,他们将AI技术引入了经典游戏《超级马力欧兄弟》中,以此作为测试AI性能的独特平台。研究结果显示,在这次测试中,Anthropic公司的Claude 3.7版本AI展现出了卓越的能力,紧随其后的是Claude 3.5版本。相比之下,谷歌的Gemini 1.5 Pro和OpenAI的GPT-4o则未能达到预期表现。

值得注意的是,这次实验所用的并非1985年原版《超级马力欧兄弟》,而是在一个模拟器中运行的游戏版本。Hao人工智能实验室研发的GamingAgent框架作为桥梁,连接了AI与游戏,使AI能够操控马力欧。GamingAgent不仅向AI发出如“避开附近障碍物或敌人”等基本指令,还提供了游戏内实时截图。AI则通过生成Python代码来指挥马力欧的行动。

据实验室介绍,这种游戏环境对AI模型提出了高要求,迫使它们学习如何规划复杂的操作并制定有效的游戏策略。一个有趣的发现是,像OpenAI的o1这样的推理模型,虽然在多数基准测试中表现出色,但在此次实验中却不如“非推理”模型。研究人员指出,推理模型在实时游戏中往往因决策时间过长而表现不佳。在《超级马力欧兄弟》这样的游戏中,时机至关重要,一秒钟的延误可能导致完全不同的结果。

游戏作为衡量AI性能的工具已有数十年历史,但一些专家对此提出了质疑。他们认为,与现实世界相比,游戏环境相对抽象且简单,为AI训练提供了理论上无限的数据。这种局限性可能使得游戏基准测试结果无法全面反映AI技术的真实水平。

近期,一些引人注目的游戏基准测试结果引发了广泛的讨论,甚至引发了OpenAI研究科学家安德烈・卡帕西的“评估危机”言论。他在一篇帖子中表示,面对众多AI指标,他感到困惑,不知道应该关注哪些。他总结道,目前难以准确评估这些AI模型的真实能力。

尽管存在这些争议和挑战,但观看AI玩《超级马力欧兄弟》仍然是一种有趣的体验。这一研究不仅展示了AI技术的潜力,也引发了人们对AI性能评估和未来发展的深入思考。

本周热门攻略

1
羞羞漫画页面入口免费登陆-羞羞漫画在线阅读入口网站

羞羞漫画页面入口免费登陆-羞羞漫画在线阅读入口网站

2024/11/12

2
如何在B站免费观看大片和真人直播?详细指南解答

如何在B站免费观看大片和真人直播?详细指南解答

2025/01/27

3
YSL水蜜桃86色号唇膏是否会让肤色变黑?18岁后使用的注意事项

YSL水蜜桃86色号唇膏是否会让肤色变黑?18岁后使用的注意事项

2025/01/03

4
如何在91看片入口找到安全影视资源?避免风险的使用指南

如何在91看片入口找到安全影视资源?避免风险的使用指南

2025/01/10

5
ysl水蜜桃86满十八岁后真的会变黑吗?原因是什么?

ysl水蜜桃86满十八岁后真的会变黑吗?原因是什么?

2024/12/23

6
如何在7777影院免费观看电视剧大全,享受最佳观影体验?

如何在7777影院免费观看电视剧大全,享受最佳观影体验?

2025/01/30

7
《学生强伦女教师2》:这部剧如何引发社会道德与情感冲突的深刻讨论?

《学生强伦女教师2》:这部剧如何引发社会道德与情感冲突的深刻讨论?

2025/01/12

8
911行情网站:为投资者提供全面实时市场信息与专业分析工具

911行情网站:为投资者提供全面实时市场信息与专业分析工具

2024/10/12

9
国产电视剧《星空无限MV》入选优秀国产剧,让人眼前一亮

国产电视剧《星空无限MV》入选优秀国产剧,让人眼前一亮

2024/10/20

10
《教室爱欲》无删减韩国版引发争议,影片揭示了哪些教育系统中的性别与欲望问题?

《教室爱欲》无删减韩国版引发争议,影片揭示了哪些教育系统中的性别与欲望问题?

2025/01/10