最新资讯

人类惨败 OpenAI轻取Dota战队 AI何总是吊打游戏玩家

2019-04-29 18:17:03 7116

就在阿克蒂尔机械手系统的展示之后,Openai又迎来了一场引人注目的人机大战,该系统能够抓取和操纵人类手等物体。 这是由许多硅谷大亨如Musk于2015年创立的人工智能非盈利组织,希望能防止人工智能的灾难性影响,促进人工智能的积极作用。当然,他们也希望在深入研究中发挥积极作用。 在北京时间的清晨,人类和Openai五人进行了一场决定性的战斗。人类团队由半专业的DOTA大师组成。它有三盘两胜。 经过三轮的对峙,高低判断和毫无悬念,Openai五人轻松赢得了前两盘,将被人类虐待的一点脾气。 dota 2要求玩家快速做出反应,并全面了解游戏策略。最重要的是,它需要团队合作。游戏目前是最赚钱的电子竞技项目之一,今年最大的锦标赛奖金池已经超过2300万美元。 研究人员的软件比让机器人隔离篮球之神迈克尔乔丹更难击败专业电工。 对于我们这些没有博士学位的人来说,游戏是理解人工智能研究进展的相对简单的方法:人工智能能在复杂环境中击败人类吗我们了解IBM的深蓝在国际象棋中击败大师加里·卡斯帕罗夫意味着什么,以及谷歌的DeepMind's Alpha在国际象棋中击败世界冠军李·塞多尔意味着什么:几十年来实践和完善技术的人类无法与机械计算系统竞争。除了这些公开的竞争之外,人工智能还将继续与计算机系统竞争。几十年来,弓箭手们一直致力于构建比人类更擅长玩亚达利游戏、跳棋甚至是超级粉碎兄弟的人工智能系统。 并非所有关于玩电子游戏的人工智能的研究都适用于实验室外,但在竞技场外,OpenAI证明了其专有研究可以被广泛应用。例如,在dota 2中进行竞争的算法也可以教给如何移动操纵器。 教机器人玩游戏最流行的方法之一是openai的技术,叫做强化学习,它通过给机器人一个目标来工作,比如收集硬币,当机器人达到目标时奖励它。最初,机器人任意行动,直到它意外地发现如何完成任务。机器人使用的动作在他们的系统中,完成任务被认为是更好的,所以机器人在下次试图完成任务时,更有可能继续采取这些行动。经过数亿甚至数百万次的尝试,策略就会出现。 例如,openai的dota 2-playing机器人在两周内与自己进行数百万次的比赛。在每一场比赛中,机器人的奖励从为自己获得分数变为提高整个团队的分数。该团队称之为团队精神。 纽约大学(New York University)人工智能教授Julian Togelius告诉Quartz,游戏是学习人工智能的好方法,因为它们模拟现实世界,但有任务目标。 现实世界中没有有趣的任务,格里弗斯笑着说。游戏是完美的,它们给你奖励-无论你赢不赢,无论你得到什么分数,你都会得到奖励。游戏可以玩无数次-它们只是一个软件,可以由成千上万的机器人同时玩,这样他们就可以双倍的速度找到解决方案或策略。 但这种方法的缺点是,机器人学习做什么完全取决于奖励。该算法不知道游戏是如何工作的,因此如果游戏中存在漏洞或错误,机器人只会做最简单的事情来奖励它。 今年早些时候,德国弗莱堡大学的研究人员发现了这一点,当时他们训练了强化学习算法来玩Yadali Q*Bert游戏。它不是学习像人类一样玩游戏,而是学习通过跳下舞台的一边来引诱敌人自杀,知道敌人会跟随他们。游戏认识到敌人被杀死,给了机器人额外的生命和点数,所以机器人获得了。 机器人在游戏中也发现了一个小故障:如果它从一个平台跳到另一个平台,它可以获得数十万分。从技术上讲,它的工作是:获得分。但它并没有真正学会玩游戏。 最近,Grius专注于通过随机选择他们玩的每一个游戏的级别来创造更好的游戏机器人。他指出,由于机器人从来没有在同一级别上玩过两次,他们不仅仅学习如何找到解决方案或找到策略,他们实际上正在学习如何在任何情况下完成任务。 Openai的游戏追求不仅仅是击败游戏中的专业玩家,而是学习如何做出数千个小决定以实现更大的最终目标。另一个例子是Openai项目,该项目使用与Dota 2机器人相同的学习系统和算法:其研究人员设计了一种算法来控制操纵器,该操作器可以拿着一个物体,用手指在特定的方向上操纵它。 施耐德说:我们基本上使用了与DOTA实验相同的代码,并取得了相同的性能水平。在短短几周内,我们已经达到了与几个月前我们正在进行的项目相同的水平。我想我们都很惊讶。 这些实验使用一个由OpenAI开发的名为Rapid的程序,该程序可以协调数千个处理器,同时运行数百个强化学习算法。每个算法驱动机器人玩游戏或模拟手的运动,然后在实验结束时将机器人所学的与其他机器人同步。 与普通笔记本电脑相比,机器人的计算能力要高出数千倍,不用人工编码就可以显示出惊人的灵活性,告诉他们如何移动每根手指。 另外,虽然OpenAI使用类似的代码来训练它的游戏人工智能和机器人,但一个重要的区别是它们正在学习如何完成各自的任务。如果你想让do t a 2机器人控制一个操纵器,它根本做不到:算法的通用性足以学习许多技能,但它所能学习的技能仍然是有限的。d. 我们没有看到很多可以在游戏中训练并直接转移到现实世界的东西,但是我们看到的是,游戏发明的方法已经转移到了现实世界。 OpenAI的快速增强学习系统并不是从游戏发展到现实世界的第一项技术。Grius指出蒙特卡洛树搜索是一种最初开发于10多年前的算法,现在用于规划和优化等任务。空间探测器的星际轨迹,也是DeepMind Alphago算法的核心,该算法于2016年击败了世界围棋冠军李世石。 对于openai的机器人团队来说,dota 2似乎证明了这项技术在未来可以用于更复杂的任务。dota 2系统使用的计算能力是机械手的20倍多,并且需要两周的训练,而对于机械手来说,这意味着机械团队有望克服需要更多时间的问题。学习时间。 我们对现有算法所取得的进展感到惊讶,因此我们希望DOTA在某种程度上成为最后一个游戏里程碑。施耐德说,很明显,如果一个复杂的游戏可以通过强化学习来解决,那就是强化学习和游戏的终极考验。