dota2很模糊(dota2画面不清晰)

发布时间:2024-03-16
本文主要介绍dota2模糊(dota2图片不清晰),下面一起看看dota2模糊(dota2图片不清晰)相关资讯。
选自op《dota 2 with large scale deep reinforcement learning》。
人工智能的长期目标是解决现实世界中的难题。为了实现这一目标,近几十年来,研究人员将游戏视为ai发展的基石。从双陆棋(1992年)到象棋(1997年)再到雅达利游戏(2013年),2016年,alphago凭借深度强化学习和蒙特卡洛树搜索击败了围棋世界冠军。近年来,强化学习(rl)也被应用于更多类型的任务,如机器人操作、文本摘要和视频游戏,如《星际争霸》和《minecraft》。
与国际象棋或围棋等以往的人工智能里程碑相比,复杂的电子游戏比现实世界的问题更复杂和连续。dota 2是valv2.pdf.
openai表示,训练过程还面临另一个问题:游戏环境和代码都在不断升级和变化。为了避免每次改变后从头开始训练,他们开发了一套工具,可以以最低的性能损失继续完成训练——open ai称之为 外科与健康。在超过10个月的训练中,openai大约每两周进行一次手术。这套工具可以让openai不断改进他们的代理,只需要很短的时间——比典型的从零开始的训练方法要短得多。随着ai系统解决的问题越来越大、越来越难,进一步研究变化的环境和迭发就显得非常重要。
dota 2的难度是多少?
dota 2的比赛在一个正方形的地图中进行,两队在对角线上保卫自己的基地。每个团队 s基地有一个古);遗迹;当一方的古遗迹被敌人摧毁,游戏结束。每个队伍由5名玩家组成,每个玩家控制一个英雄单位,每个英雄都有自己独特的技能;在比赛中,双方不断派出 蠕变与变形单位,但是这些小兵不受玩家控制。他们将沿着路径到达敌人基地,并攻击任何出现在他们攻击范围内的敌人单位和建筑。玩家可以从蝙蝠侠那里收集金币、经验等资源,然后通过购买物品、升级等提高英雄的战斗力。为了玩dota 2,ai系统必须解决许多问题:
漫长的游戏。dota 2游戏通常以每秒30帧的速度持续45分钟左右。openai five每4帧选择一个动作,所以每局需要执行2万步左右。相比之下,国际象棋一般是80步,围棋是150步。部分可见的状态。每个队伍只能看到自己单位和建筑附近的部分游戏状态;地图的其余部分被隐藏。如果你想玩得好,你需要推断和模拟敌人。;的行为基于不完整的数据。高维的行动和观察空间。dota 2有一个大地图,里面有10个英雄,几十个建筑,几十个非玩家单位,还有符咒,树,侦察守卫(眼睛)等长尾游戏特色。openai five每个时间步观察大约16,000个值(大部分是浮点数和具有数百种可能性的类别值)。同时,openai将动作空间离散化;它的模型在每个时间步从8,000到80,000不等(具体数字取决于英雄)。行动选择一个。相比之下,国际象棋每次观察需要1000个左右的值(这些值大部分是有六种可能的类别值),围棋需要6000个左右的值(都是二进制值)。围棋的分支因子约为35个可行棋步,围棋的分支因子约为250。
另外需要注意的是,openai five在正常模式下玩游戏有两个限制:
英雄池只有17个英雄——常规游戏中,玩家在游戏开始前从117个英雄中选择一个,而openai five目前只支持其中的17个;不支持允许玩家同时暂时控制多个单位的物品(幻影符文、支配头盔、幻影斧、死灵法师书)。openai删除了这些项目,因为控制多个单元会引入额外的技术复杂性。训练系统
让ai打dota
为了转化 以超人的水平玩这个复杂的游戏转化为可以优化的详细目标,openai提出了以下框架。
虽然dota 2引擎的运行频率是每秒30帧,但是openai five每4帧就要做一个动作(称为一个时间步长)。在每一个时间步,openai five都会接收到一个来自游戏引擎的观察,这个引擎会对作为人类玩家可以看到的所有信息进行编码,比如单位血量,位置等等。然后,openai five向游戏引擎返回一个离散动作,该动作编码了一个需要的动作、攻击等。
当然,有些游戏机制是通过人工编写的逻辑来控制,而不是使用策略。其中包括:英雄购买物品,获得技能的指令,唯一单位的控制,英雄要保管物品。openai表示,他们认为用ai的方法代替人工编写规则,最终可以让代理达到更好的性能,但即便如此,现有的代理已经达到了超人的性能。
在训练期间,环境中的一些属性已经被随机化,包括游戏中的英雄和英雄购买的物品。因为和人类对手战斗时会有不同的策略和情况,为了保证稳定,需要进行多样化的训练。
openai将策略π定义为从观察历史映射到动作概率分布的函数,并将其参数化为约1.59亿个参数(θ)的循环神经网络。神经网络主要由4096个单元的单层lstm组成(见图1)。给定一个策略,openai通过在每个时间步重复传递当前观察作为输入来玩游戏,然后从输出的分布中采样一个动作。
图1:简化的openai五模型架构
为了控制一个团队的五个英雄,opena我为每个英雄使用了相同策略函数的不同副本(参数θ相同)。因为dota 2中的可见信息和战争迷雾(迷雾中友军单位附近区域可见)是全队共享的,所以每个英雄的观察几乎都是一样的。
然而,openai five并不直接使用屏幕上的像素信息,而是使用一个数据数组集来近似人类玩家可用的信息。这样的近似是不完美的;人类玩家可以获得的许多信息并没有在观察中编码。另一方面,虽然openai已经尽力保证模型获得的所有信息都是人类可获得的所有信息,但人类不可能在每个时间步同时读取所有可获得的信息——人类必须主动点击地图和状态指示器的不同部分。
优化策略
openai的目标是找到一种能够最大化战胜人类职业选手概率的策略。在实践中,研究人员已经将奖励函数最大化,其中还包含了一些其他信号,比如人物的死亡和资源的收集。此外,在计算奖励函数时,他们还应用了各种技术来利用问题的零和多层结构。比如减去敌方队伍获得的奖励,代理人的奖励就对称化了。openai团队在项目之初就构建了这个奖励功能,因为团队对游戏有一定的了解。虽然这个奖励功能随着游戏版本的更新有了一点变化,但是他们发现最初的奖励选择效果一直很好。后面加上的奖励信号对训练的成功也很重要。
对于策略的训练,使用近端策略优化(ppo ),这是优势行动者批评的变体。这种优化算法使用一般优势估计(gae),一种标准的基于优势的方差减少技术,它可以稳定和加速训练。openai使用集中和共享的lstm模块来训练网络。该模块将向不同的全连接层提供输入,从而获得策略和价值函数的输出。
图2:系统概述:培训系统由四种主要类型的机器组成。
openai利用从dota 2收集的自plaer经验训练策略;具有截断反向传播的adam优化器用于16个时间步长的样本。
该系统使用 首次展示 来运行自我游戏。他们以近1/2的实时运行这些游戏,因为openai团队发现,在这个速度下,他们可以并行运行略多于两倍的游戏,从而提高了总吞吐量。
首次展示 可以在正在进行的游戏中异步发送数据,而不是等待整个游戏。游戏结束后发送数据进行优化。
整个系统运行在基于google 的云平台。为了执行快速gpu训练,研究人员还使用了blockspars《星际争霸 2》代理研究《grandmaster level in starcraft ii using multiagent reinforcement learning》和《solving rubik's cube with a robot hand》的开放式机器人研究。
人类评估
训练期间,openai five为了跟踪记录研究进展,与众多业余选手、职业选手、职业队伍进行了比赛。
4月13日,openai five与dota 2现任世界冠军og战队进行了一场高水平的比赛,取得了三局两胜(20)的好成绩,这说明openai five确实可以学到最高水平的操作技术。
然而,机器学习系统通常可以 i don’我不能很好地应付意外情况。虽然在表演赛中击败世界冠军确实可以说明openai five很优秀,但并不能证明它能广泛理解人类社会可能面临的各种问题。为了探索openai five能否稳定用于创意或分布式玩法,openai推出了openai five arena,于2019年4月1821日期间向公众开放在线挑战。openai five和3193支队伍打了7257场比赛,胜率99.4%。29支队伍在总共42场比赛中击败了openai five。
虽然人工评估是最终目的,但是在训练过程中自动评估代理也是必要的。openai 的方法是用trueskill评分系统作为指标来比较一些固定的参考。图3显示了openai five 随时间推移的真实技能得分。
图openaifive s训练时的trueskill分数。
验证 amp的效果运营与管理通过重新运行
为了验证新提议的 外科与健康方法,openai在2019年5月18日到2019年6月12日训练了另一个agent,但是只用了最终的环境,模型架构等等。openai把这个训练过程叫做重新运行,没有经历游戏规则的波折,神经网络参数的修改,超参数的在线实验等等。
重新运行完成两个月 训练150±5 pflops/s天(见图4)。这个时间跨度明显比 外科与健康(12周一次)。简单对比一下,如果你在20个大手术的每一个手术后都从头开始训练,那么这个项目需要40个月,而不是10个月(实际上,你倾向于做更少的改变)。手术的另一个好处是总有优秀的特工来评估。这可以显著缩短实验变化的迭代周期。对于openai five(探索新任务,构建新环境)的目标,持续训练优势显著。
图4:4的训练过程:openai five和重新运行
当然,在一个环境是预先构建的并且从一开始就很好理解的环境中,对 外科与健康会很小。重新运行只消耗20%的开放人工智能五 s资源:如果能提前获得最终的训练环境,就不需要在不同的游戏版本上开始训练。
rerun最终性能优于openai five,对抗openai five最终版本的胜率超过98%。openai团队的想法是验证最终代码和超级参数能否重现openai five的性能,所以停止了训练。他们认为,重新运行可以实现进一步的提升,不仅包括可以继续提升的性能,还包括学习率、视野等尚未定型的超级参数。
运营与管理process允许openai每周成功修改环境。但是openai five的最终水平还是低于从零开始训练的模型。学习如何长时间训练而不影响最终成绩,是未来潜在的研究方向。
最后,虽然 运营与管理目前设想的还很不完善,通过正确的工具,这种方法可以将特定的变化集成到长期运行的实验中,而无需重新启动的培训。
了解更多dota2模糊(dota2图片不清晰)相关内容请关注本站点。
上一个:baumer编码器(欧洲瑞士原装正品确保您工业设备的稳定运行)
下一个:婚礼开场视频制作写什么文案好听

开除员工有赔偿金吗
二手苹果电脑值得入手吗(2手苹果电脑值得买吗)
SATA电源线,sata电源线4根和五根的区别
色环稳压二极管稳压值的判断方法
电信云服务器租用安全
手写输入法怎么设置,手写输入法在哪里设置
关于怎样设置电脑桌面图标大小的信息通知(如果设置电脑桌面上图标的大小)
科学的选茶
1千左右的笔记本电脑,一千多块有什么笔记本电脑好用
DN250污水流量计价格