# -*- coding: utf-8 -*- #载入库 import numpy as np import gym import time
#Gym的主要作用是为研究者和开发者提供一个方便的强化学习任务环境 env = gym.make('CartPole-v0') #创建CartPole问题的环境env
env.reset() #初始化环境
random_episodes = 0
reward_sum = 0#奖励 while random_episodes < 10: env.render()#将CartPole问题的图像渲染出来
observation, reward, done, _ = env.step(np.random.randint(0, 2)) #使用np.random.randint(0, 2)产生随机的Action #然后使用env.step()执行随机的Action,并获取返回值 #如果done标记为True,则表示这次试验结束,即倾角超过15度或者偏离中心过远导致任务失败
reward_sum += reward if done:#如果试验结束 random_episodes += 1 print("game over,Reward for this episode was:", reward_sum) #输出这次试验累计的奖励 reward_sum = 0 #奖励重新置为0
time.sleep(2) env.reset()#重启环境
该仅仅是平衡木的移动,开始到结束。
|