JdeRobot
diff --git a/‎rl_studio/agents/__init__.py‎
Lines changed: 13 additions & 0 deletions b/‎rl_studio/agents/__init__.py‎
Lines changed: 13 additions & 0 deletions
diff --git a/‎rl_studio/agents/agents_type.py‎
Lines changed: 1 addition & 0 deletions b/‎rl_studio/agents/agents_type.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎rl_studio/agents/pendulum/inference_ddpg.py‎
Lines changed: 165 additions & 0 deletions b/‎rl_studio/agents/pendulum/inference_ddpg.py‎
Lines changed: 165 additions & 0 deletions
diff --git a/‎rl_studio/agents/pendulum/requirements.txt‎
Lines changed: 7 additions & 0 deletions b/‎rl_studio/agents/pendulum/requirements.txt‎
Lines changed: 7 additions & 0 deletions
@@ -88,6 +88,13 @@ def __new__(cls, config):
                 )
 
                 return QlearnAutoparkingTrainer(config)
+
+        elif agent == AgentsType.PENDULUM.value:
+            if algorithm == AlgorithmsType.DDPG_TORCH.value:
+                from rl_studio.agents.pendulum.train_ddpg import (
+                    DDPGPendulumTrainer as PendulumTrainer,
+                )
+            return PendulumTrainer(config)
         else:
             raise NoValidTrainingType(agent)
 
@@ -143,5 +150,11 @@ def __new__(cls, config):
 
             return MountainCarInferencer(config)
 
+        elif agent == AgentsType.PENDULUM.value:
+            from rl_studio.agents.pendulum.inference_ddpg import (
+                DDPGPendulumInferencer as PendulumInferencer,
+            )
+
+            return PendulumInferencer(config)
         else:
             raise NoValidTrainingType(agent)
@@ -8,3 +8,4 @@ class AgentsType(Enum):
     MOUNTAIN_CAR = "mountain_car"
     CARTPOLE = "cartpole"
     AUTOPARKING = "autoparking"
+    PENDULUM = "pendulum"
@@ -0,0 +1,165 @@
+import datetime
+import time
+import random
+
+import gymnasium as gym
+import matplotlib.pyplot as plt
+from torch.utils import tensorboard
+from tqdm import tqdm
+import numpy as np
+import torch
+
+import logging
+
+from rl_studio.agents.pendulum import utils
+from rl_studio.algorithms.ddpg_torch import Actor, Critic, Memory
+from rl_studio.visual.ascii.images import JDEROBOT_LOGO
+from rl_studio.visual.ascii.text import JDEROBOT, LETS_GO
+from rl_studio.agents.pendulum.utils import store_rewards, save_metadata
+from rl_studio.wrappers.inference_rlstudio import InferencerWrapper
+
+
+# # https://github.com/openai/gym/blob/master/gym/core.py
+# class NormalizedEnv(gym.ActionWrapper):
+#     """ Wrap action """
+#
+#     def _action(self, action):
+#         act_k = (self.action_space.high - self.action_space.low) / 2.
+#         act_b = (self.action_space.high + self.action_space.low) / 2.
+#         return act_k * action + act_b
+#
+#     def _reverse_action(self, action):
+#         act_k_inv = 2. / (self.action_space.high - self.action_space.low)
+#         act_b = (self.action_space.high + self.action_space.low) / 2.
+#         return act_k_inv * (action - act_b)
+
+
+class DDPGPendulumInferencer:
+    def __init__(self, params):
+
+        self.now = datetime.datetime.now()
+        # self.environment params
+        self.params = params
+        self.environment_params = params.environment["params"]
+        self.env_name = params.environment["params"]["env_name"]
+        self.config = params.settings["params"]
+        self.agent_config = params.agent["params"]
+
+        if self.config["logging_level"] == "debug":
+            self.LOGGING_LEVEL = logging.DEBUG
+        elif self.config["logging_level"] == "error":
+            self.LOGGING_LEVEL = logging.ERROR
+        elif self.config["logging_level"] == "critical":
+            self.LOGGING_LEVEL = logging.CRITICAL
+        else:
+            self.LOGGING_LEVEL = logging.INFO
+
+        self.RANDOM_PERTURBATIONS_LEVEL = self.environment_params.get("random_perturbations_level", 0)
+        self.PERTURBATIONS_INTENSITY_STD = self.environment_params.get("perturbations_intensity_std", 0)
+        self.RANDOM_START_LEVEL = self.environment_params.get("random_start_level", 0)
+        self.INITIAL_POLE_ANGLE = self.environment_params.get("initial_pole_angle", None)
+
+        non_recoverable_angle = self.environment_params[
+            "non_recoverable_angle"
+        ]
+        # Unfortunately, max_steps is not working with new_step_api=True and it is not giving any benefit.
+        # self.env = gym.make(self.env_name, new_step_api=True, random_start_level=random_start_level)
+        # self.env = NormalizedEnv(gym.make(self.env_name
+        #                                   # ,random_start_level=self.RANDOM_START_LEVEL, initial_pole_angle=self.INITIAL_POLE_ANGLE,
+        #                                   # non_recoverable_angle=non_recoverable_angle
+        #                                   ))
+        self.env = gym.make(self.env_name, render_mode="human")
+        self.RUNS = self.environment_params["runs"]
+        self.UPDATE_EVERY = self.environment_params[
+            "update_every"
+        ]  # How often the current progress is recorded
+        self.OBJECTIVE_REWARD = self.environment_params[
+            "objective_reward"
+        ]
+        self.BLOCKED_EXPERIENCE_BATCH = self.environment_params[
+            "block_experience_batch"
+        ]
+
+        self.losses_list, self.reward_list, self.episode_len_list= (
+            [],
+            [],
+            [],
+        )  # metrics
+        # recorded for graph
+        self.batch_size = params.algorithm["params"]["batch_size"]
+        self.tau = 1e-2
+
+        self.max_avg = -1000
+
+        self.num_actions = self.env.action_space.shape[0]
+
+        inference_file = params.inference["params"]["inference_file"]
+        self.inferencer = InferencerWrapper("ddpg_torch", inference_file, env=self.env)
+
+    def print_init_info(self):
+        logging.info(JDEROBOT)
+        logging.info(JDEROBOT_LOGO)
+        logging.info(f"\t- Start hour: {datetime.datetime.now()}\n")
+        logging.info(f"\t- self.environment params:\n{self.environment_params}")
+
+    def gather_statistics(self, ep_len, episode_rew):
+        self.reward_list.append(episode_rew)
+        self.episode_len_list.append(ep_len)
+
+    def main(self):
+        epoch_start_time = datetime.datetime.now()
+
+        logs_dir = 'logs/pendulum/ddpg/training/'
+        logs_file_name = 'logs_file_' + str(self.RANDOM_START_LEVEL) + '_' + str(
+            self.RANDOM_PERTURBATIONS_LEVEL) + '_' + str(epoch_start_time) \
+                         + str(self.PERTURBATIONS_INTENSITY_STD) + '.log'
+        logging.basicConfig(filename=logs_dir + logs_file_name, filemode='a',
+                            level=self.LOGGING_LEVEL,
+                            format='%(name)s - %(levelname)s - %(message)s')
+        self.print_init_info()
+
+        start_time_format = epoch_start_time.strftime("%Y%m%d_%H%M")
+
+        logging.info(LETS_GO)
+        w = tensorboard.SummaryWriter(log_dir=f"{logs_dir}/tensorboard/{start_time_format}")
+
+        total_reward_in_epoch = 0
+
+        for episode in tqdm(range(self.RUNS)):
+            state, _ = self.env.reset()
+            done = False
+            episode_reward = 0
+            step = 0
+            while not done:
+                step += 1
+                # if random.uniform(0, 1) < self.RANDOM_PERTURBATIONS_LEVEL:
+                #     perturbation_action = random.randrange(self.env.action_space.n)
+                #     state, done, _, _ = self.env.perturbate(perturbation_action, self.PERTURBATIONS_INTENSITY_STD)
+                #     logging.debug("perturbated in step {} with action {}".format(episode_rew, perturbation_action))
+
+                action = self.inferencer.inference(state)
+                new_state, reward, _, done, _ = self.env.step(action)
+                state = new_state
+                episode_reward += reward
+                total_reward_in_epoch += reward
+
+                w.add_scalar("reward/episode_reward", episode_reward, global_step=episode)
+
+            self.gather_statistics(step, episode_reward)
+
+            # monitor progress
+            if (episode + 1) % self.UPDATE_EVERY == 0:
+                time_spent = datetime.datetime.now() - epoch_start_time
+                epoch_start_time = datetime.datetime.now()
+                updates_message = 'Run: {0} Average: {1} time spent {2}'.format(episode,
+                                                                                total_reward_in_epoch / self.UPDATE_EVERY,
+                                                                                str(time_spent))
+                logging.info(updates_message)
+                print(updates_message)
+                total_reward_in_epoch=0
+        base_file_name = f'_rewards_rsl-{self.RANDOM_START_LEVEL}_rpl-{self.RANDOM_PERTURBATIONS_LEVEL}_pi-{self.PERTURBATIONS_INTENSITY_STD}'
+        file_path = f'{logs_dir}{datetime.datetime.now()}_{base_file_name}.pkl'
+        store_rewards(self.reward_list, file_path)
+        plt.plot(self.reward_list)
+        plt.legend("reward per episode")
+        plt.show()
@@ -0,0 +1,7 @@
+gym==0.26.2
+gymnasium==0.27.0
+markdownTable==6.0.0
+matplotlib==3.3.2
+numpy==1.17.4
+torch==1.12.1
+tqdm==4.64.0