PufferAI
diff --git a/‎config/cartpole.ini‎
Lines changed: 8 additions & 5 deletions b/‎config/cartpole.ini‎
Lines changed: 8 additions & 5 deletions
diff --git a/‎config/connect4.ini‎
Lines changed: 12 additions & 0 deletions b/‎config/connect4.ini‎
Lines changed: 12 additions & 0 deletions
diff --git a/‎config/enduro.ini‎
Lines changed: 10 additions & 6 deletions b/‎config/enduro.ini‎
Lines changed: 10 additions & 6 deletions
diff --git a/‎config/freeway.ini‎
Lines changed: 7 additions & 4 deletions b/‎config/freeway.ini‎
Lines changed: 7 additions & 4 deletions
diff --git a/‎config/grid.ini‎ ‎config/maze.ini‎config/grid.ini renamed to config/maze.ini
Lines changed: 9 additions & 17 deletions b/‎config/grid.ini‎ ‎config/maze.ini‎config/grid.ini renamed to config/maze.ini
Lines changed: 9 additions & 17 deletions
diff --git a/‎config/ocean/drive.ini‎
Lines changed: 98 additions & 0 deletions b/‎config/ocean/drive.ini‎
Lines changed: 98 additions & 0 deletions
diff --git a/‎config/pacman.ini‎
Lines changed: 1 addition & 15 deletions b/‎config/pacman.ini‎
Lines changed: 1 addition & 15 deletions
diff --git a/‎config/slimevolley.ini‎
Lines changed: 30 additions & 0 deletions b/‎config/slimevolley.ini‎
Lines changed: 30 additions & 0 deletions
diff --git a/‎config/tetris.ini‎
Lines changed: 24 additions & 25 deletions b/‎config/tetris.ini‎
Lines changed: 24 additions & 25 deletions
diff --git a/‎config/trash_pickup.ini‎
Lines changed: 7 additions & 0 deletions b/‎config/trash_pickup.ini‎
Lines changed: 7 additions & 0 deletions
@@ -4,6 +4,10 @@ env_name = cartpole
 [vec]
 total_agents = 4096
 
+[policy]
+num_layers = 2
+hidden_size = 64
+
 [env]
 cart_mass = 1.0
 pole_mass = 0.1
@@ -21,11 +25,10 @@ minibatch_size = 32768
 
 [sweep]
 method = Protein
-metric = episode_length
+metric = perf
 
 [sweep.train.total_timesteps]
 distribution = log_normal
-min = 1e6
-max = 1e7
-mean = 5e6
-scale = 0.5
+min = 5e6
+max = 2e7
+mean = 1e7
@@ -1,6 +1,18 @@
 [base]
 env_name = connect4
 
+[vec]
+total_agents = 4096
+
+[policy]
+num_layers = 2
+hidden_size = 64
+
+[env]
+num_agents = 1
+player_pieces = 0
+env_pieces = 0
+
 [train]
 total_timesteps = 22_000_000
 beta1 = 0.7332525176640032
 
@@ -1,6 +1,13 @@
 [base]
 env_name = enduro
 
+[vec]
+total_agents = 4096
+
+[policy]
+num_layers = 2
+hidden_size = 64
+
 [env]
 width = 152
 height = 210
@@ -9,9 +16,6 @@ car_height = 11
 max_enemies = 10
 continuous = 0
 
-[vec]
-total_agents = 1024
-
 [train]
 total_timesteps = 400_000_000
 beta1 = 0.9602226117399812
@@ -38,7 +42,7 @@ metric = days_completed
 
 [sweep.train.total_timesteps]
 distribution = log_normal
-min = 5e7
-max = 4e8
-mean = 2e8
+min = 2e8
+max = 6e8
+mean = 4e8
 scale = auto
@@ -2,10 +2,13 @@
 env_name = freeway
 
 [vec]
-num_envs = 8
+num_agents = 4096
+
+[policy]
+num_layers = 2
+num_units = 64
 
 [env]
-num_envs = 1024
 frameskip = 4
 width = 1216
 height = 720
@@ -27,6 +30,6 @@ minibatch_size = 32768
 [sweep.train.total_timesteps]
 distribution = log_normal
 min = 3e8
-max = 4e8
-mean = 3e8
+max = 6e8
+mean = 4e8
 scale = auto
@@ -1,20 +1,18 @@
 [base]
-env_name = grid
+package = ocean
+env_name = maze
 
 [vec]
-total_agents = 512
-num_buffers = 2
-num_threads = 2
-seed = 73
+total_agents = 4096
 
 [env]
 max_size = 47
 num_maps = 8192
 map_size = -1
 
 [policy]
-hidden_size = 1024
-num_layers = 4.621958
+hidden_size = 64 
+num_layers = 2 
 expansion_factor = 1
 
 [train]
@@ -35,17 +33,17 @@ ent_coef = 0.000063
 beta1 = 0.989472
 beta2 = 0.994822
 eps = 0.000001
-minibatch_size = 8192
+minibatch_size = 32768
 horizon = 64
 vtrace_rho_clip = 5
 vtrace_c_clip = 2.007307
 prio_alpha = 0.664124
 prio_beta0 = 0.976698
 env = 0
 
-[environment]
-score = 0.931234
-perf = 0.931234
+#[environment]
+#score = 0.931234
+#perf = 0.931234
 
 
 [sweep]
@@ -58,9 +56,3 @@ max = 1e9
 mean = 3e8
 scale = time
 
-[sweep.policy.hidden_size]
-distribution = uniform_pow2
-min = 16
-max = 1024
-mean = 128
-scale = auto
@@ -0,0 +1,98 @@
+[base]
+package = ocean
+env_name = puffer_drive
+policy_name = MinGRU
+rnn_name = Recurrent
+
+[vec]
+total_agents = 8192
+num_buffers = 8
+
+[policy]
+input_size = 64
+hidden_size = 256
+
+[rnn]
+input_size = 256
+hidden_size = 256
+
+[env]
+width = 1280
+height = 1024
+human_agent_idx = 0
+reward_vehicle_collision = 0
+reward_offroad_collision = 0
+spawn_immunity_timer = 50   
+reward_goal_post_respawn = 0.0
+reward_vehicle_collision_post_respawn = 0.0
+resample_frequency = 910
+num_maps = 10000
+
+[train]
+total_timesteps = 2_000_000_000
+anneal_lr = True
+batch_size = auto
+minibatch_size = 32768
+num_minibatches = 16
+horizon = 128
+adam_beta1 = 0.9
+adam_beta2 = 0.999
+adam_eps = 1e-8
+clip_coef = 0.2
+ent_coef = 0.001
+gae_lambda = 0.95
+gamma = 0.98
+learning_rate = 0.005
+max_grad_norm = 1
+prio_alpha = 0.8499999999999999
+prio_beta0 = 0.8499999999999999
+update_epochs = 1
+vf_clip_coef = 0.1999999999999999
+vf_coef = 2
+vtrace_c_clip = 1
+vtrace_rho_clip = 1
+checkpoint_interval = 1000
+
+
+
+[sweep.train.total_timesteps]
+distribution = log_normal
+min = 1e8
+max = 4e8
+mean = 2e8
+scale = time
+ 
+[sweep.env.reward_vehicle_collision]
+distribution = uniform
+min = -1.0
+max = 0.0
+mean = -0.2
+scale = auto 
+ 
+[sweep.env.reward_offroad_collision]
+distribution = uniform
+min = -1.0
+max = 0.0
+mean = -0.2
+scale = auto
+
+[sweep.env.spawn_immunity_timer]
+distribution = uniform
+min = 1
+max = 91
+mean = 30
+scale = auto
+
+[sweep.env.reward_goal_post_respawn]
+distribution = uniform
+min = 0.0
+max = 1.0
+mean = 0.5
+scale = auto
+
+[sweep.env.reward_vehicle_collision_post_respawn]
+distribution = uniform
+min = -1.0
+max = 0.0
+mean = -0.2
+scale = auto
@@ -35,25 +35,11 @@ vtrace_rho_clip = 1.5301756939690652
 
 [sweep]
 downsample = 10
-max_cost = 300
 
 [sweep.train.total_timesteps]
 distribution = log_normal
-min = 2e7
+min = 5e7
 max = 5e8
 mean = 1e8
 scale = auto
 
-[sweep.policy.hidden_size]
-distribution = uniform_pow2
-min = 16
-max = 1024
-mean = 128
-scale = auto
-
-[sweep.env.num_envs]
-distribution = uniform_pow2
-min = 1
-max = 4096
-mean = 2048
-scale = auto
@@ -0,0 +1,30 @@
+[base]
+package = ocean
+env_name = slimevolley
+policy_name = MinGRU
+rnn_name = Recurrent
+
+[vec]
+total_agents = 4096
+
+[policy]
+num_layers = 2
+hidden_size = 64
+
+[env]
+; 1 for single-agent (vs bot), 2 for two-agent (self-play)
+num_agents=1
+gamma = 0.99
+[train]
+total_timesteps = 500_000_000
+
+[sweep]
+downsample = 5
+
+[sweep.train.total_timesteps]
+distribution = log_normal
+min = 1e8
+max = 2e9
+mean = 3e8
+scale = time
+
@@ -39,7 +39,6 @@ vtrace_rho_clip = 0.70
 [sweep]
 metric = score
 goal = maximize
-max_cost = 3600
 
 [sweep.train.total_timesteps]
 distribution = log_normal
@@ -48,30 +47,30 @@ max = 3_000_000_000
 mean = 200_000_000
 scale = auto
 
-[sweep.train.gae_lambda]
-distribution = logit_normal
-min = 0.01
-mean = 0.6
-max = 0.995
-scale = auto
+#[sweep.train.gae_lambda]
+#distribution = logit_normal
+#min = 0.01
+#mean = 0.6
+#max = 0.995
+#scale = auto
 
-[sweep.train.clip_coef]
-distribution = uniform
-min = 0.01
-max = 1.0
-mean = 0.1
-scale = auto
+#[sweep.train.clip_coef]
+#distribution = uniform
+#min = 0.01
+#max = 1.0
+#mean = 0.1
+#scale = auto
 
-[sweep.train.adam_beta1]
-distribution = logit_normal
-min = 0.5
-mean = 0.95
-max = 0.999
-scale = auto
+#[sweep.train.adam_beta1]
+#distribution = logit_normal
+#min = 0.5
+#mean = 0.95
+#max = 0.999
+#scale = auto
 
-[sweep.env.num_envs]
-distribution = uniform_pow2
-min = 1
-max = 4096
-mean = 2048
-scale = auto
+#[sweep.env.num_envs]
+#distribution = uniform_pow2
+#min = 1
+#max = 4096
+#mean = 2048
+#scale = auto
@@ -1,6 +1,13 @@
 [base]
 env_name = trash_pickup
 
+[vec]
+total_agents = 4096
+
+[policy]
+num_layers = 2
+hidden_size = 64
+
 [env]
 grid_size = 20
 num_agents = 8