PufferAI
diff --git a/‎config/cartpole.ini‎
Lines changed: 9 additions & 6 deletions b/‎config/cartpole.ini‎
Lines changed: 9 additions & 6 deletions
diff --git a/‎config/connect4.ini‎
Lines changed: 13 additions & 1 deletion b/‎config/connect4.ini‎
Lines changed: 13 additions & 1 deletion
diff --git a/‎config/enduro.ini‎
Lines changed: 11 additions & 7 deletions b/‎config/enduro.ini‎
Lines changed: 11 additions & 7 deletions
diff --git a/‎config/freeway.ini‎
Lines changed: 8 additions & 5 deletions b/‎config/freeway.ini‎
Lines changed: 8 additions & 5 deletions
diff --git a/‎config/grid.ini‎ ‎config/maze.ini‎config/grid.ini renamed to config/maze.ini
Lines changed: 9 additions & 18 deletions b/‎config/grid.ini‎ ‎config/maze.ini‎config/grid.ini renamed to config/maze.ini
Lines changed: 9 additions & 18 deletions
diff --git a/‎config/pacman.ini‎
Lines changed: 1 addition & 15 deletions b/‎config/pacman.ini‎
Lines changed: 1 addition & 15 deletions
diff --git a/‎config/slimevolley.ini‎
Lines changed: 30 additions & 0 deletions b/‎config/slimevolley.ini‎
Lines changed: 30 additions & 0 deletions
diff --git a/‎config/tetris.ini‎
Lines changed: 24 additions & 25 deletions b/‎config/tetris.ini‎
Lines changed: 24 additions & 25 deletions
diff --git a/‎config/trash_pickup.ini‎
Lines changed: 8 additions & 1 deletion b/‎config/trash_pickup.ini‎
Lines changed: 8 additions & 1 deletion
diff --git a/‎config/tripletriad.ini‎
Lines changed: 12 additions & 1 deletion b/‎config/tripletriad.ini‎
Lines changed: 12 additions & 1 deletion
@@ -1,12 +1,16 @@
 [base]
 package = ocean
 env_name = cartpole
-policy_name = Policy
+policy_name = MinGRU
 rnn_name = Recurrent
 
 [vec]
 total_agents = 4096
 
+[policy]
+num_layers = 2
+hidden_size = 64
+
 [env]
 cart_mass = 1.0
 pole_mass = 0.1
@@ -24,11 +28,10 @@ minibatch_size = 32768
 
 [sweep]
 method = Protein
-metric = episode_length
+metric = perf
 
 [sweep.train.total_timesteps]
 distribution = log_normal
-min = 1e6
-max = 1e7
-mean = 5e6
-scale = 0.5
+min = 5e6
+max = 2e7
+mean = 1e7
@@ -1,9 +1,21 @@
 [base]
 package = ocean
 env_name = connect4
-policy_name = Policy
+policy_name = MinGRU
 rnn_name = Recurrent
 
+[vec]
+total_agents = 4096
+
+[policy]
+num_layers = 2
+hidden_size = 64
+
+[env]
+num_agents = 1
+player_pieces = 0
+env_pieces = 0
+
 [train]
 total_timesteps = 22_000_000
 beta1 = 0.7332525176640032
 
@@ -1,9 +1,16 @@
 [base]
 package = ocean
 env_name = enduro 
-policy_name = Policy
+policy_name = MinGRU
 rnn_name = Recurrent
 
+[vec]
+total_agents = 4096
+
+[policy]
+num_layers = 2
+hidden_size = 64
+
 [env]
 width = 152
 height = 210
@@ -12,9 +19,6 @@ car_height = 11
 max_enemies = 10
 continuous = 0
 
-[vec]
-total_agents = 1024
-
 [train]
 total_timesteps = 400_000_000
 beta1 = 0.9602226117399812
@@ -41,7 +45,7 @@ metric = days_completed
 
 [sweep.train.total_timesteps]
 distribution = log_normal
-min = 5e7
-max = 4e8
-mean = 2e8
+min = 2e8
+max = 6e8
+mean = 4e8
 scale = auto
@@ -1,14 +1,17 @@
 [base]
 package = ocean
 env_name = freeway
-policy_name = Policy
+policy_name = MinGRU
 rnn_name = Recurrent
 
 [vec]
-num_envs = 8
+num_agents = 4096
+
+[policy]
+num_layers = 2
+num_units = 64
 
 [env]
-num_envs = 1024
 frameskip = 4
 width = 1216
 height = 720
@@ -30,6 +33,6 @@ minibatch_size = 32768
 [sweep.train.total_timesteps]
 distribution = log_normal
 min = 3e8
-max = 4e8
-mean = 3e8
+max = 6e8
+mean = 4e8
 scale = auto
@@ -1,23 +1,20 @@
 [base]
 package = ocean
-env_name = grid
-policy_name = Policy
+env_name = maze
+policy_name = MinGRU
 rnn_name = Recurrent
 
 [vec]
-total_agents = 512
-num_buffers = 2
-num_threads = 2
-seed = 73
+total_agents = 4096
 
 [env]
 max_size = 47
 num_maps = 8192
 map_size = -1
 
 [policy]
-hidden_size = 1024
-num_layers = 4.621958
+hidden_size = 64 
+num_layers = 2 
 expansion_factor = 1
 
 [train]
@@ -38,7 +35,7 @@ ent_coef = 0.000063
 beta1 = 0.989472
 beta2 = 0.994822
 eps = 0.000001
-minibatch_size = 8192
+minibatch_size = 32768
 horizon = 64
 vtrace_rho_clip = 5
 vtrace_c_clip = 2.007307
@@ -47,9 +44,9 @@ prio_beta0 = 0.976698
 use_rnn = 0
 env = 0
 
-[environment]
-score = 0.931234
-perf = 0.931234
+#[environment]
+#score = 0.931234
+#perf = 0.931234
 
 
 [sweep]
@@ -62,9 +59,3 @@ max = 1e9
 mean = 3e8
 scale = time
 
-[sweep.policy.hidden_size]
-distribution = uniform_pow2
-min = 16
-max = 1024
-mean = 128
-scale = auto
@@ -38,25 +38,11 @@ vtrace_rho_clip = 1.5301756939690652
 
 [sweep]
 downsample = 10
-max_cost = 300
 
 [sweep.train.total_timesteps]
 distribution = log_normal
-min = 2e7
+min = 5e7
 max = 5e8
 mean = 1e8
 scale = auto
 
-[sweep.policy.hidden_size]
-distribution = uniform_pow2
-min = 16
-max = 1024
-mean = 128
-scale = auto
-
-[sweep.env.num_envs]
-distribution = uniform_pow2
-min = 1
-max = 4096
-mean = 2048
-scale = auto
@@ -0,0 +1,30 @@
+[base]
+package = ocean
+env_name = slimevolley
+policy_name = MinGRU
+rnn_name = Recurrent
+
+[vec]
+total_agents = 4096
+
+[policy]
+num_layers = 2
+hidden_size = 64
+
+[env]
+; 1 for single-agent (vs bot), 2 for two-agent (self-play)
+num_agents=1
+gamma = 0.99
+[train]
+total_timesteps = 500_000_000
+
+[sweep]
+downsample = 5
+
+[sweep.train.total_timesteps]
+distribution = log_normal
+min = 1e8
+max = 2e9
+mean = 3e8
+scale = time
+
@@ -42,7 +42,6 @@ vtrace_rho_clip = 0.70
 [sweep]
 metric = score
 goal = maximize
-max_cost = 3600
 
 [sweep.train.total_timesteps]
 distribution = log_normal
@@ -51,30 +50,30 @@ max = 3_000_000_000
 mean = 200_000_000
 scale = auto
 
-[sweep.train.gae_lambda]
-distribution = logit_normal
-min = 0.01
-mean = 0.6
-max = 0.995
-scale = auto
+#[sweep.train.gae_lambda]
+#distribution = logit_normal
+#min = 0.01
+#mean = 0.6
+#max = 0.995
+#scale = auto
 
-[sweep.train.clip_coef]
-distribution = uniform
-min = 0.01
-max = 1.0
-mean = 0.1
-scale = auto
+#[sweep.train.clip_coef]
+#distribution = uniform
+#min = 0.01
+#max = 1.0
+#mean = 0.1
+#scale = auto
 
-[sweep.train.adam_beta1]
-distribution = logit_normal
-min = 0.5
-mean = 0.95
-max = 0.999
-scale = auto
+#[sweep.train.adam_beta1]
+#distribution = logit_normal
+#min = 0.5
+#mean = 0.95
+#max = 0.999
+#scale = auto
 
-[sweep.env.num_envs]
-distribution = uniform_pow2
-min = 1
-max = 4096
-mean = 2048
-scale = auto
+#[sweep.env.num_envs]
+#distribution = uniform_pow2
+#min = 1
+#max = 4096
+#mean = 2048
+#scale = auto
@@ -1,9 +1,16 @@
 [base]
 package = ocean
 env_name = trash_pickup 
-policy_name = TrashPickup
+policy_name = MinGRU 
 rnn_name = Recurrent
 
+[vec]
+total_agents = 4096
+
+[policy]
+num_layers = 2
+hidden_size = 64
+
 [env]
 grid_size = 20
 num_agents = 8
 
@@ -1,9 +1,16 @@
 [base]
 package = ocean
 env_name = tripletriad
-policy_name = Policy
+policy_name = MinGRU
 rnn_name = Recurrent
 
+[vec]
+num_agents = 4096
+
+[policy]
+num_layers = 2
+hidden_size = 64
+
 [env]
 width = 990
 height = 690
@@ -14,6 +21,10 @@ card_height = 224
 total_timesteps = 20_000_000
 gamma = 0.95
 
+[sweep]
+method = Protein 
+metric = perf
+
 [sweep.train.total_timesteps]
 distribution = log_normal
 min = 1e7