ucl-cssb · McClain-Thiel · Nov 7, 2025 · Nov 7, 2025
diff --git a/docker-compose.yaml b/docker-compose.yaml
@@ -41,8 +41,8 @@ services:
       "
     environment:
       # W&B settings for this job
-      - WANDB_ENTITY=mcclain
-      - WANDB_PROJECT=plasmidrl-trl-grpo
+      - WANDB_ENTITY=ucl-cssb
+      - WANDB_PROJECT=PlasmidRL
       - WANDB_TAGS=["plasmid","rl","trl","grpo"]
       - WANDB_NOTES=TRL GRPO training on plasmid design
       - WANDB_DIR=/tmp/wandb
@@ -76,8 +76,8 @@ services:
         uv run wandb agent ${SWEEP_ID}
       "
     environment:
-      - WANDB_ENTITY=mcclain
-      - WANDB_PROJECT=plasmidrl-grpo-sweeps
+      - WANDB_ENTITY=ucl-cssb
+      - WANDB_PROJECT=PlasmidRL
       - WANDB_DIR=/tmp/wandb
       - SWEEP_ID=${SWEEP_ID}
       - PYTHONPATH=/mcclain

diff --git a/src/config.py b/src/config.py
@@ -47,6 +47,16 @@ class Config(BaseSettings):
     region_name: str = "us-east-1"
     runs_path: str = "runs/"
     infered_path: str = "infered/"
+    checkpoints_path: str = "checkpoints/"  # S3 prefix for checkpoint storage
+
+    # Production GRPO hyperparameters (from sweep optimization)
+    grpo_learning_rate: float = 0.00001906419115928539
+    grpo_per_device_train_batch_size: int = 16
+    grpo_num_generations: int = 4
+    grpo_temperature: float = 1.2292317925218237
+    grpo_top_p: float = 0.9086524230707756
+    grpo_beta: float = 0.00088482365318492
+    grpo_epsilon: float = 0.2649093053949679
 
     model_config = {
         "env_file": ".env",