AbeelLab
diff --git a/‎scripts/analysis_experiments.ipynb‎
Lines changed: 441 additions & 0 deletions b/‎scripts/analysis_experiments.ipynb‎
Lines changed: 441 additions & 0 deletions
diff --git a/‎scripts/analysis_experiments_r2.ipynb‎
Lines changed: 406 additions & 0 deletions b/‎scripts/analysis_experiments_r2.ipynb‎
Lines changed: 406 additions & 0 deletions
diff --git a/‎scripts/process_excel_config.py‎
Lines changed: 116 additions & 0 deletions b/‎scripts/process_excel_config.py‎
Lines changed: 116 additions & 0 deletions
diff --git a/‎scripts/run_processconfig_simulations.py‎
Lines changed: 1 addition & 0 deletions b/‎scripts/run_processconfig_simulations.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎scripts/setupconfigfile.py‎
Lines changed: 10 additions & 6 deletions b/‎scripts/setupconfigfile.py‎
Lines changed: 10 additions & 6 deletions
@@ -0,0 +1,116 @@
+"""through command line, generate a config yml file
+for optimization_process.py"""
+
+import pandas as pd
+import ast
+import logging
+import numpy as np
+import datetime
+import argparse
+import yaml
+
+
+logging.basicConfig(
+    level=logging.INFO,
+    format='%(asctime)s - %(levelname)s - %(message)s'
+)
+logger = logging.getLogger(__name__)
+
+def parse_arguments():
+    parser = argparse.ArgumentParser(description="Convert Excel config to YAML for optimization pipeline.")
+    parser.add_argument(
+        "--config_excel",
+        type=str,
+        required=True,
+        help="Path to Excel configuration file (e.g., data/test_config.xlsx)"
+    )
+    return parser.parse_args()
+
+
+def main():
+    args = parse_arguments()
+    print(args.config_excel)
+    optimization_settings = pd.read_excel(args.config_excel, sheet_name='optimization_settings')
+    optimization_settings = dict(zip(optimization_settings['names'].values,optimization_settings['settings'].values))
+    cycle_info = pd.read_excel(args.config_excel, sheet_name='cycle_info',index_col=0).to_dict()
+    parameter_names_and_values = pd.read_excel(args.config_excel, sheet_name='parameter_names_and_values')
+    parameter_names_and_values = dict(zip(parameter_names_and_values['parameter_name'].values,parameter_names_and_values['values'].values))
+    parameter_names_and_values =  {i: ast.literal_eval(k) for i,k in parameter_names_and_values.items()}
+
+    output_config_name = f"{optimization_settings['output_filepath']}/{optimization_settings['output_name']}"
+
+    # start filling in the configuration file
+    config = {}
+
+    #checks if all the necessary components were in the excel sheet
+    assert all(key in optimization_settings for key in ["model_filepath","model_name", "target", "n_cycles",
+                                                        "noise_type", "noise_percentage", "t_start", "t_end", "timepoints"])
+
+    model_filepath = f"{optimization_settings['model_filepath']}/{optimization_settings['model_name']}.xml"
+    optimization_settings.pop("model_filepath")
+    optimization_settings.pop("model_name")
+    config['optimization_settings'] = {"model_filepath": model_filepath }
+    config['optimization_settings'] = {**config['optimization_settings'],**optimization_settings}
+
+    config['optimization_settings']['parameters_perturbation_values'] = parameter_names_and_values
+
+
+
+
+    cycle_information = {}
+    for i in range(config['optimization_settings']['n_cycles']):
+            design_build_test = {
+            "cycle_status": i,
+            "n_strains": cycle_info[i]["n_strains"],
+            "n_engineered_positions": cycle_info[i]['n_engineered_positions'],
+            "design_method": cycle_info[i]['design_method'],  # this should be a list input
+            "noise_percentage": config['optimization_settings']['noise_percentage'],
+            "noise_type": config['optimization_settings']['noise_type'],}
+
+            method_hyperparams = {}
+            method_hyperparams['sequencing_selection_method'] = cycle_info[i]['sequencing_selection_method']
+            method_hyperparams['n_screened_strains'] = cycle_info[i]['n_screened_strains']
+
+            if cycle_info[i]['design_method']=="ml_assisted_library_transform":
+                assert 'beta' in cycle_info[i]
+                assert 'n_screened_strains' in cycle_info[i]
+
+
+                if np.isnan(cycle_info[i]['beta']):
+                    logger.error("For ml_assisted_library_transform, beta needs to be specified in excel file")
+                else:
+                    method_hyperparams['beta'] = 2**cycle_info[i]['beta']
+
+                if 'ml_method' in cycle_info[i]:
+                    method_hyperparams['ml_method'] = cycle_info[i]['ml_model']
+                else:
+                    logger.info("ml_method not specified in cycle_info, automatically set to xgboost.")
+                    method_hyperparams['ml_method'] = "xgboost"
+
+                if "data_strategy" in cycle_info[i]:
+                    method_hyperparams['data_strategy'] = cycle_info[i]['data_strategy']
+                else:
+                    method_hyperparams['data_strategy'] = "all"
+                    logger.info("data_strategy not specified in cycle_info, automatically set to all strategy.")
+
+            design_build_test['design_method_hyperparams'] = method_hyperparams
+
+            learn_recommend = {
+                "recommender_method": cycle_info[i]['strain_recommendation'],
+                "recommender_method_hyperparams": None,
+            }
+
+            cycle_information[f"cycle_{i}"] = {
+                "design_build_test": design_build_test,
+                "learn_recommend": learn_recommend,
+            }
+            config['cycles'] = cycle_information
+
+
+
+    with open(f"{output_config_name}.yml", "w") as file:
+        yaml.dump(config, file, sort_keys=False)
+
+
+if __name__=="__main__":
+    main()
@@ -95,6 +95,7 @@ def main():
 
             cycle_names = optimization_process.data.keys()
             data = pd.concat([optimization_process.data[i] for i in cycle_names])
+            file = file.replace(".yml","")
             data.to_csv(f"{output_dir}/"
                         f"{file}_run{k}.csv")
 
 
@@ -7,16 +7,16 @@
 
 target = "product_A"
 
-output_dir = "data/config_files_yml/pathwayA/experiment3"
+output_dir = "data/config_files_yml/pathwayA/experiment6"
 Path(output_dir).mkdir(parents=True, exist_ok=True)
 
-run_id = 1
+run_id = 5
 n_cycles = 5
 n_experiments = [50]*n_cycles
 n_screened = n_experiments[0]*2
 screening_sampling_strategy = "stratified_sampling"
 n_features = 10 # maximum number
-n_engineered_positions = [10]*n_cycles
+n_engineered_positions = [6]*n_cycles
 design_method_per_cycle = ["library_transform",
                            "ml_assisted_library_transform",
                            "ml_assisted_library_transform",
@@ -28,13 +28,13 @@
 print(len(design_method_per_cycle))
 assert len(design_method_per_cycle) == n_cycles
 noise_percentage = 0.1  # not a percentage
-beta = 10
+beta = 30
 noise_type = "homoscedastic"
 model_filepath = "models/bioprocess_models"
 model_name = "batch_model_pathwayA"
 
 
-promoter_values = [0.25, 0.5, 0.75, 1, 1.25, 1.5, 1.75, 2]
+promoter_values = [0.5, 1, 1.5, 2]
 
 
 
@@ -46,7 +46,8 @@
                f"X{len(promoter_values)}"
                f"N{n_experiments[0]}"
                f"F{n_features}"
-               f"P{n_engineered_positions[0]}")
+               f"P{n_engineered_positions[0]}_"
+               f"{run_id}")
 
 # stratified_sampling
 
@@ -69,14 +70,17 @@
     "enzyme_17": promoter_values,
     "enzyme_4": promoter_values,
     "enzyme_5": promoter_values,
+
     "enzyme_12": promoter_values,
     "enzyme_14": promoter_values,
     "enzyme_2": promoter_values,
     "enzyme_16": promoter_values,
+
     "enzyme_15": promoter_values,
     "enzyme_7": promoter_values,
     # "enzyme_6": promoter_values,
     # "enzyme_10": promoter_values,
+    #
     # "enzyme_11": promoter_values,
     # "enzyme_9": promoter_values,
     # "enzyme_8": promoter_values,