openproblems-bio
diff --git a/‎scripts/run_all.sh‎
Lines changed: 2 additions & 2 deletions b/‎scripts/run_all.sh‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎scripts/run_grn_inference.sh‎
Lines changed: 10 additions & 3 deletions b/‎scripts/run_grn_inference.sh‎
Lines changed: 10 additions & 3 deletions
diff --git a/‎scripts/sync_resources.sh‎
Lines changed: 1 addition & 1 deletion b/‎scripts/sync_resources.sh‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/exp_analysis/helper.py‎
Lines changed: 0 additions & 501 deletions b/‎src/exp_analysis/helper.py‎
Lines changed: 0 additions & 501 deletions
diff --git a/‎src/exp_analysis/peak_annotation/config.vsh.yaml‎
Lines changed: 0 additions & 35 deletions b/‎src/exp_analysis/peak_annotation/config.vsh.yaml‎
Lines changed: 0 additions & 35 deletions
diff --git a/‎src/exp_analysis/peak_annotation/run.sh‎
Lines changed: 0 additions & 7 deletions b/‎src/exp_analysis/peak_annotation/run.sh‎
Lines changed: 0 additions & 7 deletions
diff --git a/‎src/exp_analysis/peak_annotation/script.R‎
Lines changed: 0 additions & 82 deletions b/‎src/exp_analysis/peak_annotation/script.R‎
Lines changed: 0 additions & 82 deletions
diff --git a/‎src/methods/geneformer/helper.py‎
Lines changed: 20 additions & 4 deletions b/‎src/methods/geneformer/helper.py‎
Lines changed: 20 additions & 4 deletions
diff --git a/‎src/methods/geneformer/script.py‎
Lines changed: 2 additions & 0 deletions b/‎src/methods/geneformer/script.py‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎src/metrics/all_metrics/helper.py‎
Lines changed: 9 additions & 21 deletions b/‎src/metrics/all_metrics/helper.py‎
Lines changed: 9 additions & 21 deletions
@@ -1,8 +1,8 @@
 set -e
 
-datasets=( 'replogle') #'replogle' 'op' 'nakatake' 'adamson' 'norman'  'xaira_HEK293T' 'xaira_HCT116'  'parsebioscience' 'ibd' '300BCG'
+datasets=( 'op' 'replogle' '300BCG') #'replogle' 'op' 'nakatake' 'adamson' 'norman'  'xaira_HEK293T' 'xaira_HCT116'  'parsebioscience' 'ibd' '300BCG'
 
-run_local=true # set to true to run locally, false to run on AWS
+run_local=false # set to true to run locally, false to run on AWS
 
 run_grn_inference=false
 run_grn_evaluation=true
 
@@ -115,13 +115,20 @@ HERE
 }
 
 if [[ "$DATASET" =~ ^(replogle|parsescience|xaira_HEK293T|xaira_HCT116)$ ]]; then
-  append_entry "$DATASET" "[pearson_corr, negative_control, positive_control, grnboost, ppcor, portia, scenic]"
+  methods="[pearson_corr, negative_control, positive_control, grnboost, ppcor, portia, scenic]"
+  append_entry "$DATASET" "$methods" 
   append_entry "$DATASET" "[scprint]" "true"
+  echo $methods 
 elif [ "$DATASET" = "op" ] || [ "$DATASET" = "ibd" ]; then
-  append_entry "$DATASET" "[pearson_corr, spearman_corr, negative_control, positive_control, grnboost, ppcor, portia, scenic, scprint, geneformer, scgpt, figr, scenicplus, celloracle, granie, scglue]"
+  methods="[geneformer, scgpt]"
+  # append_entry "$DATASET" "[pearson_corr, spearman_corr, negative_control, positive_control, grnboost, ppcor, portia, scenic, scprint, geneformer, scgpt, figr, scenicplus, celloracle, granie, scglue]"
+  append_entry "$DATASET" "$methods" 
+  echo $methods 
 
 else
-  append_entry "$DATASET" "[pearson_corr, negative_control, positive_control, grnboost, ppcor, portia, scenic, scprint]"
+  methods="[pearson_corr, negative_control, positive_control, grnboost, ppcor, portia, scenic, scprint]"
+  append_entry "$DATASET" "$methods"
+  echo $methods
 fi
 # append_entry "$DATASET" "[pearson_corr, negative_control, positive_control, scprint, portia, scgpt]"
 # append_entry "$DATASET" "[scenicplus, figr, celloracle]"
 
@@ -27,6 +27,6 @@ set -e
 # aws s3 sync resources/results/experiment  s3://openproblems-data/resources/grn/results/experiment --delete 
 # aws s3 sync resources_test  s3://openproblems-data/resources_test/grn/ --delete 
 # aws s3 sync  resources/grn_benchmark/ground_truth s3://openproblems-data/resources/grn/grn_benchmark/ground_truth 
-aws s3 sync  resources/grn_benchmark/evaluation_data s3://openproblems-data/resources/grn/grn_benchmark/evaluation_data --delete
+aws s3 sync  resources/grn_benchmark/ s3://openproblems-data/resources/grn/grn_benchmark/ --delete
 
 # aws s3 sync   s3://openproblems-data/resources/grn/grn_benchmark/ground_truth resources/grn_benchmark/ground_truth --no-sign-request
@@ -1,3 +1,4 @@
+
 import logging
 import pickle
 from collections import Counter
@@ -978,7 +979,10 @@ def compute_geneformer_network(
     token=None,
     model_dir=None,
     tokenized_dir=None,
-    embedding_dir=None
+    embedding_dir=None,
+    model_details=None,
+    gene_median=None,
+    gene_mapping_file=None
 ):
     if not all([gene_mapping_dict, token, model_dir, tokenized_dir, embedding_dir]):
         raise ValueError("Missing required parameters for compute_geneformer_network")
@@ -1002,8 +1006,17 @@ def compute_geneformer_network(
     if os.path.exists(tokenized_data_path):
         shutil.rmtree(tokenized_data_path)
 
-    # Note: This would need proper model_details, gene_median, gene_mapping_file parameters
-    tryParallelFunction(tokenize_data, "Tokenizing data", temp_dir=geneformer_folder)
+    # Pass all required parameters to tokenize_data
+    tryParallelFunction(
+        tokenize_data,
+        "Tokenizing data",
+        temp_dir=geneformer_folder,
+        model_details=model_details,
+        gene_median=gene_median,
+        token=token,
+        gene_mapping_file=gene_mapping_file,
+        tokenized_dir=tokenized_dir
+    )
 
     embex = EmbExtractor(
         model_type="Pretrained",  # CellClassifier
@@ -1162,7 +1175,10 @@ def main(par):
             token=token,
             model_dir=model_dir,
             tokenized_dir=tokenized_dir,
-            embedding_dir=embedding_dir
+            embedding_dir=embedding_dir,
+            model_details=model_details,
+            gene_median=gene_median,
+            gene_mapping_file=gene_mapping_file
         )
         gene_names = subadata.var["symbol"].values
         print(net.shape, net.sum(), len(gene_names), gene_names[:10])
 
@@ -10,6 +10,8 @@
     "rna": "resources_test/grn_benchmark/inference_data/op_rna.h5ad",
     "tf_all": "resources_test/prior/tf_all.csv",
     "prediction": "output/geneformer/prediction.h5ad",
+    "model": "Geneformer-V2-104M",
+    
     "max_n_links": 50000,
     "batch_size": 16,
     "temp_dir": "output/geneformer",
 
@@ -11,8 +11,7 @@
 
 from regression_2.helper import main as main_reg2
 from ws_distance.helper import main as main_ws_distance
-from experimental.sem.helper import main as main_sem
-# from vc_v2.helper import main as main_vc_v2
+from sem.helper import main as main_sem
 from tf_recovery.helper import main as main_tf_rec
 from tf_binding.helper import main as main_tf_binding
 from replica_consistency.helper import main as main_replica_consistency
@@ -45,25 +44,14 @@ def main(par):
             rr_replica = pd.DataFrame()
         print("replica consistency done: ", rr_replica)
         rr_store.append(rr_replica)
-
-    
-    # if True:
-    #     try:
-    #         rr_vc = main_vc_v2(par)
-    #     except Exception as e:
-    #         print(f"Error in vc metrics: {e}")
-    #         rr_vc = pd.DataFrame()
-    #     print("vc done: ", rr_vc)
-    #     rr_store.append(rr_vc)
-
-
-    # try:
-    #     rr_reg2 = main_reg2(par)
-    # except Exception as e:
-    #     print(f"Error in regression 2 metrics: {e}")
-    #     rr_reg2 = pd.DataFrame()
-    # rr_store.append(rr_reg2)
-    # print("reg2 done: ", rr_reg2)
+    if True:
+        try:
+            rr_reg2 = main_reg2(par)
+        except Exception as e:
+            print(f"Error in regression 2 metrics: {e}")
+            rr_reg2 = pd.DataFrame()
+        rr_store.append(rr_reg2)
+        print("reg2 done: ", rr_reg2)
 
     if True:
         try: