openproblems-bio
diff --git a/‎docs/source/images/datasets.png‎
-222 KB b/‎docs/source/images/datasets.png‎
-222 KB
diff --git a/‎docs/source/images/table_datasets_summary.pdf‎
25.6 KB b/‎docs/source/images/table_datasets_summary.pdf‎
25.6 KB
diff --git a/‎src/local_workflows/run_evaluation.sh‎ ‎…al_workflows/run_grn_evaluation_local.sh‎src/local_workflows/run_evaluation.sh renamed to scripts/local_workflows/run_grn_evaluation_local.sh
Lines changed: 6 additions & 100 deletions b/‎src/local_workflows/run_evaluation.sh‎ ‎…al_workflows/run_grn_evaluation_local.sh‎src/local_workflows/run_evaluation.sh renamed to scripts/local_workflows/run_grn_evaluation_local.sh
Lines changed: 6 additions & 100 deletions
diff --git a/‎src/local_workflows/run_inference.sh‎ ‎…cal_workflows/run_grn_inference_local.sh‎src/local_workflows/run_inference.sh renamed to scripts/local_workflows/run_grn_inference_local.sh
Lines changed: 7 additions & 6 deletions b/‎src/local_workflows/run_inference.sh‎ ‎…cal_workflows/run_grn_inference_local.sh‎src/local_workflows/run_inference.sh renamed to scripts/local_workflows/run_grn_inference_local.sh
Lines changed: 7 additions & 6 deletions
diff --git a/‎scripts/prior/run_consensus.sh‎
Lines changed: 37 additions & 3 deletions b/‎scripts/prior/run_consensus.sh‎
Lines changed: 37 additions & 3 deletions
diff --git a/‎scripts/run_all.sh‎
Lines changed: 17 additions & 13 deletions b/‎scripts/run_all.sh‎
Lines changed: 17 additions & 13 deletions
diff --git a/‎scripts/run_consensus.sh‎
Lines changed: 118 additions & 0 deletions b/‎scripts/run_consensus.sh‎
Lines changed: 118 additions & 0 deletions
@@ -82,34 +82,12 @@ mkdir -p "$TEMP_DIR"
 
 # Generate and source dataset configuration
 echo "Generating dataset configuration..."
-python src/utils/config.py --output src/utils/dataset_config.env
-source src/utils/dataset_config.env
+python src/utils/config.py 
+source src/utils/config.env
 
 # Get list of datasets from config
-DATASETS=($(python -c "from src.utils.config import DATASET_GROUPS; print(' '.join(DATASET_GROUPS.keys()))"))
-# DATASETS=('norman')
-
-echo "Datasets to evaluate: ${DATASETS[@]}"
-
-# Method names to check
-GRN_METHODS=(
-    "positive_control"
-    "pearson_corr"
-    "negative_control"
-    "spearman_corr"
-    "scglue"
-    "scenicplus"
-    "celloracle"
-    "granie"
-    "figr"
-    "grnboost"
-    "portia"
-    "scenic"
-    "scprint"
-    "geneformer"
-    "scgpt"
-    "ppcor"
-)
+DATASETS=(${DATASETS//,/ })
+METHODS=(${METHODS//,/ })
 
 # Function to submit a metric evaluation job
 submit_metric_job() {
@@ -256,78 +234,7 @@ EOF
 # Function to run consensus for a dataset
 run_consensus() {
     local dataset=$1
-    
-    echo ""
-    echo "=========================================="
-    echo "Running Consensus for Dataset: $dataset"
-    echo "=========================================="
-    
-    # Build list of available predictions
-    local models_dir="resources/results/${dataset}"
-    local predictions=()
-    
-    for method in "${GRN_METHODS[@]}"; do
-        local file="${models_dir}/${dataset}.${method}.${method}.prediction.h5ad"
-        if [[ -f "$file" ]]; then
-            predictions+=("$file")
-            echo "  Found: ${method}"
-        fi
-    done
-    
-    if [[ ${#predictions[@]} -eq 0 ]]; then
-        echo "  [WARNING] No prediction files found for ${dataset}"
-        return
-    fi
-    
-    echo "  Total predictions: ${#predictions[@]}"
-    
-    # Run Regression consensus
-    echo ""
-    echo "Running Regression consensus..."
-    python src/metrics/regression/consensus/script.py \
-        --dataset "$dataset" \
-        --regulators_consensus "resources/grn_benchmark/prior/regulators_consensus_${dataset}.json" \
-        --evaluation_data "resources/grn_benchmark/evaluation_data/${dataset}_bulk.h5ad" \
-        --predictions "${predictions[@]}"
-    
-    # Run WS Distance consensus (only for applicable datasets)
-    local applicable_datasets=("norman" "adamson" "replogle" "xaira_HEK293T" "xaira_HCT116")
-    local skip=true
-    
-    for d in "${applicable_datasets[@]}"; do
-        if [[ "$dataset" == "$d" ]]; then
-            skip=false
-            break
-        fi
-    done
-    
-    if $skip; then
-        echo ""
-        echo "Skipping WS Distance consensus for ${dataset} (not applicable)"
-    else
-        echo ""
-        echo "Running WS Distance consensus..."
-        
-        # Extract model names for ws consensus
-        local models=()
-        for method in "${GRN_METHODS[@]}"; do
-            local file="${models_dir}/${dataset}.${method}.${method}.prediction.h5ad"
-            if [[ -f "$file" ]]; then
-                models+=("$method")
-            fi
-        done
-        
-        python src/metrics/ws_distance/consensus/script.py \
-            --dataset "$dataset" \
-            --models_dir "$models_dir" \
-            --ws_consensus "resources/grn_benchmark/prior/ws_consensus_${dataset}.csv" \
-            --tf_all "resources/grn_benchmark/prior/tf_all.csv" \
-            --evaluation_data_sc "resources/processed_data/${dataset}_evaluation_sc.h5ad" \
-            --models "${models[@]}"
-    fi
-    
-    echo ""
-    echo "Consensus completed for ${dataset}"
+    bash scripts/prior/run_consensus.sh --dataset "$dataset"
 }
 
 # Main execution
@@ -359,12 +266,11 @@ if [[ "$RUN_METRICS" == "true" ]]; then
         # echo "Looking in: $models_folder"
 
         # Check each method for this dataset
-        for method in "${GRN_METHODS[@]}"; do
+        for method in "${METHODS[@]}"; do
             prediction_file="${models_folder}/${dataset}.${method}.${method}.prediction.h5ad"
 
             if [[ -f "$prediction_file" ]]; then
                 submit_metric_job "$dataset" "$method" "$prediction_file"
-                # echo "  Submitting job: ${dataset}_${method}"
                 ((job_count++))
             else
                 echo "  [NOT FOUND] ${prediction_file}"
 
@@ -3,11 +3,14 @@
 set -e
 
 run_prefix='sbatch' #bash
-DATASETS=('op' 'adamson' 'replogle' 'norman' 'nakatake' 'parsebioscience'  '300BCG' 'xaira_HCT116' 'xaira_HEK293T') #'op' 'adamson' 'replogle' 'norman' 'nakatake' 'parsebioscience'  '300BCG' 'xaira_HCT116' 'xaira_HEK293T' 'ibd_uc' 'ibd_cd'
-DATASETS=('parsebioscience') #'op' 'adamson' 'replogle' 'norman' 'nakatake' 'parsebioscience'  '300BCG' 'xaira_HCT116' 'xaira_HEK293T' 'ibd_uc' 'ibd_cd'
+python src/utils/config.py
+source src/utils/config.env
 
-# METHODS=('negative_control' 'positive_control' 'pearson_corr' 'portia' 'ppcor' 'grnboost' 'scenic'  'scenicplus' 'scglue' 'figr' 'granie')
-METHODS=( 'scenic' 'grnboost') #'negative_control' 'positive_control' 'pearson_corr' 'portia' 'ppcor' 'grnboost' 'scenic'  'scenicplus' 'scglue' 'figr' 'granie'
+DATASETS=(${DATASETS//,/ })
+# DATASETS=('parsebioscience') #'op' 'adamson' 'replogle' 'norman' 'nakatake' 'parsebioscience'  '300BCG' 'xaira_HCT116' 'xaira_HEK293T' 'ibd_uc' 'ibd_cd'
+
+METHODS=(${METHODS//,/ })
+# METHODS=( 'scenic' 'grnboost') #'negative_control' 'positive_control' 'pearson_corr' 'portia' 'ppcor' 'grnboost' 'scenic'  'scenicplus' 'scglue' 'figr' 'granie'
 
 methods_dir='src/methods/'
 ctr_methods_dir='src/methods/'
@@ -33,10 +36,8 @@ run_func() {
     if [[ "$run_prefix" == "bash" ]]; then
         bash "$script" $arguments
     elif [[ "$run_prefix" == "sbatch" ]]; then
-        # submit the job and capture the job ID
         output=$(sbatch "$script" $arguments)
         echo "$output"
-        # sbatch usually returns: "Submitted batch job 12345678"
         jobid=$(echo "$output" | awk '{print $4}')
         echo "Job ID: $jobid"
     else
 
@@ -13,21 +13,55 @@
 
 set -e
 
-DATASET=$1
+DATASET=""
+NEW_MODEL_PATH=""
+
+while [[ $# -gt 0 ]]; do
+  case $1 in
+    --dataset)
+      DATASET="$2"
+      shift 2
+      ;;
+    --new_model)
+      NEW_MODEL_PATH="$2"
+      shift 2
+      ;;
+    *)
+      echo "Unknown option: $1"
+      echo "Usage: sbatch run_consensus.sh --dataset <dataset> [--new_model <path>]"
+      exit 1
+      ;;
+  esac
+done
+
 if [ -z "$DATASET" ]; then
-  echo "Usage: sbatch run_consensus.sh <dataset>"
+  echo "Usage: sbatch run_consensus.sh --dataset <dataset> [--new_model <path>]"
   exit 1
 fi
 
 models_dir="resources/results/$DATASET"
 models=("pearson_corr" "positive_control" "portia" "ppcor" "scenic" "scprint" "grnboost" "scenicplus" "scglue" "granie" "figr" "celloracle" "scgpt" "geneformer" "spearman_corr")
+python src/utils/config.py
+source src/utils/config.env
+METHODS=(${METHODS//,/ })
+
 predictions=()
-for model in "${models[@]}"; do
+for model in "${METHODS[@]}"; do
     file="${models_dir}/${DATASET}.${model}.${model}.prediction.h5ad"
     if [ -e "$file" ]; then
         predictions+=("$file")
     fi
 done
+
+if [ -n "$NEW_MODEL_PATH" ]; then
+    if [ -e "$NEW_MODEL_PATH" ]; then
+        echo "Adding new model: $NEW_MODEL_PATH"
+        predictions+=("$NEW_MODEL_PATH")
+    else
+        echo "Warning: New model path does not exist: $NEW_MODEL_PATH"
+    fi
+fi
+
 printf '%s\n' "${predictions[@]}"
 
 echo "Running consensus for Regression"
 
@@ -1,17 +1,19 @@
 set -e
 
-# datasets=( 'replogle' 'op' 'nakatake' 'norman'  'xaira_HEK293T' 'xaira_HCT116'  'parsebioscience' 'ibd_uc' 'ibd_cd' '300BCG' ) #'replogle' 'op' 'nakatake' 'norman'  'xaira_HEK293T' 'xaira_HCT116'  'parsebioscience' 'ibd_uc' 'ibd_cd'  '300BCG') #
-datasets=( 'op'  ) #'replogle' 'op' 'nakatake' 'norman'  'xaira_HEK293T' 'xaira_HCT116'  'parsebioscience' 'ibd_uc' 'ibd_cd' '300BCG') #
-run_local=false # set to true to run locally, false to run on AWS
+python src/utils/config.py
+source src/utils/config.env
+DATASETS=(${DATASETS//,/ })
 
-run_grn_inference=false
-run_grn_evaluation=true
-run_download=false
+run_local=false
+run_grn_inference=false #arg
+run_consensus=true
+run_grn_evaluation=true #arg
+run_sync=false
 
 num_workers=20
 
 
-for dataset in "${datasets[@]}"; do
+for dataset in "${DATASETS[@]}"; do
     trace_file="resources/results/$dataset/trace.txt"
 
     if [ "$run_grn_inference" = true ]; then
@@ -48,12 +50,14 @@ for dataset in "${datasets[@]}"; do
         # fi 
 
 
-        if [ "$run_local" = false ]; then
-            echo "Downloading inference results from AWS"
-            aws s3 sync  s3://openproblems-data/resources/grn/results/$dataset resources/results/$dataset 
+        # if [ "$run_local" = false ]; then
+        #     echo "Downloading inference results from AWS"
+        #     aws s3 sync  s3://openproblems-data/resources/grn/results/$dataset resources/results/$dataset 
+        # fi
+        if [ "$run_consensus" = true ]; then
+            echo "Running consensus for dataset: $dataset"
+            bash scripts/prior/run_consensus.sh --dataset $dataset # run consensus for Regression and ws distance -> needs to be run after adding each method and dataset
         fi
-        echo "Running consensus for dataset: $dataset"
-        bash scripts/prior/run_consensus.sh $dataset # run consensus for Regression and ws distance -> needs to be run after adding each method and dataset
 
         if [ "$run_local" = false ]; then
             echo "Syncing prior results to AWS"
@@ -64,7 +68,7 @@ for dataset in "${datasets[@]}"; do
         bash scripts/run_grn_evaluation.sh --dataset=$dataset --run_local=$run_local --build_images=false --num_workers=$num_workers
     fi
 
-    if [ "$run_download" = true ]; then
+    if [ "$run_sync" = true ]; then
         if [ "$run_local" = false ]; then
             echo "Downloading evaluation results from AWS"
             aws s3 sync  s3://openproblems-data/resources/grn/results/$dataset resources/results/$dataset 
 
@@ -0,0 +1,118 @@
+#!/bin/bash
+# Consensus Calculation Script
+# This script runs consensus calculations for both Regression and WS distance metrics
+# Usage: bash scripts/run_consensus.sh <dataset> [run_mode]
+#   dataset: name of the dataset (e.g., replogle, op, norman)
+#   run_mode: 'local' (default) or 'aws'
+
+set -e
+
+DATASET=$1
+
+if [ -z "$DATASET" ]; then
+  echo "Usage: bash scripts/run_consensus.sh <dataset> [run_mode]"
+  echo "  dataset: name of the dataset (required)"
+  echo "  run_mode: 'local' (default) or 'aws'"
+  exit 1
+fi
+
+echo "=========================================="
+echo "Running Consensus Calculation"
+echo "Dataset: $DATASET"
+echo "Run mode: $RUN_MODE"
+echo "=========================================="
+
+# Set paths based on run mode
+resources_dir="./resources"
+models_dir="${resources_dir}/results/$DATASET"
+
+# Get available methods from config
+echo "Checking available methods..."
+available_methods=$(python -c "
+from src.utils.config import METHODS
+import os
+methods = []
+for method in METHODS:
+    file = f'resources/results/$DATASET/$DATASET.{method}.{method}.prediction.h5ad'
+    if os.path.exists(file):
+        methods.append(method)
+print(' '.join(methods))
+")
+
+if [ -z "$available_methods" ]; then
+  echo "No prediction files found for dataset: $DATASET"
+  exit 1
+fi
+
+echo "Available methods: $available_methods"
+
+# Convert space-separated list to array
+methods_array=($available_methods)
+
+# Build predictions list
+predictions=()
+for method in "${methods_array[@]}"; do
+    file="resources/results/${DATASET}/${DATASET}.${method}.${method}.prediction.h5ad"
+    if [ -e "$file" ]; then
+        predictions+=("$file")
+    fi
+done
+
+if [ ${#predictions[@]} -eq 0 ]; then
+  echo "No prediction files found for consensus calculation"
+  exit 1
+fi
+
+echo "Found ${#predictions[@]} prediction files for consensus calculation"
+printf '%s\n' "${predictions[@]}"
+
+# Run Regression consensus
+echo ""
+echo "Running Regression consensus..."
+python src/metrics/regression/consensus/script.py \
+    --dataset "$DATASET" \
+    --regulators_consensus "resources/grn_benchmark/prior/regulators_consensus_${DATASET}.json" \
+    --evaluation_data "resources/grn_benchmark/evaluation_data/${DATASET}_bulk.h5ad" \
+    --predictions "${predictions[@]}"
+
+echo "Regression consensus completed successfully"
+
+# Run WS distance consensus (only for applicable datasets)
+applicable_datasets=("norman" "adamson" "replogle" "xaira_HEK293T" "xaira_HCT116")
+skip_ws=true
+for d in "${applicable_datasets[@]}"; do
+    if [[ "$DATASET" == "$d" ]]; then
+        skip_ws=false
+        break
+    fi
+done
+
+if [ "$skip_ws" = true ]; then
+    echo ""
+    echo "Skipping WS distance consensus (not applicable for dataset: $DATASET)"
+else
+    echo ""
+    echo "Running WS distance consensus..."
+    python src/metrics/ws_distance/consensus/script.py \
+        --dataset "$DATASET" \
+        --models_dir "resources/results/$DATASET" \
+        --ws_consensus "resources/grn_benchmark/prior/ws_consensus_${DATASET}.csv" \
+        --tf_all "resources/grn_benchmark/prior/tf_all.csv" \
+        --evaluation_data_sc "resources/processed_data/${DATASET}_evaluation_sc.h5ad" \
+        --models "${methods_array[@]}"
+    
+    echo "WS distance consensus completed successfully"
+fi
+
+# Sync results to AWS if needed
+if [ "$RUN_MODE" = "aws" ]; then
+    echo ""
+    echo "Syncing consensus results to AWS..."
+    aws s3 sync resources/grn_benchmark/prior s3://openproblems-data/resources/grn/grn_benchmark/prior
+    echo "Sync completed"
+fi
+
+echo ""
+echo "=========================================="
+echo "Consensus calculation completed for $DATASET"
+echo "=========================================="