SamoraHunter
diff --git a/‎ml_grid/model_classes/H2ODeepLearningClassifier.py‎
Lines changed: 0 additions & 1 deletion b/‎ml_grid/model_classes/H2ODeepLearningClassifier.py‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎ml_grid/model_classes/H2OGLMClassifier.py‎
Lines changed: 1 addition & 2 deletions b/‎ml_grid/model_classes/H2OGLMClassifier.py‎
Lines changed: 1 addition & 2 deletions
diff --git a/‎ml_grid/model_classes/NeuralNetworkClassifier_class.py‎
Lines changed: 0 additions & 1 deletion b/‎ml_grid/model_classes/NeuralNetworkClassifier_class.py‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎ml_grid/model_classes/knn_gpu_classifier_class.py‎
Lines changed: 2 additions & 2 deletions b/‎ml_grid/model_classes/knn_gpu_classifier_class.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎ml_grid/pipeline/data.py‎
Lines changed: 1 addition & 1 deletion b/‎ml_grid/pipeline/data.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎ml_grid/pipeline/data_correlation_matrix.py‎
Lines changed: 3 additions & 3 deletions b/‎ml_grid/pipeline/data_correlation_matrix.py‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎ml_grid/pipeline/data_feature_importance_methods.py‎
Lines changed: 15 additions & 12 deletions b/‎ml_grid/pipeline/data_feature_importance_methods.py‎
Lines changed: 15 additions & 12 deletions
diff --git a/‎ml_grid/pipeline/data_train_test_split.py‎
Lines changed: 6 additions & 4 deletions b/‎ml_grid/pipeline/data_train_test_split.py‎
Lines changed: 6 additions & 4 deletions
diff --git a/‎ml_grid/pipeline/grid_search_cross_validate.py‎
Lines changed: 2 additions & 18 deletions b/‎ml_grid/pipeline/grid_search_cross_validate.py‎
Lines changed: 2 additions & 18 deletions
diff --git a/‎ml_grid/pipeline/hyperparameter_search.py‎
Lines changed: 5 additions & 3 deletions b/‎ml_grid/pipeline/hyperparameter_search.py‎
Lines changed: 5 additions & 3 deletions
@@ -1,4 +1,3 @@
-
 import pandas as pd
 from h2o.estimators import H2ODeepLearningEstimator
 from skopt.space import Categorical, Integer, Real
 
@@ -1,7 +1,6 @@
-import numpy as np
 import pandas as pd
 from h2o.estimators import H2OGeneralizedLinearEstimator
-from skopt.space import Real, Categorical, Integer
+from skopt.space import Real, Categorical
 
 from .H2OBaseClassifier import H2OBaseClassifier
 
 
@@ -54,7 +54,6 @@ def __init__(
 
         self.parameter_space: Union[List[Dict[str, Any]], Dict[str, Any]]
 
-
         from ml_grid.util.global_params import global_parameters
 
         if global_parameters.bayessearch:
 
@@ -11,7 +11,7 @@ class for the KNNWrapper (GPU-accelerated KNN). It provides parameter spaces for
 import pandas as pd
 from skopt.space import Categorical, Integer
 
-#from ml_grid.model_classes.knn_wrapper_class import KNNWrapper
+# from ml_grid.model_classes.knn_wrapper_class import KNNWrapper
 from ml_grid.util import param_space
 from ml_grid.util.global_params import global_parameters
 
@@ -45,7 +45,7 @@ def __init__(
         self.y: Optional[pd.Series] = y
 
         # Initialize KNNWrapper for GPU support
-        #self.algorithm_implementation: KNNWrapper = KNNWrapper()
+        # self.algorithm_implementation: KNNWrapper = KNNWrapper()
         self.method_name: str = "knn__gpu"
 
         # Define the parameter vector space
 
@@ -718,7 +718,7 @@ def _select_features_by_importance(self):
                     f"Feature importance selection failed: {e}", exc_info=True
                 )
                 self.logger.warning("Reverting to pre-selection features due to error.")
-                
+
                 # Explicitly ensure we are pointing to the valid backups
                 self.X_train = X_train_backup
                 self.y_train = y_train_backup
 
@@ -45,7 +45,7 @@ def handle_correlation_matrix(
     use_gpu = False
     try:
         import cupy as cp
-        
+
         # Check if CUDA is available first (before trying to access device)
         if not cp.cuda.is_available():
             logger.info("No CUDA-capable GPU detected. Using CPU.")
@@ -72,7 +72,7 @@ def handle_correlation_matrix(
                 logger.info(f"CUDA runtime error (using CPU): {cuda_err}")
             except Exception as device_err:
                 logger.info(f"Could not access GPU device (using CPU): {device_err}")
-                
+
     except ImportError:
         logger.info("CuPy not installed. Using CPU-only mode.")
     except Exception as e:
@@ -213,4 +213,4 @@ def _process_on_cpu(
     final_drop_set = existing_drops.union(newly_identified_drops)
 
     logger.info(f"CPU complete. Total columns to drop: {len(final_drop_set)}")
-    return sorted(list(final_drop_set))
+    return sorted(list(final_drop_set))
@@ -5,6 +5,7 @@
 
 from ml_grid.pipeline.data_feature_methods import feature_methods
 
+
 class feature_importance_methods:
     """A class to handle feature selection using different importance methods."""
 
@@ -47,7 +48,7 @@ def handle_feature_importance_methods(
         """
 
         logger = logging.getLogger("ml_grid")
-        
+
         # Work with copies to avoid modifying the original DataFrames in the calling scope
         X_train_copy = X_train.copy()
         X_test_copy = X_test.copy()
@@ -56,7 +57,7 @@ def handle_feature_importance_methods(
         self.feature_method = ml_grid_object.local_param_dict.get(
             "feature_selection_method"
         )
-        
+
         # Default to all features initially
         features = list(X_train_copy.columns)
 
@@ -75,14 +76,14 @@ def handle_feature_importance_methods(
             )
 
         logger.info(f"target_n_features: {target_n_features}")
-        
+
         # --- Column Validation ---
         # Filter the requested 'features' to ensure they actually exist in the DataFrame.
-        # This handles cases where selectors return indices, 'ColumnX' names, or 
+        # This handles cases where selectors return indices, 'ColumnX' names, or
         # names that were dropped/renamed in previous pipeline steps.
-        
+
         valid_features = [f for f in features if f in X_train_copy.columns]
-        
+
         if len(valid_features) == 0:
             logger.warning(
                 f"Feature selection ({self.feature_method}) returned 0 valid features. "
@@ -91,16 +92,18 @@ def handle_feature_importance_methods(
             )
             valid_features = list(X_train_copy.columns)
         elif len(valid_features) < len(features):
-             logger.warning(
-                 f"{len(features) - len(valid_features)} selected features were not found in X_train columns. Dropped invalid keys."
-             )
+            logger.warning(
+                f"{len(features) - len(valid_features)} selected features were not found in X_train columns. Dropped invalid keys."
+            )
 
-        logger.info(f"Final selected features ({len(valid_features)}): {valid_features}")
+        logger.info(
+            f"Final selected features ({len(valid_features)}): {valid_features}"
+        )
 
-        # Apply the validated selection 
+        # Apply the validated selection
         X_train_out = X_train_copy[valid_features]
         X_test_out = X_test_copy[valid_features]
         X_test_orig_out = X_test_orig_copy[valid_features]
 
         # The y series do not need to be modified, as they are already aligned.
-        return X_train_out, y_train, X_test_out, y_test, X_test_orig_out
+        return X_train_out, y_train, X_test_out, y_test, X_test_orig_out
@@ -52,15 +52,17 @@ def get_data_split(
     class_counts = y.value_counts()
     min_class_count = class_counts.min()
     use_stratify = min_class_count >= 2
-    
+
     if not use_stratify:
         logger.warning(
             f"Cannot use stratified split: smallest class has only {min_class_count} sample(s). "
             f"Class distribution: {class_counts.to_dict()}. Using random split instead."
         )
         # Also disable resampling since we can't properly balance with so few samples
         if local_param_dict.get("resample") is not None:
-            logger.warning("Disabling resampling due to insufficient samples in minority class.")
+            logger.warning(
+                "Disabling resampling due to insufficient samples in minority class."
+            )
             local_param_dict["resample"] = None
 
     # First, split into a preliminary training set and a final hold-out test set.
@@ -116,7 +118,7 @@ def get_data_split(
     train_class_counts = y_train_processed.value_counts()
     min_train_class_count = train_class_counts.min()
     use_stratify_second = min_train_class_count >= 2
-    
+
     if not use_stratify_second:
         logger.warning(
             f"Cannot use stratified split for train/validation: smallest class has only "
@@ -161,4 +163,4 @@ def is_valid_shape(input_data: Union[np.ndarray, pd.DataFrame]) -> bool:
 
     else:
         # Input data is neither a numpy array nor a pandas DataFrame
-        return False
+        return False
@@ -1,20 +1,15 @@
 import time
-import traceback
 import logging
 import warnings
 from typing import Any, Dict, List, Optional, Union
 
-import keras
 import numpy as np
 import pandas as pd
 import tensorflow as tf
 import torch
 from IPython.display import clear_output
-from numpy import absolute, mean, std
 from scikeras.wrappers import KerasClassifier
 from sklearn import metrics
-from IPython.display import display
-from catboost import CatBoostError
 from pandas.testing import assert_index_equal
 from xgboost.core import XGBoostError
 from ml_grid.model_classes.H2OAutoMLClassifier import H2OAutoMLClassifier
@@ -34,17 +29,8 @@
 # from sklearn.utils.testing import ignore_warnings
 from sklearn.exceptions import ConvergenceWarning
 from sklearn.metrics import *
-from sklearn.metrics import (
-    classification_report,
-    f1_score,
-    make_scorer,
-    matthews_corrcoef,
-    roc_auc_score,
-)
 from sklearn.model_selection import (
-    GridSearchCV,
     ParameterGrid,
-    RandomizedSearchCV,
     RepeatedKFold,
     KFold,
     cross_validate,
@@ -57,7 +43,7 @@
 from ml_grid.util.project_score_save import project_score_save_class
 from ml_grid.util.validate_parameters import validate_parameters_helper
 from sklearn.preprocessing import MinMaxScaler
-from ml_grid.util.bayes_utils import calculate_combinations, is_skopt_space
+from ml_grid.util.bayes_utils import is_skopt_space
 from skopt.space import Categorical
 
 
@@ -447,9 +433,7 @@ def __init__(
         # Define default scores (e.g., mean score of 0.5 for binary classification)
         # Default scores if cross-validation fails
         default_scores = {
-            "test_accuracy": [
-                0.5  # Default to random classifier performance
-            ],
+            "test_accuracy": [0.5],  # Default to random classifier performance
             "test_f1": [0.5],  # Default F1 score (again, 0.5 for random classification)
             "test_auc": [0.5],  # Default ROC AUC score (0.5 for random classifier)
             "fit_time": [0],  # No fitting time if the model fails
 
@@ -22,7 +22,8 @@
 )
 from ml_grid.model_classes.H2OXGBoostClassifier import H2OXGBoostClassifier
 from ml_grid.model_classes.keras_classifier_class import KerasClassifierClass
-#from ml_grid.model_classes.knn_wrapper_class import KNNWrapper
+
+# from ml_grid.model_classes.knn_wrapper_class import KNNWrapper
 from ml_grid.model_classes.NeuralNetworkKerasClassifier import NeuralNetworkClassifier
 from ml_grid.util.global_params import global_parameters
 from ml_grid.util.validate_parameters import validate_parameters_helper
@@ -99,7 +100,7 @@ def __init__(
 
         # Custom wrappers that might not be recognized by is_classifier
         custom_classifier_types = (
-            #KNNWrapper,
+            # KNNWrapper,
             H2OAutoMLClassifier,
             H2OGBMClassifier,
             H2ODRFClassifier,
@@ -192,7 +193,8 @@ def run_search(self, X_train: pd.DataFrame, y_train: pd.Series) -> BaseEstimator
 
         # Also limit n_jobs for Bayesian search and other specific wrappers to avoid issues.
         is_single_threaded_search = isinstance(
-            self.algorithm, ( KerasClassifierClass, NeuralNetworkClassifier) #KNNWrapper,
+            self.algorithm,
+            (KerasClassifierClass, NeuralNetworkClassifier),  # KNNWrapper,
         )
 
         if is_h2o_model or is_single_threaded_search or bayessearch:
Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,3 @@`
`1`		`-`
`2`	`1`	`import pandas as pd`
`3`	`2`	`from h2o.estimators import H2ODeepLearningEstimator`
`4`	`3`	`from skopt.space import Categorical, Integer, Real`
Original file line number	Diff line number	Diff line change
`@@ -718,7 +718,7 @@ def _select_features_by_importance(self):`
`718`	`718`	`f"Feature importance selection failed: {e}", exc_info=True`
`719`	`719`	`)`
`720`	`720`	`self.logger.warning("Reverting to pre-selection features due to error.")`
`721`		`-`
	`721`	`+`
`722`	`722`	`# Explicitly ensure we are pointing to the valid backups`
`723`	`723`	`self.X_train = X_train_backup`
`724`	`724`	`self.y_train = y_train_backup`