corrected impleentation of __init__ of the custom log scale transformer that has been inconsistent with SKLearn API

wegar-2 · wegar-2 · commit 4c889e8a4712 · 2025-05-29T23:48:28.000+02:00
diff --git a/moddata/sklearn_extensions/log_standard_scaler.py b/moddata/sklearn_extensions/log_standard_scaler.py
@@ -1,6 +1,7 @@
 from typing import Final
 
 import numpy as np
+import pandas as pd
 from sklearn.preprocessing import StandardScaler
 from sklearn.base import BaseEstimator, TransformerMixin
 
@@ -31,9 +32,10 @@ def __init__(
             before log-transformation
             log_base: base of the log-transformation
         """
-        self._shift: Final[float] = shift
-        self._standard_scaler: StandardScaler = StandardScaler()
-        self._log_base: float | int = log_base
+        self.shift: Final[float] = shift
+        self.log_base: float | int = log_base
+
+        self.feature_names_in_ = None
 
     @staticmethod
     def _validate_shift(shift: float) -> None:
@@ -42,16 +44,34 @@ def _validate_shift(shift: float) -> None:
                              f"Received value {shift=}")
 
     def _log_transform(self, X):
-        return np.emath.logn(n=self._log_base, x=X + self._shift)
+        return np.emath.logn(n=self.log_base, x=X + self.shift)
 
-    def fit(self, X, y=None):
+    def fit(self, X: pd.DataFrame):
+        self._standard_scaler: StandardScaler = StandardScaler() # noqa
+        if not isinstance(X, pd.DataFrame):
+            raise ValueError("This estimator only accepts pd.DataFrame input!")
+        self.feature_names_in_ = list(X.columns)
         X_log = self._log_transform(X=X)
         self._standard_scaler.fit(X=X_log)
         return self
 
-    def transform(self, X):
+    def transform(self, X: pd.DataFrame):
+        if not isinstance(X, pd.DataFrame):
+            raise ValueError("This transformer only accepts pd.DataFrame input!")
         X_log = self._log_transform(X=X)
-        return self._standard_scaler.transform(X=X_log + self._shift)
+        return self._standard_scaler.transform(X=X_log + self.shift)
 
     def fit_transform(self, X, y=None, **fit_params):
         return self.fit(X=X).transform(X=X)
+
+    def get_feature_names_out(self, input_features=None):
+        if input_features is None:
+            if self.feature_names_in_ is not None:
+                input_features = self.feature_names_in_
+            else:
+                raise ValueError("No input features provided and none "
+                                 "were stored during fit! ")
+        return [
+            f"log_base_{self.log_base:0.2f}_shift_{self.shift:0.2f}_{feature}"
+            for feature in input_features
+        ]
diff --git a/moddata/transformer/bankchurn_transformer.py b/moddata/transformer/bankchurn_transformer.py
@@ -69,7 +69,7 @@ def _get_column_transformer(
                     ("ohe_gender_encoder", self._ohe_gender_encoder(), ["gender"]),
                     ("ohe_encode_country", self._ohe_encode_country(), ["country"]),
                     ("credit_score_dist_scaler", self._credit_score_dist_scaler(), ["credit_score"]),
-                    ("estimated_salary_scaler", self._estimated_salary_scaler(), ["estimated_salary_scaler"]),
+                    ("estimated_salary_scaler", self._estimated_salary_scaler(), ["estimated_salary"]),
                     ("age_scaler", self._age_scaler(), ["age"]),
                     ("balance_scaler", self._balance_scaler(), ["balance"])
                 ],
diff --git a/tests/pipeline/test_bankchurn_pipeline.py b/tests/pipeline/test_bankchurn_pipeline.py
@@ -1,10 +1,11 @@
 import numpy as np
+import pandas as pd
 
 from moddata.pipeline.bankchurn_pipeline import BankchurnPipeline
 from moddata.src.config import BankchurnPipelineConfig
 
 
-def test_bankchurn_pipeline_tree_like():
+def test_bankchurn_pipeline_tree_like_model():
     X_train, X_test, y_train, y_test = BankchurnPipeline(
         config=BankchurnPipelineConfig(
             random_state=12345,
@@ -21,4 +22,23 @@ def test_bankchurn_pipeline_tree_like():
     assert np.all(np.array(y_test.index[:3]) == np.array([7867, 1402, 8606]))
 
 
-test_bankchurn_pipeline_tree_like
+def test_bankchurn_pipeline_other_model():
+    X_train, X_test, y_train, y_test = BankchurnPipeline(
+        config=BankchurnPipelineConfig(
+            random_state=12345,
+            train_size=0.8,
+            encoding_and_scaling_model_type="other"
+        )
+    ).run()
+
+    assert X_train.shape == (8_000, 11)
+    assert X_test.shape == (2_000, 11)
+    assert y_train.shape == (8_000, 1)
+    assert y_test.shape == (2_000, 1)
+
+    assert isinstance(X_train, pd.DataFrame)
+    assert isinstance(X_test, pd.DataFrame)
+    assert isinstance(y_train, pd.DataFrame)
+    assert isinstance(y_test, pd.DataFrame)
+
+    assert np.all(np.array(y_test.index[:3]) == np.array([7867, 1402, 8606]))
diff --git a/tests/sklearn_extensions/test_log_standard_scaler.py b/tests/sklearn_extensions/test_log_standard_scaler.py
@@ -1,4 +1,5 @@
 import numpy as np
+import pandas as pd
 from pytest import fixture
 
 
@@ -41,3 +42,8 @@ def test_log_standard_scaler_with_shift_and_base(make_log_normal_array):
     assert round(float(X_trfmd[0, 0]), 8) == 7.12454284
     assert X_trfmd.shape == (5, 1)
     assert round(float(X_trfmd[-1, 0]), 8) == 7.1258186
+
+
+def test_use_of_log_standard_scaler_in_column_transformer(make_log_normal_array):
+    data: pd.DataFrame = pd.DataFrame(data={"X": make_log_normal_array})
+    lss: LogStandardScaler = LogStandardScaler(log_base=2, shift=20)