Make higher-level function for utilisation and minimum service factor checks

alexdewar · alexdewar · commit f4199af14557 · 2024-06-24T11:33:09.000+01:00
diff --git a/src/muse/readers/csv.py b/src/muse/readers/csv.py
@@ -100,7 +100,7 @@ def to_agent_share(name):
     data = data.drop(["process_name", "region_name", "time"], axis=1)
     data = data.apply(to_numeric, axis=0)
 
-    check_utilization_not_all_zero(data, filename)
+    check_utilization_and_minimum_service_factors(data, filename)
 
     result = xr.Dataset.from_dataframe(data.sort_index())
     if "fuel" in result.variables:
@@ -132,8 +132,6 @@ def to_agent_share(name):
     if "year" in result.dims and len(result.year) == 1:
         result = result.isel(year=0, drop=True)
 
-    check_minimum_service_factors_in_range(data, filename)
-
     return result
 
 
@@ -149,8 +147,7 @@ def read_technodata_timeslices(filename: Union[str, Path]) -> xr.Dataset:
     data = csv[csv.technology != "Unit"]
 
     data = data.apply(to_numeric)
-    check_utilization_not_all_zero(data, filename)
-    check_minimum_service_factors_in_range(data, filename)
+    check_utilization_and_minimum_service_factors(data, filename)
 
     ts = pd.MultiIndex.from_frame(
         data.drop(
@@ -925,13 +922,18 @@ def read_finite_resources(path: Union[str, Path]) -> xr.DataArray:
     return xr.Dataset.from_dataframe(data).to_array(dim="commodity")
 
 
-def check_utilization_not_all_zero(data, filename):
+def check_utilization_and_minimum_service_factors(data, filename):
     if "utilization_factor" not in data.columns:
         raise ValueError(
             f"""A technology needs to have a utilization factor defined for every
              timeslice. Please check file {filename}."""
         )
 
+    _check_utilization_not_all_zero(data, filename)
+    _check_minimum_service_factors_in_range(data, filename)
+
+
+def _check_utilization_not_all_zero(data, filename):
     utilization_sum = data.groupby(["technology", "region", "year"]).sum()
 
     if (utilization_sum.utilization_factor == 0).any():
@@ -941,7 +943,7 @@ def check_utilization_not_all_zero(data, filename):
         )
 
 
-def check_minimum_service_factors_in_range(data, filename):
+def _check_minimum_service_factors_in_range(data, filename):
     try:
         min_service_factor = data["minimum_service_factor"]
     except KeyError:
diff --git a/tests/test_readers.py b/tests/test_readers.py
@@ -1,5 +1,6 @@
 from itertools import chain, permutations
 from pathlib import Path
+from unittest.mock import patch
 
 import toml
 import xarray as xr
@@ -415,7 +416,7 @@ def test_read_trade_technodata(tmp_path):
 
 def test_check_utilization_not_all_zero_success():
     import pandas as pd
-    from muse.readers.csv import check_utilization_not_all_zero
+    from muse.readers.csv import _check_utilization_not_all_zero
 
     df = pd.DataFrame(
         {
@@ -425,12 +426,12 @@ def test_check_utilization_not_all_zero_success():
             "year": (2010, 2010, 2011),
         }
     )
-    check_utilization_not_all_zero(df, "file.csv")
+    _check_utilization_not_all_zero(df, "file.csv")
 
 
 def test_check_utilization_not_all_zero_fail_all_zero():
     import pandas as pd
-    from muse.readers.csv import check_utilization_not_all_zero
+    from muse.readers.csv import _check_utilization_not_all_zero
 
     df = pd.DataFrame(
         {
@@ -442,52 +443,66 @@ def test_check_utilization_not_all_zero_fail_all_zero():
     )
 
     with raises(ValueError):
-        check_utilization_not_all_zero(df, "file.csv")
-
-
-def test_check_utilization_not_all_zero_fail_missing_column():
-    import pandas as pd
-    from muse.readers.csv import check_utilization_not_all_zero
-
-    # NB: Required utilization_factor column is missing
-    df = pd.DataFrame(
-        {
-            "technology": ("gas", "gas", "solar"),
-            "region": ("GB", "GB", "FR"),
-            "year": (2010, 2010, 2011),
-        }
-    )
-
-    with raises(ValueError):
-        check_utilization_not_all_zero(df, "file.csv")
+        _check_utilization_not_all_zero(df, "file.csv")
 
 
 def test_check_minimum_service_factors_in_range_success():
     import pandas as pd
-    from muse.readers.csv import check_minimum_service_factors_in_range
+    from muse.readers.csv import _check_minimum_service_factors_in_range
 
     df = pd.DataFrame({"minimum_service_factor": (0, 1)})
-    check_minimum_service_factors_in_range(df, "file.csv")
+    _check_minimum_service_factors_in_range(df, "file.csv")
 
 
 def test_check_minimum_service_factors_in_range_column_missing():
     import pandas as pd
-    from muse.readers.csv import check_minimum_service_factors_in_range
+    from muse.readers.csv import _check_minimum_service_factors_in_range
 
     # If the minimum_service_factor column is missing, the function should just return
     # without raising an error
     df = pd.DataFrame()
-    check_minimum_service_factors_in_range(df, "file.csv")
+    _check_minimum_service_factors_in_range(df, "file.csv")
 
 
 @mark.parametrize(
     "values", chain.from_iterable(permutations((0, bad)) for bad in (-1, 2))
 )
 def test_check_minimum_service_factors_in_range_fail(values):
     import pandas as pd
-    from muse.readers.csv import check_minimum_service_factors_in_range
+    from muse.readers.csv import _check_minimum_service_factors_in_range
 
     df = pd.DataFrame({"minimum_service_factor": values})
 
     with raises(ValueError):
-        check_minimum_service_factors_in_range(df, "file.csv")
+        _check_minimum_service_factors_in_range(df, "file.csv")
+
+
+@patch("muse.readers.csv._check_minimum_service_factors_in_range")
+@patch("muse.readers.csv._check_utilization_not_all_zero")
+def test_check_utilization_and_minimum_service_factors(*mocks):
+    import pandas as pd
+    from muse.readers.csv import check_utilization_and_minimum_service_factors
+
+    df = pd.DataFrame({"utilization_factor": (0, 0, 1)})
+    check_utilization_and_minimum_service_factors(df, "file.csv")
+    for mock in mocks:
+        mock.assert_called_once_with(df, "file.csv")
+
+
+@patch("muse.readers.csv._check_minimum_service_factors_in_range")
+@patch("muse.readers.csv._check_utilization_not_all_zero")
+def test_check_utilization_and_minimum_service_factors_missing_column(*mocks):
+    import pandas as pd
+    from muse.readers.csv import check_utilization_and_minimum_service_factors
+
+    # NB: Required utilization_factor column is missing
+    df = pd.DataFrame(
+        {
+            "technology": ("gas", "gas", "solar"),
+            "region": ("GB", "GB", "FR"),
+            "year": (2010, 2010, 2011),
+        }
+    )
+
+    with raises(ValueError):
+        check_utilization_and_minimum_service_factors(df, "file.csv")