amosproj · mollle · Jan 15, 2025 · Jan 13, 2025 · Jan 14, 2025 · Jan 14, 2025
diff --git a/...ence/pipelines/data_quality/data_manipulation/spark/dimensionality_reduction.md b/...ence/pipelines/data_quality/data_manipulation/spark/dimensionality_reduction.md
@@ -0,0 +1 @@
+::: src.sdk.python.rtdip_sdk.pipelines.data_quality.data_manipulation.spark.dimensionality_reduction
diff --git a/...-reference/pipelines/data_quality/data_manipulation/spark/interval_filtering.md b/...-reference/pipelines/data_quality/data_manipulation/spark/interval_filtering.md
@@ -0,0 +1 @@
+::: src.sdk.python.rtdip_sdk.pipelines.data_quality.data_manipulation.spark.interval_filtering
diff --git a/...nce/pipelines/data_quality/data_manipulation/spark/k_sigma_anomaly_detection.md b/...nce/pipelines/data_quality/data_manipulation/spark/k_sigma_anomaly_detection.md
@@ -0,0 +1 @@
+::: src.sdk.python.rtdip_sdk.pipelines.data_quality.data_manipulation.spark.k_sigma_anomaly_detection
diff --git a/...ence/pipelines/data_quality/data_manipulation/spark/missing_value_imputation.md b/...ence/pipelines/data_quality/data_manipulation/spark/missing_value_imputation.md
@@ -0,0 +1 @@
+::: src.sdk.python.rtdip_sdk.pipelines.data_quality.data_manipulation.spark.normalization.denormalization
diff --git a/...pipelines/data_quality/data_manipulation/spark/normalization/denormalization.md b/...pipelines/data_quality/data_manipulation/spark/normalization/denormalization.md
diff --git a/...e/pipelines/data_quality/data_manipulation/spark/normalization/normalization.md b/...e/pipelines/data_quality/data_manipulation/spark/normalization/normalization.md
@@ -0,0 +1 @@
+::: src.sdk.python.rtdip_sdk.pipelines.data_quality.data_manipulation.spark.normalization.normalization
diff --git a/...elines/data_quality/data_manipulation/spark/normalization/normalization_mean.md b/...elines/data_quality/data_manipulation/spark/normalization/normalization_mean.md
@@ -0,0 +1 @@
+::: src.sdk.python.rtdip_sdk.pipelines.data_quality.data_manipulation.spark.normalization.normalization_mean
diff --git a/...ines/data_quality/data_manipulation/spark/normalization/normalization_minmax.md b/...ines/data_quality/data_manipulation/spark/normalization/normalization_minmax.md
@@ -0,0 +1 @@
+::: src.sdk.python.rtdip_sdk.pipelines.data_quality.data_manipulation.spark.normalization.normalization_minmax
diff --git a/...ines/data_quality/data_manipulation/spark/normalization/normalization_zscore.md b/...ines/data_quality/data_manipulation/spark/normalization/normalization_zscore.md
@@ -0,0 +1 @@
+::: src.sdk.python.rtdip_sdk.pipelines.data_quality.data_manipulation.spark.normalization.normalization_zscore
diff --git a/docs/sdk/code-reference/pipelines/machine_learning/spark/data_binning.md b/docs/sdk/code-reference/pipelines/machine_learning/spark/data_binning.md
@@ -0,0 +1 @@
+::: src.sdk.python.rtdip_sdk.pipelines.machine_learning.spark.data_binning
diff --git a/docs/sdk/code-reference/pipelines/machine_learning/spark/linear_regression.md b/docs/sdk/code-reference/pipelines/machine_learning/spark/linear_regression.md
@@ -0,0 +1 @@
+::: src.sdk.python.rtdip_sdk.pipelines.machine_learning.spark.linear_regression
diff --git a/src/sdk/python/rtdip_sdk/pipelines/machine_learning/spark/linear_regression.py b/src/sdk/python/rtdip_sdk/pipelines/machine_learning/spark/linear_regression.py
@@ -16,6 +16,7 @@
 from pyspark.ml.evaluation import RegressionEvaluator
 from ..interfaces import MachineLearningInterface
 from ..._pipeline_utils.models import Libraries, SystemType
+from typing import Optional
 
 
 class LinearRegression(MachineLearningInterface):
@@ -61,15 +62,15 @@ def libraries():
     def settings() -> dict:
         return {}
 
-    def split_data(self, train_ratio: float = 0.8):
+    def split_data(self, train_ratio: float = 0.8) -> tuple[DataFrame, DataFrame]:
         """
         Splits the dataset into training and testing sets.
 
         Args:
             train_ratio (float): The ratio of the data to be used for training. Default is 0.8 (80% for training).
 
         Returns:
-            DataFrame: Returns the training and testing datasets.
+            tuple[DataFrame, DataFrame]: Returns the training and testing datasets.
         """
         train_df, test_df = self.df.randomSplit([train_ratio, 1 - train_ratio], seed=42)
         return train_df, test_df
@@ -96,18 +97,17 @@ def predict(self, prediction_df: DataFrame):
             prediction_df,
         )
 
-    def evaluate(self, test_df: DataFrame):
+    def evaluate(self, test_df: DataFrame) -> Optional[float]:
         """
         Evaluates the trained model using RMSE.
 
         Args:
             test_df (DataFrame): The testing dataset to evaluate the model.
 
         Returns:
-            float: The Root Mean Squared Error (RMSE) of the model.
+            Optional[float]: The Root Mean Squared Error (RMSE) of the model or None if the prediction columnd doesn't exist.
         """
         # Check the columns of the test DataFrame
-        print(f"Columns in test_df: {test_df.columns}")
         test_df.show(5)
 
         if self.prediction_col not in test_df.columns:
Original file line number	Diff line number	Diff line change
		@@ -0,0 +1 @@
		::: src.sdk.python.rtdip_sdk.pipelines.data_quality.data_manipulation.spark.dimensionality_reduction
Original file line number	Diff line number	Diff line change
		@@ -0,0 +1 @@
		::: src.sdk.python.rtdip_sdk.pipelines.machine_learning.spark.data_binning