data-catering
diff --git a/‎.gitignore‎
Lines changed: 1 addition & 0 deletions b/‎.gitignore‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎app/build.gradle.kts‎
Lines changed: 55 additions & 0 deletions b/‎app/build.gradle.kts‎
Lines changed: 55 additions & 0 deletions
diff --git a/‎app/src/main/scala/io/github/datacatering/datacaterer/core/generator/BatchDataProcessor.scala‎
Lines changed: 12 additions & 3 deletions b/‎app/src/main/scala/io/github/datacatering/datacaterer/core/generator/BatchDataProcessor.scala‎
Lines changed: 12 additions & 3 deletions
diff --git a/‎app/src/main/scala/io/github/datacatering/datacaterer/core/sink/SinkFactory.scala‎
Lines changed: 1 addition & 4 deletions b/‎app/src/main/scala/io/github/datacatering/datacaterer/core/sink/SinkFactory.scala‎
Lines changed: 1 addition & 4 deletions
diff --git a/‎app/src/main/scala/io/github/datacatering/datacaterer/core/ui/model/SampleModels.scala‎
Lines changed: 93 additions & 0 deletions b/‎app/src/main/scala/io/github/datacatering/datacaterer/core/ui/model/SampleModels.scala‎
Lines changed: 93 additions & 0 deletions
diff --git a/‎app/src/main/scala/io/github/datacatering/datacaterer/core/ui/model/TaskYamlUnmarshaller.scala‎
Lines changed: 56 additions & 0 deletions b/‎app/src/main/scala/io/github/datacatering/datacaterer/core/ui/model/TaskYamlUnmarshaller.scala‎
Lines changed: 56 additions & 0 deletions
diff --git a/‎app/src/main/scala/io/github/datacatering/datacaterer/core/ui/plan/PlanRepository.scala‎
Lines changed: 84 additions & 1 deletion b/‎app/src/main/scala/io/github/datacatering/datacaterer/core/ui/plan/PlanRepository.scala‎
Lines changed: 84 additions & 1 deletion
@@ -35,6 +35,7 @@ app/src/test/resources/sample/plan-gen
 
 api/out
 api/src/test/resources/sample/documentation
+api_validation_report.txt
 
 # UI
 ui/node_modules
 
@@ -260,6 +260,61 @@ application {
     mainClass.set("io.github.datacatering.datacaterer.App")
 }
 
+// Custom run tasks for different modes
+tasks.register<JavaExec>("runUI") {
+    group = "application"
+    description = "Run Data Caterer UI (standalone mode)"
+    classpath = sourceSets.main.get().runtimeClasspath
+    mainClass.set("io.github.datacatering.datacaterer.core.ui.DataCatererUI")
+    
+    // Add JVM arguments similar to docker script
+    jvmArgs(
+        "-Djava.security.manager=allow",
+        "-Djdk.module.illegalAccess=deny",
+        "--add-opens=java.base/java.lang=ALL-UNNAMED",
+        "--add-opens=java.base/java.lang.invoke=ALL-UNNAMED",
+        "--add-opens=java.base/java.lang.reflect=ALL-UNNAMED",
+        "--add-opens=java.base/java.io=ALL-UNNAMED",
+        "--add-opens=java.base/java.net=ALL-UNNAMED",
+        "--add-opens=java.base/java.nio=ALL-UNNAMED",
+        "--add-opens=java.base/java.util=ALL-UNNAMED",
+        "--add-opens=java.base/java.util.concurrent=ALL-UNNAMED",
+        "--add-opens=java.base/java.util.concurrent.atomic=ALL-UNNAMED",
+        "--add-opens=java.base/sun.nio.ch=ALL-UNNAMED",
+        "--add-opens=java.base/sun.nio.cs=ALL-UNNAMED",
+        "--add-opens=java.base/sun.security.action=ALL-UNNAMED",
+        "--add-opens=java.base/sun.util.calendar=ALL-UNNAMED",
+        "--add-opens=java.security.jgss/sun.security.krb5=ALL-UNNAMED"
+    )
+}
+
+tasks.register<JavaExec>("runSpark") {
+    group = "application"
+    description = "Run Data Caterer as Spark job"
+    classpath = sourceSets.main.get().runtimeClasspath
+    mainClass.set("io.github.datacatering.datacaterer.App")
+    
+    // Add JVM arguments similar to docker script
+    jvmArgs(
+        "-Djava.security.manager=allow",
+        "-Djdk.module.illegalAccess=deny",
+        "--add-opens=java.base/java.lang=ALL-UNNAMED",
+        "--add-opens=java.base/java.lang.invoke=ALL-UNNAMED",
+        "--add-opens=java.base/java.lang.reflect=ALL-UNNAMED",
+        "--add-opens=java.base/java.io=ALL-UNNAMED",
+        "--add-opens=java.base/java.net=ALL-UNNAMED",
+        "--add-opens=java.base/java.nio=ALL-UNNAMED",
+        "--add-opens=java.base/java.util=ALL-UNNAMED",
+        "--add-opens=java.base/java.util.concurrent=ALL-UNNAMED",
+        "--add-opens=java.base/java.util.concurrent.atomic=ALL-UNNAMED",
+        "--add-opens=java.base/sun.nio.ch=ALL-UNNAMED",
+        "--add-opens=java.base/sun.nio.cs=ALL-UNNAMED",
+        "--add-opens=java.base/sun.security.action=ALL-UNNAMED",
+        "--add-opens=java.base/sun.util.calendar=ALL-UNNAMED",
+        "--add-opens=java.security.jgss/sun.security.krb5=ALL-UNNAMED"
+    )
+}
+
 sourceSets {
     test {
         resources {
 
@@ -193,9 +193,18 @@ class BatchDataProcessor(connectionConfigsByName: Map[String, Map[String, String
     val dataSourceResults = (1 to numBatches).flatMap(batch => {
       val startTime = LocalDateTime.now()
       LOGGER.info(s"Starting batch, batch=$batch, num-batches=$numBatches")
-      val generatedDataForeachTask = executableTasks.flatMap(task =>
-        task._2.steps.filter(_.enabled).map(s => generateDataForStep(batch, task, s))
-      )
+      val generatedDataForeachTask = executableTasks.flatMap(task => {
+        task._2.steps.filter(_.enabled).map(s => {
+          LOGGER.debug(s"Generating data for step, task-name=${task._1.name}, step-name=${s.name}, data-source-name=${task._1.dataSourceName}")
+          try {
+            generateDataForStep(batch, task, s)
+          } catch {
+            case ex: Exception =>
+              LOGGER.error(s"Failed to generate data for step, task-name=${task._1.name}, step-name=${s.name}, data-source-name=${task._1.dataSourceName}")
+              throw ex
+          }
+        })
+      })
 
       val sinkDf = plan.sinkOptions
         .map(_ => ForeignKeyUtil.getDataFramesWithForeignKeys(plan, generatedDataForeachTask))
 
@@ -37,7 +37,7 @@ class SinkFactory(
   def pushToSink(df: DataFrame, dataSourceName: String, step: Step, startTime: LocalDateTime): SinkResult = {
     val dfWithoutOmitFields = removeOmitFields(df)
     val saveMode = step.options.get(SAVE_MODE).map(_.toLowerCase.capitalize).map(SaveMode.valueOf).getOrElse(SaveMode.Append)
-    val format = step.options(FORMAT)
+    val format = step.options.getOrElse(FORMAT, throw new IllegalArgumentException(s"No format specified for data source: $dataSourceName, step: ${step.name}. Available options: ${step.options.keys.mkString(", ")}"))
     val enrichedConnectionConfig = additionalConnectionConfig(format, step.options)
 
     val count = if (flagsConfig.enableCount) {
@@ -89,12 +89,10 @@ class SinkFactory(
     // if format is iceberg, need to use dataframev2 api for partition and writing
     connectionConfig.filter(_._1.startsWith("spark.sql"))
       .foreach(conf => df.sqlContext.setConf(conf._1, conf._2))
-    LOGGER.info(s"[DEBUG unwrap] Format is: '$format', JSON constant is: '$JSON'")
     val trySaveData = if (format == ICEBERG) {
       Try(tryPartitionAndSaveDfV2(df, saveMode, connectionConfig))
     } else if (format == JSON) {
       // Special-case: allow unwrapping top-level array to emit a bare JSON array file
-      LOGGER.info(s"[DEBUG unwrap] Format is JSON, calling trySaveJsonPossiblyUnwrapped")
       val tryMaybeUnwrap = Try(trySaveJsonPossiblyUnwrapped(df, saveMode, connectionConfig))
       tryMaybeUnwrap
     } else {
@@ -119,7 +117,6 @@ class SinkFactory(
   }
 
   private def trySaveJsonPossiblyUnwrapped(df: DataFrame, saveMode: SaveMode, connectionConfig: Map[String, String]): Unit = {
-    LOGGER.info("[DEBUG unwrap] trySaveJsonPossiblyUnwrapped called")
     val shouldUnwrap = detectTopLevelArrayToUnwrap(df)
     shouldUnwrap match {
       case Some(arrayFieldName) =>
 
@@ -0,0 +1,93 @@
+package io.github.datacatering.datacaterer.core.ui.model
+
+import com.fasterxml.jackson.annotation.JsonIgnoreProperties
+import io.github.datacatering.datacaterer.api.model.Field
+import org.apache.spark.sql.types.{DataType, StructType}
+
+@JsonIgnoreProperties(ignoreUnknown = true)
+case class TaskFileSampleRequest(
+  taskYamlPath: String,
+  stepName: Option[String] = None,
+  sampleSize: Int = 10,
+  fastMode: Boolean = true
+)
+
+@JsonIgnoreProperties(ignoreUnknown = true)
+case class SchemaSampleRequest(
+  fields: List[Field],
+  sampleSize: Int = 10,
+  fastMode: Boolean = true
+)
+
+@JsonIgnoreProperties(ignoreUnknown = true)
+case class TaskYamlSampleRequest(
+  taskYamlContent: String,
+  stepName: Option[String] = None,
+  sampleSize: Int = 10,
+  fastMode: Boolean = true
+)
+
+@JsonIgnoreProperties(ignoreUnknown = true)
+case class SampleResponse(
+  success: Boolean,
+  executionId: String,
+  schema: Option[SchemaInfo] = None,
+  sampleData: Option[List[Map[String, Any]]] = None,
+  metadata: Option[SampleMetadata] = None,
+  error: Option[SampleError] = None
+)
+
+@JsonIgnoreProperties(ignoreUnknown = true)
+case class SampleError(
+  code: String,
+  message: String,
+  details: Option[String] = None
+)
+
+@JsonIgnoreProperties(ignoreUnknown = true)
+case class SampleMetadata(
+  sampleSize: Int,
+  actualRecords: Int,
+  generatedInMs: Long,
+  fastModeEnabled: Boolean
+)
+
+@JsonIgnoreProperties(ignoreUnknown = true)
+case class SchemaInfo(
+  fields: List[SchemaField]
+)
+
+object SchemaInfo {
+  def fromSparkSchema(schema: StructType): SchemaInfo = {
+    SchemaInfo(schema.fields.map(SchemaField.fromSparkField).toList)
+  }
+}
+
+@JsonIgnoreProperties(ignoreUnknown = true)
+case class SchemaField(
+  name: String,
+  `type`: String,
+  nullable: Boolean,
+  fields: Option[List[SchemaField]] = None
+)
+
+object SchemaField {
+  def fromSparkField(field: org.apache.spark.sql.types.StructField): SchemaField = {
+    val fieldType = field.dataType match {
+      case st: StructType => 
+        SchemaField(
+          name = field.name,
+          `type` = "struct",
+          nullable = field.nullable,
+          fields = Some(st.fields.map(fromSparkField).toList)
+        )
+      case other => 
+        SchemaField(
+          name = field.name,
+          `type` = other.typeName,
+          nullable = field.nullable
+        )
+    }
+    fieldType
+  }
+}
@@ -0,0 +1,56 @@
+package io.github.datacatering.datacaterer.core.ui.model
+
+import io.github.datacatering.datacaterer.core.util.ObjectMapperUtil
+import org.apache.pekko.http.scaladsl.model.{ContentTypes, HttpEntity, MediaTypes}
+import org.apache.pekko.http.scaladsl.unmarshalling.{FromEntityUnmarshaller, Unmarshaller}
+
+import scala.concurrent.{ExecutionContext, Future}
+import scala.concurrent.duration._
+import scala.util.{Failure, Success, Try}
+
+object TaskYamlUnmarshaller {
+
+  /**
+   * Custom unmarshaller that can handle both JSON and raw YAML content for TaskYamlSampleRequest.
+   * 
+   * - For application/json: Deserializes the JSON directly to TaskYamlSampleRequest
+   * - For text/plain or application/yaml: Treats content as raw YAML and creates TaskYamlSampleRequest 
+   *   with the raw content, relying on query parameters for other fields
+   */
+  implicit val taskYamlSampleRequestUnmarshaller: FromEntityUnmarshaller[TaskYamlSampleRequest] = {
+    Unmarshaller.withMaterializer { implicit ec: ExecutionContext => implicit mat =>
+      entity: HttpEntity =>
+        entity.toStrict(3.seconds) flatMap { strictEntity => // Use 3 second timeout
+          val contentType = entity.contentType
+          val data = strictEntity.data.utf8String
+          
+          Future {
+            val mediaType = contentType.mediaType
+            if (mediaType == MediaTypes.`application/json`) {
+              // Use Jackson to deserialize JSON to TaskYamlSampleRequest
+              Try {
+                ObjectMapperUtil.jsonObjectMapper.readValue(data, classOf[TaskYamlSampleRequest])
+              }
+            } else if (mediaType == MediaTypes.`text/plain` || mediaType.toString.contains("yaml")) {
+              // Treat as raw YAML content - create TaskYamlSampleRequest with raw content
+              // Query parameters will be handled separately in the route
+              Try {
+                TaskYamlSampleRequest(
+                  taskYamlContent = data,
+                  stepName = None, // Will be overridden by query parameters
+                  sampleSize = 10, // Will be overridden by query parameters  
+                  fastMode = true // Will be overridden by query parameters
+                )
+              }
+            } else {
+              Failure(new IllegalArgumentException(
+                s"Unsupported content type: $mediaType. Supported: application/json, text/plain, application/yaml"))
+            }
+          } flatMap {
+            case Success(result) => Future.successful(result)
+            case Failure(ex) => Future.failed(ex)
+          }
+        }
+    }
+  }
+}
@@ -10,7 +10,9 @@ import io.github.datacatering.datacaterer.core.parser.PlanParser
 import io.github.datacatering.datacaterer.core.plan.{PlanProcessor, YamlPlanRun}
 import io.github.datacatering.datacaterer.core.ui.config.UiConfiguration.INSTALL_DIRECTORY
 import io.github.datacatering.datacaterer.core.ui.mapper.ConfigurationMapper.configurationMapping
-import io.github.datacatering.datacaterer.core.ui.model.{Connection, PlanRunExecution, PlanRunRequest, PlanRunRequests}
+import io.github.datacatering.datacaterer.core.ui.model.{Connection, PlanRunExecution, PlanRunRequest, PlanRunRequests, SchemaSampleRequest, TaskFileSampleRequest, TaskYamlSampleRequest, SampleResponse}
+import io.github.datacatering.datacaterer.core.ui.sample.FastSampleGenerator
+import io.github.datacatering.datacaterer.api.model.Field
 import io.github.datacatering.datacaterer.core.ui.plan.PlanResponseHandler.{KO, OK, Response}
 import io.github.datacatering.datacaterer.core.util.{ObjectMapperUtil, SparkProvider}
 import org.apache.log4j.Logger
@@ -67,6 +69,12 @@ object PlanRepository {
 
   final case class StartupSpark() extends PlanCommand
 
+  final case class GenerateFromTaskFile(request: TaskFileSampleRequest, replyTo: ActorRef[SampleResponse]) extends PlanCommand
+
+  final case class GenerateFromTaskYaml(request: TaskYamlSampleRequest, replyTo: ActorRef[SampleResponse]) extends PlanCommand
+
+  final case class GenerateFromSchema(request: SchemaSampleRequest, replyTo: ActorRef[SampleResponse]) extends PlanCommand
+
   private val executionSaveFolder = s"$INSTALL_DIRECTORY/execution"
   private val planSaveFolder = s"$INSTALL_DIRECTORY/plan"
   implicit val ec: ExecutionContextExecutor = ExecutionContext.global
@@ -104,6 +112,15 @@ object PlanRepository {
         case StartupSpark() =>
           startupSpark()
           Behaviors.same
+        case GenerateFromTaskFile(request, replyTo) =>
+          replyTo ! generateFromTaskFile(request)
+          Behaviors.same
+        case GenerateFromTaskYaml(request, replyTo) =>
+          replyTo ! generateFromTaskYaml(request)
+          Behaviors.same
+        case GenerateFromSchema(request, replyTo) =>
+          replyTo ! generateFromSchema(request)
+          Behaviors.same
       }
     }.onFailure(SupervisorStrategy.restart)
   }
@@ -393,13 +410,79 @@ object PlanRepository {
     }
   }
 
+  private def generateFromTaskFile(request: TaskFileSampleRequest): SampleResponse = {
+    LOGGER.debug(s"Generating sample from task file: ${request.taskYamlPath}, step: ${request.stepName}")
+    try {
+      FastSampleGenerator.generateFromTaskFile(request)
+    } catch {
+      case ex: Throwable =>
+        LOGGER.error(s"Error generating sample from task file", ex)
+        SampleResponse(
+          success = false,
+          executionId = java.util.UUID.randomUUID().toString.split("-").head,
+          error = Some(io.github.datacatering.datacaterer.core.ui.model.SampleError("INTERNAL_ERROR", ex.getMessage))
+        )
+    }
+  }
+
+  private def generateFromTaskYaml(request: TaskYamlSampleRequest): SampleResponse = {
+    LOGGER.debug(s"Generating sample from task YAML content, step: ${request.stepName}")
+    try {
+      FastSampleGenerator.generateFromTaskYaml(request)
+    } catch {
+      case ex: Throwable =>
+        LOGGER.error(s"Error generating sample from task YAML", ex)
+        SampleResponse(
+          success = false,
+          executionId = java.util.UUID.randomUUID().toString.split("-").head,
+          error = Some(io.github.datacatering.datacaterer.core.ui.model.SampleError("INTERNAL_ERROR", ex.getMessage))
+        )
+    }
+  }
+
+  private def generateFromSchema(request: SchemaSampleRequest): SampleResponse = {
+    LOGGER.debug(s"Generating sample from inline fields: ${request.fields.size} fields")
+    try {
+      FastSampleGenerator.generateFromSchema(request)
+    } catch {
+      case ex: Throwable =>
+        LOGGER.error(s"Error generating sample from schema", ex)
+        SampleResponse(
+          success = false,
+          executionId = java.util.UUID.randomUUID().toString.split("-").head,
+          error = Some(io.github.datacatering.datacaterer.core.ui.model.SampleError("INTERNAL_ERROR", ex.getMessage))
+        )
+    }
+  }
+
   private def startupSpark(): Response = {
     LOGGER.debug("Starting up Spark")
     setUiRunning
     try {
       implicit val sparkSession: SparkSession = new SparkProvider(DEFAULT_MASTER, DEFAULT_RUNTIME_CONFIG).getSparkSession
       //run some dummy query
       sparkSession.sql("SELECT 1").collect()
+      
+      //warm up data generation pipeline with a simple sample request
+      LOGGER.debug("Warming up data generation pipeline")
+      val warmupRequest = SchemaSampleRequest(
+        fields = List(
+          Field(
+            name = "warmup_id",
+            `type` = Some("long"),
+            options = Map("min" -> 1L, "max" -> 10L)
+          )
+        ),
+        sampleSize = 1,
+        fastMode = true
+      )
+      val warmupResult = FastSampleGenerator.generateFromSchema(warmupRequest)
+      if (warmupResult.success) {
+        LOGGER.debug("Data generation pipeline warmed up successfully")
+      } else {
+        LOGGER.warn(s"Warmup failed: ${warmupResult.error}")
+      }
+      
       OK
     } catch {
       case ex: Throwable => KO("Failed to start up Spark", ex)