pytorch
diff --git a/‎backends/cadence/generic/operators/op_quantized_conv1d_ncl.cpp‎
Lines changed: 2 additions & 2 deletions b/‎backends/cadence/generic/operators/op_quantized_conv1d_ncl.cpp‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎backends/cadence/generic/operators/op_quantized_conv1d_nlc.cpp‎
Lines changed: 2 additions & 2 deletions b/‎backends/cadence/generic/operators/op_quantized_conv1d_nlc.cpp‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎backends/cadence/hifi/operators/op_quantized_conv1d_ncl.cpp‎
Lines changed: 99 additions & 30 deletions b/‎backends/cadence/hifi/operators/op_quantized_conv1d_ncl.cpp‎
Lines changed: 99 additions & 30 deletions
@@ -252,7 +252,7 @@ ::executorch::aten::Tensor& quantized_conv1d_ncl_per_tensor_out(
     const Tensor& bias,
     IntArrayRef stride,
     IntArrayRef padding,
-    __ET_UNUSED IntArrayRef dilation,
+    IntArrayRef dilation,
     int64_t groups,
     int64_t input_zero_point,
     int64_t weight_zero_point,
@@ -269,7 +269,7 @@ ::executorch::aten::Tensor& quantized_conv1d_ncl_per_tensor_out(
       bias,
       stride,
       padding,
-      {1},
+      dilation,
       static_cast<int16_t>(groups),
       static_cast<int32_t>(input_zero_point),
       static_cast<int32_t>(weight_zero_point),
 
@@ -247,7 +247,7 @@ ::executorch::aten::Tensor& quantized_conv1d_nlc_per_tensor_out(
     const Tensor& bias,
     IntArrayRef stride,
     IntArrayRef padding,
-    __ET_UNUSED IntArrayRef dilation,
+    IntArrayRef dilation,
     int64_t groups,
     int64_t input_zero_point,
     int64_t weight_zero_point,
@@ -264,7 +264,7 @@ ::executorch::aten::Tensor& quantized_conv1d_nlc_per_tensor_out(
       bias,
       stride,
       padding,
-      {1},
+      dilation,
       static_cast<int16_t>(groups),
       static_cast<int32_t>(input_zero_point),
       static_cast<int32_t>(weight_zero_point),
 
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  */
 
+#include <executorch/backends/cadence/generic/operators/op_quantized_conv1d_ncl.h>
 #include <executorch/backends/cadence/hifi/kernels/kernels.h>
 #include <executorch/backends/cadence/hifi/operators/operators.h>
 #include <executorch/runtime/kernel/kernel_includes.h>
@@ -58,9 +59,9 @@ void xa_opt_quantized_conv1d_ncl_asym8sxsym8s_asym8s(
   WORD32 kernel_width = weight.size(2);
   WORD32 out_width = out.size(2);
   WORD32 out_height = 1;
-  WORD32 x_stride = stride[1];
+  WORD32 x_stride = 1;
   WORD32 y_stride = stride[0];
-  WORD32 x_padding = padding[1];
+  WORD32 x_padding = 0;
   WORD32 y_padding = padding[0];
   WORD32 dilation_height = 1;
   WORD32 dilation_width = 1;
@@ -236,8 +237,8 @@ void xa_opt_quantized_conv1d_ncl_asym8uxsym8u_asym8u(
   WORD32 kernel_width = weight.size(2);
   WORD32 out_width = out.size(2);
   WORD32 out_height = 1;
-  WORD32 x_stride = stride[1];
-  WORD32 x_padding = padding[1];
+  WORD32 x_stride = stride[0];
+  WORD32 x_padding = padding[0];
   WORD32 input_zero_bias = -in_zero_point;
   WORD32 out_multiplier32 = bias_scale * (1. / output_scale) * 2147483648;
   WORD32 out_shift32 = 0;
@@ -345,46 +346,114 @@ void quantized_conv1d_ncl_per_tensor_out(
     const Tensor& bias,
     IntArrayRef stride,
     IntArrayRef padding,
-    __ET_UNUSED IntArrayRef dilation,
-    __ET_UNUSED int64_t groups,
+    IntArrayRef dilation,
+    int64_t groups,
     int64_t in_zero_point,
     int64_t weight_zero_point,
     double bias_scale,
     double output_scale,
     int64_t output_zero_point,
-    __ET_UNUSED int64_t out_multiplier,
-    __ET_UNUSED int64_t out_shift,
+    int64_t out_multiplier,
+    int64_t out_shift,
     Tensor& out) {
-  ScalarType dtype = out.scalar_type();
-
-  if (dtype == ScalarType::Char) {
-    xa_opt_quantized_conv1d_ncl_asym8sxsym8s_asym8s(
+  // HiFi nnlib kernels only support dilation=1.
+  // Fall back to generic implementation for dilation > 1.
+  // Note: For 1D convolution, dilation is a single-element array.
+  if (dilation[0] != 1) {
+    impl::generic::native::quantized_conv1d_ncl_per_tensor_out(
         ctx,
         input,
         weight,
         bias,
         stride,
         padding,
-        static_cast<int32_t>(in_zero_point),
-        static_cast<int32_t>(weight_zero_point),
-        static_cast<float>(bias_scale),
-        static_cast<float>(output_scale),
-        static_cast<int32_t>(output_zero_point),
+        dilation,
+        groups,
+        in_zero_point,
+        weight_zero_point,
+        bias_scale,
+        output_scale,
+        output_zero_point,
+        out_multiplier,
+        out_shift,
         out);
+    return;
+  }
+
+  ScalarType dtype = out.scalar_type();
+
+  if (dtype == ScalarType::Char) {
+    // HiFi nnlib conv2d kernel produces incorrect results with stride > 1
+    // on some backends (e.g., Artemis HiFi4). Fall back to generic.
+    if (stride[0] > 1) {
+      impl::generic::native::quantized_conv1d_ncl_per_tensor_out(
+          ctx,
+          input,
+          weight,
+          bias,
+          stride,
+          padding,
+          dilation,
+          groups,
+          in_zero_point,
+          weight_zero_point,
+          bias_scale,
+          output_scale,
+          output_zero_point,
+          out_multiplier,
+          out_shift,
+          out);
+    } else {
+      xa_opt_quantized_conv1d_ncl_asym8sxsym8s_asym8s(
+          ctx,
+          input,
+          weight,
+          bias,
+          stride,
+          padding,
+          static_cast<int32_t>(in_zero_point),
+          static_cast<int32_t>(weight_zero_point),
+          static_cast<float>(bias_scale),
+          static_cast<float>(output_scale),
+          static_cast<int32_t>(output_zero_point),
+          out);
+    }
   } else if (dtype == ScalarType::Byte) {
-    xa_opt_quantized_conv1d_ncl_asym8uxsym8u_asym8u(
-        ctx,
-        input,
-        weight,
-        bias,
-        stride,
-        padding,
-        static_cast<int32_t>(in_zero_point),
-        static_cast<int32_t>(weight_zero_point),
-        static_cast<float>(bias_scale),
-        static_cast<float>(output_scale),
-        static_cast<int32_t>(output_zero_point),
-        out);
+    // HiFi nnlib conv1d_std kernel does not support depthwise (groups > 1).
+    // Fall back to generic implementation.
+    if (groups > 1) {
+      impl::generic::native::quantized_conv1d_ncl_per_tensor_out(
+          ctx,
+          input,
+          weight,
+          bias,
+          stride,
+          padding,
+          dilation,
+          groups,
+          in_zero_point,
+          weight_zero_point,
+          bias_scale,
+          output_scale,
+          output_zero_point,
+          out_multiplier,
+          out_shift,
+          out);
+    } else {
+      xa_opt_quantized_conv1d_ncl_asym8uxsym8u_asym8u(
+          ctx,
+          input,
+          weight,
+          bias,
+          stride,
+          padding,
+          static_cast<int32_t>(in_zero_point),
+          static_cast<int32_t>(weight_zero_point),
+          static_cast<float>(bias_scale),
+          static_cast<float>(output_scale),
+          static_cast<int32_t>(output_zero_point),
+          out);
+    }
   } else {
     ET_DCHECK_MSG(
         false,