pulp-platform
diff --git a/‎sw/quadrilateroBenchmarks/CMakeLists.txt‎
Lines changed: 12 additions & 16 deletions b/‎sw/quadrilateroBenchmarks/CMakeLists.txt‎
Lines changed: 12 additions & 16 deletions
diff --git a/‎…ilatero/kernel/sp-fmatmul-quadrilatero.c‎ ‎…/quadrilateroBenchmarks/include/matmul.h‎sw/quadrilateroBenchmarks/sp-fmatmul-quadrilatero/kernel/sp-fmatmul-quadrilatero.c renamed to sw/quadrilateroBenchmarks/include/matmul.h
Lines changed: 35 additions & 48 deletions b/‎…ilatero/kernel/sp-fmatmul-quadrilatero.c‎ ‎…/quadrilateroBenchmarks/include/matmul.h‎sw/quadrilateroBenchmarks/sp-fmatmul-quadrilatero/kernel/sp-fmatmul-quadrilatero.c renamed to sw/quadrilateroBenchmarks/include/matmul.h
Lines changed: 35 additions & 48 deletions
diff --git a/‎sw/quadrilateroBenchmarks/include/quadrilatero.h‎
Lines changed: 29 additions & 0 deletions b/‎sw/quadrilateroBenchmarks/include/quadrilatero.h‎
Lines changed: 29 additions & 0 deletions
diff --git a/‎…marks/benchmark-quadrilatero/benchmark.c‎ ‎…adrilateroBenchmarks/kernels/benchmark.c‎sw/quadrilateroBenchmarks/benchmark-quadrilatero/benchmark.c renamed to sw/quadrilateroBenchmarks/kernels/benchmark.c b/‎…marks/benchmark-quadrilatero/benchmark.c‎ ‎…adrilateroBenchmarks/kernels/benchmark.c‎sw/quadrilateroBenchmarks/benchmark-quadrilatero/benchmark.c renamed to sw/quadrilateroBenchmarks/kernels/benchmark.c
diff --git a/‎sw/quadrilateroBenchmarks/kernels/matmul.c‎
Lines changed: 67 additions & 0 deletions b/‎sw/quadrilateroBenchmarks/kernels/matmul.c‎
Lines changed: 67 additions & 0 deletions
@@ -38,33 +38,29 @@ macro(add_quadrilatero_test_threeParam name file param1 param2 param3)
   set(target_name ${name}_M${param1}_N${param2}_K${param3})
   add_snitch_test(${target_name} ${file})
   target_link_libraries(test-${SNITCH_TEST_PREFIX}${target_name} benchmark-quadrilatero ${SNITCH_RUNTIME})
+  target_link_libraries(test-${SNITCH_TEST_PREFIX}${target_name} matmul ${SNITCH_RUNTIME})
   target_compile_definitions(test-${SNITCH_TEST_PREFIX}${target_name} PUBLIC DATAHEADER="data/data_${param1}_${param2}_${param3}.h" SNRT_NFPU_PER_CORE=16 QUAD_RLEN=${QUAD_RLEN})
 endmacro()
 
 # Benchmark library
-add_library(benchmark-quadrilatero benchmark-quadrilatero/benchmark.c)
+add_library(benchmark-quadrilatero kernels/benchmark.c)
+add_library(matmul kernels/matmul.c)
 
 # Kernels
-# add_library(sp-matmul-quadrilatero sp-matmul-quadrilatero/kernel/sp-matmul-quadrilatero.c)
-# add_library(widening2x-hp-matmul-quadrilatero widening2x-hp-matmul-quadrilatero/kernel/widening2x-hp-matmul-quadrilatero.c)
-# add_library(widening4x-bp-matmul-quadrilatero widening4x-bp-matmul-quadrilatero/kernel/widening4x-bp-matmul-quadrilatero.c)
-add_library(sp-fmatmul-quadrilatero sp-fmatmul-quadrilatero/kernel/sp-fmatmul-quadrilatero.c)
-# add_library(widening2x-hp-fmatmul-quadrilatero widening2x-hp-fmatmul-quadrilatero/kernel/widening2x-hp-fmatmul-quadrilatero.c)
-# add_library(widening4x-bp-fmatmul-quadrilatero widening4x-bp-fmatmul-quadrilatero/kernel/widening4x-bp-fmatmul-quadrilatero.c)
-add_library(verify-quadrilatero verify-quadrilatero/kernel/verify-quadrilatero.c)
+# add_library(verify-quadrilatero verify-quadrilatero/kernel/verify-quadrilatero.c)
 
 # # Tests
 enable_testing()
 set(SNITCH_TEST_PREFIX quadrilateroBenchmarks-)
 # add_quadrilatero_test_noParam(quadrilatero-matmul quadrilatero_matmul/main.c)
 
-# add_quadrilatero_test_threeParam(sp-matmul-quadrilatero sp-matmul-quadrilatero/main.c 64 64 64)
-# add_quadrilatero_test_threeParam(widening2x-hp-matmul-quadrilatero widening2x-hp-matmul-quadrilatero/main.c 64 64 64)
-# add_quadrilatero_test_threeParam(widening4x-bp-matmul-quadrilatero widening4x-bp-matmul-quadrilatero/main.c 64 64 64)
-# add_quadrilatero_test_threeParam(sp-fmatmul-quadrilatero sp-fmatmul-quadrilatero/main.c 64 64 64)
+add_quadrilatero_test_threeParam(sp-matmul-quadrilatero sp-matmul-quadrilatero/main.c 64 64 64)
+add_quadrilatero_test_threeParam(widening2x-hp-matmul-quadrilatero widening2x-hp-matmul-quadrilatero/main.c 64 64 64)
+add_quadrilatero_test_threeParam(widening4x-bp-matmul-quadrilatero widening4x-bp-matmul-quadrilatero/main.c 64 64 64)
+add_quadrilatero_test_threeParam(sp-fmatmul-quadrilatero sp-fmatmul-quadrilatero/main.c 64 64 64)
+add_quadrilatero_test_threeParam(widening2x-hp-fmatmul-quadrilatero widening2x-hp-fmatmul-quadrilatero/main.c 64 64 64)
+add_quadrilatero_test_threeParam(widening4x-bp-fmatmul-quadrilatero widening4x-bp-fmatmul-quadrilatero/main.c 64 64 64)
 # add_quadrilatero_test_threeParam(sp-fmatmul-quadrilatero sp-fmatmul-quadrilatero/main.c 64 64 8)
-add_quadrilatero_test_threeParam(sp-fmatmul-quadrilatero sp-fmatmul-quadrilatero/main.c 8 8 8)
+# add_quadrilatero_test_threeParam(sp-fmatmul-quadrilatero sp-fmatmul-quadrilatero/main.c 8 8 8)
 # add_quadrilatero_test_threeParam(sp-fmatmul-quadrilatero sp-fmatmul-quadrilatero/main.c 8 16 72)
-# add_quadrilatero_test_threeParam(widening2x-hp-fmatmul-quadrilatero widening2x-hp-fmatmul-quadrilatero/main.c 64 64 64)
-add_quadrilatero_test_threeParam(verify-quadrilatero verify-quadrilatero/main.c 64 64 64)
-# add_quadrilatero_test_threeParam(widening4x-bp-fmatmul-quadrilatero widening4x-bp-fmatmul-quadrilatero/main.c 64 64 64)
+# add_quadrilatero_test_threeParam(verify-quadrilatero verify-quadrilatero/main.c 64 64 64)
@@ -1,20 +1,9 @@
-// Copyright 2024 EPFL
-// Solderpad Hardware License, Version 2.1, see LICENSE.md for details.
-// SPDX-License-Identifier: Apache-2.0 WITH SHL-2.1
-//
-// Author: Danilo Cammarata
-
-// Output tile size: 8x8
-#define FP32 6
-#define CMUL 2
-#define RMUL 2
-
-void __attribute__ ((noinline)) matrixMul_8x8(float* addrA, float* addrB, float* addrC, int K, int N, int M, int shift)
-{
-    int strideA = M * 4; 
-    int strideB = N * 4;
-    int strideC = N * 4;
 
+void __attribute__ ((noinline)) FUNC_NAME(void* addrA,void* addrB, void* addrC, int K, int N, int M, int shift)
+{
+    int strideA;
+    int strideB;
+    int strideC;
     asm volatile(
         // --- PROLOGUE: Save registers ---
         "addi sp, sp, -0x30   \n\t" 
@@ -32,45 +21,45 @@ void __attribute__ ((noinline)) matrixMul_8x8(float* addrA, float* addrB, float*
         "sw s11, 0x00(sp)     \n\t"   
 
         // 1. Data Types Configuration
-        "mmac.dt %[dt_type], %[dt_type], %[dt_type] \n\t"
+        "mmac.dt %[dt_typeC], %[dt_typeA], %[dt_typeB] \n\t"
 
         "add t0, x0, %[M] \n\t"        // t0 = Remaining M
         "add s0, x0, %[addrC] \n\t"    // s0 = Current row pointer for C
         "add s1, x0, %[addrA] \n\t"    // s1 = Current row pointer for A (LHS)
 
-        "loopM_start_dyn: \n\t"
-        "mcfgm t3, t0, 1 \n\t"         // t3 = Processed M rows
+        "sll %[strideA], %[M], %[shift] \n\t"   // Compute strideA = M * 2^shift
+        "sll %[strideB], %[N], %[shift] \n\t"   // Compute strideB = M * 2^shift
+        "sll %[strideC], %[N], %[shift] \n\t"   // Compute strideC = M * 2^shift
+
+        "1: \n\t"
+        "mcfgm t3, t0, %[rmul] \n\t"   // t3 = Processed M rows
 
         "add t1, x0, %[N] \n\t"        // t1 = Remaining N
         "add s2, x0, s0 \n\t"          // s2 = C tile pointer
-        "add s3, x0, %[addrB] \n\t"    // s3 = B (RHS) tile pointer
-
-        "loopN_start_dyn: \n\t"
-        "mcfgn t4, t1, 1 \n\t"         // t4 = Processed N columns
-
-        // Reset accumulator
-        "mzero.a acc0 \n\t"              
+        "add s3, x0, %[addrB] \n\t"    // s3 = B (RHS) tile pointer 
 
+        "2: \n\t"
         "add t2, x0, %[K] \n\t"        // t2 = Remaining K
+        "mcfgk t5, t2 \n\t"            // t5 = Processed K depth for a single block
+        "mcfgn t4, t1, %[cmul] \n\t"   // t4 = Processed N columns
+        "mzero.a acc0 \n\t"            // Reset accumulator
         "add s4, x0, s1 \n\t"          // s4 = A tile pointer
         "add s5, x0, s3 \n\t"          // s5 = B tile pointer
 
-        "loopK_start_dyn: \n\t"
-        "mcfgk t5, t2 \n\t"            // t5 = Processed K depth for a single block
+        "3: \n\t"
 
         // 2. Load First Tiles
         "mld.lhs m0, (s4), %[strideA] \n\t"  
-        "mld.rhs m4, (s5), %[strideB] \n\t" 
-        "mmacc   acc0, m4, m0 \n\t"   
-        
-        "mul  s8, t5, %[strideA] \n\t"       
+        "mld.rhs m4, (s5), %[strideB] \n\t"       
+        "mmacc   acc0, m4, m0 \n\t" 
+        "mul  s8, t5, %[strideA] \n\t"   
+        "mul  s9, t5, %[strideB] \n\t"   
+          
         "add  s6, s4, s8 \n\t"               // s6 = Pointer to 2nd tile of A
         "mld.lhs m2, (s6), %[strideA] \n\t" 
-        
-        "mul  s9, t5, %[strideB] \n\t"       
+          
         "add  s7, s5, s9 \n\t"               // s7 = Pointer to 2nd tile of B
-        "mld.rhs m6, (s7), %[strideB] \n\t"         
-        "mmacc   acc0, m6, m2 \n\t"          
+        "mld.rhs m6, (s7), %[strideB] \n\t"          
 
         // 5. Advance K pointers by TWO blocks
         "add  t6, s8, s8 \n\t"               
@@ -81,11 +70,13 @@ void __attribute__ ((noinline)) matrixMul_8x8(float* addrA, float* addrB, float*
 
         // Decrease remaining K by two blocks
         "add  t6, t5, t5 \n\t"
-        "sub  t2, t2, t6 \n\t"               
-        "bgtz t2, loopK_start_dyn \n\t"          
+        "sub  t2, t2, t6 \n\t"          
+        "mmacc   acc0, m6, m2 \n\t" 
+        "mcfgk t5, t2 \n\t"            // t5 = Processed K depth for a single block             
+        "bgtz t2, 3b \n\t"          
 
         // 6. Transfer to MR and Store
-        "mmov.am m8, acc0 \n\t"              
+        "mmov.am m8, acc0 \n\t"     
         "mst     m8, (s2), %[strideC] \n\t"  
 
         // 7. Advance along N
@@ -94,7 +85,7 @@ void __attribute__ ((noinline)) matrixMul_8x8(float* addrA, float* addrB, float*
         "add  s3, s3, t6 \n\t"               
 
         "sub t1, t1, t4 \n\t"                
-        "bgtz t1, loopN_start_dyn \n\t"          
+        "bgtz t1, 2b \n\t"          
 
         // 8. Advance along M
         "mul t6, t3, %[strideC] \n\t"        
@@ -104,7 +95,7 @@ void __attribute__ ((noinline)) matrixMul_8x8(float* addrA, float* addrB, float*
         "add s1, s1, t6 \n\t"
 
         "sub t0, t0, t3 \n\t"                
-        "bgtz t0, loopM_start_dyn \n\t"
+        "bgtz t0, 1b \n\t"
 
         // --- EPILOGUE: Restore registers ---
         "lw s0 , 0x2c(sp)         \n\t"
@@ -124,14 +115,10 @@ void __attribute__ ((noinline)) matrixMul_8x8(float* addrA, float* addrB, float*
 
         : 
         : [addrA] "r" (addrA), [addrB] "r" (addrB), [addrC] "r" (addrC),
-          [M] "r" (M), [N] "r" (N), [K] "r" (K),
+          [M] "r" (M), [N] "r" (N), [K] "r" (K), [shift] "r" (shift),
           [strideA] "r" (strideA), [strideB] "r" (strideB), [strideC] "r" (strideC),
-          [dt_type] "i" (FP32) 
+          [dt_typeC] "i" (DTC), [dt_typeA] "i" (DTA), [dt_typeB] "i" (DTB),
+          [rmul] "i" (RMUL_2), [cmul] "i" (CMUL_2)
         : "t0", "t1", "t2", "t3", "t4", "t5", "t6", "s0", "s1", "s2", "s3", "s4", "s5", "s6", "s7", "s8", "s9", "memory"
     );
-}
-
-void __attribute__ ((noinline)) matrixMul_16x16(float* addrA, float* addrB, float* addrC, int K, int N, int M, int shift)
-{
-    
 }
@@ -0,0 +1,29 @@
+#define __INT8__     0
+#define __INT16__    1
+#define __INT32__    2
+#define __FP8__      4
+#define __FP16__     5
+#define __FP32__     6
+#define __FP8ALT__  12
+#define __FP16ALT__ 13
+#define __FP32ALT__ 14
+#define CMUL_1 0
+#define RMUL_1 0
+#define CMUL_2 1
+#define RMUL_2 1
+#define CMUL_4 3
+#define RMUL_4 3
+
+#define MATMUL_NAME(DTA,DTB,DTC) \
+    matmul_##DTA##_##DTB##_##DTC
+
+#define matmul(DTA,DTB,DTC,A,B,C,K,N,M,shift) \
+    MATMUL_NAME(DTA,DTB,DTC)(A,B,C,K,N,M,shift)
+
+
+void __attribute__ ((noinline)) matmul_INT8_INT8_INT32(void* addrA,void* addrB, void* addrC, int K, int N, int M, int shift);
+void __attribute__ ((noinline)) matmul_INT16_INT16_INT32(void* addrA,void* addrB, void* addrC, int K, int N, int M, int shift);
+void __attribute__ ((noinline)) matmul_INT32_INT32_INT32(void* addrA,void* addrB, void* addrC, int K, int N, int M, int shift);
+void __attribute__ ((noinline)) matmul_FP8_FP8_FP32(void* addrA,void* addrB, void* addrC, int K, int N, int M, int shift);
+void __attribute__ ((noinline)) matmul_FP16_FP16_FP32(void* addrA,void* addrB, void* addrC, int K, int N, int M, int shift);
+void __attribute__ ((noinline)) matmul_FP32_FP32_FP32(void* addrA,void* addrB, void* addrC, int K, int N, int M, int shift);
@@ -0,0 +1,67 @@
+#include <quadrilatero.h>
+
+// INT8 x INT8 -> INT32
+#define DTA __INT8__
+#define DTB __INT8__
+#define DTC __INT32__
+#define FUNC_NAME MATMUL_NAME(INT8,INT8,INT32)
+#include <matmul.h>
+#undef FUNC_NAME
+#undef DTA
+#undef DTB
+#undef DTC
+
+// INT16 x INT16 -> INT32
+#define DTA __INT16__
+#define DTB __INT16__
+#define DTC __INT32__
+#define FUNC_NAME MATMUL_NAME(INT16,INT16,INT32)
+#include <matmul.h>
+#undef FUNC_NAME
+#undef DTA
+#undef DTB
+#undef DTC
+
+// INT32 x INT32 -> INT32
+#define DTA __INT32__
+#define DTB __INT32__
+#define DTC __INT32__
+#define FUNC_NAME MATMUL_NAME(INT32,INT32,INT32)
+#include <matmul.h>
+#undef FUNC_NAME
+#undef DTA
+#undef DTB
+#undef DTC
+
+// FP8 x FP8 -> FP32
+#define DTA __FP8__
+#define DTB __FP8__
+#define DTC __FP32__
+#define FUNC_NAME MATMUL_NAME(FP8,FP8,FP32)
+#include <matmul.h>
+#undef FUNC_NAME
+#undef DTA
+#undef DTB
+#undef DTC
+
+// FP16 x FP16 -> FP32
+#define DTA __FP16__
+#define DTB __FP16__
+#define DTC __FP32__
+#define FUNC_NAME MATMUL_NAME(FP16,FP16,FP32)
+#include <matmul.h>
+#undef FUNC_NAME
+#undef DTA
+#undef DTB
+#undef DTC
+
+// FP32 x FP32 -> FP32
+#define DTA __FP32__
+#define DTB __FP32__
+#define DTC __FP32__
+#define FUNC_NAME MATMUL_NAME(FP32,FP32,FP32)
+#include <matmul.h>
+#undef FUNC_NAME
+#undef DTA
+#undef DTB
+#undef DTC