new memory management working

theoheimel · theoheimel · commit 779f347f58d7 · 2026-04-06T14:01:37.000+02:00
diff --git a/madspace/CMakeLists.txt b/madspace/CMakeLists.txt
@@ -36,6 +36,8 @@ if (CMAKE_BUILD_TYPE STREQUAL "Release")
     endif()
 endif()
 
+add_compile_options(-fno-omit-frame-pointer)
+
 ########################################################################################
 # Load dependencies                                                                    #
 ########################################################################################
diff --git a/madspace/include/madspace/runtime/runtime_base.h b/madspace/include/madspace/runtime/runtime_base.h
@@ -9,17 +9,17 @@ namespace madspace {
 class Runtime {
 public:
     virtual ~Runtime() = default;
-    virtual TensorVec run(const TensorVec& inputs) const = 0;
+    virtual TensorVec run(const TensorVec& inputs) = 0;
     virtual std::tuple<TensorVec, TensorVec, std::vector<bool>> run_with_grad(
         const TensorVec& inputs, const std::vector<bool>& input_requires_grad
-    ) const = 0;
+    ) = 0;
     virtual std::
         tuple<TensorVec, std::vector<std::tuple<std::string, madspace::Tensor>>>
         run_backward(
             const TensorVec& output_grads,
             const TensorVec& stored_locals,
             const std::vector<bool>& eval_grad
-        ) const = 0;
+        ) = 0;
     friend std::unique_ptr<Runtime>
     build_runtime(const Function& function, ContextPtr context, bool concurrent);
 
diff --git a/madspace/include/madspace/runtime/tensor.h b/madspace/include/madspace/runtime/tensor.h
@@ -534,7 +534,7 @@ class Tensor {
     template <typename D>
     Tensor copy(const D& device, AllocHint hint = AllocHint::normal) const {
         check_impl();
-        Tensor tensor(impl->dtype, impl->shape, impl->device, hint);
+        Tensor tensor(impl->dtype, impl->shape, device, hint);
         device.tensor_copy(*this, tensor);
         return tensor;
     }
@@ -629,6 +629,7 @@ class Tensor {
         auto [data, parent] = device.allocate(size, hint);
         impl->data = data;
         if (parent) {
+            parent.impl->incref();
             impl->owns_data = false;
             impl->data_owner = parent.impl;
         }
diff --git a/madspace/src/cpu/runtime.cpp b/madspace/src/cpu/runtime.cpp
@@ -870,7 +870,7 @@ CpuRuntime::CpuRuntime(const Function& function, ContextPtr context, bool concur
     }
 }
 
-TensorVec CpuRuntime::run(const TensorVec& inputs) const {
+TensorVec CpuRuntime::run(const TensorVec& inputs) {
     if (_concurrent && _context->thread_pool().thread_count() > 1) {
         auto [outputs, locals, eval_grad] = run_concurrent(inputs, {}, false);
         return outputs;
@@ -881,7 +881,7 @@ TensorVec CpuRuntime::run(const TensorVec& inputs) const {
 
 std::tuple<TensorVec, TensorVec, std::vector<bool>> CpuRuntime::run_with_grad(
     const TensorVec& inputs, const std::vector<bool>& input_requires_grad
-) const {
+) {
     if (_concurrent && _context->thread_pool().thread_count() > 1) {
         return run_concurrent(inputs, input_requires_grad, true);
     } else {
@@ -894,7 +894,7 @@ CpuRuntime::run_backward(
     const TensorVec& output_grads,
     const TensorVec& stored_locals,
     const std::vector<bool>& eval_grad
-) const {
+) {
     if (_concurrent && _context->thread_pool().thread_count() > 1) {
         return run_backward_concurrent(output_grads, stored_locals, eval_grad);
     } else {
diff --git a/madspace/src/cpu/runtime.h b/madspace/src/cpu/runtime.h
@@ -34,15 +34,15 @@ class CpuRuntime : public Runtime {
 
     CpuRuntime(const Function& function, ContextPtr context, bool concurrent);
 
-    TensorVec run(const TensorVec& inputs) const override;
+    TensorVec run(const TensorVec& inputs) override;
     std::tuple<TensorVec, TensorVec, std::vector<bool>> run_with_grad(
         const TensorVec& inputs, const std::vector<bool>& input_requires_grad
-    ) const override;
+    ) override;
     std::tuple<TensorVec, std::vector<std::tuple<std::string, Tensor>>> run_backward(
         const TensorVec& output_grads,
         const TensorVec& stored_locals,
         const std::vector<bool>& eval_grad
-    ) const override;
+    ) override;
 
     Context& context() { return *_context; }
     std::mt19937& rand_gen() { return _rand_gens.get(); }
diff --git a/madspace/src/gpu/device.cu b/madspace/src/gpu/device.cu
@@ -6,7 +6,7 @@ using namespace madspace;
 using namespace madspace::gpu;
 using namespace madspace::kernels;
 
-std::pair<void*, Tensor> GpuDevice::allocate(std::size_t size) const {
+std::pair<void*, Tensor> GpuDevice::allocate(std::size_t size, AllocHint hint) const {
     activate();
     void* ptr;
     check_error(gpuMalloc(&ptr, size));
@@ -25,19 +25,19 @@ void GpuDevice::memcpy(void* to, void* from, std::size_t size) const {
 
 void GpuDevice::tensor_copy(const Tensor& source, Tensor& target) const {
     activate();
-    AsyncGpuDevice(*this, gpuStreamPerThread).tensor_copy(source, target);
+    AsyncGpuDevice(*this, gpuStreamPerThread, 0).tensor_copy(source, target);
     check_error(gpuStreamSynchronize(gpuStreamPerThread));
 }
 
 void GpuDevice::tensor_zero(Tensor& tensor) const {
     activate();
-    AsyncGpuDevice(*this, gpuStreamPerThread).tensor_zero(tensor);
+    AsyncGpuDevice(*this, gpuStreamPerThread, 0).tensor_zero(tensor);
     check_error(gpuStreamSynchronize(gpuStreamPerThread));
 }
 
 void GpuDevice::tensor_add(const Tensor& source, Tensor& target) const {
     activate();
-    AsyncGpuDevice(*this, gpuStreamPerThread).tensor_add(source, target);
+    AsyncGpuDevice(*this, gpuStreamPerThread, 0).tensor_add(source, target);
     check_error(gpuStreamSynchronize(gpuStreamPerThread));
 }
 
@@ -65,8 +65,9 @@ MemPool::MemPool(
         auto& pool = _pools.at(pool_index);
         std::size_t word_count = (size + 7) / 8;
         pool.parent_tensor = Tensor(DataType::dt_float, {word_count}, device);
-        pool.size = word_count * 8;
+        pool.capacity = word_count * 8;
         pool.needed_size = word_count * 8;
+        //println("create pool {} {}", pool_index, pool.size);
     }
 }
 
@@ -83,22 +84,29 @@ MemPool::~MemPool() {
 
 std::pair<void*, Tensor> MemPool::allocate(std::size_t pool_index, std::size_t size) {
     if (pool_index >= _pools.size()) {
-        _pools.resize(pool_index);
+        _pools.resize(pool_index + 1);
     }
     PoolItem& pool = _pools.at(pool_index);
     if (auto search = pool.free_pointers.find(size);
         search != pool.free_pointers.end()) {
-        std::pair<void*, Tensor> ret = *search->second;
+        std::pair<void*, Tensor> ret = search->second;
+        _allocs[ret.first] = {
+            .pool_index = pool_index,
+            .size = size,
+            .parent_tensor = ret.second,
+        };
+        //println("reuse {} {} {}", ret.first, pool_index, size);
         pool.free_pointers.erase(search);
         return ret;
-    } else if (pool.capacity - pool.size >= size) {
+    } else if (pool.parent_tensor && pool.capacity - pool.size >= size) {
         void* ptr = &static_cast<uint8_t*>(pool.parent_tensor.data())[pool.size];
         pool.size = (pool.size + size + 7) / 8 * 8;
         _allocs[ptr] = {
             .pool_index = pool_index,
             .size = size,
             .parent_tensor = pool.parent_tensor,
         };
+        //println("pooled {} {} {} {} {}", ptr, pool_index, size, pool.size, pool.capacity);
         return {ptr, pool.parent_tensor};
     } else {
         void* ptr;
@@ -108,25 +116,28 @@ std::pair<void*, Tensor> MemPool::allocate(std::size_t pool_index, std::size_t s
             .size = size,
             .parent_tensor = Tensor(),
         };
+        //println("alloc {} {} {}", ptr, pool_index, size);
         pool.needed_size += (size + 7) / 8 * 8;
         return {ptr, Tensor()};
     }
 }
 
 void MemPool::free(void* ptr) {
-    auto search = _allocs.find(ptr) if (search == _allocs.end()) {
+    auto search = _allocs.find(ptr);
+    if (search == _allocs.end()) {
         throw std::runtime_error("address was not allocated using this pool");
     }
     auto& alloc = search->second;
     _pools.at(alloc.pool_index)
-        .free_pointers.emplace(alloc.size, {ptr, alloc.parent_tensor});
+        .free_pointers.emplace(alloc.size, std::pair<void*, Tensor>{ptr, alloc.parent_tensor});
+    //println("free {} {} {}", ptr, alloc.pool_index, alloc.size);
     _allocs.erase(search);
 }
 
 std::vector<std::pair<std::size_t, std::size_t>> MemPool::total_sizes() const {
     std::vector<std::pair<std::size_t, std::size_t>> ret;
     ret.reserve(_pools.size());
-    for (std::size_t index = 0; PoolItem& pool : _pools) {
+    for (std::size_t index = 0; auto& pool : _pools) {
         if (pool.needed_size > 0) {
             ret.push_back({index, pool.needed_size});
         }
@@ -137,17 +148,46 @@ std::vector<std::pair<std::size_t, std::size_t>> MemPool::total_sizes() const {
 
 std::pair<void*, Tensor>
 AsyncGpuDevice::allocate(std::size_t size, AllocHint hint) const {
-    if (_mem_pool != nullptr && hint != AllocHint::normal) {
-        return _mem_pool->allocate(static_cast<std::size_t>(hint) - 1, size);
+    if (_mem_pool) {
+        std::size_t pool_index;
+        switch (hint) {
+        case AllocHint::normal:
+            throw std::runtime_error("allocation without hint");
+        case AllocHint::output:
+            pool_index = 0;
+            break;
+        case AllocHint::local:
+            pool_index = 3 + 3 * _stream_index;
+            break;
+        case AllocHint::temporary:
+            pool_index = 4 + 3 * _stream_index;
+            break;
+        case AllocHint::input_grad:
+            pool_index = 1;
+            break;
+        case AllocHint::local_grad:
+            pool_index = 5 + 3 * _stream_index;
+            break;
+        case AllocHint::global_grad:
+            pool_index = 2;
+            break;
+        }
+        return _mem_pool->allocate(pool_index, size);
     } else {
-        _device.allocate(size, hint);
-        // void* ptr;
-        // check_error(gpuMallocAsync(&ptr, size, _stream));
-        // return {ptr, Tensor()};
+        //_device.allocate(size, hint);
+        void* ptr;
+        check_error(gpuMallocAsync(&ptr, size, _stream));
+        return {ptr, Tensor()};
     }
 }
 
-void AsyncGpuDevice::free(void* ptr) const { check_error(gpuFreeAsync(ptr, _stream)); }
+void AsyncGpuDevice::free(void* ptr) const {
+    if (_mem_pool) {
+        _mem_pool->free(ptr);
+    } else {
+        check_error(gpuFreeAsync(ptr, _stream));
+    }
+}
 
 void AsyncGpuDevice::memcpy(void* to, void* from, std::size_t size) const {
     check_error(gpuMemcpyAsync(to, from, size, gpuMemcpyDefault, _stream));
@@ -170,13 +210,21 @@ void AsyncGpuDevice::tensor_copy(const Tensor& source, Tensor& target) const {
 
 void AsyncGpuDevice::tensor_zero(Tensor& tensor) const {
     if (tensor.dtype() == DataType::dt_float) {
-        tensor_foreach_dynamic<kernel_zero<GpuTypes>, 1, 1>(
-            {&tensor}, {&tensor}, tensor.size(0), *this
-        );
+        if (tensor.is_contiguous()) {
+            gpuMemsetAsync(tensor.data(), 0, tensor.byte_size(), _stream);
+        } else {
+            tensor_foreach_dynamic<kernel_zero<GpuTypes>, 1, 1>(
+                {&tensor}, {&tensor}, tensor.size(0), *this
+            );
+        }
     } else if (tensor.dtype() == DataType::dt_int) {
-        tensor_foreach_dynamic<kernel_zero_int<GpuTypes>, 1, 1>(
-            {&tensor}, {&tensor}, tensor.size(0), *this
-        );
+        if (tensor.is_contiguous()) {
+            gpuMemsetAsync(tensor.data(), 0, tensor.byte_size(), _stream);
+        } else {
+            tensor_foreach_dynamic<kernel_zero_int<GpuTypes>, 1, 1>(
+                {&tensor}, {&tensor}, tensor.size(0), *this
+            );
+        }
     } else {
         throw std::runtime_error("invalid dtype in zero");
     }
diff --git a/madspace/src/gpu/device.h b/madspace/src/gpu/device.h
@@ -39,7 +39,8 @@ class GpuDevice : public Device {
 #else
     static constexpr DeviceType gpu_device_type = DeviceType::hip;
 #endif
-    void* allocate(std::size_t size) const override;
+    virtual std::pair<void*, Tensor>
+    allocate(std::size_t size, AllocHint hint) const override;
     void free(void* ptr) const override;
     void memcpy(void* to, void* from, std::size_t size) const override;
 
@@ -76,7 +77,7 @@ class GpuDevice : public Device {
 
 class MemPool {
 public:
-    MemPool(const std::vector<std::pair<std::size_t, std::size_t>>& cached_sizes);
+    MemPool(const GpuDevice& device, const std::vector<std::pair<std::size_t, std::size_t>>& cached_sizes);
     ~MemPool();
     std::pair<void*, Tensor> allocate(std::size_t pool_index, std::size_t size);
     void free(void* ptr);
@@ -103,9 +104,9 @@ class MemPool {
 class AsyncGpuDevice {
 public:
     AsyncGpuDevice(
-        const GpuDevice& device, gpuStream_t stream, MemPool* mem_pool = nullptr
+        const GpuDevice& device, gpuStream_t stream, std::size_t stream_index, MemPool* mem_pool = nullptr
     ) :
-        _device(device), _stream(stream), _mem_pool(mem_pool) {}
+        _device(device), _stream(stream), _stream_index(stream_index), _mem_pool(mem_pool) {}
 
     std::pair<void*, Tensor> allocate(std::size_t size, AllocHint hint) const;
     void free(void* ptr) const;
@@ -122,6 +123,7 @@ class AsyncGpuDevice {
 private:
     const GpuDevice& _device;
     gpuStream_t _stream;
+    std::size_t _stream_index;
     MemPool* _mem_pool;
 };
 
diff --git a/madspace/src/gpu/gpu_abstraction.h b/madspace/src/gpu/gpu_abstraction.h
@@ -15,6 +15,7 @@
 #define gpuMemcpy cudaMemcpy
 #define gpuMemcpyDefault cudaMemcpyDefault
 #define gpuMemcpyAsync cudaMemcpyAsync
+#define gpuMemsetAsync cudaMemsetAsync
 #define gpuStreamPerThread cudaStreamPerThread
 #define gpuStreamSynchronize cudaStreamSynchronize
 #define gpuStream_t cudaStream_t
@@ -70,6 +71,7 @@
 #define gpuMemcpy hipMemcpy
 #define gpuMemcpyDefault hipMemcpyDefault
 #define gpuMemcpyAsync hipMemcpyAsync
+#define gpuMemsetAsync hipMemsetAsync
 #define gpuStreamPerThread hipStreamPerThread
 #define gpuStreamSynchronize hipStreamSynchronize
 #define gpuStream_t hipStream_t
diff --git a/madspace/src/gpu/runtime.cu b/madspace/src/gpu/runtime.cu
diff --git a/madspace/src/gpu/runtime.h b/madspace/src/gpu/runtime.h
diff --git a/madspace/src/phasespace/multichannel.cpp b/madspace/src/phasespace/multichannel.cpp