memory pool improvements

theoheimel · theoheimel · commit fa762bcd9cfe · 2026-04-08T12:39:42.000+02:00
diff --git a/madspace/src/gpu/device.cu b/madspace/src/gpu/device.cu
@@ -50,7 +50,8 @@ void GpuDevice::tensor_cpu(const Tensor& source, Tensor& target) const {
 
 MemPool::MemPool(
     const GpuDevice& device,
-    const std::vector<std::pair<std::size_t, std::size_t>>& cached_sizes
+    const std::vector<std::pair<std::size_t, std::size_t>>& cached_sizes,
+    gpuStream_t stream
 ) :
     _device(device) {
     std::size_t pool_count = 0;
@@ -61,10 +62,11 @@ MemPool::MemPool(
     }
     _pools.resize(pool_count);
 
+    AsyncGpuDevice async_device(device, stream);
     for (auto& [pool_index, size] : cached_sizes) {
         auto& pool = _pools.at(pool_index);
         std::size_t word_count = (size + 7) / 8;
-        pool.parent_tensor = Tensor(DataType::dt_float, {word_count}, device);
+        pool.parent_tensor = Tensor(DataType::dt_float, {word_count}, async_device);
         pool.capacity = word_count * 8;
         pool.needed_size = word_count * 8;
         //println("create pool {} {}", pool_index, pool.size);
@@ -82,7 +84,21 @@ MemPool::~MemPool() {
     }
 }
 
-std::pair<void*, Tensor> MemPool::allocate(std::size_t pool_index, std::size_t size) {
+void MemPool::reset(gpuStream_t stream) {
+    AsyncGpuDevice async_device(_device, stream);
+    for (PoolItem& pool : _pools) {
+        pool.parent_tensor.reset(async_device);
+        for (auto& [size, item] : pool.free_pointers) {
+            auto& [ptr, parent] = item;
+            if (!parent) {
+                check_error(gpuFreeAsync(ptr, stream));
+            }
+        }
+    }
+    _pools.clear();
+}
+
+std::pair<void*, Tensor> MemPool::allocate(std::size_t pool_index, std::size_t size, gpuStream_t stream) {
     if (pool_index >= _pools.size()) {
         _pools.resize(pool_index + 1);
     }
@@ -110,7 +126,7 @@ std::pair<void*, Tensor> MemPool::allocate(std::size_t pool_index, std::size_t s
         return {ptr, pool.parent_tensor};
     } else {
         void* ptr;
-        check_error(gpuMalloc(&ptr, size));
+        check_error(gpuMallocAsync(&ptr, size, stream));
         _allocs[ptr] = {
             .pool_index = pool_index,
             .size = size,
@@ -122,16 +138,17 @@ std::pair<void*, Tensor> MemPool::allocate(std::size_t pool_index, std::size_t s
     }
 }
 
-void MemPool::free(void* ptr) {
+bool MemPool::free(void* ptr) {
     auto search = _allocs.find(ptr);
     if (search == _allocs.end()) {
-        throw std::runtime_error("address was not allocated using this pool");
+        return false;
     }
     auto& alloc = search->second;
     _pools.at(alloc.pool_index)
         .free_pointers.emplace(alloc.size, std::pair<void*, Tensor>{ptr, alloc.parent_tensor});
     //println("free {} {} {}", ptr, alloc.pool_index, alloc.size);
     _allocs.erase(search);
+    return true;
 }
 
 std::vector<std::pair<std::size_t, std::size_t>> MemPool::total_sizes() const {
@@ -148,7 +165,7 @@ std::vector<std::pair<std::size_t, std::size_t>> MemPool::total_sizes() const {
 
 std::pair<void*, Tensor>
 AsyncGpuDevice::allocate(std::size_t size, AllocHint hint) const {
-    if (_mem_pool) {
+    if (_mem_pool && size <= 4 * 1024 * 1024) {
         std::size_t pool_index;
         switch (hint) {
         case AllocHint::normal:
@@ -172,7 +189,7 @@ AsyncGpuDevice::allocate(std::size_t size, AllocHint hint) const {
             pool_index = 2;
             break;
         }
-        return _mem_pool->allocate(pool_index, size);
+        return _mem_pool->allocate(pool_index, size, _stream);
     } else {
         //_device.allocate(size, hint);
         void* ptr;
@@ -182,9 +199,7 @@ AsyncGpuDevice::allocate(std::size_t size, AllocHint hint) const {
 }
 
 void AsyncGpuDevice::free(void* ptr) const {
-    if (_mem_pool) {
-        _mem_pool->free(ptr);
-    } else {
+    if (!_mem_pool || !_mem_pool->free(ptr)) {
         check_error(gpuFreeAsync(ptr, _stream));
     }
 }
diff --git a/madspace/src/gpu/device.h b/madspace/src/gpu/device.h
@@ -77,10 +77,15 @@ class GpuDevice : public Device {
 
 class MemPool {
 public:
-    MemPool(const GpuDevice& device, const std::vector<std::pair<std::size_t, std::size_t>>& cached_sizes);
+    MemPool(
+        const GpuDevice& device,
+        const std::vector<std::pair<std::size_t, std::size_t>>& cached_sizes,
+        gpuStream_t stream
+    );
     ~MemPool();
-    std::pair<void*, Tensor> allocate(std::size_t pool_index, std::size_t size);
-    void free(void* ptr);
+    void reset(gpuStream_t stream);
+    std::pair<void*, Tensor> allocate(std::size_t pool_index, std::size_t size, gpuStream_t stream);
+    bool free(void* ptr);
     std::vector<std::pair<std::size_t, std::size_t>> total_sizes() const;
 
 private:
@@ -104,7 +109,7 @@ class MemPool {
 class AsyncGpuDevice {
 public:
     AsyncGpuDevice(
-        const GpuDevice& device, gpuStream_t stream, std::size_t stream_index, MemPool* mem_pool = nullptr
+        const GpuDevice& device, gpuStream_t stream, std::size_t stream_index = 0, MemPool* mem_pool = nullptr
     ) :
         _device(device), _stream(stream), _stream_index(stream_index), _mem_pool(mem_pool) {}
 
diff --git a/madspace/src/gpu/runtime.cu b/madspace/src/gpu/runtime.cu
@@ -171,6 +171,16 @@ void op_matmul(
     bias.reset(device);
 }
 
+__global__ void kernel_one(
+    std::size_t batch_size,
+    GpuTensorView<double, 1, true> output
+) {
+    me_int_t i = blockDim.x * blockIdx.x + threadIdx.x;
+    if (i < batch_size) {
+        output[i] = 1.;
+    }
+}
+
 void backward_op_matmul(
     const GpuRuntime::Instruction& instruction,
     TensorVec& locals,
@@ -268,11 +278,12 @@ void backward_op_matmul(
 
     // compute bias_grad += sum_i output_grad_ij
     Tensor ones(DataType::dt_float, {batch_size}, device, AllocHint::temporary);
-    thrust::fill_n(
-        thrust_par.on(stream),
-        thrust::device_pointer_cast(static_cast<double*>(ones.data())),
+    launch_kernel(
+        kernel_one,
+        batch_size,
+        device.stream(),
         batch_size,
-        1.0
+        ones.view<double, 1>()
     );
     check_error(gpublasDgemv(
         handle,
@@ -973,7 +984,9 @@ void op_histogram(
 class SyncTracker {
 public:
     SyncTracker(std::size_t stream_count) :
-        _stream_count(stream_count), _sync_matrix(stream_count * stream_count, true) {}
+        _stream_count(stream_count), _sync_matrix(stream_count * stream_count) {
+        reset();
+    }
 
     bool is_in_sync_with(std::size_t this_stream, std::size_t other_stream) const {
         return _sync_matrix.at(this_stream * _stream_count + other_stream);
@@ -993,7 +1006,13 @@ public:
             }
         }
     }
-    void reset() { std::fill(_sync_matrix.begin(), _sync_matrix.end(), true); }
+    void reset() {
+        for (std::size_t i = 0; i < _stream_count; ++i) {
+            for (std::size_t j = 0; j < _stream_count; ++j) {
+                _sync_matrix.at(i * _stream_count + j) = i == j;
+            }
+        }
+    }
 
 private:
     std::size_t _stream_count;
@@ -1309,7 +1328,8 @@ TensorVec GpuRuntime::run(const TensorVec& inputs) {
     gpu_device.activate();
     auto locals = _locals_init;
     std::copy(inputs.begin(), inputs.end(), locals.begin());
-    MemPool mem_pool(gpu_device, load_pool_size_cache());
+    gpuStream_t main_stream = streams.at(0);
+    MemPool mem_pool(gpu_device, load_pool_size_cache(), main_stream);
 
     //println("----");
     for (auto& instr : _instructions) {
@@ -1328,16 +1348,16 @@ TensorVec GpuRuntime::run(const TensorVec& inputs) {
             check_error(gpuEventRecord(events.at(instr.record_event), stream));
         }
     }
-    gpuStream_t main_stream = streams.at(0);
     for (auto event : _wait_events) {
         check_error(gpuStreamWaitEvent(main_stream, events.at(event)));
     }
+    update_pool_size_cache(mem_pool.total_sizes());
+    mem_pool.reset(main_stream);
     TensorVec outputs;
     for (auto index : _output_indices) {
         outputs.push_back(locals[index]);
     }
     check_error(gpuStreamSynchronize(main_stream));
-    update_pool_size_cache(mem_pool.total_sizes());
     return outputs;
 }
 
@@ -1356,7 +1376,8 @@ std::tuple<TensorVec, TensorVec, std::vector<bool>> GpuRuntime::run_with_grad(
     std::copy(
         input_requires_grad.begin(), input_requires_grad.end(), requires_grad.begin()
     );
-    MemPool mem_pool(gpu_device, load_pool_size_cache());
+    gpuStream_t main_stream = streams.at(0);
+    MemPool mem_pool(gpu_device, load_pool_size_cache(), main_stream);
 
     for (auto [instr, instr_eval_grad] : zip(_instructions, eval_grad)) {
         gpuStream_t stream = streams.at(instr.stream);
@@ -1396,16 +1417,16 @@ std::tuple<TensorVec, TensorVec, std::vector<bool>> GpuRuntime::run_with_grad(
             check_error(gpuEventRecord(events.at(instr.record_event), stream));
         }
     }
-    gpuStream_t main_stream = streams.at(0);
     for (auto event : _wait_events) {
         check_error(gpuStreamWaitEvent(main_stream, events.at(event)));
     }
+    update_pool_size_cache(mem_pool.total_sizes());
+    mem_pool.reset(main_stream);
     TensorVec outputs;
     for (auto index : _output_indices) {
         outputs.push_back(locals[index]);
     }
     check_error(gpuStreamSynchronize(main_stream));
-    update_pool_size_cache(mem_pool.total_sizes());
     return {outputs, locals, eval_grad};
 }
 
@@ -1424,8 +1445,8 @@ GpuRuntime::run_backward(
     for (auto [index, grad] : zip(_output_indices, output_grads)) {
         local_grads[index] = grad;
     }
-    MemPool mem_pool(gpu_device, load_pool_size_cache());
     gpuStream_t main_stream = streams.at(0);
+    MemPool mem_pool(gpu_device, load_pool_size_cache(), main_stream);
     for (auto [instr, instr_eval_grad] :
          zip(std::views::reverse(_instructions), std::views::reverse(eval_grad))) {
         /*gpuStream_t stream = streams.at(instr.stream);
@@ -1457,12 +1478,13 @@ GpuRuntime::run_backward(
     /*for (auto event : _backward_wait_events) {
         check_error(gpuStreamWaitEvent(main_stream, events.at(event)));
     }*/
+    update_pool_size_cache(mem_pool.total_sizes());
+    mem_pool.reset(main_stream);
     std::vector<std::tuple<std::string, Tensor>> global_grads;
     for (auto& [name, index] : _grad_global_indices) {
         global_grads.push_back({name, local_grads[index]});
     }
     check_error(gpuStreamSynchronize(main_stream));
-    update_pool_size_cache(mem_pool.total_sizes());
     return {{local_grads.begin(), local_grads.begin() + _input_count}, global_grads};
 }