C++20 协程性能榨汁：减少内存分配和切换开销的秘密

2025/4/29 12:04:00 292 0 0 0

协程？等等，我们先聊聊背景

在多线程编程的世界里，我们总是小心翼翼地与锁、互斥量和条件变量打交道。这些工具像是一把双刃剑，在保证并发安全的同时，也带来了额外的开销，甚至可能引发死锁这样的噩梦。而 C++20 引入的协程，就像一股清流，试图在不增加复杂性的前提下，提升并发程序的性能。

协程本质上是一种用户态的线程，它允许函数在执行过程中暂停和恢复，而无需操作系统的介入。这意味着更低的上下文切换开销，以及更高的资源利用率。想象一下，一个 Web 服务器可以同时处理成千上万个连接，而无需为每个连接创建一个独立的线程，这是不是很诱人？

C++20 协程：不仅仅是 `co_await`

co_await、co_yield 和 co_return 是 C++20 协程的三大关键词，它们分别用于挂起协程、产生一个值和返回值。但要真正理解协程的性能优化，我们不能仅仅停留在语法层面，还需要深入了解协程的底层机制，以及如何避免常见的性能陷阱。

性能优化第一步：减少内存分配

协程的挂起和恢复需要保存当前的状态，这些状态信息通常存储在一个称为“协程帧”的内存区域中。每次挂起协程，都需要分配一块新的协程帧；每次恢复协程，都需要读取协程帧中的数据。频繁的内存分配和释放，无疑会增加程序的运行开销。

那么，如何减少内存分配呢？

使用 std::suspend_always 和 std::suspend_never

这两个类分别表示总是挂起和从不挂起。如果你确定一个协程不需要挂起，那么可以使用 std::suspend_never 来避免协程帧的分配。例如：

#include <iostream>
#include <coroutine>

struct NeverSuspend {
    bool await_ready() const { return true; }
    void await_suspend(std::coroutine_handle<> handle) const {}
    void await_resume() const {}
};

struct MyCoroutine {
    struct promise_type {
        int value;

        MyCoroutine get_return_object() {
            return MyCoroutine{std::coroutine_handle<promise_type>::from_promise(*this)};
        }
        std::suspend_never initial_suspend() { return {}; }
        std::suspend_never final_suspend() noexcept { return {}; }
        void return_value(int v) { value = v; }
        void unhandled_exception() {}
    };

    std::coroutine_handle<promise_type> handle;
    int get_value() { return handle.promise().value; }
};

MyCoroutine simpleCoroutine() {
    co_return 42;
}

int main() {
    MyCoroutine coroutine = simpleCoroutine();
    std::cout << "Value: " << coroutine.get_value() << std::endl; // 输出 Value: 42
    coroutine.handle.destroy();
    return 0;
}

在这个例子中，simpleCoroutine 函数永远不会挂起，因此不需要分配协程帧。

使用栈上协程（Stackful Coroutines）

C++20 标准只提供了无栈协程（Stackless Coroutines），这意味着协程的状态必须保存在堆上。但是，某些编译器（例如 GCC 和 Clang）提供了对栈上协程的支持。栈上协程的优点是，它的状态保存在栈上，无需动态内存分配。但是，栈空间是有限的，因此栈上协程不适合用于需要大量状态信息的场景。

对象池（Object Pool）

如果需要频繁地创建和销毁协程，可以考虑使用对象池来管理协程帧的内存。对象池预先分配一定数量的协程帧，当需要创建协程时，从对象池中取出一个空闲的协程帧；当协程结束时，将协程帧放回对象池。这样可以避免频繁的内存分配和释放，提高程序的性能。

#include <iostream>
#include <vector>
#include <memory>
#include <coroutine>

// 简单的协程帧对象池
template <typename T>
class CoroutineFramePool {
public:
    CoroutineFramePool(size_t size) : pool_size(size) {
        for (size_t i = 0; i < pool_size; ++i) {
            pool.push_back(std::make_unique<T>());
        }
    }

    T* acquire() {
        if (pool.empty()) {
            // 对象池为空，可以考虑扩容或者抛出异常
            return nullptr;
        }
        T* frame = pool.back().get();
        pool.pop_back();
        return frame;
    }

    void release(T* frame) {
        pool.push_back(std::unique_ptr<T>(frame));
    }

private:
    size_t pool_size;
    std::vector<std::unique_ptr<T>> pool;
};

// 示例协程
struct MyCoroutine {
    struct promise_type {
        int value;
        std::suspend_never initial_suspend() { return {}; }
        std::suspend_never final_suspend() noexcept { return {}; }
        MyCoroutine get_return_object() {
            return {std::coroutine_handle<promise_type>::from_promise(*this)};
        }
        void return_value(int v) { value = v; }
        void unhandled_exception() {}
    };

    std::coroutine_handle<promise_type> handle;
    int get_value() { return handle.promise().value; }
};

MyCoroutine myCoroutine() {
    co_return 123;
}

int main() {
    // 创建一个可以容纳 10 个 MyCoroutine 帧的对象池
    CoroutineFramePool<MyCoroutine::promise_type> pool(10);

    // 模拟创建和销毁协程
    for (int i = 0; i < 5; ++i) {
        MyCoroutine::promise_type* frame = pool.acquire();
        if (frame) {
            // 使用 placement new 在对象池提供的内存中构造 promise 对象
            new (frame) MyCoroutine::promise_type();

            // 获取协程句柄
            std::coroutine_handle<MyCoroutine::promise_type> handle = std::coroutine_handle<MyCoroutine::promise_type>::from_promise(*frame);

            // 恢复协程执行（如果需要）
            // handle.resume();

            // 打印协程返回值
            // std::cout << "Coroutine value: " << handle.promise().value << std::endl;

            // 销毁协程并释放内存回对象池
            handle.destroy();
            pool.release(frame);
        } else {
            std::cerr << "Failed to acquire coroutine frame from pool!" << std::endl;
        }
    }

    std::cout << "Coroutine example with object pool completed." << std::endl;

    return 0;
}

注意： 这个例子只是一个简化的演示，实际使用中需要考虑线程安全等问题。

性能优化第二步：避免不必要的协程切换

协程切换（挂起和恢复）本身也需要一定的开销。虽然协程切换比线程切换的开销要小得多，但在高并发的场景下，频繁的协程切换仍然会影响程序的性能。

如何避免不必要的协程切换呢？

减少 co_await 的使用

co_await 是导致协程挂起的关键。如果一个函数不需要异步执行，那么就不要使用 co_await。例如，可以将一些计算密集型的任务放在独立的线程中执行，而避免在协程中执行。

使用 Continuations

Continuations 是一种将控制权从一个协程传递到另一个协程的技术。通过使用 Continuations，可以避免不必要的协程切换。例如，可以将一个复杂的任务分解成多个小的协程，然后使用 Continuations 将这些协程连接起来。这样可以减少每个协程的执行时间，从而减少协程切换的次数。

合并小的协程

如果有一些小的协程，它们的执行时间很短，那么可以将它们合并成一个大的协程。这样可以减少协程切换的次数，提高程序的性能。

深入理解 `awaitable`、`awaiter` 和 `promise_type`

要真正掌握协程的性能优化，我们需要深入了解 awaitable、awaiter 和 promise_type 这三个概念。

awaitable: 表示一个可以被 co_await 的对象。例如，std::future 就是一个 awaitable 对象。
awaiter: 是一个与 awaitable 对象关联的对象，它负责执行挂起、恢复和返回值等操作。awaiter 对象必须提供以下三个方法：
- await_ready(): 如果 awaitable 对象已经准备好，则返回 true，否则返回 false。
- await_suspend(std::coroutine_handle<> handle): 挂起协程，并将协程句柄传递给 awaiter 对象。awaiter 对象可以在稍后的某个时间点使用该句柄恢复协程的执行。
- await_resume(): 恢复协程的执行，并返回 awaitable 对象的结果。
promise_type: 是一个与协程关联的类型，它负责创建和销毁协程帧，以及处理协程的返回值和异常。promise_type 必须提供以下方法：
- get_return_object(): 返回一个表示协程结果的对象。该对象可以是 std::future，也可以是自定义的类型。
- initial_suspend(): 决定协程是否在启动时挂起。如果返回 std::suspend_always，则协程在启动时挂起；如果返回 std::suspend_never，则协程在启动时不挂起。
- final_suspend(): 决定协程在结束时是否挂起。通常返回 std::suspend_always，以防止协程帧被立即销毁。
- return_value(value): 设置协程的返回值。
- unhandled_exception(): 处理协程中未捕获的异常。

通过自定义 awaitable、awaiter 和 promise_type，我们可以对协程的行为进行更精细的控制，从而实现更高效的协程。

协程与异步 I/O

协程非常适合用于处理异步 I/O 操作。传统的异步 I/O 操作通常使用回调函数来实现，这种方式会导致代码难以阅读和维护。而使用协程，我们可以将异步 I/O 操作写成同步风格的代码，从而提高代码的可读性和可维护性。

例如，可以使用协程来实现一个异步的 TCP 服务器：

#include <iostream>
#include <asio.hpp>
#include <asio/experimental/awaitable_operators.hpp>
#include <coroutine>

using namespace asio::experimental::awaitable_operators;

asio::awaitable<void> handle_connection(asio::ip::tcp::socket socket) {
    try {
        asio::streambuf buffer;
        while (true) {
            // 异步读取数据
            size_t bytes_transferred = co_await asio::async_read_until(socket, buffer, '\n', asio::use_awaitable);

            if (bytes_transferred > 0) {
                std::istream input(&buffer);
                std::string line;
                std::getline(input, line);

                std::cout << "Received: " << line << std::endl;

                // 异步发送响应
                std::string response = "You sent: " + line + "\n";
                co_await asio::async_write(socket, asio::buffer(response), asio::use_awaitable);
            } else {
                // 连接关闭
                break;
            }
        }

        std::cout << "Connection closed." << std::endl;
    } catch (std::exception& e) {
        std::cerr << "Exception in connection handler: " << e.what() << std::endl;
    }
}

asio::awaitable<void> listener(asio::ip::tcp::acceptor& acceptor) {
    while (true) {
        asio::ip::tcp::socket socket = co_await acceptor.async_accept(asio::use_awaitable);
        asio::co_spawn(acceptor.get_executor(), handle_connection(std::move(socket)), asio::detached);
    }
}

int main() {
    try {
        asio::io_context io_context;

        asio::ip::tcp::acceptor acceptor(io_context, asio::ip::tcp::endpoint(asio::ip::tcp::v4(), 8080));

        asio::co_spawn(io_context, listener(acceptor), asio::detached);

        io_context.run();
    } catch (std::exception& e) {
        std::cerr << "Exception: " << e.what() << std::endl;
    }

    return 0;
}

在这个例子中，handle_connection 函数使用 co_await 来异步读取和发送数据，使得代码看起来像是同步的。listener 函数使用 asio::co_spawn 来启动新的协程处理连接。

总结

C++20 协程为并发编程带来了新的可能性。通过减少内存分配和避免不必要的协程切换，我们可以充分利用协程的优势，提高程序的性能。但是，协程并不是万能的，我们需要根据具体的应用场景选择合适的并发模型。希望这篇文章能够帮助你更好地理解 C++20 协程的性能优化，并在实际项目中应用它们。

记住，性能优化是一个持续的过程，我们需要不断地学习和实践，才能找到最佳的解决方案。

最后，别忘了使用性能分析工具来测量你的代码，找到真正的瓶颈所在。祝你编程愉快！

协程优化大师 C++20 协程性能优化内存分配