C++多线程死锁避坑指南：案例分析与解决方案

2025/4/29 20:04:10 330 0 0 0

C++多线程死锁避坑指南：案例分析与解决方案

作为一名C++开发者，你是否曾在多线程编程中遭遇过死锁的困境？程序卡死，CPU占用率接近于零，却又找不到问题所在，那种感觉是不是糟透了？死锁是并发编程中一种常见的且难以调试的问题，它就像隐藏在代码中的幽灵，随时可能给你带来意想不到的麻烦。

别担心，今天我就来和你聊聊C++多线程中的死锁问题，深入分析死锁产生的常见场景，并提供一些实用的策略来避免死锁的发生。希望通过本文，你能对死锁有更深刻的理解，从而编写出更健壮、更可靠的多线程程序。

什么是死锁？

简单来说，死锁是指两个或多个线程因争夺资源而造成的一种僵局（Deadly Embrace），若无外力作用，这些线程都将永远阻塞下去。想象一下，两个人在狭窄的过道里相遇，谁也不肯让路，结果谁也无法通过，这就是一个典型的死锁场景。

要发生死锁，通常需要同时满足以下四个必要条件，也称为 Coffman 条件：

互斥条件（Mutual Exclusion）：资源必须处于独占模式，即一次只能有一个线程占用。如果资源可以被多个线程同时访问，就不会产生死锁。
占有且等待条件（Hold and Wait）：线程在持有至少一个资源的同时，又请求获取其他线程正在持有的资源。
不可剥夺条件（No Preemption）：线程已经获得的资源，在未使用完之前，不能被其他线程强行剥夺，只能由持有它的线程自愿释放。
循环等待条件（Circular Wait）：存在一个线程等待资源的环形链，例如，线程A等待线程B持有的资源，线程B等待线程C持有的资源，而线程C又等待线程A持有的资源。

这四个条件必须同时满足，死锁才会发生。只要破坏其中一个或多个条件，就可以避免死锁。

常见死锁场景分析

在C++多线程编程中，以下是一些常见的死锁场景：

嵌套锁（Nested Locks）

这是最常见的死锁场景之一。当一个线程已经持有一个锁，又尝试获取另一个锁时，如果另一个线程以相反的顺序获取这两个锁，就可能发生死锁。

示例代码：

#include <iostream>
#include <thread>
#include <mutex>

std::mutex mutex1, mutex2;

void thread1_function() {
    std::cout << "Thread 1: Trying to acquire mutex1...\n";
    std::lock_guard<std::mutex> lock1(mutex1);
    std::cout << "Thread 1: Acquired mutex1\n";
    std::this_thread::sleep_for(std::chrono::milliseconds(100)); // 模拟一些操作
    std::cout << "Thread 1: Trying to acquire mutex2...\n";
    std::lock_guard<std::mutex> lock2(mutex2);
    std::cout << "Thread 1: Acquired mutex2\n";
    std::cout << "Thread 1: Finished\n";
}

void thread2_function() {
    std::cout << "Thread 2: Trying to acquire mutex2...\n";
    std::lock_guard<std::mutex> lock2(mutex2);
    std::cout << "Thread 2: Acquired mutex2\n";
    std::this_thread::sleep_for(std::chrono::milliseconds(100)); // 模拟一些操作
    std::cout << "Thread 2: Trying to acquire mutex1...\n";
    std::lock_guard<std::mutex> lock1(mutex1);
    std::cout << "Thread 2: Acquired mutex1\n";
    std::cout << "Thread 2: Finished\n";
}

int main() {
    std::thread thread1(thread1_function);
    std::thread thread2(thread2_function);

    thread1.join();
    thread2.join();

    std::cout << "Main thread: Finished\n";
    return 0;
}

分析：

在这个例子中，thread1_function 首先获取 mutex1，然后尝试获取 mutex2。thread2_function 则以相反的顺序获取锁，先获取 mutex2，然后尝试获取 mutex1。如果两个线程同时执行，就可能出现以下情况：

线程1获取了 mutex1，线程2获取了 mutex2。
线程1尝试获取 mutex2，但 mutex2 已经被线程2持有，线程1阻塞。
线程2尝试获取 mutex1，但 mutex1 已经被线程1持有，线程2阻塞。

此时，两个线程都在等待对方释放锁，从而进入死锁状态。

资源饥饿（Resource Starvation）

虽然资源饥饿不是严格意义上的死锁，但它会导致线程无限期地等待资源，从而造成类似死锁的效果。资源饥饿通常发生在优先级反转的情况下，低优先级线程持有一个高优先级线程需要的资源，导致高优先级线程无法运行。

示例场景：

假设有两个线程，一个高优先级线程和一个低优先级线程。低优先级线程持有一个互斥锁，而高优先级线程需要获取这个互斥锁才能继续执行。如果此时有一个中等优先级的线程正在运行，它可能会抢占低优先级线程的CPU时间，导致低优先级线程无法释放互斥锁，从而使高优先级线程一直等待。

数据库死锁（Database Deadlocks）

在使用数据库时，如果多个事务以不同的顺序锁定相同的表或行，也可能发生死锁。数据库系统通常会自动检测死锁，并选择回滚其中一个事务来解决死锁。

示例场景：

假设有两个事务，事务A和事务B。事务A首先更新表1的记录，然后尝试更新表2的记录。事务B首先更新表2的记录，然后尝试更新表1的记录。如果两个事务同时执行，就可能发生死锁。

信号量死锁（Semaphore Deadlocks）

信号量用于控制对共享资源的访问。如果线程在使用信号量时出现错误，例如重复释放信号量或者在没有获取信号量的情况下释放信号量，就可能导致死锁。

示例代码：

#include <iostream>
#include <thread>
#include <semaphore>

std::counting_semaphore<1> semaphore(1); // 初始值为1的信号量

void thread_function() {
    semaphore.acquire(); // 获取信号量
    std::cout << "Thread: Acquired semaphore\n";
    // ... 一些操作 ...
    // 错误：重复释放信号量
    semaphore.release();
    semaphore.release(); // 再次释放信号量，可能导致其他线程永久阻塞
    std::cout << "Thread: Released semaphore\n";
}

int main() {
    std::thread thread1(thread_function);
    std::thread thread2(thread_function);

    thread1.join();
    thread2.join();

    std::cout << "Main thread: Finished\n";
    return 0;
}

分析：

在这个例子中，thread_function 中重复释放了信号量，导致信号量的值大于1。如果另一个线程尝试获取信号量，它会成功获取，但在释放信号量时，信号量的值会再次增加，最终可能导致信号量的值无限增长，其他线程永久阻塞。

如何避免死锁？

既然死锁这么可怕，那么我们应该如何避免它呢？以下是一些常用的策略：

避免嵌套锁

这是避免死锁最有效的方法之一。尽量避免在一个线程中获取多个锁。如果必须获取多个锁，请确保所有线程都以相同的顺序获取锁。这可以有效地破坏循环等待条件。

修改示例代码：

#include <iostream>
#include <thread>
#include <mutex>

std::mutex mutex1, mutex2;

void thread1_function() {
    // 确保两个线程都以相同的顺序获取锁
    std::lock(mutex1, mutex2);
    std::lock_guard<std::mutex> lock1(mutex1, std::adopt_lock);
    std::lock_guard<std::mutex> lock2(mutex2, std::adopt_lock);

    std::cout << "Thread 1: Acquired mutex1 and mutex2\n";
    std::cout << "Thread 1: Finished\n";
}

void thread2_function() {
    // 确保两个线程都以相同的顺序获取锁
    std::lock(mutex1, mutex2);
    std::lock_guard<std::mutex> lock1(mutex1, std::adopt_lock);
    std::lock_guard<std::mutex> lock2(mutex2, std::adopt_lock);

    std::cout << "Thread 2: Acquired mutex1 and mutex2\n";
    std::cout << "Thread 2: Finished\n";
}

int main() {
    std::thread thread1(thread1_function);
    std::thread thread2(thread2_function);

    thread1.join();
    thread2.join();

    std::cout << "Main thread: Finished\n";
    return 0;
}

分析：

在这个修改后的例子中，我们使用了 std::lock 函数来同时获取 mutex1 和 mutex2。std::lock 函数可以保证以原子操作的方式获取多个互斥锁，避免了死锁的发生。std::adopt_lock 参数告诉 std::lock_guard 构造函数，互斥锁已经被锁定，不需要再次锁定。

使用超时机制

当线程尝试获取锁时，可以设置一个超时时间。如果在超时时间内未能获取到锁，线程可以放弃获取锁，并执行其他操作。这可以有效地避免线程永久阻塞。

示例代码：

#include <iostream>
#include <thread>
#include <mutex>
#include <chrono>

std::mutex mutex;

void thread_function() {
    std::chrono::milliseconds timeout(100); // 超时时间为100毫秒
    while (true) {
        if (mutex.try_lock_for(timeout)) {
            std::cout << "Thread: Acquired mutex\n";
            // ... 一些操作 ...
            mutex.unlock();
            std::cout << "Thread: Released mutex\n";
            break;
        } else {
            std::cout << "Thread: Failed to acquire mutex, retrying...\n";
            // ... 可以执行其他操作，例如记录日志、发送警报等 ...
        }
    }
}

int main() {
    std::thread thread1(thread_function);
    std::thread thread2(thread_function);

    thread1.join();
    thread2.join();

    std::cout << "Main thread: Finished\n";
    return 0;
}

分析：

在这个例子中，我们使用了 mutex.try_lock_for 函数来尝试获取互斥锁，并设置了超时时间。如果在超时时间内未能获取到互斥锁，try_lock_for 函数会返回 false，线程可以执行其他操作，例如记录日志、发送警报等。这可以避免线程永久阻塞，从而避免死锁。

锁排序

为所有锁分配一个唯一的ID，并要求所有线程按照锁ID的升序或降序获取锁。这可以有效地破坏循环等待条件。

示例代码：

#include <iostream>
#include <thread>
#include <mutex>
#include <algorithm>
#include <vector>

struct Lockable {
    int id;
    std::mutex mutex;
};

bool compare_lockables(const Lockable& a, const Lockable& b) {
    return a.id < b.id;
}

void acquire_locks(std::vector<Lockable>& lockables) {
    // 按照锁ID的升序排序
    std::sort(lockables.begin(), lockables.end(), compare_lockables);

    // 获取所有锁
    for (auto& lockable : lockables) {
        lockable.mutex.lock();
    }
}

void release_locks(std::vector<Lockable>& lockables) {
    // 按照锁ID的升序释放锁
    // 注意：这里也需要按照相同的顺序释放锁，否则可能导致死锁
    for (auto& lockable : lockables) {
        lockable.mutex.unlock();
    }
}

void thread_function(std::vector<Lockable> lockables) {
    acquire_locks(lockables);
    std::cout << "Thread: Acquired all locks\n";
    // ... 一些操作 ...
    release_locks(lockables);
    std::cout << "Thread: Released all locks\n";
}

int main() {
    Lockable lockable1{1, std::mutex()};
    Lockable lockable2{2, std::mutex()};
    Lockable lockable3{3, std::mutex()};

    std::thread thread1(thread_function, std::vector<Lockable>{lockable1, lockable2});
    std::thread thread2(thread_function, std::vector<Lockable>{lockable2, lockable3});

    thread1.join();
    thread2.join();

    std::cout << "Main thread: Finished\n";
    return 0;
}

分析：

在这个例子中，我们为每个锁分配了一个唯一的ID，并使用 std::sort 函数按照锁ID的升序对锁进行排序。然后，我们按照排序后的顺序获取锁和释放锁。这可以保证所有线程都以相同的顺序获取锁，从而避免死锁。

使用死锁检测工具

可以使用一些死锁检测工具来帮助检测代码中的死锁问题。例如，可以使用 Valgrind 的 Helgrind 工具来检测C++多线程程序中的死锁和其他并发问题。

示例：

valgrind --tool=helgrind ./your_program

Helgrind 会分析程序的执行过程，并报告潜在的死锁和其他并发问题。

避免持有锁时执行耗时操作

在持有锁时，尽量避免执行耗时的操作，例如网络请求、文件读写等。这可以减少其他线程等待锁的时间，从而降低死锁的风险。

使用无锁数据结构

在某些情况下，可以使用无锁数据结构来避免锁的使用。无锁数据结构使用原子操作来实现并发访问，避免了锁的竞争，从而避免了死锁的风险。但是，无锁数据结构的实现通常比较复杂，需要仔细考虑线程安全问题。

仔细设计并发程序

避免死锁的最佳方法是在设计并发程序时就考虑到死锁的可能性，并采取相应的措施来避免死锁的发生。例如，可以尽量减少共享资源的使用，或者使用消息传递机制来代替共享内存。

总结

死锁是多线程编程中一种常见的且难以调试的问题。要避免死锁，需要深入理解死锁的原理，并采取相应的策略。本文介绍了一些常用的避免死锁的策略，包括避免嵌套锁、使用超时机制、锁排序、使用死锁检测工具等。希望这些策略能帮助你编写出更健壮、更可靠的多线程程序。

记住，预防胜于治疗。在编写多线程程序时，一定要时刻注意死锁的可能性，并采取相应的措施来避免死锁的发生。只有这样，才能编写出高质量的多线程程序，充分利用多核CPU的性能，提高程序的运行效率。

希望这篇文章能对你有所帮助！如果你有任何问题或者建议，欢迎在评论区留言，我们一起交流学习！

并发编程砖家 C++多线程死锁

C++多线程死锁避坑指南：案例分析与解决方案