文章标签

并行

深度学习训练：GPU 为什么比 CPU 更强？

深度学习训练：GPU 为什么比 CPU 更强？深度学习，尤其是训练大型神经网络，需要大量的计算资源。近年来，GPU（图形处理器）在深度学习训练中逐渐取代了 CPU（中央处理器），成为首选的计算设备。这是因为 GPU 在并行计算方面具...

2024/8/7 0 177 0 0 0 深度学习 GPU CPU
RISC-V向量扩展如何赋能Transformer推理加速：原理、实践与未来展望

Transformer模型，作为当下人工智能领域，特别是自然语言处理和计算机视觉的核心基石，其强大的能力背后是惊人的计算开销。无论是训练还是推理，动辄上亿甚至上千亿的参数量，都让传统的CPU捉襟见肘。我们都知道，像BERT、GPT这类大型...

2025/7/27 0 226 0 0 0 RISC-V Transformer 向量扩展
片上网络（NoC）中的机器学习推理：如何通过量化、剪枝与NPU实现高效硬件加速

当今，人工智能尤其是机器学习的浪潮，正以前所未有的速度推动着计算架构的演进。在边缘设备、数据中心乃至更深层次的嵌入式系统中，高效、低功耗地执行机器学习推理（Inference）已成为一个核心挑战。这不仅仅是纯粹的计算能力问题，更是数据如何...

2025/7/28 0 114 0 0 0 机器学习推理片上网络硬件加速
LLM微调显存告急？经济型多卡方案与优化策略助你“OOM”变“OK”！

在大型语言模型（LLM）的微调过程中，GPU显存不足（OOM）是一个非常常见的挑战。随着模型参数量和输入序列长度的增加，即使是少量批次（batch size）也可能迅速耗尽显存。除了直接升级到昂贵的A100或H100，确实存在许多经济且有...

2025/10/6 0 71 0 0 0 LLM微调 GPU显存优化 DeepSpeed
Node.js 多线程与多进程深度剖析：Worker Threads、Cluster、setImmediate 与 process.nextTick 实战

你好！相信你对 Node.js 的单线程模型已经有所了解。在处理 I/O 密集型任务时，Node.js 的事件循环机制表现出色。但面对 CPU 密集型任务，单线程就显得力不从心了。今天，咱们就来聊聊如何利用 Node.js 的多线程和多进...

2025/3/10 0 286 0 0 0 Node.js 多线程多进程
如何将pytest-xdist与CI/CD集成提升测试效率

在现代软件开发中，测试自动化是确保代码质量的重要手段。pytest-xdist是pytest框架的一个插件，它通过并行执行测试用例来提升测试效率。在CI/CD（持续集成/持续交付）流程中，将pytest-xdist集成进来，可以大大缩短测...

2024/9/14 0 231 0 0 0 pytest-xdist CI/CD 测试自动化
Python异步编程实战：asyncio与多线程性能深度对比分析

在Python中，并发编程是提高程序性能的关键技术之一。 asyncio 和多线程是实现并发的两种常见方式。本文将深入探讨 asyncio 和多线程在实际应用中的性能差异，并提供详细的对比分析，帮助开发者选择最适合自己项目的并发模型。 ...

2025/2/24 0 477 0 0 0 asyncio 多线程 Python并发
如何将C/C++ SIMD代码移植到WebAssembly SIMD：问题与解决方案

引言 WebAssembly（简称Wasm）因其高性能和跨平台特性，逐渐成为Web开发中的重要技术。SIMD（Single Instruction, Multiple Data）是一种并行计算技术，能够显著提升计算密集型任务的性能。随...

2025/3/12 0 296 0 0 0 WebAssembly SIMD C++
除了 GPU 架构，这些因素也在影响 zk-SNARK 加速性能

嘿，老兄，最近在捣鼓 zk-SNARK 加速，是不是感觉 GPU 跑起来也不是那么回事儿？别慌，今天咱们就来聊聊，除了 GPU 架构本身，还有啥在默默地影响着它的性能，以及怎么选开发框架才能让咱们的 zk-SNARK 飞起来。别光盯...

2025/3/22 0 153 0 0 0 zk-SNARK GPU OpenCL
如何利用Web Workers和WebAssembly优化浏览器中的复杂计算性能

在前端开发中，处理大规模计算任务时，性能往往是最大的瓶颈。传统的JavaScript由于其单线程特性，难以高效地处理复杂的计算任务。然而，通过结合Web Workers和WebAssembly，我们可以显著提升浏览器的计算性能，尤其是在处...

2025/3/12 0 250 0 0 0 WebAssembly Web Workers 前端优化
Salesforce Bulk API 1.0 vs 2.0 对比：PostHog Cohort 同步场景下的深度解析与选型指南

Salesforce Bulk API 1.0 vs 2.0：为 PostHog Cohort 同步选择最佳利器将 PostHog Cohort 数据同步到 Salesforce，本质上是一个典型的批量数据处理场景：你需要定期、高效...

2025/4/6 0 185 0 0 0 Salesforce Bulk API PostHog 集成 API 版本迁移
Rust 并发下载器设计指南：充分利用多核 CPU 提升下载速度

在当今快节奏的网络环境中，高效的文件下载至关重要。对于开发者来说，构建一个能够充分利用多核 CPU 性能的并发下载器是一项极具价值的技能。本文将指导你如何使用 Rust 语言设计并实现一个高效的并发下载器，充分发挥多核 CPU 的优势，显...

2025/7/5 0 169 0 0 0 Rust 并发下载 tokio
CUDA 内存优化秘籍：全局、共享、常量与纹理内存的深度剖析与卷积实战

你好，老伙计！我是老码农，今天咱们来聊聊CUDA编程里头，让无数新手挠头的内存管理问题。别怕，我会用最接地气的方式，带你搞清楚CUDA里那几个主要的内存类型——全局内存、共享内存、常量内存和纹理内存，以及它们在实际应用，尤其是图像卷积里的...

2025/3/12 0 408 0 0 0 CUDA 内存优化图像卷积
PostgreSQL 16 逻辑复制事务顺序保证：origin 选项深度解析

你好！在 PostgreSQL 数据库的世界里，逻辑复制是一个强大的功能，它允许你将数据变更从一个数据库（发布者）复制到另一个数据库（订阅者）。PostgreSQL 16 对逻辑复制进行了增强，特别是对事务顺序的保证。今天咱们就来深入聊聊...

2025/3/7 0 156 0 0 0 PostgreSQL 逻辑复制事务顺序
Ranges库性能揭秘：大数据集处理优化之道

作为一名整天和数据打交道的程序员，你肯定遇到过这样的场景：需要高效地处理大量数据，并且这些数据之间存在各种复杂的关联。这个时候，如果还在用传统的循环遍历，那效率简直惨不忍睹。今天，我们就来聊聊Ranges库，这个C++的黑科技，看看它在大...

2025/4/30 0 101 0 0 0 Ranges库大数据处理性能优化
Pandas处理亿级电商订单数据：性能优化实战指南

大家好，我是你们的程序员朋友，小猿。今天咱们聊聊一个让很多数据工程师头疼的问题：如何用 Pandas 高效处理亿级电商订单数据？别担心，我会把我在实际项目中踩过的坑、总结的经验，都毫无保留地分享给你。为什么选择 Pandas？...

2025/3/6 0 117 0 0 0 Pandas 数据处理性能优化
Node.js Worker Threads 在微服务架构中的实战：并行处理与负载均衡

Node.js Worker Threads 在微服务架构中的实战：并行处理与负载均衡 “微服务”这词儿，你肯定不陌生。把一个大应用拆成一堆小服务，各自独立部署、升级，想想就觉得灵活。但随之而来的问题也不少，比如，某个服务突然“罢工”...

2025/3/10 0 144 0 0 0 Node.js 微服务 Worker Threads
Node.js 多线程实战：worker_threads 性能优化与 child_process 对比

Node.js 多线程实战：worker_threads 性能优化与 child_process 对比你好，我是老码农。作为一名 Node.js 开发者，你可能经常遇到 CPU 密集型任务，例如图像处理、数据压缩、加密解密等。...

2025/3/10 0 376 0 0 0 Node.js worker_threads 多线程
Python文件读写并发优化实战：多进程 vs 多线程，性能与资源消耗深度对比

在Python中进行大量文件读写操作时，如何利用并发来提升效率是一个常见问题。多进程（multiprocessing）和多线程（multithreading）是两种常用的并发方式，但它们在性能和资源消耗方面存在显著差异。本文将深入探讨这两...

2025/7/9 0 224 0 0 0 Python并发多进程多线程
WebAssembly SIMD 指令集兼容性：深入解析与代码优化实战

WebAssembly SIMD 指令集兼容性：深入解析与代码优化实战你好，作为一名有 SIMD 编程经验的开发者，我深知 SIMD (Single Instruction, Multiple Data) 技术对于提升计算密集型任务...

2025/3/12 0 485 0 0 0 WebAssembly SIMD 性能优化

文章标签

并行

深度学习训练：GPU 为什么比 CPU 更强？

RISC-V向量扩展如何赋能Transformer推理加速：原理、实践与未来展望

片上网络（NoC）中的机器学习推理：如何通过量化、剪枝与NPU实现高效硬件加速

LLM微调显存告急？经济型多卡方案与优化策略助你“OOM”变“OK”！

Node.js 多线程与多进程深度剖析：Worker Threads、Cluster、setImmediate 与 process.nextTick 实战

如何将pytest-xdist与CI/CD集成提升测试效率

Python异步编程实战：asyncio与多线程性能深度对比分析

如何将C/C++ SIMD代码移植到WebAssembly SIMD：问题与解决方案

除了 GPU 架构，这些因素也在影响 zk-SNARK 加速性能

如何利用Web Workers和WebAssembly优化浏览器中的复杂计算性能

Salesforce Bulk API 1.0 vs 2.0 对比：PostHog Cohort 同步场景下的深度解析与选型指南

Rust 并发下载器设计指南：充分利用多核 CPU 提升下载速度

CUDA 内存优化秘籍：全局、共享、常量与纹理内存的深度剖析与卷积实战

PostgreSQL 16 逻辑复制事务顺序保证：origin 选项深度解析

Ranges库性能揭秘：大数据集处理优化之道

Pandas处理亿级电商订单数据：性能优化实战指南

Node.js Worker Threads 在微服务架构中的实战：并行处理与负载均衡

Node.js 多线程实战：worker_threads 性能优化与 child_process 对比

Python文件读写并发优化实战：多进程 vs 多线程，性能与资源消耗深度对比

WebAssembly SIMD 指令集兼容性：深入解析与代码优化实战