文章标签

GPU优化

AI场景下GPU资源优化：平衡深度学习训练与在线服务稳定性的策略与实践

在AI大行其道的今天，GPU已成为支撑深度学习训练和推理的核心算力。然而，作为AI基础设施的负责人，我深知平衡团队内部深度学习工程师对GPU资源“永不满足”的需求，与在线服务必须保障的稳定性，是一个长期且棘手的挑战。工程师们抱怨训练任务排...

2025/10/5 0 324 0 0 0 GPU优化深度学习资源调度
在PyTorch中使用Apex进行内存管理的技巧与实践

使用PyTorch进行深度学习模型的训练时，内存管理常常成为一个瓶颈。尤其是在处理大规模数据集或复杂模型时，GPU的显存限制可能会导致训练中断或效率低下。为了解决这个问题，NVIDIA推出了Apex库，它可以帮助我们自动混合精度训练，从而...

2024/12/29 0 587 0 0 0 PyTorch Apex 深度学习
如何使用Nsight Systems API分析并优化渲染管线

在现代图形应用程序开发中，渲染管线是性能优化的关键。Nsight Systems是NVIDIA提供的一款强大的工具，能够帮助开发者深入分析渲染管线的各个阶段，包括顶点处理、光栅化和像素处理等。本文将通过详细的步骤和代码示例，介绍如何使用N...

2025/3/13 0 552 0 0 0 Nsight Systems 渲染管线 GPU优化
Vulkan高性能：如何避免Compute与Graphics交替时的GPU流水线空泡（Bubble）

在现代游戏引擎（如 Unreal Engine 5、Unity HDRP 或自研引擎）中，Compute Shader（计算着色器）与 Graphics Pipeline（图形管线）的频繁交替已成为常态。无论是后处理、光流估计、GPU 驱...

2026/7/19 0 31 0 0 0 Vulkan GPU优化图形学
WebGPU计算着色器性能调优：合理设置Workgroup与玩转共享内存

在 WebGPU 中，计算着色器（Compute Shader）赋予了前端开发者直接操控 GPU 进行通用计算（GPGPU）的能力。无论是物理模拟、图像处理还是深度学习推理，计算着色器都能提供远超传统 CPU 的算力。然而，许多开发...

2026/7/21 0 29 0 0 0 WebGPU WGSL GPU优化
榨干移动端GPU：Mali与Adreno的Compute Shader共享内存（LSM）极致优化

在移动端进行高性能计算（如GPGPU物理模拟、图像处理、深度学习推理内核）时，Compute Shader 的局部共享内存（Local Shared Memory，下文简称 LSM，在 HLSL 中称为 groupshared，GLSL ...

2026/7/21 0 51 0 0 0 移动端GPU LSM优化
移动端GPU Tile Buffer溢出在RenderDoc中的准确定位与量化分析实践

在移动端（TBDR 架构）GPU 性能优化中， Tile Buffer （或称 Adreno 的 GMEM、Mali 的 Local Memory）的溢出（Spill）是导致 GPU 内存带宽暴涨、芯片发热并最终引发降频掉帧的致命因素之一...

2026/7/22 0 40 0 0 0 RenderDoc GPU优化移动端渲染
WGSL计算着色器局部共享内存优化：手把手教你规避Bank Conflict

在 WebGPU 开发中，计算着色器（Compute Shader）是释放 GPU 算力的核心利器。为了在不同的工作线程（Threads）之间高效共享数据，我们通常会使用 var<workgroup> 声明...

2026/7/21 0 30 0 0 0 WebGPU WGSL GPU优化
PyTorch GPU显存缓存机制深度解析与优化实践

作为一名数据科学家，我们经常面对深度学习模型训练中一个棘手的问题：GPU显存的有效管理。特别是当模型复杂、数据量庞大时，训练过程中频繁创建和销毁临时张量会导致显著的性能开销，甚至触发“显存不足”错误。今天，我们就来深入探讨PyTorch的...

2025/10/6 0 420 0 0 0 PyTorch GPU优化显存管理
针对于特定GPU架构的TensorFlow Profiler优化策略有哪些？

在机器学习领域， TensorFlow 已成为许多开发者和研究人员的热门选择。而当涉及到深度学习模型的训练时，GPU 的使用可以显著加快计算速度。但如何确保GPU的性能得以充分利用呢？这时，TensorFlow Profiler 便成为...

2024/12/29 0 364 0 0 0 TensorFlow GPU优化性能分析
深度学习模型部署：主流工具选型与实践指南

在人工智能时代，模型训练固然重要，但如何将训练好的模型高效、稳定地部署到实际生产环境中，为用户提供服务，更是决定AI应用价值的关键一环。面对日益复杂的模型和多样化的部署场景，选择一个合适的模型部署工具至关重要。本文将深入探讨当前主流的模型...

2025/10/5 0 418 0 0 0 模型部署 TorchServe Kubeflow
Nsight Systems 实战：多进程应用性能分析与优化案例详解

大家好，我是你们的程序猿朋友“码农老王”。今天咱们来聊聊 NVIDIA Nsight Systems 这款强大的性能分析工具，特别是它在多进程应用场景下的实战应用。相信很多开发者在面对复杂的多进程应用时，都会遇到性能瓶颈，但又苦于无从下手...

2025/3/13 0 538 0 0 0 Nsight Systems 性能分析多进程
Nsight Systems深度剖析：顶点、光栅化和像素处理的性能瓶颈及优化实践

作为程序员，你肯定遇到过这样的情况：游戏卡顿、渲染缓慢， অথচ CPU 和 GPU 利用率却不高。这时，NVIDIA Nsight Systems 就能派上用场，帮你找出性能瓶颈。今天咱们就来聊聊 Nsight Systems 在图形渲...

2025/3/13 0 527 0 0 0 Nsight Systems GPU优化图形渲染
CUDA 进阶：__ldg() 内置函数深度解析与性能优化

你好，老伙计！我是老码农，很高兴再次和你一起探索 CUDA 编程的奥秘。今天，咱们来聊聊 CUDA 中一个相当实用的内置函数 —— __ldg() ，它能帮助咱们更高效地加载只读数据。如果你是一位经验丰富的 CUDA 开发者，那么这篇文...

2025/3/12 0 1009 0 0 0 CUDA __ldg GPU优化
分散显存异构GPU的深度学习训练策略

在深度学习训练中，尤其当我们团队拥有多块GPU但显存分散、配置不一（例如，几块不同型号的旧显卡）时，如何高效利用这些异构资源就成了一个棘手的问题。简单的数据并行可能无法满足大模型训练的需求，或者导致显存溢出。这时，我们需要更精细的策略。 ...

2026/1/19 0 182 0 0 0 深度学习分布式训练 GPU优化

文章标签

GPU优化

AI场景下GPU资源优化：平衡深度学习训练与在线服务稳定性的策略与实践

在PyTorch中使用Apex进行内存管理的技巧与实践

如何使用Nsight Systems API分析并优化渲染管线

Vulkan高性能：如何避免Compute与Graphics交替时的GPU流水线空泡（Bubble）

WebGPU计算着色器性能调优：合理设置Workgroup与玩转共享内存

榨干移动端GPU：Mali与Adreno的Compute Shader共享内存（LSM）极致优化

移动端GPU Tile Buffer溢出在RenderDoc中的准确定位与量化分析实践

WGSL计算着色器局部共享内存优化：手把手教你规避Bank Conflict

PyTorch GPU显存缓存机制深度解析与优化实践

针对于特定GPU架构的TensorFlow Profiler优化策略有哪些？

深度学习模型部署：主流工具选型与实践指南

Nsight Systems 实战：多进程应用性能分析与优化案例详解

Nsight Systems深度剖析：顶点、光栅化和像素处理的性能瓶颈及优化实践

CUDA 进阶：__ldg() 内置函数深度解析与性能优化

分散显存异构GPU的深度学习训练策略