文章标签

BFloat16

RTX 3080微调7B LLM OOM？显存优化技巧助你一臂之力

老哥你好！看到你的困扰，我完全理解。在本地用消费级GPU微调LLM，遇到显存OOM（Out Of Memory）是常有的事，尤其是在尝试7B这样规模的模型时。你遇到的情况，并非你的操作“不对” ，而是10GB显存的RTX 3080在面对...

2025/10/6 0 347 0 0 0 LLM微调显存优化 RTX 3080
RISC-V平台轻量级Transformer模型极致能效推理：RVV、BFloat16与稀疏化的深度融合

在资源受限的RISC-V平台上部署轻量级Transformer模型，实现极致的能效比推理，是一项极具挑战但又充满吸引力的任务。本文将深入探讨如何结合RISC-V向量扩展（RVV）、低精度浮点运算（如bfloat16）和稀疏化技术，在有限的...

2025/7/27 0 358 0 0 0 RISC-V Transformer BFloat16
RISC-V向量扩展如何赋能Transformer推理加速：原理、实践与未来展望

Transformer模型，作为当下人工智能领域，特别是自然语言处理和计算机视觉的核心基石，其强大的能力背后是惊人的计算开销。无论是训练还是推理，动辄上亿甚至上千亿的参数量，都让传统的CPU捉襟见肘。我们都知道，像BERT、GPT这类大型...

2025/7/27 0 544 0 0 0 RISC-V Transformer 向量扩展