为什么 CUDA 固定内存如此之快？-IT科技

为什么 CUDA 固定内存如此之快？

2024-10-31 08:38:00

admin

原创

摘要：问题描述：当我使用固定内存进行 CUDA 数据传输时，我观察到数据传输速度显著加快。在 Linux 上，实现此目的的底层系统调用是 mlock。从 mlock 的手册页中可以看出，锁定页面可防止其被换出：mlock() 锁定从 addr 开始并持续 len 个字节的地址范围内的页面。当调用成功返回时，保证包含...

问题描述：

当我使用固定内存进行 CUDA 数据传输时，我观察到数据传输速度显著加快。在 Linux 上，实现此目的的底层系统调用是 mlock。从 mlock 的手册页中可以看出，锁定页面可防止其被换出：

mlock() 锁定从 addr 开始并持续 len 个字节的地址范围内的页面。当调用成功返回时，保证包含指定地址范围一部分的所有页面都驻留在 RAM 中；

在我的测试中，我的系统上有几 GB 的可用内存，因此不存在内存页面被交换的风险，但我仍然观察到了加速。有人能解释一下这里到底发生了什么吗？任何见解或信息都非常感谢。

解决方案 1：

CUDA 驱动程序会检查内存范围是否被锁定，然后它将使用不同的代码路径。锁定的内存存储在物理内存 (RAM) 中，因此设备无需 CPU 的帮助即可获取它（DMA，又称异步复制；设备只需要物理页面列表）。未锁定的内存在访问时会产生页面错误，并且它不仅存储在内存中（例如，它可以存储在交换中），因此驱动程序需要访问未锁定内存的每一页，将其复制到固定缓冲区中并将其传递给 DMA（同步，逐页复制）。

如此处所述http://forums.nvidia.com/index.php?showtopic=164661