为什么 CUDA 固定内存如此之快?
- 2024-10-31 08:38:00
- admin 原创
- 59
问题描述:
当我使用固定内存进行 CUDA 数据传输时,我观察到数据传输速度显著加快。在 Linux 上,实现此目的的底层系统调用是 mlock。从 mlock 的手册页中可以看出,锁定页面可防止其被换出:
mlock() 锁定从 addr 开始并持续 len 个字节的地址范围内的页面。当调用成功返回时,保证包含指定地址范围一部分的所有页面都驻留在 RAM 中;
在我的测试中,我的系统上有几 GB 的可用内存,因此不存在内存页面被交换的风险,但我仍然观察到了加速。有人能解释一下这里到底发生了什么吗?任何见解或信息都非常感谢。
解决方案 1:
CUDA 驱动程序会检查内存范围是否被锁定,然后它将使用不同的代码路径。锁定的内存存储在物理内存 (RAM) 中,因此设备无需 CPU 的帮助即可获取它(DMA,又称异步复制;设备只需要物理页面列表)。未锁定的内存在访问时会产生页面错误,并且它不仅存储在内存中(例如,它可以存储在交换中),因此驱动程序需要访问未锁定内存的每一页,将其复制到固定缓冲区中并将其传递给 DMA(同步,逐页复制)。
如此处所述http://forums.nvidia.com/index.php?showtopic=164661
异步内存复制调用使用的主机内存需要通过 cudaMallocHost 或 cudaHostAlloc 进行页面锁定。
我还建议您在 developer.download.nvidia.com 上查看 cudaMemcpyAsync 和 cudaHostAlloc 手册。HostAlloc 表示 cuda 驱动程序可以检测固定内存:
驱动程序跟踪使用此(cudaHostAlloc)函数分配的虚拟内存范围,并自动加速对 cudaMemcpy() 等函数的调用。
解决方案 2:
CUDA 使用 DMA 将固定内存传输到 GPU。可分页主机内存不能与 DMA 一起使用,因为它们可能驻留在磁盘上。如果内存未固定(即页面锁定),则首先将其复制到页面锁定的“暂存”缓冲区,然后通过 DMA 复制到 GPU。因此,使用固定内存可以节省从可分页主机内存复制到页面锁定主机内存的时间。
解决方案 3:
如果内存页面尚未被访问,那么它们可能从一开始就没有被交换。特别是,新分配的页面将是通用“零页”的虚拟副本,在写入之前没有物理实例。磁盘上文件的新映射同样将完全保留在磁盘上,直到读取或写入为止。
解决方案 4:
关于将非锁定页面复制到锁定页面的详细说明。
如果在 CPU RAM 有限的繁忙系统中,操作系统将未锁定的页面换出,则成本可能非常高昂。然后会触发页面错误,通过昂贵的磁盘 IO 操作将页面加载到 CPU RAM 中。
在 CPU RAM 非常宝贵的系统中,固定页面还可能导致虚拟内存抖动。如果发生抖动,CPU 的吞吐量可能会大幅下降。
- 2024年20款好用的项目管理软件推荐,项目管理提效的20个工具和技巧
- 2024年开源项目管理软件有哪些?推荐5款好用的项目管理工具
- 项目管理软件有哪些?推荐7款超好用的项目管理工具
- 项目管理软件哪个最好用?盘点推荐5款好用的项目管理工具
- 项目管理软件有哪些最好用?推荐6款好用的项目管理工具
- 项目管理软件有哪些,盘点推荐国内外超好用的7款项目管理工具
- 2024项目管理软件排行榜(10类常用的项目管理工具全推荐)
- 项目管理软件排行榜:2024年项目经理必备5款开源项目管理软件汇总
- 2024年常用的项目管理软件有哪些?推荐这10款国内外好用的项目管理工具
- 项目管理必备:盘点2024年13款好用的项目管理软件