tests/test_mlx5_cuda_umem.py - linux-rdma/rdma-core - Git at Google

 # SPDX-License-Identifier: (GPL-2.0 OR Linux-OpenIB)
 # Copyright (c) 2022 Nvidia Inc. All rights reserved. See COPYING file

 import resource

 from pyverbs.providers.mlx5.mlx5dv import Mlx5DevxObj, WqeDataSeg, Mlx5UMEM
 from tests.mlx5_base import Mlx5DevxRcResources, Mlx5DevxTrafficBase
 import pyverbs.providers.mlx5.mlx5_enums as dve
 import tests.cuda_utils as cu
 import pyverbs.enums as e

 try:
     from cuda import cuda, cudart, nvrtc
     cu.CUDA_FOUND = True
 except ImportError:
     cu.CUDA_FOUND = False

 GPU_PAGE_SIZE = 1 << 16


 @cu.set_mem_io_cuda_methods
 class CudaDevxRes(Mlx5DevxRcResources):
     def __init__(self, dev_name, ib_port, gid_index,
                  mr_access=e.IBV_ACCESS_LOCAL_WRITE):
         """
         Initialize DevX resources with CUDA memory allocations.
         :param dev_name: Device name to be used
         :param ib_port: IB port of the device to use
         :param gid_index: Which GID index to use
         :param mr_access: The MR access
         """
         self.mr_access = mr_access
         self.cuda_addr = None
         self.dmabuf_fd = None
         self.umem = None
         self.mkey = None
         self.lkey = None
         self.lkey = None
         super().__init__(dev_name=dev_name, ib_port=ib_port, gid_index=gid_index)

     def init_resources(self):
         self.alloc_cuda_mem()
         super().init_resources()
         self.create_dmabuf_umem()
         self.create_mkey()

     def get_wqe_data_segment(self):
         return WqeDataSeg(self.msg_size, self.lkey, int(self.cuda_addr))

     def alloc_cuda_mem(self):
         """
         Allocates CUDA memory and a DMABUF FD on that memory.
         """
         self.cuda_addr = cu.check_cuda_errors(cuda.cuMemAlloc(GPU_PAGE_SIZE))

         # Sync between memory operations
         attr_value = 1
         cu.check_cuda_errors(cuda.cuPointerSetAttribute(
             attr_value,
             cuda.CUpointer_attribute.CU_POINTER_ATTRIBUTE_SYNC_MEMOPS,
             int(self.cuda_addr)
         ))

         # Memory address and size must be aligned to page size to get a handle
         assert (GPU_PAGE_SIZE % resource.getpagesize() == 0 and
                 int(self.cuda_addr) % resource.getpagesize() == 0)
         self.dmabuf_fd = cu.check_cuda_errors(
             cuda.cuMemGetHandleForAddressRange(self.cuda_addr,
                                                GPU_PAGE_SIZE,
                                                cuda.CUmemRangeHandleType.CU_MEM_RANGE_HANDLE_TYPE_DMA_BUF_FD,
                                                0))

     def create_mr(self):
         pass

     def create_dmabuf_umem(self):
         umem_aligment = resource.getpagesize()
         self.umem = Mlx5UMEM(self.ctx, GPU_PAGE_SIZE, 0,
                              umem_aligment, self.mr_access, umem_aligment,
                              dve.MLX5DV_UMEM_MASK_DMABUF, self.dmabuf_fd)

     def create_mkey(self):
         from tests.mlx5_prm_structs import SwMkc, CreateMkeyIn, CreateMkeyOut
         accesses = [e.IBV_ACCESS_LOCAL_WRITE, e.IBV_ACCESS_REMOTE_READ, e.IBV_ACCESS_REMOTE_WRITE]
         lw, rr, rw = (list(map(lambda access: int(self.mr_access & access != 0), accesses)))
         mkey_ctx = SwMkc(lr=1, lw=lw, rr=rr, rw=rw, access_mode_1_0=0x1,
                          start_addr=int(self.cuda_addr),
                          len=GPU_PAGE_SIZE, pd=self.dv_pd.pdn, qpn=0xffffff)
         self.mkey = Mlx5DevxObj(self.ctx, CreateMkeyIn(sw_mkc=mkey_ctx,
                                                        mkey_umem_id=self.umem.umem_id,
                                                        mkey_umem_valid=1),
                                 len(CreateMkeyOut()))
         self.lkey = CreateMkeyOut(self.mkey.out_view).mkey_index << 8


 @cu.set_init_cuda_methods
 class Mlx5GpuDevxRcTrafficTest(Mlx5DevxTrafficBase):
     """
     Test DevX traffic over CUDA memory using DMA BUF and UMEM
     """

     @cu.requires_cuda
     def test_mlx_devx_cuda_send_imm_traffic(self):
         """
         Creates two DevX RC QPs and runs SEND_IMM traffic over CUDA allocated
         memory using UMEM and DMA BUF.
         """
         self.create_players(CudaDevxRes)
         # Send traffic
         self.send_imm_traffic()
	# SPDX-License-Identifier: (GPL-2.0 OR Linux-OpenIB)
	# Copyright (c) 2022 Nvidia Inc. All rights reserved. See COPYING file

	import resource

	from pyverbs.providers.mlx5.mlx5dv import Mlx5DevxObj, WqeDataSeg, Mlx5UMEM
	from tests.mlx5_base import Mlx5DevxRcResources, Mlx5DevxTrafficBase
	import pyverbs.providers.mlx5.mlx5_enums as dve
	import tests.cuda_utils as cu
	import pyverbs.enums as e

	try:
	from cuda import cuda, cudart, nvrtc
	cu.CUDA_FOUND = True
	except ImportError:
	cu.CUDA_FOUND = False

	GPU_PAGE_SIZE = 1 << 16


	@cu.set_mem_io_cuda_methods
	class CudaDevxRes(Mlx5DevxRcResources):
	def __init__(self, dev_name, ib_port, gid_index,
	mr_access=e.IBV_ACCESS_LOCAL_WRITE):
	"""
	Initialize DevX resources with CUDA memory allocations.
	:param dev_name: Device name to be used
	:param ib_port: IB port of the device to use
	:param gid_index: Which GID index to use
	:param mr_access: The MR access
	"""
	self.mr_access = mr_access
	self.cuda_addr = None
	self.dmabuf_fd = None
	self.umem = None
	self.mkey = None
	self.lkey = None
	self.lkey = None
	super().__init__(dev_name=dev_name, ib_port=ib_port, gid_index=gid_index)

	def init_resources(self):
	self.alloc_cuda_mem()
	super().init_resources()
	self.create_dmabuf_umem()
	self.create_mkey()

	def get_wqe_data_segment(self):
	return WqeDataSeg(self.msg_size, self.lkey, int(self.cuda_addr))

	def alloc_cuda_mem(self):
	"""
	Allocates CUDA memory and a DMABUF FD on that memory.
	"""
	self.cuda_addr = cu.check_cuda_errors(cuda.cuMemAlloc(GPU_PAGE_SIZE))

	# Sync between memory operations
	attr_value = 1
	cu.check_cuda_errors(cuda.cuPointerSetAttribute(
	attr_value,
	cuda.CUpointer_attribute.CU_POINTER_ATTRIBUTE_SYNC_MEMOPS,
	int(self.cuda_addr)
	))

	# Memory address and size must be aligned to page size to get a handle
	assert (GPU_PAGE_SIZE % resource.getpagesize() == 0 and
	int(self.cuda_addr) % resource.getpagesize() == 0)
	self.dmabuf_fd = cu.check_cuda_errors(
	cuda.cuMemGetHandleForAddressRange(self.cuda_addr,
	GPU_PAGE_SIZE,
	cuda.CUmemRangeHandleType.CU_MEM_RANGE_HANDLE_TYPE_DMA_BUF_FD,
	0))

	def create_mr(self):
	pass

	def create_dmabuf_umem(self):
	umem_aligment = resource.getpagesize()
	self.umem = Mlx5UMEM(self.ctx, GPU_PAGE_SIZE, 0,
	umem_aligment, self.mr_access, umem_aligment,
	dve.MLX5DV_UMEM_MASK_DMABUF, self.dmabuf_fd)

	def create_mkey(self):
	from tests.mlx5_prm_structs import SwMkc, CreateMkeyIn, CreateMkeyOut
	accesses = [e.IBV_ACCESS_LOCAL_WRITE, e.IBV_ACCESS_REMOTE_READ, e.IBV_ACCESS_REMOTE_WRITE]
	lw, rr, rw = (list(map(lambda access: int(self.mr_access & access != 0), accesses)))
	mkey_ctx = SwMkc(lr=1, lw=lw, rr=rr, rw=rw, access_mode_1_0=0x1,
	start_addr=int(self.cuda_addr),
	len=GPU_PAGE_SIZE, pd=self.dv_pd.pdn, qpn=0xffffff)
	self.mkey = Mlx5DevxObj(self.ctx, CreateMkeyIn(sw_mkc=mkey_ctx,
	mkey_umem_id=self.umem.umem_id,
	mkey_umem_valid=1),
	len(CreateMkeyOut()))
	self.lkey = CreateMkeyOut(self.mkey.out_view).mkey_index << 8


	@cu.set_init_cuda_methods
	class Mlx5GpuDevxRcTrafficTest(Mlx5DevxTrafficBase):
	"""
	Test DevX traffic over CUDA memory using DMA BUF and UMEM
	"""

	@cu.requires_cuda
	def test_mlx_devx_cuda_send_imm_traffic(self):
	"""
	Creates two DevX RC QPs and runs SEND_IMM traffic over CUDA allocated
	memory using UMEM and DMA BUF.
	"""
	self.create_players(CudaDevxRes)
	# Send traffic
	self.send_imm_traffic()