ZenanH · May 8, 2024 16:37 · utkinis · May 6, 2024
diff --git a/test.jl b/test.jl
 using KernelAbstractions
 using CUDA
 using BenchmarkTools

 @inline function uGIMPbasis(Δx::T2, h::T2, lp::T2) where T2
    T2 == Float32 ? T1 = Int32 :
    T2 == Float64 ? T1 = Int64 : nothing
    absΔx = abs(Δx); signΔx = sign(Δx)
    c1  = absΔx<(T2(0.5)*lp)
    c2  = (T2(0.5)*lp)≤absΔx<(h-T2(0.5)*lp)
    c3  = (h-T2(0.5)*lp)≤absΔx<(h+T2(0.5)*lp)
    Ni1 = T2(1.0)-((T2(4)*(Δx^T1(2))+lp^T1(2))/(T2(4)*h*lp))
    Ni2 = T2(1.0)-(absΔx/h)
    Ni3 = ((h+T2(0.5)*lp-absΔx)^T1(2))/(T2(2.0)*h*lp)
    dN1 = -((T2(8.0)*Δx)/(T2(4)*h*lp))
    dN2 = signΔx*(-T2(1.0)/h)
    dN3 = -signΔx*((h+T2(0.5)*lp-absΔx)/(h*lp))
    N   = c1*Ni1+c2*Ni2+c3*Ni3
    dN  = c1*dN1+c2*dN2+c3*dN3
    return T2(N), T2(dN)
 end

 @kernel inbounds = true function test1!(mp_p2n, mp_Ni, mp_∂Nx, mp_∂Ny, mp_∂Nz, mp_pos, grid_pos)
    ix = @index(Global)
    for iy in Int32(1):Int(64)
        p2n = mp_p2n[ix, iy]
        Nx, dNx = uGIMPbasis(mp_pos[ix, 1]-grid_pos[p2n, 1], Float64(2.0), Float64(1.0))
        Ny, dNy = uGIMPbasis(mp_pos[ix, 2]-grid_pos[p2n, 2], Float64(3.0), Float64(2.0))
        Nz, dNz = uGIMPbasis(mp_pos[ix, 3]-grid_pos[p2n, 3], Float64(4.0), Float64(3.0))
        mp_Ni[ix, iy] = Nx * Ny * Nz
        mp_∂Nx[ix, iy] = dNx * Ny * Nz
        mp_∂Ny[ix, iy] = dNy * Nx * Nz
        mp_∂Nz[ix, iy] = dNz * Nx * Ny
    end
 end

 mp_p2n   = cu(rand(1:1:710733, 512000, 64) .|> Int64)
 mp_Ni    = CUDA.zeros(Float64, 512000, 64)
 mp_∂Nx   = CUDA.zeros(Float64, 512000, 64)
 mp_∂Ny   = CUDA.zeros(Float64, 512000, 64)
 mp_∂Nz   = CUDA.zeros(Float64, 512000, 64)
 mp_pos   = CUDA.rand(Float64, 512000, 3)
 grid_pos = CUDA.rand(Float64, 710733, 3)

 test1!(CUDABackend())(ndrange=512000, mp_p2n, mp_Ni, mp_∂Nx, mp_∂Ny, mp_∂Nz, mp_pos, grid_pos)

 time = 1e3 * @belapsed begin
    test1!($CUDABackend())(ndrange=$512000, $mp_p2n, $mp_Ni, $mp_∂Nx, $mp_∂Ny, $mp_∂Nz, $mp_pos, $grid_pos)
    CUDA.synchronize()
 end
	using KernelAbstractions
	using CUDA
	using BenchmarkTools

	@inline function uGIMPbasis(Δx::T2, h::T2, lp::T2) where T2
	T2 == Float32 ? T1 = Int32 :
	T2 == Float64 ? T1 = Int64 : nothing
	absΔx = abs(Δx); signΔx = sign(Δx)
	c1 = absΔx<(T2(0.5)*lp)
	c2 = (T2(0.5)lp)≤absΔx<(h-T2(0.5)lp)
	c3 = (h-T2(0.5)lp)≤absΔx<(h+T2(0.5)lp)
	Ni1 = T2(1.0)-((T2(4)(Δx^T1(2))+lp^T1(2))/(T2(4)h*lp))
	Ni2 = T2(1.0)-(absΔx/h)
	Ni3 = ((h+T2(0.5)lp-absΔx)^T1(2))/(T2(2.0)h*lp)
	dN1 = -((T2(8.0)Δx)/(T2(4)h*lp))
	dN2 = signΔx*(-T2(1.0)/h)
	dN3 = -signΔx((h+T2(0.5)lp-absΔx)/(h*lp))
	N = c1Ni1+c2Ni2+c3*Ni3
	dN = c1dN1+c2dN2+c3*dN3
	return T2(N), T2(dN)
	end

	@kernel inbounds = true function test1!(mp_p2n, mp_Ni, mp_∂Nx, mp_∂Ny, mp_∂Nz, mp_pos, grid_pos)
	ix = @index(Global)
	for iy in Int32(1):Int(64)
	p2n = mp_p2n[ix, iy]
	Nx, dNx = uGIMPbasis(mp_pos[ix, 1]-grid_pos[p2n, 1], Float64(2.0), Float64(1.0))
	Ny, dNy = uGIMPbasis(mp_pos[ix, 2]-grid_pos[p2n, 2], Float64(3.0), Float64(2.0))
	Nz, dNz = uGIMPbasis(mp_pos[ix, 3]-grid_pos[p2n, 3], Float64(4.0), Float64(3.0))
	mp_Ni[ix, iy] = Nx * Ny * Nz
	mp_∂Nx[ix, iy] = dNx * Ny * Nz
	mp_∂Ny[ix, iy] = dNy * Nx * Nz
	mp_∂Nz[ix, iy] = dNz * Nx * Ny
	end
	end

	mp_p2n = cu(rand(1:1:710733, 512000, 64) .\|> Int64)
	mp_Ni = CUDA.zeros(Float64, 512000, 64)
	mp_∂Nx = CUDA.zeros(Float64, 512000, 64)
	mp_∂Ny = CUDA.zeros(Float64, 512000, 64)
	mp_∂Nz = CUDA.zeros(Float64, 512000, 64)
	mp_pos = CUDA.rand(Float64, 512000, 3)
	grid_pos = CUDA.rand(Float64, 710733, 3)

	test1!(CUDABackend())(ndrange=512000, mp_p2n, mp_Ni, mp_∂Nx, mp_∂Ny, mp_∂Nz, mp_pos, grid_pos)

	time = 1e3 * @belapsed begin
	test1!($CUDABackend())(ndrange=$512000, $mp_p2n, $mp_Ni, $mp_∂Nx, $mp_∂Ny, $mp_∂Nz, $mp_pos, $grid_pos)
	CUDA.synchronize()
	end
No results found