jeromeku · September 14, 2025 17:12 · Sep 10, 2025 · Sep 10, 2025 · Sep 10, 2025 · Sep 10, 2025
diff --git a/vector_as_kernel_arg.py b/vector_as_kernel_arg.py
@@ -11,8 +11,11 @@ def kernel_use_vec_as_arg(vec, res: cute.Tensor):
 
 @cute.jit
 def vector_as_kernel_arg(res: cute.Tensor):
+    # Create an array/vector on CPU
     vec = cute.make_fragment(10, dtype=cutlass.Float32)
     vec.fill(1.0)
+
+    # Pass array/vector to kernel as argument without explicit copy from host to device
     kernel_use_vec_as_arg(vec.load(), res).launch(grid=[1, 1, 1], block=[1, 1, 1])
 
 

diff --git a/vector_as_kernel_arg.py b/vector_as_kernel_arg.py
@@ -1,4 +1,3 @@
-import cutlass
 
 import cutlass
 import cutlass.cute as cute

diff --git a/gistfile1.txt → vector_as_kernel_arg.py b/gistfile1.txt → vector_as_kernel_arg.py
diff --git a/gistfile1.txt b/gistfile1.txt
@@ -0,0 +1,25 @@
+import cutlass
+
+import cutlass
+import cutlass.cute as cute
+from cutlass.cute.runtime import from_dlpack
+
+
+@cute.kernel
+def kernel_use_vec_as_arg(vec, res: cute.Tensor):
+    # cute.print_tensor(vec)
+    res.store(vec)
+
+@cute.jit
+def vector_as_kernel_arg(res: cute.Tensor):
+    vec = cute.make_fragment(10, dtype=cutlass.Float32)
+    vec.fill(1.0)
+    kernel_use_vec_as_arg(vec.load(), res).launch(grid=[1, 1, 1], block=[1, 1, 1])
+
+
+import torch
+
+res = torch.zeros(10, dtype=torch.float32, device="cuda")
+vector_as_kernel_arg(from_dlpack(res))
+torch.cuda.synchronize()
+print(res)