nickthorpe · August 4, 2019 17:23 · Aug 4, 2019
diff --git a/pandas_apply.py b/pandas_apply.py
@@ -0,0 +1,19 @@
+from multiprocessing import  Pool
+from functools import partial
+import numpy as np
+
+def parallelize(data, func, num_of_processes=8):
+    data_split = np.array_split(data, num_of_processes)
+    pool = Pool(num_of_processes)
+    data = pd.concat(pool.map(func, data_split))
+    pool.close()
+    pool.join()
+    return data
+
+def run_on_subset(func, data_subset):
+    return data_subset.apply(func, axis=1)
+
+def parallelize_on_rows(data, func, num_of_processes=8):
+    return parallelize(data, partial(run_on_subset, func), num_of_processes)
+
+# so df.apply(some_func, axis=1) becomes parallelize_on_rows(df, some_func)
No results found