thomwolf · January 12, 2025 13:34 · Oct 29, 2020 · Jun 15, 2020 · Jun 15, 2020
diff --git a/loading_wikipedia.py b/loading_wikipedia.py
@@ -1,5 +1,5 @@
 import os; import psutil; import timeit
-from nlp import load_dataset
+from datasets import load_dataset
 
 mem_before = psutil.Process(os.getpid()).memory_info().rss >> 20
 wiki = load_dataset("wikipedia", "20200501.en", split='train')

diff --git a/loading_wikipedia.py b/loading_wikipedia.py
@@ -12,4 +12,4 @@
 """
 time = timeit.timeit(stmt=s, number=1, globals=globals())
 size = wiki.dataset_size / 2**30
-print(f"Iterated over the {size:.1f} GB dataset in {time:.1f} s, i.e. {size/time:.1f} Gbit/s")
+print(f"Iterated over the {size:.1f} GB dataset in {time:.1f} s, i.e. {size * 8/time:.1f} Gbit/s")
diff --git a/loading_wikipedia.py b/loading_wikipedia.py
@@ -0,0 +1,15 @@
+import os; import psutil; import timeit
+from nlp import load_dataset
+
+mem_before = psutil.Process(os.getpid()).memory_info().rss >> 20
+wiki = load_dataset("wikipedia", "20200501.en", split='train')
+mem_after = psutil.Process(os.getpid()).memory_info().rss >> 20
+print(f"RAM memory used: {(mem_after - mem_before)} MB")
+
+s = """batch_size = 1000
+for i in range(0, len(wiki), batch_size):
+    batch = wiki[i:i + batch_size]
+"""
+time = timeit.timeit(stmt=s, number=1, globals=globals())
+size = wiki.dataset_size / 2**30
+print(f"Iterated over the {size:.1f} GB dataset in {time:.1f} s, i.e. {size/time:.1f} Gbit/s")