farooqarahim · January 7, 2021 19:04 · Jan 7, 2021
diff --git a/pyspark_read_csv.py b/pyspark_read_csv.py
@@ -0,0 +1,22 @@
+import findspark
+findspark.init()
+
+from pyspark.sql import SparkSession
+
+# Connect to Remote Spark Deployment
+# spark = SparkSession \
+#     .builder.master('spark://master-node:7077') \
+#     .appName("read-csv") \
+#     .getOrCreate()
+
+spark = SparkSession \
+    .builder \
+    .appName("read-csv") \
+    .getOrCreate()
+
+df = spark.read.option("header",True).csv('./csv-file.csv')
+
+type(df)
+df.printSchema()
+# df.show(10,False)
+df.dtypes