bartekdobija · August 31, 2015 13:33 · Aug 31, 2015 · Aug 31, 2015 · Aug 31, 2015 · Aug 31, 2015
diff --git a/spark-without-hadoop.sh b/spark-without-hadoop.sh
@@ -51,7 +51,7 @@
 #spark.executor.extraClassPath /usr/local/lib/jdbc/sqlserver/*.jar:/usr/local/lib/jdbc/mysql/*.jar:/usr/local/anaconda/bin
 
 ####### spark-env.sh #######
-# HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
+# HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop/
 # SPARK_DIST_CLASSPATH=$(hadoop classpath)
 # LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/hadoop/lib/native/
 

diff --git a/spark-without-hadoop.sh b/spark-without-hadoop.sh
@@ -18,7 +18,6 @@
 # Spark dependencies should be configured as per this document https://spark.apache.org/docs/latest/hadoop-provided.html
 
 ####### spark-defaults.conf: #######
-
 #spark.yarn.jar hdfs:///user/spark/share/lib/spark-assembly-1.5.0-SNAPSHOT-hadoop2.6.0.jar
 #spark.ui.enabled false
 ##spark.shuffle.spill false

diff --git a/spark-without-hadoop.sh b/spark-without-hadoop.sh
@@ -16,7 +16,9 @@
 # Spark without hadoop dependencies.
 # Don't forget to install snappy & snappy-devel on RHEL/CentOS etc.
 # Spark dependencies should be configured as per this document https://spark.apache.org/docs/latest/hadoop-provided.html
-# spark-defaults.conf:
+
+####### spark-defaults.conf: #######
+
 #spark.yarn.jar hdfs:///user/spark/share/lib/spark-assembly-1.5.0-SNAPSHOT-hadoop2.6.0.jar
 #spark.ui.enabled false
 ##spark.shuffle.spill false
@@ -49,7 +51,7 @@
 #spark.executor.extraLibraryPath /opt/cloudera/parcels/CDH/lib/hadoop/lib/native
 #spark.executor.extraClassPath /usr/local/lib/jdbc/sqlserver/*.jar:/usr/local/lib/jdbc/mysql/*.jar:/usr/local/anaconda/bin
 
-# spark-env.sh
+####### spark-env.sh #######
 # HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
 # SPARK_DIST_CLASSPATH=$(hadoop classpath)
 # LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/hadoop/lib/native/

diff --git a/spark-without-hadoop.sh b/spark-without-hadoop.sh
@@ -16,13 +16,38 @@
 # Spark without hadoop dependencies.
 # Don't forget to install snappy & snappy-devel on RHEL/CentOS etc.
 # Spark dependencies should be configured as per this document https://spark.apache.org/docs/latest/hadoop-provided.html
-
 # spark-defaults.conf:
-# spark.rdd.compress true
-# spark.serializer org.apache.spark.serializer.KryoSerializer
-# spark.localExecution.enabled true
-# spark.master yarn
-# spark.yarn.jar hdfs:///user/spark/lib/spark-assembly-1.4.1-hadoop2.6.0.jar
+#spark.yarn.jar hdfs:///user/spark/share/lib/spark-assembly-1.5.0-SNAPSHOT-hadoop2.6.0.jar
+#spark.ui.enabled false
+##spark.shuffle.spill false
+##spark.shuffle.spill.compress true
+##spark.shuffle.consolidateFiles true
+##spark.shuffle.service.enabled true
+## Execution Behavior
+#spark.broadcast.blockSize 4096
+## Dynamic Resource Allocation (YARN)
+##spark.dynamicAllocation.enabled true
+##spark.dynamicAllocation.executorIdleTimeout 10800
+##spark.dynamicAllocation.initialExecutors 3
+##spark.speculation true
+#spark.scheduler.mode FAIR
+#spark.executor.memory 5G
+#spark.kryoserializer.buffer.max 1000m
+#spark.driver.maxResultSize 0
+#spark.serializer org.apache.spark.serializer.KryoSerializer
+#spark.yarn.preserve.staging.files false
+#spark.master yarn
+#spark.rdd.compress true
+## Local execution of selected Spark functions
+#spark.localExecution.enabled true
+#spark.sql.parquet.binaryAsString true
+#spark.sql.parquet.compression.codec snappy
+## use lz4 compression for broadcast variables as Snappy is not supported on MacOSX
+#spark.broadcast.compress true
+#spark.io.compression.codec lz4
+#spark.driver.extraLibraryPath /usr/local/hadoop/lib/native/ 
+#spark.executor.extraLibraryPath /opt/cloudera/parcels/CDH/lib/hadoop/lib/native
+#spark.executor.extraClassPath /usr/local/lib/jdbc/sqlserver/*.jar:/usr/local/lib/jdbc/mysql/*.jar:/usr/local/anaconda/bin
 
 # spark-env.sh
 # HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop

diff --git a/spark-without-hadoop.sh b/spark-without-hadoop.sh
@@ -27,5 +27,6 @@
 # spark-env.sh
 # HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
 # SPARK_DIST_CLASSPATH=$(hadoop classpath)
+# LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/hadoop/lib/native/
 
 ./make-distribution.sh --name without-hadoop --tgz -Phadoop-2.6 -Psparkr -Phadoop-provided -Phive -Phive-thriftserver -Pyarn -DzincPort=3038 -DskipTests -Dmaven.javadoc.skip=true
diff --git a/apache spark without hadoop → spark-without-hadoop.sh b/apache spark without hadoop → spark-without-hadoop.sh
diff --git a/apache spark without hadoop b/apache spark without hadoop
@@ -1,5 +1,18 @@
 #!/usr/bin/env bash 
 
+# In this case I have a Hadoop distro compiled from source:
+#   MAVEN_OPTS="-Xms512m -Xmx1024m" mvn package -Pdist,native -DskipTests -Dtar
+# verified with:
+#   hadoop checknative -a
+# with output:
+#  Native library checking:
+#  hadoop:  true /usr/local/hadoop-2.6.0/lib/native/libhadoop.so.1.0.0
+#  zlib:    true /lib64/libz.so.1
+#  snappy:  true /usr/lib64/libsnappy.so.1
+#  lz4:     true revision:99
+#  bzip2:   true /lib64/libbz2.so.1
+#  openssl: true /usr/lib64/libcrypto.so
+
 # Spark without hadoop dependencies.
 # Don't forget to install snappy & snappy-devel on RHEL/CentOS etc.
 # Spark dependencies should be configured as per this document https://spark.apache.org/docs/latest/hadoop-provided.html

diff --git a/gistfile1.sh → apache spark without hadoop b/gistfile1.sh → apache spark without hadoop
@@ -4,4 +4,15 @@
 # Don't forget to install snappy & snappy-devel on RHEL/CentOS etc.
 # Spark dependencies should be configured as per this document https://spark.apache.org/docs/latest/hadoop-provided.html
 
+# spark-defaults.conf:
+# spark.rdd.compress true
+# spark.serializer org.apache.spark.serializer.KryoSerializer
+# spark.localExecution.enabled true
+# spark.master yarn
+# spark.yarn.jar hdfs:///user/spark/lib/spark-assembly-1.4.1-hadoop2.6.0.jar
+
+# spark-env.sh
+# HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
+# SPARK_DIST_CLASSPATH=$(hadoop classpath)
+
 ./make-distribution.sh --name without-hadoop --tgz -Phadoop-2.6 -Psparkr -Phadoop-provided -Phive -Phive-thriftserver -Pyarn -DzincPort=3038 -DskipTests -Dmaven.javadoc.skip=true
diff --git a/gistfile1.sh b/gistfile1.sh
@@ -1,3 +1,7 @@
 #!/usr/bin/env bash 
 
-./make-distribution.sh --tgz --with-tachyon -Phadoop-2.4 -Dhadoop.version=2.5.0 -Pyarn -Phive
+# Spark without hadoop dependencies.
+# Don't forget to install snappy & snappy-devel on RHEL/CentOS etc.
+# Spark dependencies should be configured as per this document https://spark.apache.org/docs/latest/hadoop-provided.html
+
+./make-distribution.sh --name without-hadoop --tgz -Phadoop-2.6 -Psparkr -Phadoop-provided -Phive -Phive-thriftserver -Pyarn -DzincPort=3038 -DskipTests -Dmaven.javadoc.skip=true
diff --git a/gistfile1.sh b/gistfile1.sh
@@ -0,0 +1,3 @@
+#!/usr/bin/env bash 
+
+./make-distribution.sh --tgz --with-tachyon -Phadoop-2.4 -Dhadoop.version=2.5.0 -Pyarn -Phive
Original file line number	Diff line number	Diff line change
		@@ -0,0 +1,3 @@
		#!/usr/bin/env bash

		./make-distribution.sh --tgz --with-tachyon -Phadoop-2.4 -Dhadoop.version=2.5.0 -Pyarn -Phive
No results found