Apache Spark 2.1.0(3)

spark-submit時にスクリプトにコマンドライン引数を渡す方法。

sys.argvに普通に入っていますので、argparseモジュールを使用したり出来ます。

# -*- coding: utf-8 -*-
import sys
import argparse
import pyspark

def main():

    parser = argparse.ArgumentParser()
    parser.add_argument("-i", "--ivalue", type=int, dest="I_VALUE")
    parser.add_argument("-s", "--svalue", type=str, dest="S_VALUE")

    params = parser.parse_args(sys.argv[1:])

    print params.I_VALUE, params.S_VALUE

if __name__ == "__main__":
    main()

Pythonでの処理方法と同じです。

$ spark-submit {program} -i 1234 -s abcd
1234, abcd