Apache Spark 2.1.0(7)
ファイル監視によるSpark Stream。 ストリーム生成側 以下の例では#NANOHAが含まれるツイートを取集。 (#NANOHAでツイートが拾えない場合は適当なキーワードに変更してください。) ファイルを使用するス… 続きを読む »Apache Spark 2.1.0(7)
ファイル監視によるSpark Stream。 ストリーム生成側 以下の例では#NANOHAが含まれるツイートを取集。 (#NANOHAでツイートが拾えない場合は適当なキーワードに変更してください。) ファイルを使用するス… 続きを読む »Apache Spark 2.1.0(7)
Spark Streaming処理のデモ ストリーム生成側 # -*- coding: utf-8 -*- import random import socket import time def main(): sock… 続きを読む »Apache Spark 2.1.0(6)
やる気の感じられないサンプルなのは、動作メモのつもりで作成しているため… recommendation # -*- coding: utf-8 -*- import pyspark from pyspark.ml imp… 続きを読む »Apache Spark 2.1.0(5)
SparkはCluster環境でこそ本領を発揮するのですが、そういった環境はなかなか用意するのが手間なので、試しにDocker化してみました。 雰囲気ぐらいは確認出来るかと… Dockerfileはsingulariti… 続きを読む »Apache Spark 2.1.0(4)
spark-submit時にスクリプトにコマンドライン引数を渡す方法。 sys.argvに普通に入っていますので、argparseモジュールを使用したり出来ます。 # -*- coding: utf-8 -*- impo… 続きを読む »Apache Spark 2.1.0(3)
前回のデータを使用して、もう少しそれっぽい物を。 # -*- coding: utf-8 -*- import pyspark import json def main(): conf = pyspark.SparkCo… 続きを読む »Apache Spark 2.1.0(2)
s3へのアクセス方法にはs3, s3a, s3nの三種類が存在していて、それぞれ s3 … s3をブロックデバイスとしてアクセス。 s3a … Amazon Web Servicesのライブラリ経… 続きを読む »SparkからのAmazon S3アクセス
今更ながらSparkを使い始めてみました。 環境はubuntu 16.04.2 LTS, macOS Sierra 10.12.3を使用しています。 Sparkのインストール ダウンロードはウェブサイトからビルド済みイメ… 続きを読む »Apache Spark 2.1.0(1)