Talend for DI を使用して Tweet を収集

自分も何回か参加(投稿)している Twitter の1時間お絵描き「#リリカルなのは版深夜の真剣お絵描き60分一本勝負」ですけど、

試しに Talend for DI を使用して収集してみました。(前に同じ様なネタを書いたのですけど、今回は具体的な設定項目付きです。)

talend_for_di ひとまず CSV 形式で出力

やっていることは tTwitterOAuth, tTwitterOAuthClose, tTwitterInput をそのまま使用しているだけです。

setting_01 Schema はこのようにしています。

setting_02 取得だけを考えているのでわりと適当です。

Including term(s) に “#リリカルなのは版深夜の真剣お絵描き60分一本勝負”

At (screen name) に “MizunagiKB” を設定(いわゆるエゴサーチ…なのですけど、自分に対するものでチェックした方がデバッグしやすいので)

出力に関しては、 tTwitterInput で Structured 出力に適合する物であればなんでも良いのですし、加工すら自前で行うのであれば、 raw JSON を選択しても問題ないです。

今回は tFileOutputDelimited でファイルに書き出しています。なお、 tTwitterInput は結果を UTF-8 で出力するため、 Advanced settings の Encoding を UTF-8 にしておかないとエラーになってしまいます。

Talend で作成した処理は java 環境があれば単品で動作するようにエクスポートする事が出来ます。あとは cron なり Scheduler に登録しておくと、任意の Tweet を収集する事が出来ます。

というメモ書きでした。