ひとメモ

主にプログラミングのメモ

twitterのデータをダウンロードしてpandasで読み込みたい

ツイート履歴をpandasで扱いたい

以前はcsv形式でツイートデータがダウンロードできていましたが、今はjsファイル等で提供されています。(2020年5月11日現在)

pd.read_jsonで読み込むだけではネストされた内容がひと塊りになってしまうので、一工夫する必要がありました。

なお以下のコードでも、まだ一部ネストされたままデータフレームに読み込まれますが、その辺は自力で何とかしてください。

前処理

tweet.jsファイルを開き、冒頭のwindow.YTD.tweet.part0 = [ という部分とファイル最下部の]を消しておきます。

コード

import pandas as pd
from pandas.io.json import json_normalize

tweet_data = pd.read_json('/tweet.js')

df = json_normalize(tweet_data.to_dict('records'))

df.head()

GitHubにnotebookを置いておきます。

github.com

参考

https://oku.edu.mie-u.ac.jp/~okumura/python/tweetdata.html