mai_Nのプログラミング勉強メモ

Python or R × マーケティング

2021-07-27から1日間の記事一覧

映画レビューサイトから情報をスクレイピング①俳優の出演作品一覧

映画ドットコムからいろいろ情報を抽出して分析してみる! 今回は特定の俳優さんのページから出演作品一覧を取りこんでみる。 まずは必要なライブラリをインポート import requests from bs4 import BeautifulSoup import pandas as pd 出演作品一覧のページ…

Janomeを使った形態素解析④

※使用したデータ:カップヌードルミュージアムの口コミ500件 (じゃらんの口コミをスクレイピングで取得したもの。 ) ■Jaccard係数を計算する まずはレビューごとのtermリストのリスト(つまり二次元リスト)を作る terms_list= [] from janome.tokenizer i…

TF-IDF(特徴語の抽出)

※使用したデータ:カップヌードルミュージアムの口コミ500件 (じゃらんの口コミをスクレイピングで取得したもの。 なお、単語はリスト化した後に動詞・名詞・形容詞・副詞のみに限定。) ■分かち書きデータの作成 def generate_wakati_data(text_list): wak…

Twitterからデータを取得①キーワード検索してコメントを収集

■tweepyの場合 import tweepy import pandas as pd CONSUMER_KEY = "取得したAPI key" CONSUMER_SECRET = "取得したAPI Secret Key" ACCESS_TOKEN = "取得したAccess Token" ACCESS_TOKEN_SECRET = "取得したAccess Token Secret" auth = tweepy.OAuthHandle…