映画レビューサイトから情報をスクレイピング②映画詳細情報

映画ドットコムからいろいろ情報を抽出して分析してみる！今回は個別の映画の詳細ページから映画詳細情報を取りこんでみる。まずは必要なライブラリをインポート import requests from bs4 import BeautifulSoup import pandas as pd 映画詳細情報のページ…

#Python #スクレイピング #BeautifulSoup

2021-07-27

映画レビューサイトから情報をスクレイピング①俳優の出演作品一覧

映画ドットコムからいろいろ情報を抽出して分析してみる！今回は特定の俳優さんのページから出演作品一覧を取りこんでみる。まずは必要なライブラリをインポート import requests from bs4 import BeautifulSoup import pandas as pd 出演作品一覧のページ…

#Python #スクレイピング #BeautifulSoup

2021-07-27

Janomeを使った形態素解析④

※使用したデータ：カップヌードルミュージアムの口コミ500件（じゃらんの口コミをスクレイピングで取得したもの。） ■Jaccard係数を計算するまずはレビューごとのtermリストのリスト（つまり二次元リスト）を作る terms_list= [] from janome.tokenizer i…

2021-07-27

TF-IDF（特徴語の抽出）

※使用したデータ：カップヌードルミュージアムの口コミ500件（じゃらんの口コミをスクレイピングで取得したもの。なお、単語はリスト化した後に動詞・名詞・形容詞・副詞のみに限定。） ■分かち書きデータの作成 def generate_wakati_data(text_list): wak…

2021-07-27

Twitterからデータを取得①キーワード検索してコメントを収集

■tweepyの場合 import tweepy import pandas as pd CONSUMER_KEY = "取得したAPI key" CONSUMER_SECRET = "取得したAPI Secret Key" ACCESS_TOKEN = "取得したAccess Token" ACCESS_TOKEN_SECRET = "取得したAccess Token Secret" auth = tweepy.OAuthHandle…

2021-07-25

Janomeを使った形態素解析③

※使用したデータ：カップヌードルミュージアムの口コミ500件（じゃらんの口コミをスクレイピングで取得したもの。なお、単語はリスト化した後に動詞・名詞・形容詞・副詞のみに限定。） ■単語の出現回数順に並べる辞書型データに「.items()」ですべての要…

2021-07-24

Janomeを使った形態素解析②

■単語ごとに分けた辞書を作る Tokenオブジェクトの中から必要な属性を取り出してリスト化する。 data = [] from janome.tokenizer import Tokenizer t = Tokenizer() token_list = t.tokenize("今日はいい天気ですね。") for token in token_list: surface =…

2021-07-23

Janomeを使った形態素解析①

■基本の使い方： Tokenizerをインポート Tokenizerオブジェクトのインスタンスを生成 tokenize()メソッドに対象の文字列を渡す →tokenize()メソッドはTokenオブジェクトのジェネレータを返す from janome.tokenizer import Tokenizer t = Tokenizer() token_…

mai_Nのプログラミング勉強メモ

Python or R × マーケティング

2021-07-01から1ヶ月間の記事一覧

映画レビューサイトから情報をスクレイピング②映画詳細情報

映画レビューサイトから情報をスクレイピング①俳優の出演作品一覧

Janomeを使った形態素解析④

TF-IDF（特徴語の抽出）

Twitterからデータを取得①キーワード検索してコメントを収集

Janomeを使った形態素解析③

Janomeを使った形態素解析②

Janomeを使った形態素解析①