mai_Nのプログラミング勉強メモ

Python or R × マーケティング

2021-07-01から1ヶ月間の記事一覧

映画レビューサイトから情報をスクレイピング②映画詳細情報

映画ドットコムからいろいろ情報を抽出して分析してみる! 今回は個別の映画の詳細ページから映画詳細情報を取りこんでみる。 まずは必要なライブラリをインポート import requests from bs4 import BeautifulSoup import pandas as pd 映画詳細情報のページ…

映画レビューサイトから情報をスクレイピング①俳優の出演作品一覧

映画ドットコムからいろいろ情報を抽出して分析してみる! 今回は特定の俳優さんのページから出演作品一覧を取りこんでみる。 まずは必要なライブラリをインポート import requests from bs4 import BeautifulSoup import pandas as pd 出演作品一覧のページ…

Janomeを使った形態素解析④

※使用したデータ:カップヌードルミュージアムの口コミ500件 (じゃらんの口コミをスクレイピングで取得したもの。 ) ■Jaccard係数を計算する まずはレビューごとのtermリストのリスト(つまり二次元リスト)を作る terms_list= [] from janome.tokenizer i…

TF-IDF(特徴語の抽出)

※使用したデータ:カップヌードルミュージアムの口コミ500件 (じゃらんの口コミをスクレイピングで取得したもの。 なお、単語はリスト化した後に動詞・名詞・形容詞・副詞のみに限定。) ■分かち書きデータの作成 def generate_wakati_data(text_list): wak…

Twitterからデータを取得①キーワード検索してコメントを収集

■tweepyの場合 import tweepy import pandas as pd CONSUMER_KEY = "取得したAPI key" CONSUMER_SECRET = "取得したAPI Secret Key" ACCESS_TOKEN = "取得したAccess Token" ACCESS_TOKEN_SECRET = "取得したAccess Token Secret" auth = tweepy.OAuthHandle…

Janomeを使った形態素解析③

※使用したデータ:カップヌードルミュージアムの口コミ500件 (じゃらんの口コミをスクレイピングで取得したもの。 なお、単語はリスト化した後に動詞・名詞・形容詞・副詞のみに限定。) ■単語の出現回数順に並べる 辞書型データに「.items()」ですべての要…

Janomeを使った形態素解析②

■単語ごとに分けた辞書を作る Tokenオブジェクトの中から必要な属性を取り出してリスト化する。 data = [] from janome.tokenizer import Tokenizer t = Tokenizer() token_list = t.tokenize("今日はいい天気ですね。") for token in token_list: surface =…

Janomeを使った形態素解析①

■基本の使い方: Tokenizerをインポート Tokenizerオブジェクトのインスタンスを生成 tokenize()メソッドに対象の文字列を渡す →tokenize()メソッドはTokenオブジェクトのジェネレータを返す from janome.tokenizer import Tokenizer t = Tokenizer() token_…