nabinnoのブックマーク - はてなブックマーク

nabinno id:nabinno

ブックマーク / qiita.com/MYS_moyashi (1)

Python - スクレイピングと自然言語処理(簡単に) - Qiita
Python - スクレイピングと自然言語処理 ▼目的：記事の類似度を記事内の単語から簡単に評価したい。 ▼ステップ ①urllibを使ってURLからHTMLを取得 ②BeautifulSoupを使って、HTMLから記事を取得(スクレイピング) ③Mecabを使って、名詞を抽出(形態素解析) ④TF-IDFを使って、単語の出現頻度、単語の希少度を判定 ⑤TF-IDFベクトルを使ってコサイン類似度を計算し、記事ごとの類似度を計算 ▼準備 import urllib.request from time import sleep from bs4 import BeautifulSoup import MeCab import numpy as np from sklearn.feature_extraction.text import TfidfVectorizer def url2text
nabinno 2018/08/27
qiita

tf-idf

text-mining

information-retrieval

data-mining

machine-learning

analytics
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx