Python - スクレイピングと自然言語処理 ▼目的: 記事の類似度を記事内の単語から簡単に評価したい。 ▼ステップ ①urllibを使ってURLからHTMLを取得 ②BeautifulSoupを使って、HTMLから記事を取得(スクレイピング) ③Mecabを使って、名詞を抽出(形態素解析) ④TF-IDFを使って、単語の出現頻度、単語の希少度を判定 ⑤TF-IDFベクトルを使ってコサイン類似度を計算し、記事ごとの類似度を計算 ▼準備 import urllib.request from time import sleep from bs4 import BeautifulSoup import MeCab import numpy as np from sklearn.feature_extraction.text import TfidfVectorizer def url2text