タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

重要とword2vecに関するmasayoshinymのブックマーク (4)

  • doc2vecでWikipediaを学習する - TadaoYamaokaの開発日記

    先日の日記でTF-IDFでFAQに回答することを試したが、TF-IDFでは質問文の類似度を単語の頻度に重み付けをして測っている。 そのため、単語が完全に一致している必要があり、同じ意味の単語でも異なる単語として認識してしまう。 word2vecを使用すると単語をベクトル化することができ、意味が近ければ近いベクトルを出力することができる。 word2vecを文に適用する場合、単語ベクトルの平均をとる方法もあるが、語順が失われるという欠点がある。 doc2vecを使用すると、文の語順を考慮して、文自体をベクトル化することができる。 doc2vecには、PV-DMとPV-DBOWの2種類があり、PV-DMとPV-DBOWのベクトルを組み合わせて使用することで精度を上げることができる。 PV-DMは、文と単語にユニークな固定次元のベクトルを割り当て、文の単語列をウィンドウサイズ幅ごとに抽出し、文の

    doc2vecでWikipediaを学習する - TadaoYamaokaの開発日記
  • Doc2Vecの仕組みとgensimを使った文書類似度算出チュートリアル

    類似したコンテンツのタイトルは、女性アーティストだらけとなっている。浜崎あゆみは日のレディー・ガガらしい。 Bag-of-wordsの欠点とDoc2Vecのメリット Bag-of-wordsは文書内の単語の出現回数をベクトルの要素とした分散表現だ。例えば、 { I, have, a, pen, I, have, an, apple } という単語区切りの文書があるとしよう。この文書をBag-of-wordsでベクトル化する。ベクトルの並び順をI, have, a, pen, an, appleとすると、 [2, 2, 1, 1, 1, 1] と表現することになる。単に出現頻度を計算しているだけなので、シンプルで計算効率よく分散表現を得ることが出来る。 では、Bag-of-wordsの何が問題なのだろうか?Bag-of-wordsでは、単語の出現順序が考慮されず、同様の単語が使われていれば

    Doc2Vecの仕組みとgensimを使った文書類似度算出チュートリアル
  • Python と gensim で doc2vec を使う

    【追記】 doc2vec のアルゴリズムについて別記事で紹介しています.合わせてご覧下さい. doc2vec(Paragraph Vector) のアルゴリズム こんばんは,吉田です. 来の〆切は次の金曜日ですが,色々忙しくなる前にサクッと更新しておきたいと思います. 新宿祭でのポスター発表&卒論の中間提出に向けて,研究室内も慌ただしくなってきました.4年生にとっては初めての論文執筆ということで,今までとは違う緊張感が漂ってきています(このブログの最新の記事が先週の月曜日の私の記事という事からもお察し下さい).初めての論文は慣れないことばかりで大変だと思いますが,年明け以降の修羅場の為の経験値稼ぎだと思って頑張って欲しいです. さて,今回は最近研究で使っている doc2vec について紹介したいと思います.名前からも分かるように,巷で話題の word2vec の親戚で,ニューラルネットワ

    Python と gensim で doc2vec を使う
  • 【転職会議】クチコミをword2vecで自然言語処理して会社を分類してみる - Qiita

    はじめに LivesenseAdventCalendar 2016 の20日目を担当する @naotaka1128 です。 現在、転職会議という転職クチコミサービスのデータアナリストを担当しております。 転職会議は会社のクチコミが数百万件集まっている日最大級の転職クチコミサービスです。現状はクチコミや評点を表示しているだけなのですが、今後はクチコミを自然言語処理などで分析して今までは手に入らなかったような有益な情報を世の中に提供していきたいと思っております。 今回はその取っ掛かりとして word2vec および doc2vec という自然言語処理の技術を用いてクチコミを分析し、会社の分類などを行ってみようと思います。 使用する自然言語処理技術 昨今、word2vecという自然言語処理の技術が話題です。ご存じの方も多いかと思いますが、大量の文章をもちいて単語をベクトル表現で数値化し、以下の

    【転職会議】クチコミをword2vecで自然言語処理して会社を分類してみる - Qiita
  • 1