タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

Word2Vecに関するsakidatsumonoのブックマーク (3)

  • サブカルのためのword2vec | BLOG - DeNA Engineering

    はじめに AIシステム部AI研究開発グループ アルバイトの五十嵐です。( @bonprosoft, ポートフォリオ:http://vbcpp.net/about/ ) 現在、東北大学大学院の修士1年で、大学院では(自然言語ではなく)高速な文字列処理アルゴリズムに関する研究を行っています。 私は2017年9月上旬から3週間ほど、アルバイト兼インターンとしてハッカドールチーム内のNLPのタスクに取り組んでいました。 その後はアルバイトとして、期間中にできなかった追加実験と実際の製品への適用に取り組んでいます。 取り組んだタスク 突然ですが、みなさま、ハッカドールはインストールされていますか? ハッカドールは、主にサブカルチャーに関する記事に特化した、ニュースアプリケーションです。 アプリケーション内のユーザーのクリックや「ホシイ/イラナイ」などのアクションを通して、ハッカドールがユーザーの好み

    サブカルのためのword2vec | BLOG - DeNA Engineering
    sakidatsumono
    sakidatsumono 2018/01/15
    いろいろありがたい
  • Word2Vec のニューラルネットワーク学習過程を理解する · けんごのお屋敷

    Word2Vec というと、文字通り単語をベクトルとして表現することで単語の意味をとらえることができる手法として有名なものですが、最近だと Word2Vec を協調フィルタリングに応用する研究 (Item2Vec と呼ばれる) などもあるようで、この Word2Vec というツールは自然言語処理の分野の壁を超えて活躍しています。 実は Item2Vec を実装してみたくて Word2Vec の仕組みを理解しようとしていたのですが、Word2Vec の内部の詳細に踏み込んで解説した日語記事を見かけることがなかったので、今更感はありますが自分の知識の整理のためにもブログに残しておきます。なお、この記事は Word2Vec のソースコードといくつかのペーパーを読んで自力で理解した内容になります。間違いが含まれている可能性もありますのでご了承ください。もし間違いを見つけた場合は指摘してもらえると

  • Doc2Vecの仕組みとgensimを使った文書類似度算出チュートリアル

    類似したコンテンツのタイトルは、女性アーティストだらけとなっている。浜崎あゆみは日のレディー・ガガらしい。 Bag-of-wordsの欠点とDoc2Vecのメリット Bag-of-wordsは文書内の単語の出現回数をベクトルの要素とした分散表現だ。例えば、 { I, have, a, pen, I, have, an, apple } という単語区切りの文書があるとしよう。この文書をBag-of-wordsでベクトル化する。ベクトルの並び順をI, have, a, pen, an, appleとすると、 [2, 2, 1, 1, 1, 1] と表現することになる。単に出現頻度を計算しているだけなので、シンプルで計算効率よく分散表現を得ることが出来る。 では、Bag-of-wordsの何が問題なのだろうか?Bag-of-wordsでは、単語の出現順序が考慮されず、同様の単語が使われていれば

    Doc2Vecの仕組みとgensimを使った文書類似度算出チュートリアル
  • 1