並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 38 件 / 38件

新着順 人気順

word2vecの検索結果1 - 38 件 / 38件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

word2vecに関するエントリは38件あります。 NLP機械学習python などが関連タグです。 人気エントリには 『学習済み日本語word2vecとその評価について - 株式会社ホクソエムのブログ』などがあります。
  • 学習済み日本語word2vecとその評価について - 株式会社ホクソエムのブログ

    ホクソエムサポーターの白井です。 今回は日本語の word2vec に着目し、日本語の学習済み word2vec の評価方法について紹介します。 自然言語は非構造化データであるため、単語や文章を計算機で扱いやすい表現に変換する必要があります。 そのための方法の1つに word2vec があり、Bag of Words (BoW) や tf-idf とならんでよく用いられます。 一般に、word2vec は Mikolovが提案した手法 (CBOW, Skip-gram) をはじめ、 GloVe や fastText など、単語をベクトルで表現する単語分散表現のことを指します。 word2vec は教師なし学習のため、コーパスさえ準備できれば誰でも新しい単語分散表現を学習することができます。 しかし、実際に word2vec を使う際に、どのように評価すれば良いのかがよく分からず、配布されて

      学習済み日本語word2vecとその評価について - 株式会社ホクソエムのブログ
    • 深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで

      第1回Webインテリジェンスとインタラクションセミナー(いまさら訊けないシリーズ「言語処理技術」)での発表資料です。 https://www.sigwi2.org/next-sigRead less

        深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
      • 「Gensim」による機械学習を使った自然言語分析の基本――「NLTK」「潜在的ディリクレ配分法(LDA)」「Word2vec」とは

        「Gensim」による機械学習を使った自然言語分析の基本――「NLTK」「潜在的ディリクレ配分法(LDA)」「Word2vec」とは:Pythonで始める機械学習入門(9)(1/2 ページ) 最近流行の機械学習/Deep Learningを試してみたいという人のために、Pythonを使った機械学習について主要なライブラリ/ツールの使い方を中心に解説する連載。今回は機械学習を使った自然言語分析のライブラリ「Gensim」について解説します。 プログラミング言語「Python」は機械学習の分野で広く使われており、最近の機械学習/Deep Learningの流行により使う人が増えているかと思います。一方で、「機械学習に興味を持ったので自分でも試してみたいけど、どこから手を付けていいのか」という話もよく聞きます。本連載「Pythonで始める機械学習入門」では、そのような人をターゲットに、Pytho

          「Gensim」による機械学習を使った自然言語分析の基本――「NLTK」「潜在的ディリクレ配分法(LDA)」「Word2vec」とは
        • Word2Vecの紹介

          先程作成したベクトル結果を2D座標に反映しましょう。 転換した結果、動物の距離を計算できます。例えば、犬と猫の距離は犬と鳥の距離より近いことがわかります。 単語のベクトルを使って文書はベクトル空間の位置も計算できます。文書に含まれている単語のベクトルを平均値計算して結果を取れます。 文章をベクトルする方法 単語のベクトル結果を使って、文章もベクトルに転換できます。文書に含まれている単語のベクトルの平均値は、文章のベクトルになります。例えば“猫は金魚を食べました”を、前の動物の単語をベクトルした結果でベクトルします。計算の流れは下記の図になります。 実際の業務に使用できる文書のベクトル計算は二種類あります。 1 文書に含まれている単語のベクトルを平均値計算します(単語がN個ある場合は下記の計算式になります)。 2 文書に含まれている単語のベクトルを平均値計算して各単語のTFIDF値を掛けます

            Word2Vecの紹介
          • Word2Vecで自由入力対応のチャットボットをつくる - Qiita

            この記事はZeals Advent Calendar 2019の1日目の記事です。 はじめまして。Zealsに来年度から入社予定の玉城です。 Zealsはチャットコマースと呼ばれる、チャットボットの技術を用いた事業を行っております。また私は現在大学で自然言語処理を使った研究をしています。 ボットには自然言語処理を導入していない会話があるのですが、そこに自然言語処理の技術を加えてみても面白いのではないかと考えたので、今回記事のテーマにすることにしました。 Word2Vecとは ものすごく簡単に言うと、単語をベクトル表現に置き換え、ニューラルネットワークを使って学習を行うことで、単語同士の類似度や、単語同士の足し算引き算が出来るようになる技術です。 (曖昧すぎてマサカリ飛んできそう) その類似度や足し算引き算の機能をチャットボットに組み込んでみよう!というのが今回のお話です。 作成するチャット

              Word2Vecで自由入力対応のチャットボットをつくる - Qiita
            • Word2vec implementation in gensim

              Explain word2vec implementation in gensim in Python and Cython.

                Word2vec implementation in gensim
              • yhkondo on Twitter: "word2vecに代表される単語の意味のベクトル化の手法は現代語では普通だが、意外に古文に適用した例を知らない。『源氏物語』で試すとなかなか面白い。意味の加減算ができるので有名だが、「女房」から「女」を引くと、「僧」になる。「侍従… https://t.co/BZGi2AC1UL"

                word2vecに代表される単語の意味のベクトル化の手法は現代語では普通だが、意外に古文に適用した例を知らない。『源氏物語』で試すとなかなか面白い。意味の加減算ができるので有名だが、「女房」から「女」を引くと、「僧」になる。「侍従… https://t.co/BZGi2AC1UL

                  yhkondo on Twitter: "word2vecに代表される単語の意味のベクトル化の手法は現代語では普通だが、意外に古文に適用した例を知らない。『源氏物語』で試すとなかなか面白い。意味の加減算ができるので有名だが、「女房」から「女」を引くと、「僧」になる。「侍従… https://t.co/BZGi2AC1UL"
                • Word2vecとは?前後の言葉から単語の意味を表す手法

                  近年はさまざまな分野において、AIを搭載した製品(サービス)が積極的に活用され始めています。その中でも、コミュニケーションに必要不可欠な言語の分野では、自然言語処理をはじめとする技術によって利便性が向上しており、大きな注目を集めているのです。 そこで今回は、自然言語処理の技術向上において重要な役割を果たしている「Word2vec」について詳しくご紹介していきますので、是非参考にしてみてください。 自然言語処理について詳しく知りたい方は以下の記事もご覧ください。 自然言語処理とは?できること、種類、活用事例を解説! 自然言語処理-NLP-のサービス比較と企業一覧 別名:ベクトル空間モデル、単語埋め込みモデル Word2vecとは、文章に含まれる単語を「数値ベクトル」に変換し、その意味を把握していくという自然言語処理の手法です。比較的簡単に学習を行えるPythonを用いて実装できるので、初心者

                    Word2vecとは?前後の言葉から単語の意味を表す手法
                  • Word2Vecとは | 分散表現・Skip-gram法とCBOWの仕組み・ツールや活用事例まで徹底解説 | Ledge.ai

                    翻訳サービスから動画サイトのレコメンドまで、生活のさまざまな場面に実装されつつある「自然言語処理」。数年前と比べてGoogle翻訳の精度が飛躍的に上がっているのを実感した方も多いかと思います。その技術の向上に大きな貢献を果たしたのが、今回解説する「Word2Vec」です。 この記事では、Word2Vecの仕組み、活用事例、そして実装方法に至るまでを、どこよりもわかりやすく解説します。 Word2Vecとは?Word2Vecとは、当時Googleに在籍していた研究者であるトマス・ミコロフ氏らにより提案され、自然言語処理に大きな技術的進展をもたらしたツールです。それまでの自然言語処理手法が抱えていたさまざまな課題を乗り越え、大規模データによる自然言語処理学習を可能にし、Googleのみならずさまざまな企業でも活用が始まっています。 この記事ではWord2Vecを解説する前段階として、まず人間が

                      Word2Vecとは | 分散表現・Skip-gram法とCBOWの仕組み・ツールや活用事例まで徹底解説 | Ledge.ai
                    • スタンフォード哲学事典のデータでword2vec - うつし世はゆめ / 夜のゆめもゆめ

                      自然言語処理の領域で近年注目されている技術にword2vecというのがあります。 今日は、夏休みの自由研究として、スタンフォード哲学事典のデータを使って、word2vecを作ってみたいと思います。 人文系の領域でコンピューターを使った研究は、最近デジタル・ヒューマニティーズなどと呼ばれてちょっと流行しているようです。私もデジタル・ヒューマニティーズやってみたいので、手始めにとりあえずやってみます。といっても今回の試みは遊びみたいなものですが、コードと手順は残しておくので、もっと本格的な研究のとっかかりになればと思います。 コードと手順は以下に残してあります。 コード: https://github.com/takada-at/sep_crawl Google Colaboratory: https://colab.research.google.com/drive/15MB_mhYbX4v

                        スタンフォード哲学事典のデータでword2vec - うつし世はゆめ / 夜のゆめもゆめ
                      • 単語と図で理解する自然言語処理(word2vec, RNN, LSTM)後編 - ギークなエンジニアを目指す男

                        前回に引き続き、後編です。 www.takapy.work 前編の簡単な復習 言語モデル 言語モデルにおけるフィードフォワード型ニューラルネットワーク(word2vec)の問題点 RNN BPTT(Backpropagation Through Time) BPTTの問題点 Truncated BPTT Truncated BPTTのミニバッチ学習 RNN言語モデルの全体図 LSTM(ゲート付きRNN)とは RNNLMの問題点 勾配爆発への対策 勾配消失への対策 LSTM(Long short-term memory)の概要 LSTMに備わっているゲートについて outputゲート(o) forgetゲート(f) 新しい記憶セル(g) inputゲート(i) なぜLSTMだと勾配消失が起きにくいのか LSTMの改善案 最後に 前編の簡単な復習 前編では、コンピュータに単語の意味を理解させる

                          単語と図で理解する自然言語処理(word2vec, RNN, LSTM)後編 - ギークなエンジニアを目指す男
                        • Word2Vecを理解する - Qiita

                          はじめに 今や自然言語処理の定番手法となっているWord2Vecについて勉強したことをまとめました。 そのアルゴリズムの概要を整理しライブラリを用いてモデルを作成しています。 参考 Word2Vecを理解するに当たって下記を参考にさせていただきました。 ゼロから作るDeep Learning ❷ ―自然言語処理編 斎藤 康毅 (著) 絵で理解するWord2vecの仕組み Efficient Estimation of Word Representations in Vector Space (元論文) gensimのAPIリファレンス Word2Vec概要 下記ではWord2Vecの前提となっている自然言語処理の考え方について記載しています。 単語の分散表現 単語を固定長のベクトルで表現することを「単語の分散表現」と呼びます。単語をベクトルで表現することができれば単語の意味を定量的に把握す

                            Word2Vecを理解する - Qiita
                          • ノンプログラミングでBERT,Word2Vec,tf-idf,BM25を試す|MatrixFlow

                            こんにちは! 株式会社MatrixFlowのMatrixFlowチームです。 今回はMatrixFlow バージョン0.3.8で自然言語処理のアルゴリズムを大きく増やしたので、使ってみたいと思います。 まず、今回増やしたアルゴリズムですが、BERTとWord2VecとBM25+を使えるようにしました。 それぞれの解説を軽くしたいと思います。 BERTとはTransformerという手法を使ったDeep Learningのモデルです。 2018の10月にGoogleの研究チームが発表し、2020年7月の現在では5000近くの論文で引用されています。文章読解のベンチマーク「SQuAD 1.1」で人間の精度を初めて超えたことで話題になりました。また特定のタスクだけでなく多種類のタスクで最高精度を出したのも業界を驚かせました。 MatrixFlowは内部では「HuggingFace」のモジュールを

                              ノンプログラミングでBERT,Word2Vec,tf-idf,BM25を試す|MatrixFlow
                            • 数式抜きでWord2vecを話す

                              社内勉強用の資料です。 フォローお願いします。https://twitter.com/Ishitonton

                                数式抜きでWord2vecを話す
                              • 特許文章版 分散表現:word2vecの学習済モデル ver1.0 - Qiita

                                分散表現公開 前回作った分散表現のバージョンアップ版(ver1.0) 特許版word2vec学習モデル(.model)214MB注意 特許版word2vec学習モデル(.model.wv.vectors.npy)3160MB注意 特許版word2vec学習モデル(.model.trainables.syn1neg.npy)3160MB注意 2013~2015年に日本国特許庁で発行された全公開公報(150万件ほど)の全文を用いて学習 tokenizeはMeCab+NEologdです。 次元数は300次元 ただし、データが重すぎてエラーが出てcolaboratoryでは動かない場合があります。動作が確認できたのはGCEの n1-highmem-8 (8 vCPUs, 52 GB memory) です。これくらいのスペックがないと動かないかもしれません。 です。 model.corpus_cou

                                  特許文章版 分散表現:word2vecの学習済モデル ver1.0 - Qiita
                                • 曲のコードをword2vecでベクトル化し、t-SNEで可視化してみた - Qiita

                                  概要 曲はコードと呼ばれる和音によって成り立っています。それらは並び順が非常に大切で、それによって曲の情緒が変わります。複数個のコードの塊をコード進行と読んでいて、例えば【IーVーVImーIIImーIVーIーIVーV】というカノン進行と呼ばれる代表的なものがあります。並び順が大事という点で、曲は文章、コードは単語、と置き換えて考えると、word2vecでベクトル化し、t-SNEで2次元に圧縮して図示すればコード同士の相関が見えるんではないか、という仮定を検証しました。 堅苦しく書きましたが、コード(プログラミング)でコード(和音)を解析するってイカしてね?くらいのノリを共感して頂ければ嬉しいです。 (これは完全に憶測なんですが、リーダブルコードというプログラミングを行う際のコードの書き方をまとめている名著がありまして、そのカバーが音符になっているのはそういうことなのでは、と思っています。。

                                    曲のコードをword2vecでベクトル化し、t-SNEで可視化してみた - Qiita
                                  • Attentionを理解するためにRNN、Word2Vec、LSTM、Seq2Seq、Attentionの順に整理してみた - Qiita

                                    Attentionを理解するためにRNN、Word2Vec、LSTM、Seq2Seq、Attentionの順に整理してみた Attentionを理解するために、学習した事を整理します。 参考文献 ①「深層学習による自然言語処理」 講談社  坪井祐太 海野裕也 鈴木潤 著 ②「ゼロから作るDeep Learning2 自然言語処理編」 オライリー 斎藤康毅 著 ■RNN(recurrent neural network) 文献①によると、再帰ニューラルネットワーク(RNN)は可変長の入力列を扱うことに優れたネットワーク構造で、前の時刻の隠れ状態ベクトルと現時刻の入力ベクトル(または下層の隠れ状態ベクトル)を使って、現在の隠れ状態ベクトルを更新するとのこと。 う~ん、分かりにくいので絵にしてみました。 上図のxは入力、hは隠れ層です。時刻tでインプットした文字を使って、h1を更新し、h2に渡す

                                      Attentionを理解するためにRNN、Word2Vec、LSTM、Seq2Seq、Attentionの順に整理してみた - Qiita
                                    • word2vecで「クソデカ」+「羅生門」を検証する - Qiita

                                      ある月の暮方のでかいである。 どでかいののどでかいで雨やみを待っていた。 でかいどでかいのどでかいには、このどでかいのどでかいにどでかいもいない。 ただ、どでかいが、でかいどでかいでかいはありでかいでかいでかいである。 どでかいが、このどでかいのどでかいにはどでかいもいない。 でかいかと云うと、このどでかいどでかい、大阪には、大地震とかが棲む。 どでかいしまいには、引どでかいどでかいのずどでかいを、このどでかいへ持ってどでかいて、棄てて来ると云うどでかいさえでかいどでかい。 そこで、どでかいがどでかい無くなると、どでかいでもでかいを悪るがって、このどでかいのどでかいへは足ぶみをしずでかいによってけれどまったのである。 どでかい代りまたをでかいにけれどながら、ぼうっと、降るのどでかいのを見晴らしていた。 どでかいはどでかい、「どでかいが雨やみを待っていた」とどでかいいた。 しかし、どでかいは

                                        word2vecで「クソデカ」+「羅生門」を検証する - Qiita
                                      • ねこでもわかるWord2Vec入門 - Qiita

                                        モチベーション 初めまして、pyaNottyと申します。初投稿です。 最近、MeCabやらkerasやらに触れる機会があり、せっかくなので何か自然言語処理にチャレンジしたいなと思いました。自然言語処理、とくにLSTMなどを用いた文章生成なんかでは、Word2Vecによる分散表現が利用されることが多いと聞きます。今回は、LSTMモデルに食わせることができる単語の分散表現を、Word2Vecで作ってみようと思います。 ねこ並みの知能しか持ち合わせていない筆者でも、なんとかできるくらい簡単です。 Word2Vecとは 単語をベクトルに変換するためのモデルのことです。 何か文章を使ってLSTMモデルとかを訓練する場合、生の文字列をモデルに食わせることはできません。ですので、文章を何らかの数値表現に変換する必要があります。例えば、「これはペンです」という文章の場合、['これは', 'ペン', 'です

                                          ねこでもわかるWord2Vec入門 - Qiita
                                        • ざっくり理解する単語の分散表現(One-hot encode, word2vec, ELMo, BERT) - Qiita

                                          ざっくり理解する単語の分散表現(One-hot encode, word2vec, ELMo, BERT) 自己紹介 単語の分散表現について簡単にまとめました。 自己紹介:Pythonでデータ分析とかNLPとか異常検知とかしてます。 質問やツッコミなど有りましたらぜひコメント下さい! モチベーション 自然言語をコンピュータに認識させるために数値化する必要が有ります。 「文の数値表現」と「単語の数値表現」があり、今回は後者にフォーカスして紹介します。 後者のうち、1単語を低い(数百程度の)次元のベクトルで表現したものを「分散表現」といいます。 分散表現にすることで以下の効果があります。 省計算量 省メモリ 意味をエンコード可 手法によっては文脈をエンコード可(多義語を理解させられる) 用語説明 : 「自然言語で取り扱う対象」の分類 分類 意味 例

                                            ざっくり理解する単語の分散表現(One-hot encode, word2vec, ELMo, BERT) - Qiita
                                          • AmazonLinux2+python+Word2Vecで連想語辞書を作る - Qiita

                                            pythonとWord2Vecで連想語辞書を作成した際の作業記録を残します。コーパスにはWikipediaのDumpを利用させて頂いています。 前提 OSはAmazonLinux2、形態素解析エンジンのMeCabがインストール済であること。 ※ MeCabのインストールについては前回または他の方のインストール記事を参考にして下さい。 作業手順 pythonとpip、依存するライブラリのインストール $ sudo yum install -y python3 $ echo 'alias python=python3.7' >> ~/.bashrc $ source ~/.bashrc

                                              AmazonLinux2+python+Word2Vecで連想語辞書を作る - Qiita
                                            • Colaboratory上で「word2vecの学習」と「Tensorboardによる可視化」 - Qiita

                                              はじめに この記事では、Colaboratoryでword2vecの学習とTensorboardによる可視化を行ないます。 TensorBoardの出力結果はインターネット上で公開されてしまうので、オープンデータのみ使用するようしてください (公開せずにTensorBoardのPROJECTORを実装する方法をご存知の方がいらっしゃましたら教えてください) word2vecとTensorboardの説明は、行わないので別途学習してください Word2Vec:発明した本人も驚く単語ベクトルの驚異的な力 あらゆるデータを可視化するTensorBoard徹底入門 使用データ/行うこと word2vecの学習には、著作権が切れたためにフリーで公開されている青空文庫にある夏目漱石作の「吾輩は猫である」を使用します。 小説内の単語をword2vecで学習することで、コンピューターが正しく「吾輩」は「猫

                                                Colaboratory上で「word2vecの学習」と「Tensorboardによる可視化」 - Qiita
                                              • Amazon.co.jp: PyTorch自然言語処理プログラミング word2vec/LSTM/seq2seq/BERTで日本語テキスト解析! (impress top gearシリーズ): 新納浩幸: 本

                                                  Amazon.co.jp: PyTorch自然言語処理プログラミング word2vec/LSTM/seq2seq/BERTで日本語テキスト解析! (impress top gearシリーズ): 新納浩幸: 本
                                                • BertとWord2vecを組み合わせて謎かけAIを作ってみた。 - Qiita

                                                  お遊びアプリとして BertとWord2vecを組み合わせて謎かけAIを作ってみた。 どんなアプリ お題を入れると、謎かけを回答してくれるアプリ > python .\nazokake.py Please input odai : 利根川 2022-09-06 22:49:41.121694 「利根川」とかけて「出産」と説く その心は! どちらも「用水/羊水(ヨウスイ)」がつきものです 2022-09-06 22:49:44.241902 Please input odai : 野球 2022-09-06 22:51:30.649636 「野球」とかけて「システム」と説く その心は! どちらも「捕手/保守(ホシュ)」がつきものです 2022-09-06 22:51:33.327652 Please input odai : 銀行 2022-09-06 22:52:44.977923 「銀行

                                                    BertとWord2vecを組み合わせて謎かけAIを作ってみた。 - Qiita
                                                  • Word2Vec使い倒しブック~Hello Worldから最近の研究成果まで~:もちっとカフェ

                                                    --- 2022/9/7追記 技術書典13にあたって、内容量2倍&物理本になって帰ってきました! すでに初版の電子版をご購入済の方は技術書典サイトの本棚より2版がダウンロードいただけます。 --- 自然言語処理の定番手法となっているWord2Vecを使ってみたい初心者やちょっと手の込んだことをしてみたい中級者向けにWord2Vecを使い倒すべく、私個人の観点から可能な限り役立ちそうなTIPSを詰め込みました。 最近はもっぱらBERTやGPTシリーズの登場によってWord2Vecは過去の技術という印象があるかもしれません。 ですが、垢まみれになった今だからこそ、知見も溜まっており、安定して使えるようになったとも言えます。 そこで、私見を多分に含みますが、まとまった形でWord2Vecを使い倒すためのノウハウをまとめました。 1つ1つの内容は、どこかの記事などでみたことがあるものかもしれません

                                                      Word2Vec使い倒しブック~Hello Worldから最近の研究成果まで~:もちっとカフェ
                                                    • 自然言語処理の分散表現(Word2Vec,fastText)の課題 : 新規事業のつくり方

                                                      単語分散表現とは、単語の意味をベクトルで表現することです。単語埋め込み(Word Embedding)とも呼ばれます。単語を100~300の次元数で表現することが多いです。 分散表現(+自然言語処理の主な手法も)は、単語の意味は周囲の単語で形成されるという分布仮説を前提にしています。 なので、Wikipediaなど大量のテキストデータ(コーパス)を学習させれば、単語の意味が表現できるということです。 例えばWord2Vecは、周辺の単語から中心語を推論する(逆に中心語から周辺の単語を推論する方法もあり)ことで、単語をベクトル表現しています。 コーパスを読み込ませるだけで学習できるので、実務的にも利便性の高い手法です。分散表現の学習済みモデルを公開している団体も多数あります。 単語分散表現の利用例:単語間の類似度計算 単語分散表現は、単語の意味をベクトル(数値)で表現できます。代表的な利用ケ

                                                        自然言語処理の分散表現(Word2Vec,fastText)の課題 : 新規事業のつくり方
                                                      • [自然言語処理/NLP] Word2VecをSageMaker上で使ってみる (実行編) | DevelopersIO

                                                        こんにちは、Mr.Moです。 Word2Vecについて理論を学んだので、次は実際に使ってみたいと思います。 ちなみに理論については下記の記事にまとめました。 [自然言語処理/NLP] Word2Vec触ったので備忘録としてざっくりまとめておく (理論編) 前提 この記事ではSageMaker上で動かすことを前提に進めていきます。 SageMakerについては弊社ブログで情報を発信しておりますのでこちらも参考にしてみてください。 https://dev.classmethod.jp/referencecat/amazon-sagemaker/ 事前準備 SageMakerでノートブックインスタンスの作成 まずはじめにSageMakerの画面を開きます。 https://ap-northeast-1.console.aws.amazon.com/sagemaker/home?region=ap

                                                          [自然言語処理/NLP] Word2VecをSageMaker上で使ってみる (実行編) | DevelopersIO
                                                        • 【Python】Word2Vecで単語の分散表現を体感する

                                                          Word2Vecとは Word2Vecは2013年にトマス・ミコロフにより提案された自然言語の数値化の手法です。 トマス・ミコロフはGoogle在籍のエンジニアで、Word2Vecの発明により、Google翻訳の性能が著しく向上したと言われています。 Word2Vecの何がすごいか Word2Vecは単語の分散表現を取り入れたモデルです。 単語の分散表現とは、単語を固定長のベクトルで表すことです。 単語の一つ一つを、ベクトル空間における点として表現することで、単語同士の距離(類似度)を測ったり、演算(足し算・引き算)したりすることが可能なモデルになっています。 Word2Vecは、文章を学習用テキストデータとしてあたえ、周辺にある単語からから中心にある単語を予測することでベクトル化していきます。 このように、ある単語の意味は周辺の単語によって形成されるという考え方を分布仮説と呼びます。Wo

                                                            【Python】Word2Vecで単語の分散表現を体感する
                                                          • 自然言語処理の必須知識!Word2Vec とは?

                                                            Word2Vec とは Word2Vec は自然言語を数ベクトルで表現する手法の一つです。中でも、Word2Vec は単語をベクトルで表現する手法です。下図はそのイメージです。 テキストにベクトル表現を対応づける より正確には、Word2Vec は Mikolov らが 2013 年の論文 (Efficient Estimation of Word Representations in Vector Space, ベクトル空間における単語の表現の効率的推定, https://arxiv.org/abs/1301.3781) で発表した一連の手法です。 モデルとして CBoW 、Skip-Gram の二種類、最適化戦略として階層的ソフトマックス、負例サンプリングの二種類を含みます(この記事では詳しい説明を省略します)。 「単語がベクトル空間で表現される」というのはイメージが湧きにくいかもしれ

                                                            • Word2Vecドキュメントのメソッドまとめ - たのしい駆動開発

                                                              注: 現在更新途中でwvのとこまでしか書いてませんが、一応これだけでも十分だと思います Word2Vecの記事をかいてる人に伝えたい、最新のドキュメントを読んでほしい... あれ、ドキュメントに書かれている文おかしくない...?このドキュメントは正確なのか...?ちょっと調べてみよ... ↓ 最近書かれたブログなのにDocumentに書かれてないことやってるやん...何を信じればいいんだ...ていうかまともにドキュメント読んでたらおかしいと思うはずでは...?みんな1次情報漁ってないんだろうなあ… と苛ついたので、ドキュメントの方を信じてWord2Vecのドキュメントを自分用にまとめました。 ちなみに使わなさそうなメソッドは省いてます バージョン 一応この記事に書かれていることも数年立ったら変わっているかもしれないので。 Python 3.7.3 gensim==3.8.1 用途的な感じで

                                                                Word2Vecドキュメントのメソッドまとめ - たのしい駆動開発
                                                              • Word2vec - Wikipedia

                                                                Word2vecは、単語の埋め込みを生成するために使用される一連のモデル群である。これらのモデルは、単語の言語コンテキストを再構築するように訓練された浅い2層ニューラルネットワークであり、大きなコーパスを受け取って一つのベクトル空間を生成する。このベクトル空間は典型的には数百次元からなり、コーパスの個々の単語はベクトル空間内の個々のベクトルに割り当てられる。コーパス内で同じコンテキストを共有する単語ベクトルは、ベクトル空間内の近くに配置される[1]。 Word2vecは、Googleのトマス・ミコロフ率いる研究者チームによって2013年に作成および公開され、特許を取得した。アルゴリズムは他の研究者によって分析され、説明された[2][3]。Word2vecアルゴリズムを使用して作成された埋め込みベクトルには、潜在的意味分析などの以前のアルゴリズム[1]と比べていくつかの利点がある。 CBoW

                                                                • GitHub - oegedijk/keras-embeddings: Example of how to use entity embeddings (similar to word embeddings such as word2vec, but then generalized for any categorical feature) in a Keras model.

                                                                  Example of how to use entity embeddings (similar to word embeddings such as word2vec, but then generalized for any categorical feature) in a Keras model.

                                                                    GitHub - oegedijk/keras-embeddings: Example of how to use entity embeddings (similar to word embeddings such as word2vec, but then generalized for any categorical feature) in a Keras model.
                                                                  • Word2VecとEmbedding層について考察してみた

                                                                    Word2VecやEmbedding層について自身の理解が曖昧だったので、学習がてら自身の考察を示しながらまとめました。 分散表現 名前など物理的な計測が不可能な記号集合をベクトルに対応付けたものを分散表現(distributed representation)といいます。この変換操作は、トークンをベクトル空間に埋め込む操作であることから埋め込み(embedding)ともいわれます(一般的に自然言語処理の分野でトークンは単語であるため、単語埋め込み(word embedding)と呼ぶことが多い)。 Word2Vec Word2Vecとは、WordをVectorに変換するという意味で分散表現そのものを指すと解釈できますが、より狭義でCBOWやSkip-gramの2つのモデルを指すのが一般的です。勉強会等で登壇者の説明を聞いたり自身が説明したりするときはWord2Vecが分散表現そのものを指

                                                                      Word2VecとEmbedding層について考察してみた
                                                                    • gemsimのword2vecのオプション一覧 - Qiita

                                                                      Register as a new user and use Qiita more conveniently You get articles that match your needsYou can efficiently read back useful informationWhat you can do with signing up

                                                                        gemsimのword2vecのオプション一覧 - Qiita
                                                                      • 🎍QDくん🎍Python x 機械学習 x 金融工学 on Twitter: "SONYがYouTubeに無料公開している、系列データモデリングのコース。説明が丁寧でわかりやすい。RNN, LSTM, seq2seq, attention, Transformer, word2vec, BERTなど盛り沢山の… https://t.co/i5GSLIaLEo"

                                                                        SONYがYouTubeに無料公開している、系列データモデリングのコース。説明が丁寧でわかりやすい。RNN, LSTM, seq2seq, attention, Transformer, word2vec, BERTなど盛り沢山の… https://t.co/i5GSLIaLEo

                                                                          🎍QDくん🎍Python x 機械学習 x 金融工学 on Twitter: "SONYがYouTubeに無料公開している、系列データモデリングのコース。説明が丁寧でわかりやすい。RNN, LSTM, seq2seq, attention, Transformer, word2vec, BERTなど盛り沢山の… https://t.co/i5GSLIaLEo"
                                                                        • 【深層学習】word2vec - 単語の意味を機械が理解する仕組み【ディープラーニングの世界 vol. 21】#089 #VRアカデミア #DeepLearning

                                                                          ▼テーマ 単語をベクトルで表す単語分散表現の中で最も有名な word2vec の紹介です。 word2vec は4種のアルゴリズムの総称です。 それぞれを丁寧に説明していきます。 ▼関連プレイリスト Deep Learning の世界 https://www.youtube.com/playlist?list=PLhDAH9aTfnxKXf__soUoAEOrbLAOnVHCP 自然言語処理シリーズ https://www.youtube.com/playlist?list=PLhDAH9aTfnxL4XdCRjUCC0_flR00A6tJR ▼目次 00:00 OP ==== 1.単語分散表現 ==== 02:06 1-1 単語分散表現って何? 03:56 1-2 分散表現が得られると何が便利なのか? ==== 2.word2vec ==== 08:31 2-1 引用論文紹介

                                                                            【深層学習】word2vec - 単語の意味を機械が理解する仕組み【ディープラーニングの世界 vol. 21】#089 #VRアカデミア #DeepLearning
                                                                          • BERTおよびWord2Vecで文の類似性を確認する

                                                                            BERTおよびWord2Vecで文の類似性を確認する TL;DR 文の類似性を確認する方法としてBERTとWord2Vecを比較します。 文全体の類似性ではなくトークン単位での比較です。 BERTとWord2Vecによるベクトル化にはtext-vectorianを使用します。 ソースコード from text_vectorian import SpBertVectorian tokenizer_filename = '../bert-japanese/model/wiki-ja.model' vectorizer_filename = '../bert-japanese/model/model.ckpt-1400000' bert_vectorian = SpBertVectorian( tokenizer_filename=tokenizer_filename, vectorizer_f

                                                                            • pythonによるword2vec等によるテキストマイニング(【高等学校情報科 情報Ⅱ】教員研修用教材) - Qiita

                                                                              次に後で行う感情分析のための感情辞書をダウンロードしておきます。 感情分析の際にWord2vecで感情を示す用語の主な用語との距離を求めることにより感情分析が可能ですが、ここでは日本語辞書として,東京工業大学のPN Tableを使用して感情分析を行います。 import urllib.request import pandas as pd #PN tableのリンク url = 'http://www.lr.pi.titech.ac.jp/~takamura/pubs/pn_ja.dic' #ファイル保存名 file_path = 'pn_ja.dic' with urllib.request.urlopen(url) as dl_file: with open(file_path, 'wb') as out_file: out_file.write(dl_file.read()) # 辞

                                                                                pythonによるword2vec等によるテキストマイニング(【高等学校情報科 情報Ⅱ】教員研修用教材) - Qiita
                                                                              1

                                                                              新着記事