並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 9 件 / 9件

新着順 人気順

gensimの検索結果1 - 9 件 / 9件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

gensimに関するエントリは9件あります。 pythonLDA機械学習 などが関連タグです。 人気エントリには 『「Gensim」による機械学習を使った自然言語分析の基本――「NLTK」「潜在的ディリクレ配分法(LDA)」「Word2vec」とは』などがあります。
  • 「Gensim」による機械学習を使った自然言語分析の基本――「NLTK」「潜在的ディリクレ配分法(LDA)」「Word2vec」とは

    「Gensim」による機械学習を使った自然言語分析の基本――「NLTK」「潜在的ディリクレ配分法(LDA)」「Word2vec」とは:Pythonで始める機械学習入門(9)(1/2 ページ) 最近流行の機械学習/Deep Learningを試してみたいという人のために、Pythonを使った機械学習について主要なライブラリ/ツールの使い方を中心に解説する連載。今回は機械学習を使った自然言語分析のライブラリ「Gensim」について解説します。 プログラミング言語「Python」は機械学習の分野で広く使われており、最近の機械学習/Deep Learningの流行により使う人が増えているかと思います。一方で、「機械学習に興味を持ったので自分でも試してみたいけど、どこから手を付けていいのか」という話もよく聞きます。本連載「Pythonで始める機械学習入門」では、そのような人をターゲットに、Pytho

      「Gensim」による機械学習を使った自然言語分析の基本――「NLTK」「潜在的ディリクレ配分法(LDA)」「Word2vec」とは
    • gensimに依存しない単語の類似度計算 - 機械学習・自然言語処理の勉強メモ

      はじめに 前にgensimによる単語の類似度について書きました。 kento1109.hatenablog.com この手の記事はググればいっぱい出てくるので、gensimでモデルを作って単語の類似度を計算するのは難しくないと思います。 ただ、LSTMなどで学習した後の単語の分散表現の類似度を測定したい場合に、そのためだけにわざわざgensimのモデルを構築するのは面倒ですし、無駄かなと思います。 ある単語と別の単語の類似度を測定するだけの場合、そのベクトル同士で測定すれば良いですが、gensimのmost_similar関数のような「ある単語のベクトルに近いベクトルの単語をN個取ってくる」機能を実現する場合は少し実装が必要です。 1単語ずつループで回してコサイン類似度を計算する、なんてしていては計算速度が遅くなります。 そこで、scipyとnumpyのライブラリを活用した関数を考えました

        gensimに依存しない単語の類似度計算 - 機械学習・自然言語処理の勉強メモ
      • Word2vec implementation in gensim

        Explain word2vec implementation in gensim in Python and Cython.

          Word2vec implementation in gensim
        • LDAによるトピック解析 with Gensim - Qiita

          はじめに 今回は、Latent Dirichlet Allocation(潜在的ディリクレ配分法、以下「LDA」と略)と呼ばれるトピックモデルについて取り上げます。 特に本記事では、LDA というトピックモデルを扱う上で押さえておくべき、トピックモデルやコーパスの概念に触れながら、前処理を含めた分析の流れやモデルの評価方法などについて、実装を通じて理解を深めていくことを目的とします。 また併せて、本記事では、結果の可視化の手法についてもいくつか紹介したいと思います。 分析の流れとしては、ストップワードなどの文章の前処理の後、Gensim を用いて、文章をいくつかのトピックに分類していき、最後に WordCloud と pyLDAvis により結果の可視化を行っていきます。 目次 トピックモデルについて 分析環境と事前準備 モジュールの設定とデータのインポート 前処理 辞書とコーパスの作成

            LDAによるトピック解析 with Gensim - Qiita
          • gensimとjanomeを用いた日本語トピック分析 - Qiita

            この記事の目的 ずいぶん昔、このトピック分析を用いたサービスの開発を行なっていました。 最近は全く関係のないことばかりやっていたので、最新のライブラリの使い方を学び直す際のアウトプットをすることが一つの目的。 もう一つは実際にトピック分析をサービスに導入するという観点で記事を書くことです。 なのでこの記事は簡単にトピック分析の手順についての解説と、要所要所で実際の導入において留意せねばならない点を解説できればと思います。 対象者 テキストマイニング初心者 トピック分析をサービスに導入することを検討する人 トピック分析をはじめる 手順の概要 トピック分析を始める前にいくつかの事前準備が必要となります。 環境設定 文章準備 文章分割 辞書データ作成 コーパス作成 LDAトピックモデル作成 LDAトピックを用いて文章のトピックを分析 基本的にはその他機械学習の手順と同じく、学習データを作成してモ

              gensimとjanomeを用いた日本語トピック分析 - Qiita
            • 日本語単語ベクトル"chiVe"をgensimやMagnitudeで使う

              TL;DR chiVe (チャイブ): 日本語単語分散表現 形態素解析器「Sudachi」 と 258億語規模コーパス「NWJC」 Apache-2.0, 商用利用可 gensimやMagnitude形式でもデータ公開 Magnitude: 分散表現を使うPythonライブラリ 「gensim」のシンプルで速い代替ライブラリ 未知語のベクトル作成 HTTP上でのリモートロードやストリーミング from pymagnitude import Magnitude, MagnitudeUtils # ダウンロード # デフォルトのダウンロード先: `~/.magnitude/` vectors = Magnitude(MagnitudeUtils.download_model("chive-1.1-mc90-aunit", remote_path="https://sudachi.s3-ap-n

                日本語単語ベクトル"chiVe"をgensimやMagnitudeで使う
              • トピックモデルを用いた併売の分析 - gensim の LdaModel 使用 - なんとなくな Developer のメモ

                トピックモデルは潜在的なトピックから文書中の単語が生成されると仮定するモデルのようです。 であれば、これを「Python でアソシエーション分析」で行ったような併売の分析に適用するとどうなるのか気になったので、gensim の LdaModel を使って同様のデータセットを LDA(潜在的ディリクレ配分法)で処理してみました。 ソースは http://github.com/fits/try_samples/tree/master/blog/20180313/ 1. はじめに データセット gensim で LDA を処理する場合、通常は以下のような lowcorpus フォーマットを使った方が簡単なようです。(LowCorpus で処理できるので) <文書数> <文書1の単語1> <文書1の単語2> ・・・ <文書2の単語1> <文書2の単語2> ・・・ ・・・ ただ、1行目が冗長なように

                  トピックモデルを用いた併売の分析 - gensim の LdaModel 使用 - なんとなくな Developer のメモ
                • 自然言語処理入門 まとめ【Python + Janome + gensim】 - Qiita

                  対象 初学者を対象に書いてます。自然言語処理の理解の手助けになれば幸いです 何か間違いあったらご指摘お願いします 勉強会に行ってその内容を自分なりにまとめたのでおかしい部分あるかもです 自然言語処理の基本となる形態素解析から、実務で用いやすいtf-idfやWord2Vecまでの仕組みの説明と実際にサンプルコードを用いたハンズオンを行いました。 少々高校数学の知識が必要ですが、全体的に理解しやすく簡単にハンズオンまで行けたので非常に実用性が高いと思いました。 自然言語概論 機械がどういう風に処理をすれば人間の言葉を理解できるか?的な内容です。 (知っている人も多いと思いますが) 以下キーワード 形態素解析 ベクトル空間法 tf-idf Word2Vec 形態素解析 検索エンジンにも用いられている自然言語処理の手法の一つ ある文章を「意味を持つ最小限の単位(=単語)」に分解し、文章の内容を判断

                    自然言語処理入門 まとめ【Python + Janome + gensim】 - Qiita
                  • gensimのDictionaryの中身を簡単にまとめてみた - Qiita

                    gensimでLDAやらtfidfをする際に何かと必要になるgensimのDictionaryですが、大抵の場合それらの手法を適用する際にさらっと流されることが多いように感じたのでDictionaryについてのみ纏めました。あくまで内容としては公式サイトの説明を実際に試したものを載せている程度ですが、何かの参考になれば幸いです。(2018/12/25 dfsとnum_nnzを修正) 環境 gensim (3.4.0) Python 3.6.5 Mac 10.13.5 辞書作成 とりあえず辞書がないことには始まらないので、公式の例を借りてDictionaryを作成します。 >>> from gensim.corpora import Dictionary >>> texts = [['human', 'interface', 'computer']] >>> dct = Dictionary

                      gensimのDictionaryの中身を簡単にまとめてみた - Qiita
                    1

                    新着記事