タグ

MeCabに関するNagataniのブックマーク (4)

  • 文章をベクトル化して類似文章の検索 - Qiita

    Doc2Vecで類似文章を検索してみたので、実装を紹介します。 Doc2Vecとは コンピュータが自然言語を処理するためには、まず人間の言葉をコンピュータで扱える値にする必要があります。 単語の意味をベクトル化する手法としてWord2Vecが存在します。 詳しくはリンク先がとてもわかりやすいのですが、ざっくり言うと前後n単語のリストでその単語を表現します。 こうすることで、例えば「犬」と「」は同じような文脈で使われるため、似た「意味」であると考えることができます。 Doc2VecはWord2Vecを応用し、文章をベクトル化するものです。 実装サンプル 今回Doc2Vecを用いて実現するのは、以下の2つの機能です。 単語で文章を検索 類似文章の検索 サンプルとして、青空文庫の文章を使用しました。 なお、この記事で使用するコードはGitHubで公開しています。 (学習に使用した文章もzip

    文章をベクトル化して類似文章の検索 - Qiita
  • 文章中から韻を踏んでいるフレーズの組み合わせを検出する gem を作りました - Qiita

    依存関係 natto が利用できる必要があります。 使い方 Rhymer::Parser.newの引数に文章を渡すと、検査結果が含まれたインスタンスが生成されます。インスタンスのrhymesメソッドを実行すると、韻を踏んでいるフレーズの組み合わせの配列が返されます。 require "rhymer" rhymer = Rhymer::Parser.new("今日はとても良い天気ですね。こんな日は自然に元気になります。") rhymer.rhymes.each do |rhyme| puts [rhyme[0], rhyme[1]].join(" ") end require "rhymer" lyric = <<"LYRIC" 1853年(嘉永6年)、長崎の出島への折衝のみを前提としてきた幕府のこれまでの方針に反して、江戸湾の目と鼻の先である浦賀に黒船で強行上陸したアメリカ合衆国のマシュー

    文章中から韻を踏んでいるフレーズの組み合わせを検出する gem を作りました - Qiita
    Nagatani
    Nagatani 2016/05/24
    “業務上どうしても急ぎでライムが必要な場合に”
  • Haskell でマルコフ連鎖を用いたポエムの自動生成 - 書いたもの

    poem-generator Haskell の勉強のためにポエムを自動生成するプログラムを書いてみました。 初めて書いた Haskell のプログラムなので拙いコードだと思いますが、どう実装したかを記事にしておこうと思います。 リポジトリはこちらです。 実装 (ソースコード全文は記事の下の方に貼っています) メインとなる関数の定義です。ソースとなるテキストを引数にとり、その中の単語をいい感じに繋ぎ合わせて生成したポエムを返します。 generatePoem :: String -> IO String generatePoem source = do mecab <- new ["mecab", "-l0"] nodeLines <- mapM (parseToNodes mecab) (lines source) let wordLines = map (filter (not . n

    Haskell でマルコフ連鎖を用いたポエムの自動生成 - 書いたもの
  • MeCab: Yet Another Part-of-Speech and Morphological Analyzer

    MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2012-01-27 MeCab 0.993 MeCab::Tagger::formatNode()が正しく動いていなかった問題の修正 スタックの消費を抑えるため、ほとんどのローカル変数(配列)をヒープ上に退避 2012-01-14 MeCab 0.992 ソースコード中のTypoの修正 2012-01-14 MeCab 0.991 空文字列もしくは空白文字列を解析した時に解析エラーとなる問題を修正 ユーザ辞書の作成に失敗する場合がある問題を修正 2011-12-24 MeCab 0.99 MeCab::Model, MeCab::Lattice クラスを追加 マルチスレッド環境でのユーザビリティの向上。複数スレッドが同一

  • 1