NLPとrubyに関するkana0355のブックマーク (7)

  • 言語処理100本ノック2015 をRubyでやる【第1章】 - ようじょのおえかきちょう

    自然言語処理を扱う研究室に配属になったので、この秋から課題として「言語処理100ノック 2015」をやっています。先輩も同期も Python で書いているのですが、みんな一緒はつまんないので Ruby で書いてみることにしました。コードは GitHub に随時上げていきます。 github.com 最初の方こそググれば「Rubyでやってみた」記事が引っかかるのですが、途中から全くヒットしなくなるので悲しいです。これも続くかわかりませんが可能な限りやっていきます。 今回は第 1 章「準備運動」です。 00. 文字列の逆順 文字列"stressed"の文字を逆に(末尾から先頭に向かって)並べた文字列を得よ. 解答 puts "stressed".reverse Ruby では、引数のための小括弧は省略可能です。 puts("stressed".reverse) でもいいけど、書かなくてもわか

    言語処理100本ノック2015 をRubyでやる【第1章】 - ようじょのおえかきちょう
  • Gyaim

    Gyaim MacOS用の日本語入力システム by Toshiyuki Masui Gyaim.dmg ダウンロード ソース @ GitHub 特徴 GyaimはMacOS用の日本語入力システム(IME)です。 1000行程度のRubyで記述されており、改変が比較的簡単です。 プログラムのソースと辞書データがすべて公開されています。 時刻入力/画像入力/秘密文字列入力 など変な機能があります。 単語登録が簡単です。 Catalinaで動作を確認しています。それ以前のMacOSでは動かないかもしれません インストール Gyaim.dmgをダウンロードして展開し、 Gyaim.appを~/Library/Input Methodsにコピーします。 ターミナルを利用する場合は cp -r /Volumes/Gyaim/Gyaim.app ~/Library/'Input Methods' として

  • ネコでもテキスト分類器のRubyライブラリが生成できる便利ツールを作った - デー

    あまり細かいことは気にせずテキスト分類器のRubyライブラリを1コマンドで自動生成する便利ツールを作りました。 いろいろ迷走している間に。 gem install nekoneko_genでインストールできます。 なにをするものなのか、ちょっと分かりにくいので、例で説明します。 2ちゃんねるの投稿からどのスレッドの投稿か判定するライブラリを生成する 例として、2ちゃんねるに投稿されたデータから、投稿(レス)がどのスレッドのレスか判定するライブラリを生成してみます。 準備 まず gem install nekoneko_genでインストールします。 Ruby 1.8.7でも1.9.2でも動きますが1.9.2のほうが5倍くらい速いので1.9.2以降がおすすめです。 環境は、ここではUbuntuを想定しますが、Windowsでも使えます。(WindowsXP, ruby 1.9.3p0で確認)

    ネコでもテキスト分類器のRubyライブラリが生成できる便利ツールを作った - デー
  • 上位下位関係抽出ツール: Hypornymy extraction tool

    上位下位関係抽出ツールとは 上位下位関係抽出ツールは,Wikipediaダンプデータ(XMLファイル)から機械学習を使って上位下位関係の候補となる表現ペアを抽出します. 以下の3種類を情報源としています. hierarchy :箇条書きなどの階層構造から上位下位関係の候補を抽出 definition :最初の文(定義文)から上位下位関係の候補を抽出(「~とは,….」などを利用) category :category tagにある単語から上位下位関係の候補を抽出 目次 新着情報 注意事項 ダウンロード 動作環境 実行 オプション引数 ディレクトリ構成 実行コマンド入力例 Copyright 新着情報 2009-04 上位下位関係抽出ツールv0.80 リリース 注意事項 Wikipediaのデータを利用するため,処理及び処理結果の利用に際しては,Wikipediaの著作権を熟読の上

  • 英語の単語を原形に戻す WordNet-based lemmatizer - mtbrの日記

    nltk の実装を移植する。 http://nltk.googlecode.com/svn/trunk/doc/api/nltk.corpus.reader.wordnet-pysrc.html#WordNetCorpusReader.morphy 使う情報: WordNet の ${WNHOME}/dict/*.exc 不規則変化 WordNet の ${WNHOME}/dict/index.* 語基 品詞ごとの接尾辞ルール (上記ソースにべたがきされている) #! /usr/bin/env ruby # -*- coding: utf-8; mode: ruby -*- # port from nltk.corpus.reader.wordnet.morphy # http://nltk.googlecode.com/svn/trunk/doc/api/nltk.corpus.read

    英語の単語を原形に戻す WordNet-based lemmatizer - mtbrの日記
  • yohasebe.com : 品詞解析RubyライブラリEngTagger

    公開日時 Yoichiro Hasebe Wed, 21 May 2008 14:04:00 GMT 5月の初めからPerlを勉強しています。今後仕事で必要になる可能性があるので。8年くらい前に小さなスクリプトを作って遊んだりしてたけど、Perlのオブジェクト指向はどうもよく分からんなぁと思って使うのを止めたのでした。あらためて調べてみると、これが結構合理的だし面白い。 早速何かに役立てたいと思いつつも、ある程度の規模のプログラムをPerlで書く気にはなりません(それだったらRubyで書きたい)。じゃあPerlモジュールを何か見つけてきてそれのRuby移植版を作ろう。ということで、CPANを眺めていたら、Lingua::En::Taggerというのを見つけました。どんなモジュールかというと、Part of Speech Tagger、すなわち品詞解析器です。Pen Treebankのコロケ

  • rubyneko - Rubyで簡単に形態素解析結果を使う

    「KOIL FACTORY PRO」で新たな視点でつくる「衣住遊」の体験型フェス「ほにゃらら+らDAY」が10月29日と30日に開催

    rubyneko - Rubyで簡単に形態素解析結果を使う
  • 1