[B! NLP][ruby] kana0355のブックマーク

言語処理100本ノック2015 をRubyでやる【第1章】 - ようじょのおえかきちょう

自然言語処理を扱う研究室に配属になったので、この秋から課題として「言語処理100本ノック 2015」をやっています。先輩も同期も Python で書いているのですが、みんな一緒はつまんないので Ruby で書いてみることにしました。コードは GitHub に随時上げていきます。 github.com 最初の方こそググれば「Rubyでやってみた」記事が引っかかるのですが、途中から全くヒットしなくなるので悲しいです。これも続くかわかりませんが可能な限りやっていきます。今回は第 1 章「準備運動」です。 00. 文字列の逆順文字列"stressed"の文字を逆に（末尾から先頭に向かって）並べた文字列を得よ．解答 puts "stressed".reverse Ruby では、引数のための小括弧は省略可能です。 puts("stressed".reverse) でもいいけど、書かなくてもわか

kana0355 2018/01/06

リンク

Gyaim

Gyaim MacOS用の日本語入力システム by Toshiyuki Masui Gyaim.dmg ダウンロードソース @ GitHub 特徴 GyaimはMacOS用の日本語入力システム(IME)です。 1000行程度のRubyで記述されており、改変が比較的簡単です。プログラムのソースと辞書データがすべて公開されています。時刻入力/画像入力/秘密文字列入力など変な機能があります。単語登録が簡単です。 Catalinaで動作を確認しています。それ以前のMacOSでは動かないかもしれませんインストール Gyaim.dmgをダウンロードして展開し、 Gyaim.appを~/Library/Input Methodsにコピーします。ターミナルを利用する場合は cp -r /Volumes/Gyaim/Gyaim.app ~/Library/'Input Methods' として

kana0355 2015/09/16

リンク

ネコでもテキスト分類器のRubyライブラリが生成できる便利ツールを作った - デー

あまり細かいことは気にせずテキスト分類器のRubyライブラリを1コマンドで自動生成する便利ツールを作りました。いろいろ迷走している間に。 gem install nekoneko_genでインストールできます。なにをするものなのか、ちょっと分かりにくいので、例で説明します。２ちゃんねるの投稿からどのスレッドの投稿か判定するライブラリを生成する例として、２ちゃんねるに投稿されたデータから、投稿（レス）がどのスレッドのレスか判定するライブラリを生成してみます。準備まず gem install nekoneko_genでインストールします。 Ruby 1.8.7でも1.9.2でも動きますが1.9.2のほうが5倍くらい速いので1.9.2以降がおすすめです。環境は、ここではUbuntuを想定しますが、Windowsでも使えます。（WindowsXP, ruby 1.9.3p0で確認）

kana0355 2012/05/29

リンク

上位下位関係抽出ツール: Hypornymy extraction tool

上位下位関係抽出ツールとは上位下位関係抽出ツールは，Wikipediaダンプデータ(XMLファイル)から機械学習を使って上位下位関係の候補となる表現ペアを抽出します．以下の3種類を情報源としています． hierarchy :箇条書きなどの階層構造から上位下位関係の候補を抽出 definition ：最初の文（定義文）から上位下位関係の候補を抽出（「～とは，…．」などを利用） category ：category tagにある単語から上位下位関係の候補を抽出目次新着情報注意事項ダウンロード動作環境実行オプション引数ディレクトリ構成実行コマンド入力例 Copyright 新着情報 2009-04 上位下位関係抽出ツールv0.80　リリース注意事項 Wikipediaのデータを利用するため，処理及び処理結果の利用に際しては，Wikipediaの著作権を熟読の上

kana0355 2009/04/29

リンク

英語の単語を原形に戻す WordNet-based lemmatizer - mtbrの日記

nltk の実装を移植する。 http://nltk.googlecode.com/svn/trunk/doc/api/nltk.corpus.reader.wordnet-pysrc.html#WordNetCorpusReader.morphy 使う情報: WordNet の ${WNHOME}/dict/*.exc 不規則変化 WordNet の ${WNHOME}/dict/index.* 語基品詞ごとの接尾辞ルール（上記ソースにべたがきされている） #! /usr/bin/env ruby # -*- coding: utf-8; mode: ruby -*- # port from nltk.corpus.reader.wordnet.morphy # http://nltk.googlecode.com/svn/trunk/doc/api/nltk.corpus.read

kana0355 2009/04/29

リンク

yohasebe.com : 品詞解析RubyライブラリEngTagger

公開日時 Yoichiro Hasebe Wed, 21 May 2008 14:04:00 GMT 5月の初めからPerlを勉強しています。今後仕事で必要になる可能性があるので。8年くらい前に小さなスクリプトを作って遊んだりしてたけど、Perlのオブジェクト指向はどうもよく分からんなぁと思って使うのを止めたのでした。あらためて調べてみると、これが結構合理的だし面白い。早速何かに役立てたいと思いつつも、ある程度の規模のプログラムをPerlで書く気にはなりません（それだったらRubyで書きたい）。じゃあPerlモジュールを何か見つけてきてそれのRuby移植版を作ろう。ということで、CPANを眺めていたら、Lingua::En::Taggerというのを見つけました。どんなモジュールかというと、Part of Speech Tagger、すなわち品詞解析器です。Pen Treebankのコロケ