タグ

ネタと形態素解析に関するpmakinoのブックマーク (3)

  • 形態素解析エンジンMeCabにて文章中から短歌を抽出 - inaniwa3's blog

    概要 偶然57577になっている文章を短歌としてつぶやく Twitter の bot を作りました。 フクロウが鳴くと明日は晴れるので洗濯物を干せという意味 #tanka ウィキペディア日語版「フクロウ」より http://t.co/Dm1uHcQdzR— 偶然短歌bot (@g57577) 2014, 12月 31 再帰的アルゴリズムが有効な問題として有名であり #tanka ウィキペディア日語版「ハノイの塔」より http://t.co/vm2ZqwImKi— 偶然短歌bot (@g57577) 2014, 12月 31 文章はウィキペディア日語版を対象としました。 作り方 jawiki-latest-pages-articles.xml.bz2 をダウンロード。 WP2TXT で上記を扱いやすい形式に変換。 このスクリプト で57577になっている文を抽出。数時間かけて(遅い)

    形態素解析エンジンMeCabにて文章中から短歌を抽出 - inaniwa3's blog
  • 実は勉強になるルー語

    先月はルー語の月でした・・・ フィードバックを読んだり、プログラムを改良したり、電車の中では変換後の文章の校正して時間をつぶしたり。振り返ってみると、ルー語変換プログラムを通して実はいろいろ学習しました。 英語 むずしすぎる単語を排除するため、「中学校卒業程度」の単語にしぼりこみたかったのですが、それがだいたい2000語であるということ・頻出単語は幾つかのデータがあるということをこのへんで知る。最終的にはここで紹介されているデータと、実際の中学校の単語ドリル、あとルーさんブログをコーパスにして単語を絞込み。その2000弱の単語には何回か目を通したのでだいたい覚えた。 国語 連体詞って何だっけ?とか、あと活用形。五段活用とか、下一段活用とか、久しぶりに調べたですョ。「い・い・いる・いる・いれ・いろ」「ない よう う・ます た て・から と・とき こと・ば・!」とかそのあたり。 テストスクリプ

    実は勉強になるルー語
  • どんなページもルー大柴ナイズ

    来月仕事海外に行くことになりそうなので、買っただけで読んでなかった カタカナ英語 を取り出して読んでたのですが、TV 付けて酒飲みながらじゃあ勉強にならない。カタカナ英語といえば ルー大柴 だよなあ、と脱線しはじめる。 「ディスイヤーは私にとって再チャレンジのファンデーション作りのイヤーだった」(原文) ↓ 翻訳すると「今年は私にとって再挑戦の基礎作りの年だった」 ということは何か普通の文章をルー化するスクリプトをすぐ書けそうな予感。ルーさんが使いそうな単語を片っ端からマップにしてもいいけど、それはめんどい。それより、文章を形態素解析 → 単語を英訳 → 英語をカタカナ読みに翻訳 → というようにすれば楽に書けるんじゃないか?と発展。 形態素解析は MeCab でいいよね 単語の和英は、Excite みたいなネットを介すやつだと遅いので、フリーの英和辞書を探す。EDICT proje

    どんなページもルー大柴ナイズ
  • 1