タグ

形態素解析に関するrti7743のブックマーク (7)

  • KyTea (京都テキスト解析ツールキット)

    English 京都テキスト解析ツールキット(KyTea、「キューティー」)は、日語など、単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器です。 特徴 ダウンロード・インストール プログラム仕様 解析:手法の詳細, 入出力の形式, API 学習:モデル学習, 入手可能なモデル KyTeaを使った分野適応 開発情報 特徴 KyTeaには以下の機能が揃っています: 単語分割:分かち書きされていないテキストを適当な単語または形態素に分割する。 読み推定・品詞推定:かな漢字変換や音声認識、音声生成のために単語の発音を推定することができ、品詞を推定することもできます。 線形SVMやロジスティック回帰などを用いてそれぞれの分割点や読みを個別に推定するため、部分的にアノテーションされたデータを利用してモデルを学習することも可能です。 分類器の学習にはLIBLINEARを使用してい

  • 形態素解析辞書UniDicを使おう - 次世代3Dコンテントパイプライン開発室

    形態素解析辞書として広く使われているIPA辞書ですが、いわゆる口語(話し言葉)を解析対象とするなら、UniDicがお勧めです。いきなり実例ですが、以下の感想文。 ここのケーキは、けた外れに美味しかったヽ(´ー`)ノ IPA辞書ではこうなっちゃうのが↓ * 0 1D 0/1 1.380119 ここ 名詞,代名詞,一般,*,*,*,ここ,ココ,ココ O の 助詞,連体化,*,*,*,*,の,ノ,ノ O * 1 4D 0/1 0.000000 ケーキ 名詞,一般,*,*,*,*,ケーキ,ケーキ,ケーキ O は 助詞,係助詞,*,*,*,*,は,ハ,ワ O 、 記号,読点,*,*,*,*,、,、,、 O * 2 3D 1/2 1.538769 けた 名詞,接尾,助数詞,*,*,*,けた,ケタ,ケタ O 外れ 名詞,一般,*,*,*,*,外れ,ハズレ,ハズレ O に 助詞,格助詞,一般,*,*,*,

    形態素解析辞書UniDicを使おう - 次世代3Dコンテントパイプライン開発室
  • はてなブログ | 無料ブログを作成しよう

    週報 2024/04/28 川はただ流れている 4/20(土) 初期値依存性 さいきん土曜日は寝てばかり。平日で何か消耗しているらしい。やったことと言えば庭いじりと読書くらい。 ベランダの大改造をした。 サンドイッチ 一年前に引っ越してからこんな配置だったのだけど、さいきん鉢を増やしたら洗濯担当大臣の氏…

    はてなブログ | 無料ブログを作成しよう
  • はてなブログ | 無料ブログを作成しよう

    うめぇヨーグルトソースでもいかがですか。個人差にもよりますが。もしよろしければ。 お久しぶりです。 最近うんめぇ〜と思ってるヨーグルトソースがあるので、書いていこうと思います。 ヨーグルトとハーブ類をもりもり使うので、そういうのがべられない方にはうんめぇソースではないです。ごめんなさい…。もしよろしければお茶だけも…旦~ 【用意する…

    はてなブログ | 無料ブログを作成しよう
  • 『C#からIndex Serviceを使って”分かち書き(わかちがき)”する』

    先の記事(C#からIMEを使って逆検索でかな変換する)でMS-IMEを使ってかな変換をする話を書きましたが、その際に分かち書きが出来ないのでふりがな付けられないってことを書きましたが、実は”分かち書き(わかちがき)”もWindowsに用意されてる”Index Service”を利用すれば一応出来ます。(OSバージョンは不明) でも私がちょっと試してみた限り、、、精度が低すぎてだめでした。 これはもしかしたらアプリ側の設定とかで調整すればなんとかなるのかなぁ~と淡い期待を持っているので今度調べようと思ってます。 ちなみにC#からIndex Serviceを使うサンプルソースが外人さんのブログにあったのでそれを参考に日語で分かち書きするサンプルソースを下記に残します。 (情報源:http://sqljunkies.com/WebLog/acencini/articles/595.aspx)

    『C#からIndex Serviceを使って”分かち書き(わかちがき)”する』
    rti7743
    rti7743 2010/03/14
    Index Serverも分かち書きしているんだろうなー、それを他のプログラムから呼び出せるんだろうなーと思ったらやっぱりできるのね。精度が低いのが残念だけど、、
  • マルコフ連鎖による文章の自動生成 - Kentaro Kuribayashi's blog

    「PEAR::Net_SmartIRC を使って、一定間隔でニュースを配信する IRC BOT を作成する」で作成したごく簡単な BOT はしかし、外部のリソースをひっぱってきて、それを単にそのまま流すことしかできません(RSS をパースする処理はあるけど、質的には垂れ流してるだけ)。通常 IRC BOT というと、チャンネルのメンバが喋った言葉を憶え、それらをアレンジしたデータを用いて、時には当意即妙に会話に介入することもあればまるで的はずれな発言で場を微妙な雰囲気に陥れることもあるといったものですし、また、なかには日記や Blog を書くすごい BOT さんもいます。 そうなると当然、次の目標は「おしゃべりをする、あるいは日記を書く BOT を作成する」というものになるわけですが、まぁ僕の頭ではいきなりそんなことを実現することは不可能ですし、また、そのような方向で BOT を作成する

    マルコフ連鎖による文章の自動生成 - Kentaro Kuribayashi's blog
  • エブログ マルコフ連鎖で文章生成(JavaScript)

    マルコフ連鎖で文章生成(JavaScript) マルコフ連鎖による文章生成。マルコフ連鎖と言っていいのかあまり自信はないのだが、とりあえず文章を作ってはいる感じ。 テキストエリアに入力された文章を解析して、その中の単語を使って、自動生成します。文章生成ボタンを何度か押すと文章が変わっていくと思います。 意味不明であったり、そのままの文、同じ文が続けて出たりはしてしまいますが。 メロスは激怒した。必ず、かの邪智暴虐(じゃちぼうぎゃく)の王を除かなければならぬと決意した。メロスには政治がわからぬ。メロスは、村の牧人である。笛を吹き、羊と遊んで暮して来た。けれども邪悪に対しては、人一倍に敏感であった。きょう未明メロスは村を出発し、野を越え山越え、十里はなれた此(こ)のシラクスの市にやって来た。 ここに文章が作成されます。 posted by knit at 19:45 | Comment(9)

    エブログ マルコフ連鎖で文章生成(JavaScript)
  • 1