タグ

形態素解析に関するshidhoのブックマーク (15)

  • pixiv小説で機械学習したらどうなるのっと【学習済みモデルデータ配布あり】 - pixiv inside [archive]

    こんばんは。プログラマーのhakatashiです。2ヶ月ぶりですね。普段はpixivコミックやpixivノベルの開発を手伝っていますが、今回もそれとは全く関係ない話をします。 pixiv×機械学習機械学習」「深層学習」といった単語がプログラマーの間でも広く囁かれるようになって既に幾年月経とうとしています。ここpixivの開発陣においても、人口に膾炙する機械学習の輝かしい成果に関する話題は尽きることがなく、常に最新のトピックに目を光らせています。 そんな取り組みの一環として、今回は弊社が運営するpixiv小説機能の投稿データで機械学習を行ってみたので、簡単に紹介したいと思います。 ※この記事における「pixiv小説」とは「pixiv小説投稿機能およびそれによってpixivに投稿された小説」を指し、「pixivノベル」とは異なります。 word2vecとは 自然言語処理における機械学習

    pixiv小説で機械学習したらどうなるのっと【学習済みモデルデータ配布あり】 - pixiv inside [archive]
    shidho
    shidho 2016/09/23
    こういう言葉をどこまできちんと形態素解析できてるかどうかの方に興味がなくもない。
  • 形態素解析エンジンMeCabにて文章中から短歌を抽出 - inaniwa3's blog

    概要 偶然57577になっている文章を短歌としてつぶやく Twitter の bot を作りました。 フクロウが鳴くと明日は晴れるので洗濯物を干せという意味 #tanka ウィキペディア日語版「フクロウ」より http://t.co/Dm1uHcQdzR— 偶然短歌bot (@g57577) 2014, 12月 31 再帰的アルゴリズムが有効な問題として有名であり #tanka ウィキペディア日語版「ハノイの塔」より http://t.co/vm2ZqwImKi— 偶然短歌bot (@g57577) 2014, 12月 31 文章はウィキペディア日語版を対象としました。 作り方 jawiki-latest-pages-articles.xml.bz2 をダウンロード。 WP2TXT で上記を扱いやすい形式に変換。 このスクリプト で57577になっている文を抽出。数時間かけて(遅い)

    形態素解析エンジンMeCabにて文章中から短歌を抽出 - inaniwa3's blog
  • キーフレーズ抽出API の紹介

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、日語処理技術部の阿久津剛之です。 Yahoo!デベロッパーネットワークにて、キーフレーズ抽出APIを公開しましたので紹介します。 キーフレーズ抽出APIとは、与えられた文章から、その文章を特徴づける重要な部分(キーフレーズ)を抽出し、独自の算出方法により点数付けを行って返すAPIです。 例えば、「東京ミッドタウンから青山一丁目駅まで歩いて15分かかります」という文章をキーフレーズ抽出APIに与えると、 「東京ミッドタウン」「青山一丁目駅」「15分」 という結果が返ってきます。 ここで、「青山一丁目駅」に注目してみましょう。 「青山一丁目駅」は、日形態素解析APIを用いて解析すると、 青山 / 一 / 丁目 / 駅

    キーフレーズ抽出API の紹介
    shidho
    shidho 2009/06/04
    なかなか面白そう。
  • 人工無能の作り方

    書いた人 INA 人工無能とは? 人間っぽく話すプログラムのこと。会話を理解しているというよりは、なんかそれっぽいことを話すだけのものが多い。 今回は「日語のようなものを話す人工無能」を作ってみたので、その簡単な仕組みと工夫した点について少し書いてみることにする。 動機 うちのサークルのメンバーがよく集まってるチャット。とてもマニアックな どうしようもない 会話が繰り広げられているわけだが、ちょっと物足りない。 そうだ! 萌キャラがいないじゃないか! 「ないなら作ればいいじゃない?」 材料 MeCab 形態素解析エンジン 難しいことは知らなくても問題ない。 「私は変な人ではない」 ↓ 私 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ は 助詞,係助詞,*,*,*,*,は,ハ,ワ 変 名詞,形容動詞語幹,*,*,*,*,変,ヘン,ヘン な 助動詞,*,*,*,特殊・ダ,体言接続,だ,

    shidho
    shidho 2009/02/24
    そういえば、id:happy_ryo の人工無脳もそろそろ出来上がって発表になるはずなんだよな。
  • kanmisikou.net - 初音ミク フォント 制作 志向 甘味 ニコニコ 感性 状況 リソースおよび情報

    This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.

  • さくらの500円レンタルサーバで MeCab を使う

    さくらの500円レンタルサーバで MeCab を使う 2008-11-15-1 [Tips][Programming][NLP] さくらの500円レンタルサーバで MeCab を使うための手順。 「MeCabをPerlから使う」[2006-02-25-4]を参考に。 MeCab は日形態素解析器です。 日語文を単語に切り分けてくれます。 - MeCab: Yet Another Part-of-Speech and Morphological Analyzer http://mecab.sourceforge.net/ ソースの入手は上記 URL から。 MeCab 体のインストール まずは体を入れなければ話になりません。 tar zxfv mecab-0.97.tar.gz cd mecab-0.97 ./configure --prefix=/home/USERNAME/op

    さくらの500円レンタルサーバで MeCab を使う
  • Yahoo!、「日本語係り受け解析Webサービス」のAPIを公開

    CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

    Yahoo!、「日本語係り受け解析Webサービス」のAPIを公開
  • かな漢字変換エンジンの基礎 - nokunoの日記

    先日研究室で勉強会(通称サーベイ輪講)があったので、その資料をアップロードしました。うちは自然言語処理をやっている人は少ないので、内容的には当に基礎の基礎です。先生からは「わかりやすい」とお褒めの言葉を頂きました。 | View | Upload your own間違い等がありましたら遠慮なくご指摘下さい。

    shidho
    shidho 2008/05/23
    なんか懐かしい。
  • i-revo お客様サポート 重要なお知らせ

    i-revo お客様サポート 重要なお知らせ i-revoマイポータル終了のお知らせ(2017年3月31日) 日頃よりi-revoマイポータルをご愛顧いただき誠にありがとうございます。 このたび、当サイトは2017年3月31日付けにてサービスを終了いたしました。 併せて「プニマル」、「i-revo 占い」についてもサービスを終了いたしました。 2006年3月のサービス開始以来、 お客様および関係各社の皆様にはさまざまに、ご協力をいただきました。 ここに御礼申し上げます。 i-revoマイポータルのサービス終了につきまして、なにとぞご理解いただきたく存じます。 今後とも「i-revo」をよろしくお願い申し上げます。 全て見る

    shidho
    shidho 2008/02/25
    けっこう大変だな。
  • MeCabで住所抽出 (OKILab.jp開発日記)

    「MeCab 0.90 だけをつかって Auto Link」を参考に、MeCabを使って住所抽出してみます。 元データとして国土交通省国土計画局国土情報整備室の街区レベル位置参照情報を利用します。ダウンロードページから、今回は平成18年度版の大阪府全域のデータ(27000-05.1a.zip)をダウンロードしました。 $unzip 27000-05.1a.zip Archive: 27000-05.1a.zip Length Date Time Name -------- ---- ---- ---- 14907 04-10-07 16:07 md_27_2006.xml 24563015 06-11-07 21:01 27_2006.csv 3325 01-22-07 20:00 format_2006.html -------- ------- 24581247 3 files $he

    shidho
    shidho 2008/02/15
    確かに、住所は意外と難しい。
  • 大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe

    第80回知識ベースシステム研究会を開催したが,二日間で58名の方々に参加して頂き,積極的に議論に加わって頂いた.この場を借りて,参加してくれた方々に感謝したい.大変遅くなった(爆)が,Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を,このブログで報告しておきたい.工藤氏の専門分野は統計的自然言語処理と機械学習であるが,日形態素解析エンジンMeCabの開発者であり,他にも自然言語処理関連の有益なツールや,Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど,時代をリードする研究開発者の一人である.彼の活動に興味があれば,彼のブログ「きまぐれ日記」は必見だろう. なお,当日は弊社側の不手際で,予定していた工藤氏の重要なデモをおこなうことができなかった.弊社はネットワーク会社であるにもかかわらず,ネットワーク

    大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe
    shidho
    shidho 2008/02/15
    気になる。
  • きまぐれ日記: TinySegmenter: Javascriptだけで分かち書き

    最近新幹線に乗る機会が多々あったので、暇つぶしに Javascriptだけで(Ajax等は使わずに) 分かち書きが出来るソフトウェアを作ってみました。実用性は謎です。 http://chasen.org/~taku/software/TinySegmenter/ たった 25kbyte ですが、新聞記事でしたら、95%程度の精度で分かち書きができます。 辞書は全く持たず、文字単位で分割するか分割しないかを当てる機械学習器を 作って分割しています。 モデルをコンパクトにするために、L1ノルム正則化の トリックを使っているのですが、想像以上にコンパクトになって、しかも そこそこうまくいっていて、刺激的です。

    shidho
    shidho 2008/02/08
    どんなのだろう?
  • サラ金の債権譲渡が行われたとき | 損をしない借金の仕方?それならここがお勧めです!

    借りているサラ金から突然連絡が来て、債権譲渡のお知らせなどと言われる事がたまにあります。そもそも債権譲渡とは何でしょうか。 そのサラ金が事業を辞める為に、別会社に債権をそのまま譲渡すると言うのが債権譲渡です。以前の会社から新しい会社に債権が移っただけで、借りてる方としたら、殆ど変化が無いのが債権譲渡と言えます。連絡が来た時に、返済する場所が変わる旨などが伝えられた場合には、返済を間違えずに行わなければなりません。また債権譲渡により、返済する金額が変更になるなどと言う事はまずありませんので特に問題は無いでしょう。 いきなり借りてる会社からそんな連絡が来ると、なんだか怖いイメージですが、全く怖いというものではありませんので、今までどおりに返済を続けていけば特に問題は無いでしょう。 ただし、債権譲渡は債権譲渡でももう一つ別の形の債権譲渡が存在します。借りてるサラ金会社の返済を延滞した場合、うちで

    shidho
    shidho 2008/01/21
    簡易、と書いているようにもどきだけど、思ったよりはうまくいっている様子。
  • ウノウラボ Unoh Labs: PHPとMecabでキーワード自動リンクを実装する

    こんにちは、山下です。 今年もどうぞよろしくお願い致します。 Webサービスを開発していると、特定のキーワードを自動でURLリンクにする処理が必要になることがあると思います。今回は、このキーワード自動リンク機能を形態素解析ツールMecabを使ってPHPで実装する方法を紹介したいと思います。 説明に入る前に少し補足しておくと、Trieの実装であるDouble-Array処理だけ利用したいのであれば、MecabからDouble-Array処理の部分を切り出したDartsというライブラリがあります。しかし、なぜMecabを使うかというと、PerlだとDartsのバインディングが公開されているのですが、現時点でPHP版はありません。また、最近のLinuxディストリビューションでは、Mecabのパッケージが最初から用意されているため、より簡単に利用できると思ったからです。 それでは、順を追って説明

    shidho
    shidho 2008/01/08
    最長一致で調べるより正確なのかな。「そうだ東京都いこう」にもリンク張られちゃうのかな。まあそうであってもしょうがないけど。/あとでDARTS調べる。
  • きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる

    MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。 ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニング するといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力 があればコスト値を機械学習的なアプローチで構築することができます。 さらに、正解データを人手で作る必要は必ずしもありません。 すなわち、Yahoo!形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。 ふだんはあま

    shidho
    shidho 2007/11/20
    この辺から勉強してみるか。
  • 1