タグ

NLPに関するodzのブックマーク (36)

  • 新形態素解析器JUMAN++を触ってみたけど思ったより高精度でMeCabから乗り換えようかと思った話

    JUMAN++は最近黒橋・河原研究室から発表された、JUMANの後継となる形態素解析器です。 これまでの形態素解析器と比べて違うのは、RNN言語モデルを用いて意味的自然さを考慮する、ニューラルネットワークを利用した形態素解析器となっている点です。 速度や語彙等の課題はあるものの、解析能力自体はMeCab以上なので、導入方法と共に触ってみた所感を述べてみます。 導入方法 前提 OS X Yosemite 10.10.5 VirtualBox 5.1.6 Vagrant 1.8.6 インストール vagrant boxは bento/ubuntu-16.04を使用します。 推奨はCentOSですが、自分の環境ではCentOSではビルドに失敗しました。 また、OSはubuntu16.04でもboxによっては上手くインストールすることができないため、bentoのboxがおすすめです。 $ vagr

    新形態素解析器JUMAN++を触ってみたけど思ったより高精度でMeCabから乗り換えようかと思った話
    odz
    odz 2016/10/13
  • グーグル、オープンソースの自然言語フレームワーク「SyntaxNet」をリリース

    Boaty McBoatface、こちらが「Parsey McParseface」だ。 Boaty McBoatfaceは結局、英政府の新しい極地調査船の名称にはならなかったが、それでも技術大手Googleは、それをもじった独自の名称を新たにオープンソース化された同社の英語構文解析器に採用することにした。 より正確に言うと、Googleは米国時間5月12日、「TensorFlow」で実装されたオープンソースの同社自然言語フレームワーク「SyntaxNet」をリリースした。12日にリリースされたのは、新しいSyntaxNetモデルのトレーニングに必要なすべてのコードと、基的にSyntaxNet用の英語プラグインであるParsey McParsefaceである。 Googleによると、SyntaxNetは、「Google Now」の音声認識機能など、同社の自然言語理解(Natural Lan

    グーグル、オープンソースの自然言語フレームワーク「SyntaxNet」をリリース
  • DO++: 機械学習による自然言語処理チュートリアル

    自然言語処理のときに使う機械学習手法のテクニックをざーっと2時間程度で紹介してほしいとのことだったので今日話してきました。基的に、そんなに頑張らなくても効果が大きいものを中心に説明(特にパーセプトロンとか)を説明してます。 紹介した手法はパーセプトロン、最大エントロピー、正則化、多クラス分類、系列分類(CRF, Structured Perceptron)などなどです。どれも一かじりする感じで網羅的に見る方を優先してます。個々の詳しい話はそれぞれの文献や実装などを当たってみてください。 スライド [ppt] [pdf] ここで話しているのは線形識別モデルの教師有り学習が中心で教師無し学習(クラスタリングなど)など他の自然言語処理を支える技術は省いてます。 こういうのを使って(使わなくてもいいけど)どんどんアプリケーション作らないといかんね。 Tarot is not used to ma

    DO++: 機械学習による自然言語処理チュートリアル
    odz
    odz 2008/11/01
  • 連載:検索エンジンを作る|gihyo.jp … 技術評論社

    運営元のロゴ Copyright © 2007-2024 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。

    連載:検索エンジンを作る|gihyo.jp … 技術評論社
  • DO++ : 線形識別器チュートリアル

    ワークショップ中の夕で話したのですが、今のところ日で(素性関数ベース&線形識別器)機械学習のいろいろな手法をまとめて体系的に教えてる資料などがあまりないなぁという話をしていました。 で、探すと、このあたりの大部分をまとめて説明しているいいチュートリアル(英語)がありました。 夏の学校資料[pdf] その他のコードやリンク ちょっとだけ解説 現在自然言語処理の多くで使われている学習器は線形識別器です。 入力x(例:単語、文、文書)から出力y(例:品詞、品詞列、文書のトピック)を予測したいという場合は、(x,y)のペアからいろいろな値を取り出し(x,yのペアから値を取り出す関数を素性関数と呼ぶ)、その値を並べたベクトルを素性ベクトルと呼び、f(x,y)とかきます。そして、その素性ベクトルf(x,y)と同じ次元数を持つ重みベクトルwとの内積を測って、その値が正か負か、または大きいか小さいかを

    DO++ : 線形識別器チュートリアル
    odz
    odz 2008/03/19
  • きまぐれ日記: TinySegmenter: Javascriptだけで分かち書き

    最近新幹線に乗る機会が多々あったので、暇つぶしに Javascriptだけで(Ajax等は使わずに) 分かち書きが出来るソフトウェアを作ってみました。実用性は謎です。 http://chasen.org/~taku/software/TinySegmenter/ たった 25kbyte ですが、新聞記事でしたら、95%程度の精度で分かち書きができます。 辞書は全く持たず、文字単位で分割するか分割しないかを当てる機械学習器を 作って分割しています。 モデルをコンパクトにするために、L1ノルム正則化の トリックを使っているのですが、想像以上にコンパクトになって、しかも そこそこうまくいっていて、刺激的です。

  • ChaIME: Term-based Yet Another Input Method Editor

    ブラウザから使える IME としては AjaxIME が有名ですが、AjaxIME よりは仮名漢字変換モデルをがんばっているので、多少精度がよいようです。 ATOK 2007 はたまたま失敗する事例ばかり集めているので悪く見えますが、 普段はもっとよいですね。言語モデルを Web コーパスから作り、仮名漢字 変換モデルを新聞記事から作っているので、上記4つの硬い文は ChaIME でも正しく変換できることは予測可能ですが、下記4つは難しいです。 このような文体で書かれたコーパス(ブログデータ?)から仮名漢字変換モデル を学習するとうまく行くかもしれません。 統計的仮名漢字変換 統計的仮名漢字変換について ページを分けました。 既知の問題点(優先度順) unigram によるバックオフ(辞書引き回数が減る) 仮名漢字モデルの Google語 N グラムからの推定 現在2GBの辞書サイズ

    odz
    odz 2008/03/14
  • SourceForge.JP: Project Info - NAIST Japanese Dictionary

    最終更新: 2018-04-05 19:45 概要 プロジェクト概要 開発ダッシュボード Webページ 開発メンバー 画像ギャラリー 公開フィード一覧 活動 統計情報 活動履歴 ダウンロード リリース一覧 統計 ソースコード コードリポジトリリスト Subversion リポジトリ閲覧 チケット チケット一覧 マイルストーン一覧 チケットの種類一覧 コンポーネント一覧 よく使われるチケット一覧のリスト/RSS 新規チケット登録 文書 Wiki FrontPageの表示 ページ一覧 最近の更新 文書マネージャ 文書一覧 コミュニケーション フォーラム フォーラム一覧 ヘルプ (1) 公開討議 (1) メーリングリスト MLの一覧 ニュース

    SourceForge.JP: Project Info - NAIST Japanese Dictionary
    odz
    odz 2008/02/20
    ipadic の後継ってことかな
  • Introduction to Information Retrieval

    This is the companion website for the following book. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. You can order this book at CUP, at your local bookstore or on the internet. The best search term to use is the ISBN: 0521865719. The book aims to provide a modern approach to information retrieval from a co

    odz
    odz 2007/12/03
  • Google Japan Blog: 大規模日本語 n-gram データの公開

    メディア関係者向けお問い合わせ先 メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。 その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。

    Google Japan Blog: 大規模日本語 n-gram データの公開
    odz
    odz 2007/11/02
  • Web MOCHI:ことばとコンピュータのページ

    odz
    odz 2007/09/03
  • 生きあたりまったりブログ

    休学中の過ごし方…うつ状態で何してた?就活やバイトは?大学休学中おすすめの過ごし方、やめたほうがいいことを経験者が解説。

    生きあたりまったりブログ
    odz
    odz 2007/09/02
  • Pythonでのキーワード抽出実装

    初出: 2007/6/27 更新: 2007/7/1 文章からキーワードを抽出するスクリプトをPythonモジュールとして実装しました。 分かち書きした上に、適切に複合語をつくり、さらに重要そうなものかどうかのスコアをつけます。 アルゴリズムは、以下のサイトを参考にしました。 http://gensen.dl.itc.u-tokyo.ac.jp/ ここで紹介されている論文 * 中川裕志、森辰則、湯紘彰: "出現頻度と連接頻度に基づく専門用語抽出",自然言語処理、Vol.10 No.1, pp. 27 - 45, 2003年1月 http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/academic-res/jnlp10-1.pdf に掲載されているFLR法のみを実装しています。 実行結果サンプル たとえば、こんなページの文をテキストフ

    odz
    odz 2007/07/03
  • きまぐれ日記: L1-regularized CRFを実装してみた

    hillbigさんのブログで 紹介されていた "Scalable Training of L1-regularized Log-linear Models", G. Andrew and J. Gao., ICML 2007. をCRF++上に実装してみました。 現在の CRF++ の実装、そしてオリジナルも含めた多くの実装は L2-regularized log-linear model です。hillbig さんのプレゼンにもありますが、L2は若干高性能だけど、全パラメータが非0になって、最終的なモデルがデカく なってしまうのですが、L1だと不必要・冗長なパラメータを完全に0にする効果があり、モデルをコンパクトにします。 3年前のmecabに関する論文では、L2 と L1 の CRF を比較して、L2のほうが若干高性能ということを確認していました。 L1-regularized の場合

  • answerbus

  • 形態素解析辞書 UniDic

    人気デベロッパー Play’N Go は、2017年にユニークなスロットを発売しました ムーンプリンセス. オンライン スロットゲーム ムーンプリンセス このゲームは、そのユニークなオプション、シンプルな操作性、アニメをモチーフにしたカラフルなグラフィックにより、瞬く間にプレイヤーから人気を集めました。 スロットマシンの ムーンプリンセス は、漫画『美少女戦士セーラームーン』のテーマを明らかにする。第1巻は1992年に発売され、現在も人気があります。を可能にします MoonPrincess は、長年にわたり最高のスロットのリストをリードし、プレイヤーに寛大な配当だけを提供し、ゲームプレイへの関心を保証します。 すべてのシンボルが雰囲気を強調する オンライン スロットゲーム ムーンプリンセス, 心地よいサウンドトラックがゲームプレイを引き立て、音楽をパーソナライズできるため、ユーザーはスロッ

    odz
    odz 2007/04/30
    Chasen 用の辞書
  • 文字符号化検出と言語検出 - Cafe Babe

    ちょうどW3Cのwww-international MLで,character encoding detectionとlanguage detectionの話が出ていた. たとえば,WebのHTMLファイルを処理しようとしても,必ずしもどのような文字符号化なのか,どのような言語なのかが明示されているわけではなく,しかもデフォルトがISO-8859-1であることから,間違って指定されている場合すらある. このために,対象とするドキュメントの文字符号化を判定してUnicodeに変換し,また書かれている言語を検出して,言語依存の処理をおこなったり,分類に用いるわけである.たとえば,Googleの検索結果を特定の言語に絞り込むことができるのは,language detectionを用いているからである. ちょうど,Frank Yung-fong Tangが投稿していたので,要旨をまとめてみる.彼は

    文字符号化検出と言語検出 - Cafe Babe
    odz
    odz 2007/03/22
    Language and Encoding Detection について
  • 大規模日本語データ - unnonouno

    http://www.google.co.jp/events/anlp2007.html でましたね。英語版 5-gram データをこないだ研究室で買ったので、一昨日見ていたんですが、5 ってすごいですね。 I like a ... でも 5 単語です。この日語データ、詳細が書いてないけどやはり N-gram かなぁ。文字 N-gram かな? ところでこのデータ、あったら簡単に使えるかというとそうもうまくいかない。英語版 5-gram が圧縮して DVD 6 枚組。ふつうに使おうとするだけで 10GB 単位のメモリを消費する寸法。オンメモリの DB を使った N-gram サーバーを立てますかねぇ。1台でメモリ足りるんかな。

    大規模日本語データ - unnonouno
    odz
    odz 2007/03/19
    そこで darts ですよ
  • Support Vector Machine

    最近よく巷で耳にするモノ. SVM, Support Vector Machine, さぽーとべくたーましん. これっていったい,どんなもんなんでしょう. なにやら便利そうなモノらしいので,ちょいと調べて要点をまとめてみようかな,なんて. でも,ただまとめただけだとそのへんの記事を読むのとなんにも変わらないので, コーディングするために必要な知識を中心にまとめてみることにします.

    odz
    odz 2007/03/14
    SVM について
  • Googleが大規模日本語データを公開するという話

    Googleが大規模日語データを公開するという話 2007-03-13-1 [NLP] 3月に滋賀で行われる言語処理学会全国大会で、グーグルが 特別セッションをやるそうです。大規模日語データについて。 Google: 大規模日語データ公開に関する特別セッション http://www.google.co.jp/events/anlp2007.html グーグル株式会社では、日語の言語処理研究推進のため大規模日語 データの公開を検討しています。つきましては仕様を決定するにあたり、実際 にデータを御利用頂く研究者 / 技術者の皆様の「生の声」を是非お伺い したく存じます。今回、言語処理学会様の御好意により、下記のとおり データ仕様に関する特別セッションを設けて頂ける事になりました。 日時: 2007年3月20日(火) 18:30 〜 19:00 会場: 龍谷大学 瀬田学舎 言語処理学会

    Googleが大規模日本語データを公開するという話
    odz
    odz 2007/03/14
    なんだってー