タグ

自然言語処理に関するyoshihirouedaのブックマーク (26)

  • Natural Language Processing - January 2012

    About The Course We are offering this course on Natural Language Processing free and online to students worldwide, January - March 2012, continuing Stanford's exciting forays into large scale online instruction. Students have access to screencast lecture videos, are given quiz questions, assignments and exams, receive regular feedback on progress, and can participate in a discussion forum. Those w

    yoshihiroueda
    yoshihiroueda 2012/01/08
    スタンフォード大学のオンラインコース、1月23日から3月18日まで。無料。
  • gr.jp

    This domain may be for sale!

    yoshihiroueda
    yoshihiroueda 2011/10/15
    中納言もある。
  • 自然言語処理

    yoshihiroueda
    yoshihiroueda 2011/03/02
    一所懸命自炊したのだが ... 最初CiNiiにあるからと誤解して捨てたのがかなりあるのでありがたい。
  • いまこそ言語処理を始めるチャンス - コーパスいぢり 〜langstatの研究日誌〜

    来年も作りたい!ふきのとう料理を満喫した 2024年春の記録 春は自炊が楽しい季節 1年の中で最も自炊が楽しい季節は春だと思う。スーパーの棚にやわらかな色合いの野菜が並ぶと自然とこころが弾む。 中でもときめくのは山菜だ。早いと2月下旬ごろから並び始めるそれは、タラの芽、ふきのとうと続き、桜の頃にはうるい、ウド、こ…

    いまこそ言語処理を始めるチャンス - コーパスいぢり 〜langstatの研究日誌〜
  • Wikipedia日英京都関連文書対訳コーパス

    English Page コーパスについて 『Wikipedia日英京都関連文書対訳コーパス』は、高性能な多言語翻訳、情報抽出システム等の構築を支援することを目的に作成された日英対訳コーパスです。国立研究開発法人情報通信研究機構がWikipediaの日語記事(京都関連)を英語に翻訳し、作成しました。 特徴 人手翻訳による約50万文対を収録した精密かつ大規模なコーパスです。 高性能な多言語翻訳、情報抽出システムの研究・開発等にご活用いただけます。 翻訳の過程(一次翻訳→流暢さ改善のための二次翻訳→専門用語チェックの3段階)が記録されています。 訳文が精緻化されていく過程を観察できるため、翻訳支援ツールの開発、人手翻訳における誤り分析等にもご活用いただけます。 京都に関する内容を中心に、日の伝統文化、宗教、歴史等の分野をカバーしています。 各種観光情報の英訳や通訳ガイドのための用語集作成

    yoshihiroueda
    yoshihiroueda 2010/11/16
    そしてこの自然言語処理の人気が高まっている時にこんなおいしいエサが!
  • Amazon.co.jp: 入門 自然言語処理: Steven Bird (著), Ewan Klein (著), Edward Loper (著), 萩原正人 (翻訳), 中山敬広 (翻訳), 水野貴明 (翻訳): 本

    Amazon.co.jp: 入門 自然言語処理: Steven Bird (著), Ewan Klein (著), Edward Loper (著), 萩原正人 (翻訳), 中山敬広 (翻訳), 水野貴明 (翻訳): 本
    yoshihiroueda
    yoshihiroueda 2010/11/16
    読んでないおじさんは読んだ若いもんからバカにされす事態が起こりそうなので禁書にすべきである。
  • Python による日本語自然言語処理

    はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日語を対象とする場合、いくつか気をつけなければいけない点があります。日語を扱う場合にも

    yoshihiroueda
    yoshihiroueda 2010/11/15
    こんなにたくさんの人が日本語処理に関心があったとは。
  • 【受賞作品発表】不自然言語処理コンテスト開催報告~ほんとにやったよスイカ割り~ | Baidu Japan Blog

    こんにちは、プロダクト事業部の水野貴明&マーケティング部の上之山奈津希です。 先日、こちらでも告知した不自然言語処理コンテストは、募集期間中に計26作品をご応募をいただき終了いたしました。 ここでは、4つの受賞作品(グランプリ、準グランプリ、審査員特別賞、LightningTalk*賞)の発表と、LTとスイカ割りで大盛り上がりを見せた表彰イベントの様子をレポートいたします。 *Lightning Talk(LT)=短いプレゼンテーション 受賞作品 審査会は、荒牧英治氏(東京大学 知の構造化センター 特任講師 @aramaki ) と 竹迫良範氏(サイボウズ・ラボ株式会社 @takesako )を審査員としてお招きし、バイドゥのエンジニア水野貴明(@takaaki_mizuno)と 萩原正人(@mhagiwara)共に行ないました。また、LT賞の決定には、イベントに参加いただいた約50名の皆

    yoshihiroueda
    yoshihiroueda 2010/07/27
    へえ、こんな面白い企画があったのか。題材の発見と、真剣に取り組む姿勢がすばらしい。
  • 企業向けのオーダーメード自然言語処理の時代の到来 - 武蔵野日記

    @descool2003 さんに教えてもらったのだが、Language Weaver という企業向け機械翻訳では世界トップの企業が、なんと昨日 SDL という会社に買収されたらしい。英日翻訳に力を入れる、と聞いていたので、え! という感じだが、どういう経緯なんだろう。 SDL というのは Trados という翻訳支援ツールを開発(した企業を買収)したことで知られており(その割に Wikipedia に Trados のページがあっても SDL のページはないが)、これは「翻訳メモリ」という考え方で作られているので有名である。 翻訳メモリというのは、自分が(もしくはグループの誰かが)過去に翻訳した例文を蓄積しておいて、新しい文を翻訳するとき類似する過去の文を参考に翻訳する(ので自分の言い回しが使い回せる)というシステムである。機械翻訳の精度が全然よくならないので、翻訳するという部分を人手に任

    企業向けのオーダーメード自然言語処理の時代の到来 - 武蔵野日記
    yoshihiroueda
    yoshihiroueda 2010/07/17
    機械翻訳も無料である程度使えるという流れの中これからどうビジネスがあるのかと思っていたが、機密情報を扱うという点でニーズはあったのだな。
  • 構文解析と情報科学

    そろそろ論文紹介記事を書いてみます. NLP2010のプログラムにもあるとおり,しばらく係り受け構文解析周りをやっていました(います).私の出身研究室では構文解析をやっている人がたくさんいたのですが,最近その面白さがなんとなくわかってきました.いや,一応私も2年間日語係り受け解析の演習担当やってたよ! 構文解析のおもしろさというのは,言語学機械学習,プログラミング,情報科学が非常にバランスよくミックスされた問題で,いろんな定式化の仕方や,いろんな技術が,いろいろな組み合わせで,かつわりとキレイな形で程々の難しさに仕上がっているあたりにあると思います.今日は,特に情報科学的教養が大事でしたという話を3つ. Non-Projective Dependency Parsing using Spanning Tree Algorithms Ryan McDonald, Fernando Per

  • Google 音声検索と自然言語処理の未来 - 武蔵野日記

    先日 Google 音声検索を取り上げたことはあるのだが、再度取り上げてみる。 というのも、kmurakami さんが来週音声情報処理と自然言語処理についてのパネル発表に呼ばれているらしいのだが、自然言語処理と音声情報処理の人ってあまり交流がないよね、という話で、その理由と、今後どうしたらいいか、という意見を聞かれたので。 分野外の人から見ると、音声認識音声合成と、自然言語処理(かな漢字変換とか機械翻訳とか)は、どっちもコトバを使っているから同じように見えるかもしれないが、大学というのは思った以上に縦割り組織なので、研究室が違うと全くといってよいほど交流がない(教授のレベルではあるのだろうが、学生のレベルでは)。理由の一つとしては、自分の専門分野の国際会議なり論文誌なりに研究成果を発表するのが業績になり、自分の専門分野以外で発表しても評価のしようがないので、タコツボ化してしまう、というも

    Google 音声検索と自然言語処理の未来 - 武蔵野日記
  • 日本語大シソーラス+明鏡国語辞典=?!: 自然言語愛好家の備忘録

    盆休みの課題は日語大シソーラスに明鏡国語辞典の語義があったらいいのに……、という試みでしたが、ようやくβ版が完成いたしました。 公式ページにある「→ 「文」組見を見る」から「0020 美醜 / 01 美醜」の成果を確認してみます。 # fisrt, secondは分類体系 # thirdは小分類 # contents_subは改行+セミコロンで区切ったものを一単位 類義語それぞれに対して、明鏡国語辞典の語義を与えてみました。表示イメージとしてはこれでいいんです。講談社の類語大辞典を意識していましたし(当は語義をさらに分類する必要があるのですが)……。 ですが、マッチングの結果はいまいちです(泣)。中辞典という役割からすると、納得のいくものですが、もうちょっと楽して語彙の比較ができたらなーと思いました(笑)。 認知意味論を勉強したことがある人ならニヤリとする記述があり面白いのですが、

  • Yahoo!のテキスト解析系APIとウェブ検索APIの使い方についてのプレゼンで出てきたURLのリスト

    Yahoo!のテキスト解析系APIとウェブ検索APIの使い方についてのプレゼンで出てきたURLのリスト 2009-07-10-2 [Programming][YahooHacks] 「Yahoo! JAPAN × ロクナナワークショップ クリエイティブカレッジ」[2009-07-10-1]で話した内容のフォロー、というか、プレゼンで出てきたURLのリストです。 なお、プレゼンの内容は、Yahoo!ウェブサービスのテキスト解析系APIの使い方Tipsとウェブ検索APIを使ったテキストマイニングについてでした。 ■第一部:テキスト解析APIの活用方法 - Yahoo!デベロッパーネットワーク - テキスト解析 - 日形態素解析 http://developer.yahoo.co.jp/jlp/MAService/V1/parse.html - Y!API demo forms - 日語形

    Yahoo!のテキスト解析系APIとウェブ検索APIの使い方についてのプレゼンで出てきたURLのリスト
  • Wolfram|Alpha や Bing のすごくないがゆえにすごいところ - 武蔵野日記

    最近次世代「検索」エンジンが登場しつつあるが、彼らのすごいところは検索結果ではない。たとえば Mathematica を作った会社が Wolfram|Alpha や最近検索に異様に力を入れている Microsoft が Bing を開発中だとアナウンスされたが、彼らが真にすごいのは、現在の自然言語処理(や情報検索などの周辺技術)の精度では恐らく不可能だと思えるようなことをやろうとしている、もしくはやっているところだと思う。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解析器を作っているので仕方な

    Wolfram|Alpha や Bing のすごくないがゆえにすごいところ - 武蔵野日記
  • 自然言語処理研究会学生奨励賞を受賞しました - 武蔵野日記

    情報処理学会 第191回自然言語処理研究会の2日目。今回は音声言語情報処理研究会との共催で、ときどき音声言語の話が入っているのが新鮮。隣の分野になると知らないことだらけだなぁ。近い分野の話を知っておくのはよいことだと思うので、こういう共催系の研究会、今後年1回くらいは出してみようと思う(もしくは情報処理学会か人工知能学会の全国大会)。 自然言語処理研究会と音声言語処理研究会は毎年1回だけこのような形で共催し、数年前から共催を盛り上げるための企画として学生セッションというものが開かれているそうで、今回学生として出せるのは最後だし学生セッションで出していたのだが、おかげさまで昨日の発表により学生奨励賞をいただけた。例年は2人選んでいるそうだが、今年は14件と発表も多く、2番目と3番目が拮抗していたそうなので、合計3人が受賞。みなさまのおかげ(特に手を動かしてくれたのは U 海さんと shimp

    自然言語処理研究会学生奨励賞を受賞しました - 武蔵野日記
    yoshihiroueda
    yoshihiroueda 2009/05/23
    おめでとうございます。
  • ウェブ検索ログを用いたラベル伝播による意味カテゴリ獲得 - 武蔵野日記

    5月21-22日に開催される情報処理学会第191回自然言語処理研究会報告の発表原稿 PDF。 小町守, 牧慎平 (Yahoo!), 内海慶 (Yahoo!), 颯々野学 (Yahoo!). ウェブ検索ログを用いたラベル伝播による意味カテゴリ獲得. 情報処理学会第191回自然言語処理研究会. Vol.2009-NL-191, No.9, May 2009. 情報処理学会の bookpark から先週木曜日にダウンロードできるようになったようだが、数カ所式に誤りがある(〆切以降一切修正できない模様)ので、参照される方はこちらを参照されたく。実際の発表前にそんな読む人はいないだろうと思ってのんびりしていたのだが、bookpark 公開バージョンをすでに読まれた方もいるみたいで、みなさまにはご迷惑をおかけしている次第であるが……。ちなみに電子化されたせいかどうか分からないが、ページ数が分からない

    ウェブ検索ログを用いたラベル伝播による意味カテゴリ獲得 - 武蔵野日記
  • 自然言語処理における半教師あり学習のテキスト - 武蔵野日記

    最近移動続きであまり研究に時間は割けないのだが、は読めるということでを2冊、サーベイ的な記事を3(うち2はチュートリアルスライドつき)を紹介する。まず Semisupervised Learning for Computational Linguistics (Chapman & Hall/CRC Computer Science & Data Analysis) 作者: Steven Abney出版社/メーカー: Chapman and Hall/CRC発売日: 2007/09/17メディア: ハードカバーこの商品を含むブログ (4件) を見る を読む。このの著者の Steven Abney はブートストラッピングの理論的解析をした人で、 Steven Abney. Bootstrapping. 40th Annual Meeting of the Association fo

    自然言語処理における半教師あり学習のテキスト - 武蔵野日記
  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
    yoshihiroueda
    yoshihiroueda 2009/03/30
    こちらも。
  • 日本語 WordNet (wn-ja)

    語 WordNet リリース * 画像 * ダウンロード * 今後の予定 * 参考文献 * リンク * English プロジェクトでは、 Princeton WordNet や Global WordNet Gridに 着想をえて、日語のワードネットを構築し、オープンで公開します。 独立行政法人情報通信研究機構(NICT)では、自然言語処理研究をサポー ト する一環として、2006年に日語ワードネットの開発を開始しました。最初の 版、version 0.9は、2009年2月にリリースされました。このversion 0.9は、 Princeton WordNetのsynsetに対応して日語をつけています。もちろん、 Princeton WordNetにはない日語synsetを付与する必要があり、また、 Princeton WordNetにみられるsynsetの階層構造に、

    yoshihiroueda
    yoshihiroueda 2009/03/30
    ついに出た。
  • 人工知能基本問題研究会(SIG-FPAI)での岡野原さんの発表のときに取ったメモ - yasuhisa's blog

    hillbig.cocolog-nifty.com ということで僕が取ったメモも出してみようと思う。内容としては大体3つで オンライン学習 L1正則化 索引を用いた効率化, 全ての部分文字列を利用した文書分類 という感じだったんだけど、最後の索引の付近はid:syou6162の勉強不足によりよく分からなかった。が、最初の二つはなんとか付いていけたので、出してみます。主に自分用のメモですが。 オンライン学習自然言語処理のデータは3つの特徴がある。 高次元 疎 冗長 で、あとはデータがばかでかいので、いわゆるバッチ処理だとメモリに乗り切らなかったりとかということがある。それでオンライン学習というのが今よく使われているようだ。オンライン学習の方法には下のような方法がある。簡単なものから難しいものへ。 perceptron 自然言語処理と相性がよい 色んなもののベースになる 線形分離できるときには

    人工知能基本問題研究会(SIG-FPAI)での岡野原さんの発表のときに取ったメモ - yasuhisa's blog