タグ

自然言語に関するtsupoのブックマーク (16)

  • 論文『音象徴の機械学習による再現:最強のポケモンの生成』まとめ | ぱろすけのメモ帳

    2012年3月に言語処理学会の年次大会で発表されましたこちらの論文、ここ最近ちょっとだけ自然言語処理、機械学習界隈で話題になっていたのですが、皆様ご存知でしょうか? 論文まとめサイトと化しつつある我がブログ、まあ取り上げますよね! ポケモン論文は、実のところ数多くあります。cinii で検索するとけっこうありますね。しかしながら理系的なアプローチは珍しく、卒業論文「ポケモンつなげるもん♪ ―最長しりとり問題を整数計画法で解く―」だけが突出して有名です。この論文は、停滞した情報系ポケモン論文業界に一石を投じるものであります。 この論文、最初タイトル見たときは「どこのFランだよwww」と思ったのですが、Last Author である荒牧英治先生は自分と同じ大学の自分と同じ建物にいらっしゃることが分かり、急に真顔になりました。 さてさて内容です。 タイトルは『音象徴の機械学習による再現:最強のポ

    tsupo
    tsupo 2012/06/19
    『ポケモン全然わかんない人に「ねえベロリンガとルージュラどっちが強そう?」みたいなことを質問。人によってどっちが強いかって判断は異なるにせよ、7割程度は一致する』音象徴
  • http://mainichi.jp/select/wadai/news/20080105k0000m040014000c.html

    tsupo
    tsupo 2010/06/15
    (すでに記事は削除されてる) 携帯電話を使って、日本語と英語の会話を自動音声翻訳するシステム / 京都府精華町の「国際電気通信基礎技術研究所」(ATR)が開発
  • Google検索の未来--外国人と話せる翻訳ケータイも5年以内に

    Googleは6月8日、「Science of Search - 検索の科学」と題したイベントを開催した。同社の検索サービスのエンジニアが多数来日し、最新の状況について講演した。 話題の中心はGoogleが考える未来の検索だった。エンジニアリング リサーチ上級副社長のAlan Eustace氏は、携帯電話での会話をリアルタイムで翻訳するようなサービスがいずれ登場するだろうという見通しを述べた。 「まもなく携帯電話を通して話した言葉がほかの国の言葉にリアルタイムで翻訳される機会がやってくる。Googleがこの5年間で実現する」(Eustace氏) 携帯電話に検索クエリを話しかけることで検索できる「Google音声検索」というサービスがある。Eustace氏は開発の段階では実現不可能だと考えていたという。 「しかし私は間違っていた。データの力、マシンの力、科学者の力がそれを実現した」とEust

    Google検索の未来--外国人と話せる翻訳ケータイも5年以内に
    tsupo
    tsupo 2010/06/15
    「まもなく携帯電話を通して話した言葉がほかの国の言葉にリアルタイムで翻訳される機会がやってくる。Googleがこの5年間で実現する」 → 京都のATRが研究しているのと、どっちが(略)
  • IBM東京基礎研、外国語文書を母国語で分析できるテキストマイニング技術を開発

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 日IBMは6月10日、海外でビジネスを行う企業が、外国語で記述された文書データを1つの言語で分析することを可能にする「言語横断テキストマイニング技術」を開発したと発表した。 同技術を開発した日IBM東京基礎研究所のテキストマイニング研究チームは、文章からの情報抽出やマイニングのためのインデックス構造などの研究開発とともに、製造、金融、保険、放送、通信、小売など様々なビジネス分野への応用に対して、その業績が認められ、同日、社団法人人工知能学会より現場イノベーション賞を授与されている。 膨大な文書データを活用する技術には「検索」「分類・整理」「知識発見」という異なるレベルの技術が存在し、その目的も言語処理の内容も異なる。IBMのテキスト

    IBM東京基礎研、外国語文書を母国語で分析できるテキストマイニング技術を開発
    tsupo
    tsupo 2010/06/11
    「知識発見」を目的 / テキストマイニング技術「TAKMI」と言語や分野に依存しない訳語対抽出手法を組合せ → 特定の言語にしかない概念とか、どうするんだ? 「言語に依存する」のは対象外か
  • asahi.com(朝日新聞社):世界2500言語消滅危機、ユネスコ「日本は8語対象」 - 社会

    【パリ=国末憲人】世界で約2500の言語が消滅の危機にさらされているとの調査結果を、国連教育科学文化機関(ユネスコ、部パリ)が19日発表した。日では、アイヌ語が最も危険な状態にある言語と分類されたほか、八丈島や南西諸島の各方言も独立の言語と見なされ、計8言語がリストに加えられた。  調査は、全世界で6千前後あるといわれる言語を調査。538言語が最も危険な「極めて深刻」に分類された。続いて「重大な危険」が502語、「危険」が632語、「脆弱(ぜいじゃく)」が607語だった。  また、1950年以降消滅した言語が219語にのぼった。最近では08年、米アラスカ州でイヤック語が、最後の話者の死亡で途絶えた。  日では、アイヌ語について話し手が15人とされ、「極めて深刻」と評価された。財団法人アイヌ文化振興・研究推進機構(札幌市)は「アイヌ語を日常的に使う人はほとんどいない」としている。  こ

    tsupo
    tsupo 2009/02/20
    日本ではアイヌ語が最も危険な状態にある言語と分類 / 八丈島や南西諸島の各方言も独立の言語と見なされ、計8言語がリストに加えられた / 話し手が固有の文化を持っていれば、独立した言語 / 沖縄では村ごとに言葉が違う
  • 文-体・読本: チッ、チッ

    たとえばハザ族が話す言語は、打楽器を鳴らすような一連の複雑な音―コルクがポンと抜ける音や、欧米人が不満を表すときの「チッ、チッ」という音に似たもの―が、単語の中に入り混じっている。同じ語族(コイサン族と呼ばれる)の仲間には、100種類を超える音素を持つ言語もあるのに、英語などヨーロッパで話されるほとんどの言語には30種類前後の音しかない。さらにこの吸着音(舌打ち)交じりの言語は、僕たちの祖先が話していた最古の言語の一つかもしれないのだ。 スペンサー・ウェルズ『旅する遺伝子』英治出版2008年

    tsupo
    tsupo 2009/02/06
    ハザ族 / コイサン族 / 100種類を超える音素 / この吸着音(舌打ち)交じりの言語は、僕たちの祖先が話していた最古の言語の一つかもしれない
  • ヤフーの日本語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」

    ヤフーの日語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」 2008-08-21-1 [WebTool][NLP][Programming][Algorithm] Yahoo!デベロッパーネットワーク(YDN)に 「日語係り受け解析Webサービス」が登場しました。 Yahoo!デベロッパーネットワーク - テキスト解析 - 日語係り受け解析 http://developer.yahoo.co.jp/jlp/DAService/V1/parse.html 「係り受けってなに?」という方もいると思うので、 以下、まったくもって厳密ではない、適当な解説を試みます。 (1) 日語をコンピューターで処理するには、 まず形態素解析というのをやって、 文を形態素(≒単語)単位に分割します。 YDN の「日形態素解析Webサービス」[2007-06-18-1] で試すことができ

    ヤフーの日本語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」
    tsupo
    tsupo 2008/08/21
    「なんちゃって文章要約」では、どこにも係らない文節を「ベース」とし、それに直接係る文節だけを残し他を削除することで「文章要約」 / 「〜ね」で区切れる単位の係る先を推定するのが係り受け解析 → 値切り解析
  • グーグル先生を超える良回答連発、Powersetを使ってみた − @IT

    2008/05/15 インターネットの検索でエポックメーキングな出来事は2度しか起こっていない。1994年にジェリー・ヤン氏らが立ち上げたヤフーがインターネットに検索をもたらしたときと、1998年にラリー・ペイジ氏らがグーグルを立ち上げ、Webページの重要度を示す「PageRank」という概念を導入したときだ。検索連動広告の発明もビジネス的には大きなステップだったが、使い勝手の向上というユーザー視点での転回点は2つだけだ。いま、ベンチャー企業の米Powersetが注目を集め、3つ目のイノベーションを起こすかどうかが注目されている。 ネット検索の歴史:数から順位への転換 Powersetが解決しようとしている問題を明確にするために、インターネットの検索エンジンの歴史を少しだけ振り返ってみよう。 グーグルが登場する以前、各検索サイトは、自分たちがいかに多くのWebページをクロールし、検索に対し

    tsupo
    tsupo 2008/05/15
    関連: http://itpro.nikkeibp.co.jp/article/NEWS/20080512/301347/ // Powersetが注目を集め、3つ目のイノベーションを起こすかどうかが注目されている / Powersetでは同類語にヒットした結果も積極的に表示する
  • 「2008年はネットの文脈理解が主流に」,米パワーセットが自然語検索サイトを公開

    自然言語処理技術を開発する米国のベンチャー企業パワーセットが,米国東部時間の2008年5月12日0時から新サービスを公開した(パワーセットのホームページ,写真1)。まずはインターネット上の無料の百科事典サービス「Wikipedia」を運営するウィキメディア財団,およびオープン・データベース「freebase」を開発する米メタウェブ・テクノロジーズと共同で,Wikipediaの付加サービスとして始めた。 パワーセットのホームページから利用できる新サービスでは,すべてのWikipediaコンテンツが検索の対象となり,GoogleYahoo!といった既存の検索サービスで使われる単語(キーワード)や短いフレーズだけではなく,実際の質問に近い形での問い合わせにも答えられる。例えば,「癌の治療法は?(what treats cancer?)」「ハリケーン“カトリーナ”でニューオーリンズから避難した人

    「2008年はネットの文脈理解が主流に」,米パワーセットが自然語検索サイトを公開
    tsupo
    tsupo 2008/05/14
    パワーセットの自然言語技術は,「基本的には言語非依存」 / 既にWikipedia日本語版のプロトタイプも用意されているが,まずは英語版の公開に注力 / すべての文を読む前に目的の情報を見つけてくれたり,内容の要点を知る
  • mixi Engineers’ Blog javascript

    tsupo
    tsupo 2007/12/05
    キーワード関連情報をリリース / 社内で提案しても淘汰されていた / インディーズ機能として皆様に御披露目できて感無量 → とりあえず、mixiの主要なAPIをインディーズ扱いでいいので公開して欲しい
  • 辞書不要の形態素解析エンジン「マリモ」とは − @IT

    2007/08/15 検索サービスを提供するベンチャー企業のムーターは8月1日、辞書を必要としない形態素解析エンジン「マリモ」の提供を開始した。従来、形態素解析では品詞情報を含む日語辞書を用意するのが常識だったが、マリモでは、そうした辞書を不要とした。新技術のアプローチと特性について、開発元のムーターに話を聞いた。 統計処理で単語部分を推定 形態素解析とは、与えられた文を、文法上意味のある最小の単位(形態素)に区切る処理。「今日は晴れています」なら、「今日(名詞)/は(助詞)/晴れ(動詞)/て(助詞)/い(助詞)/ます(助動詞)」と分ける。検索エンジンをはじめ、さまざまな自然言語処理の場面で必要となる基礎技術だ。 形態素解析を行うには、あらかじめ品詞情報が付加された数十万語からなる辞書を用意する必要がある。また、新語や造語、専門用語に対応するには、個別に人力で単語を登録する必要がある。

    tsupo
    tsupo 2007/08/16
    「マリモ」と聞いて、人工無脳の「まりも」たんを連想してしまう。 // マリモは、あらかじめ動詞や形容詞の活用形についての知識を持たず、頻度情報と位置情報を使った統計処理だけで、どの音のつながりが単語で、そ
  • 【レビュー】MeCabで形態素解析、はてなとWikipediaが知恵袋に - infony登場 (1) infonyとは | エンタープライズ | マイコミジャーナル

    日々ネットに溢れ出る情報を収集し、フィルタリングし、振り分けて情報を摂取し続けるジャンキー達。そんな我々のための興味深いツールとしてInfolustを紹介した。InfolustはWikipediaを活用したサービスで、指定したページのコンテンツを要約して表示するWebサービスだ。Wikipediaを知識ベースとして自動的に処理をおこなうという、さながらオート編集者というべきものだ。 今回はinfonyを紹介したい。5日に公開されたサービスで、指定したページを解析してキーワードごとに解析結果を表示するというもの。Infolustを日向けにカスタマイズして開発したようなサービスだ。 テキストの形態素解析には、京都大学情報学研究科−日電信電話株式会社コミュニケーション科学基礎研究所共同研究ユニットプロジェクトにおいて開発された形態素解析エンジンである和布蕪(MeCab: Yet Anoth

    tsupo
    tsupo 2007/04/07
    MeCabで抽出されたキーワードをはてなやWikipediaを使ってランク付け / ブックマークレットも用意されている
  • Expired

    Expired:掲載期限切れです この記事は,ロイター・ジャパンとの契約の掲載期限(30日間)を過ぎましたのでサーバから削除しました。 このページは20秒後にNews トップページに自動的に切り替わります。

    tsupo
    tsupo 2007/03/29
    統計的機械翻訳 / 人間が既に翻訳して2つの言語のバージョンがある文書を、コンピュータに大量に入力し、そのパターンを認識させ、その蓄積に基づいて翻訳を行わせる / 翻訳済みのテキストが多くないアフリカの一部の
  • [を] テキストマイニングを使う技術/作る技術

    テキストマイニングを使う技術/作る技術 2006-12-28-3 [書評・感想] テキストマイニングの分野で有名なIBMの那須川哲哉氏による入門書。 全編具体的で分かりやすい。 ■那須川哲哉 / テキストマイニングを使う技術/作る技術 ―基礎技術と適用事例から導く質と活用法 テキストマイニングというと、ブログや掲示板での特定の何かの評判情報 検索など、近年その活躍の場が一般ユーザの目に付くところまで広がって 来ている。 このはテキストマイニングを支える技術、事例紹介、技術以外の側面 (運用など)はもちろん、「テキストマイニングとは何か」ということ についても初心者にも分かりやすいよう、かなり丁寧に解説されている。 一番重要なポイントが最初の方で述べられてる。これ、大切。 [...]テキストマイニングというものは、あくまで人間が膨大な文書データ を有効活用するた

    tsupo
    tsupo 2006/12/29
    あくまで人間が膨大な文書データを有効活用するためのツールであり、データ内容を解釈して判断を下すのは人間 / 分析目的をしっかり設定しないと役に立つものは得られない
  • [ThinkIT] 第3回:テキストマイニング技術の全貌 (3/3)

    これまでの処理の結果を元にして、トピックス別の集計が可能になる。その結果、「どんなトピックスが何人から寄せられているのか」「全体のどのくらいの割合を示しているのか」を瞬時に把握することができる。 TRUE TELLERでは、単語ランキング、主な話題機能などで全体集計結果を提供し、テキストデータを俯瞰することができる。

    tsupo
    tsupo 2006/12/25
    TRUE TELLER / 単語ランキング、主な話題機能などで全体集計結果を提供し、テキストデータを俯瞰する / 文章は形態素解析、同義語の統一、統計処理を経て分析が可能になる
  • Journal of miyagawa (1653): chronic - narural date/time parser for Ruby

    chronic is a new natural date/time parser for Ruby. By "natural" I mean something like "tomorrow 5pm".I talked with Jesse (obra) that we need something close to this in Perl as a standalone module as well. By standalone we mean something not Date::Manip, which code and APIs make me very sad. I haven't looked at the chronic code yet but I believe this has an MIT/X11 license and would not be that ha

    tsupo
    tsupo 2006/10/23
    「明々後日の丑三つ時」とか、日本語でも指定できると面白いかも(とか言ってみる)
  • 1