タグ

japaneseに関するtakadoのブックマーク (121)

  • 理研ら、日本人が英語の発音や聞き分けが苦手な原因の一端を解明 | エンタープライズ | マイコミジャーナル

    理化学研究所(理研)とフランス国立科学研究センター(CNRS)の共同研究チームは10月12日、日人は生後14カ月までに「abna」のような子音の連続が含まれる単語と「abuna」のような子音連続が含まれない単語の音を区別して聞き取れなくなっていることを発見したことを明らかにした。 日人は、外国語の音の聞き分けが苦手といわれているが、その理由は個別の母音や子音の聞き分けができないだけでなく、音の組み合わせや強勢、韻律などのさまざまな要素がかかわっている。これまでの研究により、母語に含まれない母音や子音の弁別がどのように発達していくのかが徐々に明らかになってきており、乳幼児は、生後間もなくから、自分の母語にない外国語の音も聞き分けられるが、生後12カ月ごろまでにだんだんと聞き分けられなくなっていくことが知られている。しかし、音の並びの規則がどのように獲得されていくのかについては、よく分かっ

    takado
    takado 2010/10/13
    「日本人は、外国語の単語を聞くと、日本語に合うように「う」や「お」の母音を挿入して発音してしまう。このような修復は「母音挿入(vowel epenthesis)」と呼ばれる」-新しい言葉をおぼえた
  • Baidu Japan(バイドゥ株式会社)

    このページをブックマーク登録されていた方は、 お手数ですがブックマークの変更をお願いいたします。 なお、このページは5秒後に自動的にジャンプします。 自動的にジャンプしない場合は、下記のリンクをクリックして下さい。

  • AVライターなら「Google 日本語入力」を使え! - ダリブロ 安田理央Blog

    Googleがリリースした日本語入力ソフト「Google 日本語入力」がすごいです。いわゆるIMEという奴で、MS-IMEやらATOKやらの対抗馬となるわけなのですが、実はこれ、特に僕のようなライターには強力なメリットがあるんですね。 「Google 日本語入力」は、ウェブから自動的に辞書を育成するというのが売り。ウェブ上で使われている言葉がどんどん辞書に追加されていく。だからウェブではよく使われていても普通のIMEの辞書にないなんて言葉も変換候補に出てくるわけです。 それの何が嬉しいって、AV女優の名前が一発変換できるんですよ。AV女優って、変則的な漢字を使ってる子が多いじゃないですか。それでいて、そんな名前がIMEの正式な辞書に登録されることは、まずありえない。だから、僕らは人気女優はいちいち自分たちの辞書に登録しておかないといけないんですね。範田紗々とか、辞書に入れとかないと苦労する

    AVライターなら「Google 日本語入力」を使え! - ダリブロ 安田理央Blog
    takado
    takado 2009/12/04
    「それの何が嬉しいって、AV女優の名前が一発変換できるんですよ」-いろんな需要があるものだ
  • 「ひとがご→人がゴミのようだ」 桁違いの語彙力、Googleが日本語入力ソフト(無料)発表…ATOKどうなる? : 痛いニュース(ノ∀`)

    「ひとがご→人がゴミのようだ」 桁違いの語彙力、Google日本語入力ソフト(無料)発表…ATOKどうなる? 1 名前:☆ばぐた☆ ◆JSGFLSFOXQ @☆ばぐ太☆φ ★ :2009/12/03(木) 15:07:34 ID:???0 グーグル法人は3日、日本語入力ソフト(ベータ版)の提供を始めた。ネット上から自動的に単語を収集して辞書をつくり、新しい言葉や専門用語、著名人の名前なども収録されているという。ソフトをダウンロードして使う。同社の検索で、入力間違いを類推して指摘する「もしかして機能」の担当技術者らが開発。単語を入力すると、同社の検索エンジンで単語を入力した時に表示される候補と似た変換候補がリスト表示され、必要な言葉を選ぶ。 http://mainichi.jp/select/biz/news/20091203mog00020019000c.html 「ぱんつじゃ」まで

    「ひとがご→人がゴミのようだ」 桁違いの語彙力、Googleが日本語入力ソフト(無料)発表…ATOKどうなる? : 痛いニュース(ノ∀`)
  • ぶっこ抜き? [Google日本語入力の功罪]

    [PR] ブログの商品紹介リンクには広告が含まれています お仕事で四国から飛んで帰っている間にGoogle様が「Google日本語入力」をリリースしていました(Google様のブログ参照)。 ATOK とか MS IME とかと同じ役割をする、かな漢字変換エンジン。WindowsMac の両方揃って、どちらも無料です。 まだ現物は試していないのですが、上記のブログの説明や Twitter に流れている試した人の感想を読む限りでは、かなりすごい。破壊的にすごい。 Google が蓄積している Web 上のテキストの膨大なデータを辞書に使っていて、Web から機械的・自動的に辞書を生成することで、人手ではカバーしきれないような、新語、専門用語、芸能人の名前などを網羅的に収録しています。高い変換精度を実現するために、Web 上の大量のデータから統計的言語モデルを構築し、変換エンジンを構成

    takado
    takado 2009/12/03
    「Google サジェストを使っている間は変換前の読みデータを収集して使っている」「ユーザーを介して、間接的に他社のかな漢字変換の辞書の内容の一部を「ぶっこ抜いて」いるわけ」
  • 思いどおりの日本語入力 - Google 日本語入力

    メディア関係者向けお問い合わせ先 メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。 その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。

    思いどおりの日本語入力 - Google 日本語入力
  • Googleが「Google 日本語入力」ベータ版を公開 | スラド IT

    Google日本語入力インプットメソッド「Google 日本語入力」を開発し、ベータ版の公開を開始した(ダウンロードページ)。ウェブ上の大量のデータからMapReduceを駆使して辞書や統計的言語モデルを構築という、いかにもGoogleらしい手法での実装となっている。タレコミ子がWindows Vista上で試用してみたところ、ややレスポンスは鈍いものの、長文の一括変換や文節の切り分けに関してはMS-IMEを歯牙にもかけず、ATOK 2008にも肉薄か場合によっては上回るほどの変換効率を誇っているようだ。なおGoogle Japan Blogのエントリでは、このGoogle IMEがいわゆる「20%ルール」から生まれたことなど興味深い内幕が明かされている。 現時点ではWindows版(32bitのみ)とMac版のみの公開だが、風の噂ではLinux版の開発にも着手しているとかいないとか。G

  • 「川崎市」と「川崎さん」の区別が容易に--富士通、固有名詞の高精度抽出技術を開発

    富士通研究所は11月24日、文章中の人名や組織名、地名などの固有名詞を高精度に抽出する技術を開発したと発表した。これにより、新聞記事から約97%の精度で人名を正しく抽出する。従来の抽出手法と比較して抽出ミスを60%近く減少できるという。 新聞の編集やウェブサイトの更新など大量の文書データを扱う業務では、キーワード検索やそれを用いた文書作成が業務の中で大きな割合を占める。しかし「川崎さん」や「川崎市」の「川崎」のような単語は、「人名」か「地名」かの区別がつきづらく、目的のキーワードとは無関係な結果が数多く表示されてしまっていた。 そのため必要な情報を見つけるのに手間がかかっていたほか、人名や地名などの辞書データを人手で作成しなければならず、辞書の自動生成が大きな課題となっていた。 今回開発された技術は、精度の高い固有名詞を抽出するため、固有名詞辞書の自動生成手法と生成した辞書を用いる抽出を実

    「川崎市」と「川崎さん」の区別が容易に--富士通、固有名詞の高精度抽出技術を開発
  • 「形容詞 + です」という日本語の用法について - 蟹亭奇譚

    「形容詞 + です」 は誤用ではない 変な日語(1) 「危ないですから」-九十九式 電車に乗っていると、ホームでこんなアナウンスがよく流れてくる。 「3番線に電車がまいります。危ないですから、黄色い線の内側にお下がりください」 僕はこれを聞くたびに、強烈な違和感を覚える。電車には毎日乗るので、この襲い来る違和感と戦うだけで会社に着く頃にはヘトヘトになってしまう。 言うまでもなく、「危ない」という形容詞に直接「です」を付けるのは誤用だ。 変な日語(1) 「危ないですから」-九十九式 「危ないです」 のように、「形容詞 + です」 という表現は、文法的に間違った用法ではない。上記リンク先の主張の根拠として、以下の MSN 相談箱の回答欄が引用されているが、これに至ってははっきり 《間違い》 といって良いだろう。 昭和27年の国語審議会で「形容詞+です」表現を「許容する」としたときから、日

    「形容詞 + です」という日本語の用法について - 蟹亭奇譚
    takado
    takado 2009/10/23
    「昭和27年の国語審議会で「形容詞+です」表現を「許容する」としたときから、日本語の「形容詞(う音便)+ございます」の丁寧語が、仰々しいものに変わってしまった」
  • 絶命シソーラス

    わりと直接的に。死ぬ絶命する逝く亡くなる崩御なされる逝去される 状態変化系無言の帰宅をする帰らぬ人になる息絶える絶命するお隠れになる身罷(みまか)る草葉の陰に隠れる(これは調査が必要)永遠の眠りにつく(永眠)事切れる死亡に関わる何かにかけて。ご臨終鬼籍に入る命日となる違うものに変わるよ! 星になるお陀仏になる土に還る 他界する的な表現往生する他界するあの世に行く天国へ行く地獄に落ちる三途の川を渡る冥土へ旅立つキリスト教的 天に召される神の元へ帰る 他動詞として。息の根を止める殺す分類がよくわからない巨星墜つ物故する

    絶命シソーラス
  • ニュース: NHocrのソースコードを初公開 (ver 0.16(beta)) - NHocr: 日本語文字認識プログラム - OSDN

    語文字認識プログラムNHocrのソースコードを初公開しました (ver 0.16(beta))。Solaris SPARC/x86, Linux (x86_64)上で動作確認済みです。OCRopusからの呼び出しが可能です。文字行認識部がライブラリ化されており、自作プログラムからの利用も容易です。

    ニュース: NHocrのソースコードを初公開 (ver 0.16(beta)) - NHocr: 日本語文字認識プログラム - OSDN
  • コトバンク [ 時事問題、ニュースもわかるネット百科事典 ]

    今日のキーワード メディアリテラシー インターネットやテレビ、新聞などのメディアを使いこなし、メディアの伝える情報を理解する能力。また、メディアからの情報を見きわめる能力のこと。... 今日のキーワード メディアリテラシー インターネットやテレビ、新聞などのメディアを使いこなし、メディアの伝える情報を理解する能力。また、メディアからの情報を見きわめる能力のこと。...

    コトバンク [ 時事問題、ニュースもわかるネット百科事典 ]
  • ネィティブと相互添削で語学学習 | Lang-8

    Let our community of native speakers support your language learning. A new language learning platform where native speakers correct what you write. Post in the language that you are learning. Native speakers correct your writing! Return the favor by helping others learn your native language!

    ネィティブと相互添削で語学学習 | Lang-8
  • 井「やばい、かこまれる!」

    1 名前:以下、名無しにかわりましてVIPがお送りします:2009/03/14(土) 11:46:28.40 ID:kGB3Lriy0 囲「かこまれた!」 2 名前:以下、名無しにかわりましてVIPがお送りします:2009/03/14(土) 11:47:03.63 ID:DMzGFfXf0 丼「ざまぁwww」 4 名前:以下、名無しにかわりましてVIPがお送りします:2009/03/14(土) 11:47:53.92 ID:jGKPVHon0 木「やばい…!来る!」 困「困ったなぁ…」 7 名前:以下、名無しにかわりましてVIPがお送りします:2009/03/14(土) 11:49:31.13 ID:n9OfsNx80 化「やばい、化ける!」 囮「囮にされた・・・・」 76 名前:以下、名無しにかわりましてVIPがお送りします:2009/03/14(土) 12:27:40.60 ID:wy

  • ファスト風土とは 一般の人気・最新記事を集めました - はてな

    三浦展の造語。地方社会において固有の地域性が消滅し、大型ショッピングセンター、コンビニ、ファミレス、ファストフード店、レンタルビデオ店、カラオケボックス、パチンコ店などが建ち並ぶ風景が全国一律となったことをさす。 参考文献

    ファスト風土とは 一般の人気・最新記事を集めました - はてな
    takado
    takado 2009/02/03
    誰うまww
  • 村上春樹がほんとにすごいところは…… - finalventの日記

    ⇒アンチ春樹ストの私が村上春樹の凄さについて羅列してみるよ! - 国語の成績が悪い まあ、そういうのもあるけど。 村上春樹がほんとにすごいところは、韓国中国に多数の読者を得ているとこだよ。 欧米で読まれているというなら、まあ、いわゆる優れた文学なんだけど。 村上春樹は実はアジアを変えてしまったこと。 あとついでにいうと。 いわゆる村上春樹的なイメージというのは初期の作品のテンプレになりがちだけど、春樹文学がずしんとし始めるのは、クロニクルのノモンハン事件を扱うあたりかな。 オウム事件と阪神大震災という歴史の、無意識的な暴力性みたいなのから、日の近代史に潜む暴力性の源みたいのを探ろうとしはじめたところ。 この根はワンダーランドのヤミクロとかにもあるし、ダンスにも見られるのだけど。そういうなんというか、ニューヨーカー的ないわゆるきれいな文学的な技巧をすてて、むしろ第三の新人のような、日

  • 駄洒落のコンピュータによる処理--駄洒落生成システムの基本設計 | CiNii Research

    JaLC IRDB Crossref DataCite NDL NDL-Digital RUDA JDCat NINJAL CiNii Articles CiNii Books CiNii Dissertations DBpedia Nikkei BP KAKEN Integbio MDR PubMed LSDB Archive 極地研ADS 極地研学術DB 公共データカタログ ムーンショット型研究開発事業

  • マルコフ過程なウホホイウッホ - ずっと君のターン

    「ぼくゴリラ ウホホイウッホ ウホホホホ ウッホホウッホ ウホホホホーイ」 第57回左千夫短歌大会の市長賞作品に感動が抑えきれないので、ウホホ変換スクリプトを組むことにした。 まず元作品から状態遷移図を作成。矢印のそばにある数字は遷移確率。 そのままコードに落とす。 class Array def any; self[rand(self.size)] end end module Uho MASTERPIECE = 'ウホホイウッホ ウホホホホ ウッホホウッホ ウホホホホーイ' DEFAULT_CHAR = 'ウ' class Converter def initialize(masterpiece=MASTERPIECE) @char_table = {} masterpiece.split(' ').each do |sentence| chars = sentence.split('

    マルコフ過程なウホホイウッホ - ずっと君のターン
    takado
    takado 2009/01/20
    だから仕事はえーよwww
  • あたしったー - まきもと@ねっとわーく

    「あたし彼女」という携帯小説をプレーンテキストで取得できる atashi-kanojo.py *1 なるコードを書いたのだが、ついでに何か遊べるものを作ろうということで、@atashitter なるものを作った。これは「あたし彼女」のテキストを形態素解析器で分かち書きした後、形態素 n-grams で頻度を取得し、それに基づいて文書を生成している。基的なアーキテクチャは @showyou さんの @ha_ma や @dogramagra、 id:pha さんの圧縮新聞などと同じである。当初は行 n-grams で n=1 のモデルと n=2 のモデルから生成を行なっていたが、どうしてもデータスパースネスの問題にぶち当たり、綺麗に生成できなかったので、形態素 n-grams (n = 1..5) に切り替えたという経緯がある。要するに出てくるバリエーションが限られてしまうという問題で色々悩

  • 無限あたし彼女 - <s>gnarl,</s>技術メモ”’<marquee><textarea>¥

    参考資料:「あたし状態遷移図」、あるいは「あたし約5.2MB」 - とある理系男子の書斎には、どうしても小説が少ない。っていうか無い。 - ファック文芸部,あたしオートマトン - とある理系男子の書斎には、どうしても小説が少ない。っていうか無い。 - ファック文芸部 require 'open-uri' URI_TEMPLATE='http://nkst.jp/vote/novel.php?auther=20080001&page=%d' $KCODE='s' def get_page(n) page=nil open(URI_TEMPLATE % n){|f|page=f.read} return page end def parse(page) return page.split('<br />')[1..-2].map{|l|l.strip}.reject{|l|l.empty?}

    無限あたし彼女 - &lt;s&gt;gnarl,&lt;/s&gt;技術メモ”’&lt;marquee&gt;&lt;textarea&gt;¥