タグ

japaneseに関するdrillbitsのブックマーク (3)

  • 『バリバリウケる、和製英語。』

    アンちゃんから見るニッポン 日に来て20年のアンちゃんが 仕事、子育てをしながら、その中でアメリカと日の違いを博多弁でわかりやすく綴ります。 アンちゃんの友達はみんな、どんだけアンちゃんが単語が好きかって、わかってる。 単語を並べたら、文章になる。文章を並べたら、会話とになるー会話とはこの世で一番大好きなことだ。まあ、ピーナツバターもバリバリ好きなんだけど、ライティングと会話は、私の趣味なんだ。職業は大学の教員やけん、教育と研究は大事。「会話」と「ライティング」はもちろん教えるけど、研究もしている。私の研究分野は、「和製英語」。和製英語英語に聞こえるけど、日人が勝手に作った日語の単語だ。源は英語やけど、外来語(カタカナ用語)の中にあるカテゴリー。でも、完全に日語の単語になっている。多くの単語は英語のネイティブスピーカーがわからない可能性が高い。ある和製英語英語で存在するけ

    『バリバリウケる、和製英語。』
    drillbits
    drillbits 2017/09/05
    "ある日、彼は「お元気ですか」と「パイプカット」を繰り返して練習した"
  • 日本語入力について - アスペ日記

    私が日本語入力について思っていることを書いてみる。 自分としては、デフォルト以外の日本語入力システムとして、ATOKGoogle 日本語入力ぐらい(まあ、Baidu IME とかもあるが)しかないのが心の底から残念でたまらない。 雑誌の特集などで、Google 日本語入力ATOK に単語や文章を変換させて精度を比較しているものを見かける。まあ総合的には同じぐらいの結果になっている。だが、実際に長い間使っているとわかるのだが、Google 日本語入力の間違え方のほうが「理不尽」なのだ。どうしてこれがこうなる? と思わず言いたくなるような。その点、ATOK は弱い部分が前もってわかる。アニメやゲームなど、マニアックな変換には弱い。しかし、ATOK である程度日語の文章を打ち慣れた人にとっては、そういう「難しいだろうな」と思うようなところは、打つ前からそのことがわかるものだ。 ATO

    日本語入力について - アスペ日記
  • きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる

    MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。 ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニング するといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力 があればコスト値を機械学習的なアプローチで構築することができます。 さらに、正解データを人手で作る必要は必ずしもありません。 すなわち、Yahoo!形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。 ふだんはあま

  • 1