タグ

言語に関するwa_kanouのブックマーク (2)

  • Budou - 機械学習を用いた日本語改行問題へのソリューション - ウェブ雑記

    こんにちは! 日語のウェブサイトを作っていると、日語特有の問題にぶちあたることがありますよね。 その中でも今回着目したいのは、日語改行問題。最近、この問題を解決するためのライブラリを公開したので、紹介します。 github.com そもそも日語改行問題とは何か ウェブブラウザで日語で書かれたウェブサイトを見ていると、ときどき文章が変なところで改行されているのを目にすることがありますよね。 たとえば、こんなかんじ。 「ソリューション」が「ソリューショ」と「ン」に分かれてしまっています。読みにくいですね。 英語では単語がスペースによって区切られますが、日語や中国語などのアジア圏の言語では単語がスペースで区切られないことが多いです。 そのため、英語では単語の途中で改行されることは通常ありませんが、日語では単語の途中で改行されることがよくあります。 文ならともかく、見出しやキャッチ

    Budou - 機械学習を用いた日本語改行問題へのソリューション - ウェブ雑記
  • 国語辞典編纂者、飯間浩明さんの『紅白歌合戦に出てくることばリアルタイム用例採集』がおもしろすぎる

    飯間浩明 @IIMA_Hiroaki 1967年10月21日、香川県高松市生まれ。国語辞典編纂者(出版社社員ではありません)。『三省堂国語辞典』編集委員。著書『日語はこわくない』PHP、『日語をもっとつかまえろ!』毎日新聞出版、『知っておくと役立つ 街の変な日語』朝日新書、『ことばハンター』ポプラ社 他。『気持ちを表すことばの辞典』ナツメ社 も監修。 asahi-net.or.jp/~QM4H-IIM/ 飯間浩明 @IIMA_Hiroaki 「紅白歌合戦」が始まりました。目下、ご飯をべながら見ていますが、「紅白のことばリアルタイム用例採集」をツイートしたいと思います。リアルタイムといっても、確認したりする作業があるので、タイムラグが出てしまいますが、ご容赦を。めずらしいことばが出てくるでしょうか。 2015-12-31 19:15:08 飯間浩明 @IIMA_Hiroaki 「紅白

    国語辞典編纂者、飯間浩明さんの『紅白歌合戦に出てくることばリアルタイム用例採集』がおもしろすぎる
  • 1