タグ

技術と日本語に関するrichard_rawのブックマーク (15)

  • コンピューターで全漢字使用可に 6万字コード化 | NHKニュース

    語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。 中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に名の外字を充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。 このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進め

    コンピューターで全漢字使用可に 6万字コード化 | NHKニュース
    richard_raw
    richard_raw 2017/12/25
    ISOになったってことですね。/「日本人にとって、名前は大事なアイデンティティーで、」って名字が増えたのは明治時代の書き損じじゃなかったかしら。
  • 日本語形態素解析の裏側を覗く!MeCab はどのように形態素解析しているか - クックパッド開発者ブログ

    こんにちは、買物情報事業部の荒引 (@a_bicky) です。 前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。 形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。 なお、MeCab は汎用テキスト変換ツールとしても使用できます が、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。 アジェンダ 形態素解析とは MeCab における最適な解析結果の推

    日本語形態素解析の裏側を覗く!MeCab はどのように形態素解析しているか - クックパッド開発者ブログ
    richard_raw
    richard_raw 2016/05/17
    そういえばMeCabの中身の話は初めて読みました。累積コストを最小化してるのか。
  • Google 日本語入力チームからの新しいご提案

    メディア関係者向けお問い合わせ先 メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。 その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。

    Google 日本語入力チームからの新しいご提案
    richard_raw
    richard_raw 2016/04/01
    毎度おなじみGoogle日本語入力チームのエイプリルフールネタ。……ってフリックキーボード(物理)は本当に欲しいです!
  • pixiv小説縦書き機能 開発の裏側 ~横のものを縦にする~ - pixiv inside [archive]

    はじめましてこんにちは。pixivでアルバイトをしているhakatashiです。 さる6月10日、パソコン版pixiv小説にて縦書き表示機能がリリースされました。この開発のあらかたを担当したので、今回の縦書き機能開発における裏側を紹介いたします。 構想 縦書き機能開発にあたり、設計段階からその大部分を一任されました。小説機能開発において自分の中に絶えず理念として存在していたのは、ユーザーに最高の読書体験を提供することです。縦書きによって得られる利益を最大化し、快適な閲覧を支援するために、以下のような構想を置きました。 縦書き横書きの組版の差異における違和感を可能な限り軽減すること。 スクロールとページングを融合した、柔軟で快適な閲覧インターフェイスを提供すること。 この2点について詳しく解説します。 縦組版 まず、ウェブブラウザで縦書き表示を実現するにあたり、どのような手法をとるかという問

    pixiv小説縦書き機能 開発の裏側 ~横のものを縦にする~ - pixiv inside [archive]
    richard_raw
    richard_raw 2015/06/16
    縦中横とか二重引用符とか実装がややこしそうですね(小並感)。そしてスクロールのためにjQueryプラグインまで……!
  • Wikipediaの中から偶然57577になっている文章をつぶやく「偶然短歌bot」が話題に

    Twitter上で、Wikipedia語版の文字列の中から、偶然57577の韻を踏んでいる文章を見つけ、ツイートしていく「偶然短歌bot」(@g57577)が話題になっています。 短歌を作っているわけではありません。Wikipediaで偶然57577になっているものです どのように作っているかは、作者が詳しく解説しています。解析ツールを使って音数を抽出、さらに短歌になっていないものを弾くように調整。最終的に残ったものの中から、物の短歌を手動で弾く、という非常に手の込んだbotになっています。 この発想と面白さに多くの反響を呼んでいます。 もう一つのこだわりポイントは5・7・5・7・7時間おきにツイートしている、ということ。凝ってるなー。 (たまごまご) advertisement 関連記事 村上春樹やモーツァルトの創作時間は? 有名な文化人の1日の過ごし方をグラフ化したサイト「The

    Wikipediaの中から偶然57577になっている文章をつぶやく「偶然短歌bot」が話題に
    richard_raw
    richard_raw 2015/01/20
    MeCabで短歌を抽出。癖になりそうですわ。
  • これは小論文で何を書いたらいいか分からない人のために書いた文章です

    これは、小論文を書くのが苦手な人のために書いた文章です。 文章の言い回しや磨き方※よりも、そもそも何を書いたらいいか、どう考えたら書くものを思いつけるのか、について分かるように書きました。 小論文がどういうものであり、何を書くことを要求しているかが分かれば、少なくとも「何を書いたらいいか」分からず困ることがなくなると思います。 「何を書いたらいいか」をどうやって思いつくか、必要な材料をどうやってアタマから引き出すかについても説明しました。 文章を書くこと自体が苦手という人は、末尾にリンクを置いた参考記事が参考になるかもしれません。 ※論文らしい文章の書き方については、以下の記事を参考にしてください。 論文はどんな日語で書かれているか?アタマとシッポでおさえる論文らしい文の書き方 卒論に今から使える論文表現例文集(日語版) 時間がない人のための要約 ◯自分語り系の小論文 (「私の仕事観」

    これは小論文で何を書いたらいいか分からない人のために書いた文章です
    richard_raw
    richard_raw 2014/12/01
    私には未来志向系は難しいです……orz/セルフツッコミ大事ですね。
  • 書く力を本当に倍増する、容易くはない5つのトレーニング

    書くことはどのようにして学ぶことが、いや鍛えることができるのか? 書くことによって、というのが唯一正しい答えである。 書くのが苦手な人は書くことをできるかぎり回避する。そうして苦手意識をつのらせる。さらに書くことを回避する。この悪循環を断ち切るには、嫌でも書くしかない。 対して、書くことを楽しむ人は、放っておいても何か書く。書き続ける。 アメリカのミステリー作家ローレンス・ブロックは、Writing Digest誌の連載コラムで、最悪の長編小説を3つ書き上げた男の症例を紹介している。 最初の1篇は、ブロックが最大限の親切心を動員しても一句たりとも良いところがない、それどころか直すことさえ不可能なくらいひどかった。なのに男は次のを書き始めた。 完成した2つめも最悪といっていい出来だったが、1作目を知る数少ない人たちには大きな改善が感じられた。男はまた次のを書き始め、書き終えた。 これまた

    書く力を本当に倍増する、容易くはない5つのトレーニング
    richard_raw
    richard_raw 2013/11/06
    これはハードな……。取り敢えず縮約してみたい。
  • 日本語入力を支える技術という本を書きました - 射撃しつつ前転 改

    (追記):「このに書かれていないこと」という項を追加しました。 以前も告知しましたが、日本語入力を支える技術というを書きました。技術評論社から2012年2月8日に発売されます。(私の知っている限りでは、ジュンク堂池袋店、有隣堂AKIBA店、丸善丸の内店、書泉ブックタワーでは既に先行販売しているよう…でしたが、ジュンク堂池袋店、有隣堂AKIBA店、書泉ブックタワーは先行販売分は売り切れの模様です。)どんななのか、目次などについては公式ページを参照していただくとして、以下ではどんななのか宣伝したいと思います。 こののキーワードは「実装」と「初心者向け」です。初心者でも実装ができるようにサンプルコードを多用し、また数式が出てくる部分に関してはちょっとしつこいぐらいに説明を加えました。私自身の経験からすると、を読んだで理解したと思っていても、大抵の場合、細かいところはわかっていないもの

    日本語入力を支える技術という本を書きました - 射撃しつつ前転 改
    richard_raw
    richard_raw 2012/02/04
    このシリーズはすべて読みたくなるから困る。/「この本のキーワードは『実装』と『初心者向け』です。」「(※効果は個人差があります)」
  • NECら、ネット上の情報を分析、整理し信頼性判断を支援する新技術を開発

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます NECは1月31日、東北大学、奈良先端科学技術大学院大学、横浜国立大学とともに、独立行政法人情報通信研究機構(NICT)情報信頼性プロジェクトの協力を得て、インターネット情報の信頼性の判断を支援する技術を共同開発したと発表した。また、同技術を用いて開発した試作システムを、同日より試験的にインターネット上で公開している。 現在のインターネット情報検索では、検索結果が大量に表示され、利用者がその中から信頼性や価値の高い情報を探し出し、判断の材料とすることが困難になっている。同技術は、インターネット上の大量のテキスト情報を分析、整理し、ある意見について、その判断の裏付けや参考となるような情報を複数の観点から表示することで、情報信頼性の判断を支

    NECら、ネット上の情報を分析、整理し信頼性判断を支援する新技術を開発
    richard_raw
    richard_raw 2011/02/01
    あくまで支援。言論マップ化技術、整理・要約技術、時系列分析技術。
  • asahi.com(朝日新聞社):譲れない「・」 科学技術か科学・技術か、専門家バトル - サイエンス

    「科学技術」と「科学・技術」。表記をめぐり、譲れない攻防が続いている。学者の国会とも呼ばれる日学術会議が「科学・技術」を使うのに対し、科学技術政策の司令塔の総合科学技術会議は再び「科学技術」に戻した。「・」にこだわる背景には、政策の方向をめぐる意識の違いがある。  「お気づきの方も多いと思いますが、『・』は抜いてあります」  総合科学技術会議(議長・菅直人首相)の調査会。来年度からの「第4期科学技術計画」の草案の説明で、従来案にあった「・」を抜き、「科学技術」としたことが説明された。科学技術法が「科学技術」で統一されている、という理由だった。  草案で「・」を使い始めたのは今年1月、日学術会議の主張がきっかけだった。  科学と技術は対等のはずなのに、「科学に裏付けられた技術」の意味で使われることが多いと指摘した。政策が「出口志向」、つまり産業や社会に役立つかが重視され、「純粋な

    richard_raw
    richard_raw 2010/12/16
    ややこしいなら、ひっくり返して「技術科学」にすればいいのでは。
  • 人名などの異体字もデータ交換可能に、MSなどが「IVS技術促進協議会」発足 

  • asahi.com(朝日新聞社):科学と技術の間に「・」を 学術会議が首相に法改正勧告 - サイエンス

    学術会議(金沢一郎会長)は25日、科学技術法を改正して「科学技術」を「科学・技術」と表記するように求める勧告を菅直人首相にした。勧告は「要望」「提言」「声明」など同会議が行う意思表示のなかでもっとも重く、地震災害時の大都市の安全確保について勧告した2005年4月以来となる。  「科学技術」は「科学」と「技術」という別の言葉を並べているが、勧告は「科学技術」を「科学に基礎付けられた技術」の意味で使われがちで、技術重視になると指摘。短期的に結果を求める成果主義に偏り、将来につながる科学の基礎研究が軽視されることを懸念している。  政府の総合科学技術会議は、1月から「科学・技術」の表記を使っているが、勧告では「法においても明確に採用すべきだ」とした。  また、科学技術法には、「人文科学のみに係るものを除く」との規定があるため、自然科学だけでなく、人文・社会科学も含め学問全体を施策の対

    richard_raw
    richard_raw 2010/08/25
    意外と好評?
  • ケータイのマイクを検索の“耳”に Google音声検索、日本語に対応

    Google法人は12月7日、音声入力でネット検索できる「Google音声検索」を日語に対応させた。まずAndroid端末とiPhoneで利用できる。日音声認識エンジンを独自開発し、実用的な精度の高さと速度を両立させているという。 Androidでは「Google音声検索」アプリをインストール、iPhoneでは「Google Mobile App」の設定から音声検索をオンにすることで利用できる(iPhoneでは「音声検索は英語のみ」と表示されるが、問題なく利用可能になっている)。検索窓の右横のマイクアイコンをタップすると音声認識がスタート。電話で話すように口元のマイクで検索したい単語などを発音すれば、テキストに変換してGoogle検索を実行する。 GPSと連動し、現在地に合わせた地域情報を表示する。東京・渋谷にいる場合に「映画館」で検索すれば、渋谷駅周辺の映画館リストを表示すると

    ケータイのマイクを検索の“耳”に Google音声検索、日本語に対応
    richard_raw
    richard_raw 2009/12/08
    さすがGoogle先生だ!カタカナ英語でもなんともないぜ!
  • 押下、筐体、輻輳…って読める?漢字検定エンジニア版|【Tech総研】

    話題の技術用語テスト「ソフトウェア編」「ハードウェア編」に続く第3弾! 今回はエンジニアの苦手分野?の声もある「漢字」がテーマ。とはいっても、もちろんTech総研のテストは一味違う。“技術の薫りのする漢字”で、いざ、勝負! 「この漢字が読めなきゃ恥」とか「書けそうで書けない漢字」とか「難読漢字のクイズ」とか……世の中、しばらく前からちょっとした漢字ブーム。その一方では、こんな漢字も読めないのか、と世間さまからちくちく言われる大臣さんもいたりして。 では、技術立国日が誇る頭脳、エンジニアの皆さんの漢字の実力はいかが? 「そんなの、ハタケが違う」と言うなかれ。普段の仕事の中でしばしばお目にかかる漢字や、さまざまな技術分野に関係する漢字を、少しずつ集めてみた。「読み方」「書き方」の2章立て、問題は3択形式で全20問。あなたは何問正解できるだろうか。(※正解には、慣用読みも含みます)

    richard_raw
    richard_raw 2009/04/22
    ケアレスミスで95点……OTZ
  • 絵文字が開いてしまった「パンドラの箱」第2回--Googleの開けてしまった箱の中味

    じつはコメントを送っていたNTTドコモ 最初に前回のおさらいをしておきましょう。スタート当初の携帯電話の絵文字には、キャリア間でメールのやり取りの中で文字化けしてしまう欠点があったこと、それを解決する仕組みをキャリア各社が作ったものの、その場しのぎの欠点の多いものであったこと、そして絵文字のUnicode符号化というのはそうした欠点を一挙に解決するはずであること。ついでにGoogle絵文字のUnicode符号化を進めることで、キャリア各社は今まで自分たちが育ててきた絵文字の主導権を奪われてしまうということも。 それから前回の最後では、キャリア各社に対してGoogleの提案についてどう思うか、パブリックレビューに参加する意向があるかを聞いてみました。そこでの回答は、各社そろって消極的と受け取れるものでした。 ところが前回の掲載後に、NTTドコモがGoogle絵文字メーリングリストに投稿し

    絵文字が開いてしまった「パンドラの箱」第2回--Googleの開けてしまった箱の中味
    richard_raw
    richard_raw 2009/03/07
    米国人は天然、ということで(ぇ)
  • 1