並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 14 件 / 14件

新着順 人気順

Unicodeの検索結果1 - 14 件 / 14件

  • 文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!|ハイクラス転職・求人情報サイト AMBI(アンビ)

    文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう! 文字コードには、どのような種類があり、それぞれどのような意味を持つのか、といった、文字コードの基本的な概念、従来の文字コードを紹介し、現在のUnicodeの構成を概説し、プログラミングにおいて注意すべき箇所をいくつか取り上げます。 ソフトウェア開発に携わる方の多くは、何らかの形で文字コードに触れることがあるでしょう。文字や記号をコンピュータ上でデータとして扱うには、文字コードの知識が必要不可欠です。 本稿では、書籍『プログラマのための文字コード技術入門』の著者である矢野啓介さんが、知っておきたい基礎知識を分かりやすく解説します。 文字コードとは? Unicode以前の文字コード Unicodeとその主な符号化形式 UTF-16 UTF-32 UTF-8 Webで文字コードを指定する仕組み

      文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!|ハイクラス転職・求人情報サイト AMBI(アンビ)
    • 全ての開発者が知っておくべきUnicodeについての最低限の知識

      2003年には「プレーンテキストなんてものは全く存在しない」と言われ、テキストの解読には文字コードの情報が必須となっていました。しかし、2023年になるまでの20年の間に絵文字などのおかげでUnicodeの利用率は98%へと到達し、再び文字コードを気にせずにすむ時代がやってきています。そんな時代において、正しくUnicodeを使うために必要な知識をエンジニアのニキータ・プロコポフさんが解説しています。 The Absolute Minimum Every Software Developer Must Know About Unicode in 2023 (Still No Excuses!) @ tonsky.me https://tonsky.me/blog/unicode/ Unicodeの歴史と利用率の推移をまとめたグラフは下図の通り。2000年代後半から急速に普及が進んでいったこ

        全ての開発者が知っておくべきUnicodeについての最低限の知識
      • 外字を使うのはやめてくれ! Unicodeへの移行を呼びかけるMicrosoftの公式ブログ記事が話題に/今や「メモ帳」でさえテキストファイルをUnicodeで保存する時代! Shift_JISはやめよう【やじうまの杜】

          外字を使うのはやめてくれ! Unicodeへの移行を呼びかけるMicrosoftの公式ブログ記事が話題に/今や「メモ帳」でさえテキストファイルをUnicodeで保存する時代! Shift_JISはやめよう【やじうまの杜】
        • Unicode 版美乳テーブルを探せ

          美乳テーブルとは 「美乳テーブル」という物がある。 「EUC-JP の文章を Shift_JIS だと誤認識されない様に、EUC-JP 固有のバイト値を文章先頭付近に埋め込んでおく」という物。 具体的に、Shift_JIS には 0xFD と 0xFE が現れず、EUC-JP にはそれが現れるので、その値を含む文字コードを書いておこうという事で、その文字の集合に付いた名前。 “美” = 0xC8FE、“乳” = 0xC6FD。 各文字エンコーディングの事情 但し、これは EUC-JP での話。 一応、文章の先頭付近に日本語の文字を書いておくのは、他の文字エンコーディングでも認識のヒントにはなるけど。 逆に「Shift_JIS の文章を EUC-JP だと誤認識されない様にする」には、EUC-JP にはないバイト値の 0x80〜0xA0 を書けばいいんだろうけど、これは沢山ありそうだから、慎

          • Googleが変体仮名フォント「Noto Hentaigana」をリリース ~蕎麦屋の看板などを再現可能/Unicodeに登録されている変体仮名286文字をカバー

              Googleが変体仮名フォント「Noto Hentaigana」をリリース ~蕎麦屋の看板などを再現可能/Unicodeに登録されている変体仮名286文字をカバー
            • 「Tera Term 5.0」がリリース ~18年ぶりのメジャーバージョンでUnicodeに全面対応/来年で30周年を迎える老舗のリモートログオンクライアント

                「Tera Term 5.0」がリリース ~18年ぶりのメジャーバージョンでUnicodeに全面対応/来年で30周年を迎える老舗のリモートログオンクライアント
              • 「慶応」も「コンクリート」も漢字1文字で ~Unicode標準に新しいブロックが提案中/手書きでしばしば用いられる「部首+カナ」スタイルの略式漢字【やじうまの杜】

                  「慶応」も「コンクリート」も漢字1文字で ~Unicode標準に新しいブロックが提案中/手書きでしばしば用いられる「部首+カナ」スタイルの略式漢字【やじうまの杜】
                • awkが新しくなる!? 本家AwkがUnicode (UTF-8)とCSV対応に! - Qiita

                  はじめに 2023年、長い時を経て awk がとうとう Unicode (UTF-8) と CSV に対応しました 🎉🎉🎉 awk で日本語がうまく扱えない(場合がある)、Excel が出力する CSV ファイルが扱えない(場合がある)、といった問題が解決に向けて一歩に進みます。 去年、本家 awk (One True Awk, nawk) に Unicode サポートが Brian Kernighan の手によって追加されたと話題になった(参照)ことを覚えているでしょうか? Brian Kernighan が誰だか知らない方がいるかもしれないので説明すると、オリジナルの awk の開発者の一人で awk の頭文字、Alfred Aho、Peter Weinberger、Brian Kernighan の一人です。通称「K&R」の「プログラミング言語C」や「プログラミング言語AWK」

                    awkが新しくなる!? 本家AwkがUnicode (UTF-8)とCSV対応に! - Qiita
                  • ZawgyiとUnicode: ミャンマーの文字の電子化について - にせねこメモ

                    まえがき ミャンマーでは公用語としてビルマ語が使われている。ビルマ語の表記にはビルマ文字を用いるのだが、このビルマ文字のインターネット上での使用は、混迷を極めていた。そしておそらく今もまだ…。なぜか? それは、Unicodeという文字コードの標準がありながら、Zawgyiというものが広く使われていたためである。なぜそのようなものが登場し、普及することとなったのか、この記事で解説する。 目次 まえがき 目次 凡例 この記事で使う名称について ビルマ語表記 コードポイント ラテン文字表記について Zawgyiの概説と歴史 Zawgyiとは Zawgyiのダウンロード Zawgyi誕生・普及の経緯 複雑なビルマ文字 ビルマ文字とUnicode 回避策としてのビルマ文字フォントの登場 Zawgyiの普及 Zawgyiの実装 実装の方針 文字の並べ替えをせず、左から右に書く 文字の形のバリエーション

                      ZawgyiとUnicode: ミャンマーの文字の電子化について - にせねこメモ
                    • Unicodeコンソーシアムが提供する“最後の手段”フォント「Last Resort Font」/フォールバック指定しておけばフォントに含まれていないグリフを突き止められる【レビュー】

                        Unicodeコンソーシアムが提供する“最後の手段”フォント「Last Resort Font」/フォールバック指定しておけばフォントに含まれていないグリフを突き止められる【レビュー】
                      • 漢字のようで漢字でないUnicodeの「康熙部首」と「CJK部首補助」|TechRacho by BPS株式会社

                        きっかけ 以下のツイートで「埼玉埼⽟問題」と康煕部首を知りました。 「埼玉」と「埼⽟」の話。unicodedata.normalize('NFKC', '「埼玉」と「埼⽟」') でいけそう https://t.co/kte0sxDvZT — Haruhiko Okumura (@h_okumura) July 11, 2020 康煕部首とは ⼀⼁⼂⼃⼄⼅⼆⼇⼈⼉⼊⼋⼌⼍⼎⼏⼐⼑⼒⼓⼔⼕⼖⼗⼘⼙⼚⼛⼜⼝⼞⼟⼠⼡⼢⼣⼤⼥⼦⼧⼨⼩⼪⼫⼬⼭⼮⼯⼰⼱⼲⼳⼴⼵⼶⼷⼸⼹⼺⼻⼼⼽⼾⼿⽀⽁⽂⽃⽄⽅⽆⽇⽈⽉⽊⽋⽌⽍⽎⽏⽐⽑⽒⽓⽔⽕⽖⽗⽘⽙⽚⽛⽜⽝⽞⽟⽠⽡⽢⽣⽤⽥⽦⽧⽨⽩⽪⽫⽬⽭⽮⽯⽰⽱⽲⽳⽴⽵⽶⽷⽸⽹⽺⽻⽼⽽⽾⽿⾀⾁⾂⾃⾄⾅⾆⾇⾈⾉⾊⾋⾌⾍⾎⾏⾐⾑⾒⾓⾔⾕⾖⾗⾘⾙⾚⾛⾜⾝⾞⾟⾠⾡⾢⾣⾤⾥⾦⾧⾨⾩⾪⾫⾬⾭⾮⾯⾰⾱⾲⾳⾴⾵⾶⾷⾸⾹⾺⾻⾼⾽⾾⾿⿀⿁⿂⿃⿄⿅⿆⿇⿈⿉⿊⿋⿌⿍⿎⿏⿐⿑⿒⿓⿔⿕ KangXi Radica

                          漢字のようで漢字でないUnicodeの「康熙部首」と「CJK部首補助」|TechRacho by BPS株式会社
                        • ChatGPTは文字コードをどのように解釈しているか Unicodeの「日本語認識」「括弧の抽出」「旧字体と新字体の変換」を実験してみた

                          「YAPC(Yet Another Perl Conference)」は、Perlを軸としたITに関わるすべての人のためのカンファレンスです。ライトニングトークにはPR TIMES インターンのShun氏が登壇。ChatGPTと文字コードについて話します。 ChatGPTは文字コードをどのように解釈しているか 土屋俊介氏:こんにちは。先ほど、発表が4分だと知った土屋です。PR TIMESというところで、機械学習のインターンをしています。 (スライドを示して)昨今、ChatGPTというものがメチャメチャはやっていますよね。私は使っていく中で、(ChatGPTが)文字コードをどのように解釈しているかが気になりました。なぜそんなニッチな話が気になるのかというと、自然言語処理とWebに関わっている以上、文字コードに関するプログラムをよく書くんです。その関係で気になったので調べてみました。 (スライ

                            ChatGPTは文字コードをどのように解釈しているか Unicodeの「日本語認識」「括弧の抽出」「旧字体と新字体の変換」を実験してみた
                          • Unicodeに含まれる謎の記号「⍼」の起源を追ったレポートが公開中

                            大規模文字セットのUnicodeは世界中のあらゆる文字を収録することを目指して策定されており、「溶解する顔」や「妊娠中の人」といった個性的な絵文字も数多く登録されています。そんなUnicodeに登録されている正体不明の記号「⍼」について、ブリティッシュコロンビア大学でソフトウェアについて学んでいるジョナサン・チャン氏がまとめています。 U+237C ⍼ RIGHT ANGLE WITH DOWNWARDS ZIGZAG ARROW · Jonathan Chan https://ionathan.ch/2022/04/09/angzarr.html 「⍼」は数学記号用のフォントなどに含まれている記号です。例えば、数式・化学式用フォント「Cambria Math」に含まれる「⍼」を拡大してみるとこんな感じ。カギカッコのような直角と稲妻形の矢印が組み合わさった日常生活では全く目にすることのない

                              Unicodeに含まれる謎の記号「⍼」の起源を追ったレポートが公開中
                            • Twitterで「機種依存文字 Unicode」と検索するとなぜか自殺を制止されるロジックが判明【やじうまWatch】

                                Twitterで「機種依存文字 Unicode」と検索するとなぜか自殺を制止されるロジックが判明【やじうまWatch】
                              1