タグ

文字コードに関するindicationのブックマーク (16)

  • 文字コード | 衆議院議員 河野太郎公式サイト

    2023.05.10 官報に使われる「官報文字」というものがあります。 そこには渡辺さんの「辺」の異体字が140文字も登録されています。 日語の常用漢字には2136文字ありますが、そこには邉や邊などは入っていません。 そこでJISの第四水準までを含むJIS X 0213という標準を定め、スマホやパソコンではここまでを標準的に表示できるようにしています。 ところが我が国の戸籍で使ってもよいとされている文字はそれを遙かに超えていて、少なくとも55,270文字もあります。 全ての国民の氏名をコンピュータで扱えるようになることを目指して、戸籍統一文字や住基ネット用の統一文字を網羅した「文字情報基盤」を2011年に策定し、それにあわせたフォントを作成し、無償で提供しています。 この「文字情報基盤」(MJ)には、58,862文字が含まれています。 しかし、このMJを全庁的に採用している自治体は、川口

    文字コード | 衆議院議員 河野太郎公式サイト
    indication
    indication 2023/05/12
    職権修正という大変な仕事を地道に続けたおかげかも。現存しなくても維持しないといけなものは、どうするのだろう。
  • ハイフンに似ている横棒を全て統一するᅳㅡ˗𐆑–᭸‒-─−▬𐄐—━‐‑ー﹣―ー﹘-⁃➖⁻! - Qiita

    はじめに これらの横棒、コンピュータにとっては全て違うのですが 見分けがつくでしょうか? -˗ᅳ᭸‐‑‒–—―⁃⁻−▬─━➖ーㅡ﹘﹣-ー𐄐𐆑 郵便番号、住所、電話番号など、横棒が使われているデータを扱うとき、 人が入力したデータや購入したデータであると、同じ記号が使われていないことはよくあることです。 090-1234-5678 090᭸1234᭸5678 090‑1234‑5678 090−1234−5678 これらの電話番号の文字列も phone_no_list = ['090-1234-5678', '090᭸1234᭸5678', '090‑1234‑5678', '090−1234−5678'] # 文字をUnicodeコードポイントに変換 for n in phone_no_list: # 文字列の4番目の横棒の文字コードを見てみる print(n[3], ord(n[3]

    ハイフンに似ている横棒を全て統一するᅳㅡ˗𐆑–᭸‒-─−▬𐄐—━‐‑ー﹣―ー﹘-⁃➖⁻! - Qiita
    indication
    indication 2021/11/04
    正規表現に持って行きやすそう。さすがにサロゲートペアはないよね
  • Unicode 版美乳テーブルを探せ

    美乳テーブルとは 「美乳テーブル」という物がある。 「EUC-JP の文章を Shift_JIS だと誤認識されない様に、EUC-JP 固有のバイト値を文章先頭付近に埋め込んでおく」という物。 具体的に、Shift_JIS には 0xFD と 0xFE が現れず、EUC-JP にはそれが現れるので、その値を含む文字コードを書いておこうという事で、その文字の集合に付いた名前。 “美” = 0xC8FE、“乳” = 0xC6FD。 各文字エンコーディングの事情 但し、これは EUC-JP での話。 一応、文章の先頭付近に日語の文字を書いておくのは、他の文字エンコーディングでも認識のヒントにはなるけど。 逆に「Shift_JIS の文章を EUC-JP だと誤認識されない様にする」には、EUC-JP にはないバイト値の 0x80〜0xA0 を書けばいいんだろうけど、これは沢山ありそうだから、慎

    indication
    indication 2021/04/04
    先頭から読まないといけない事にはじめて気づいた(テーブルを必死に探した)
  • [PDF]新元号名で使用する文字コードについて(周知)(平成31年4月5日経済産業省事務連絡)

    indication
    indication 2019/04/16
    せめて一週間早くほしかったな →4/5交付で気付くのが遅かったorz
  • char8_tによせて - なるせにっき

    C++標準化委員会、ついに文字とは何かを理解する: char8_tという記事が話題だってので、つらつらと書いてみました。 「グリフ」について グリフ(glyph)という言葉の定義をめぐって でも触れられていますが、「グリフ」という言葉が「字体」を指すのか「字形」を指すのかってのは議論がありますね。文字コードの文脈では普通「字形」の意味だとして話を進めることが多いように思います。 CJK統合漢字について Wikipediaの記事にまとまっていますが、実際に推進していたのは中国みたいですね。うまくやればあんまり問題なかったんでしょうが、あんまりうまく行かなかったんですが、それでも国ごとにその国の過去にあった文字コードとの互換性は取れているので、実際の所CJK統合漢字ってあんまり問題にはなってないと思うんですよね。中国フォントと日フォントを切り替えないといけないって問題はありますけど、それ

    char8_tによせて - なるせにっき
    indication
    indication 2018/12/24
    utf8_tがあれば解決(ちがう)
  • 文字コード - Global Wiki

    ツール 文字コードに携わるときに知っておくと便利なツール。 nkf 日語の文字コードを変換・判別するUnixコマンド。Windows版もあり。 iconv 文字コードを変換するライブラリおよびコマンド。 日語以外にも無数のエンコーディングに対応している。 文字コードを判別する機能はない。 文字コード表(charmap.exe) Windowsのスタートメニューからアクセサリ→システムツール→文字コード表。指定したフォントで利用できる全文字を表示することができる。 「詳細表示」というチェックをオンにするとちょっと機能が増える。 メモ帳 ご存知 notepad。Windows で扱える文字はすべて扱えると思われる。その意味で信頼性が高い。ASCII (SJIS) の他、Unicode (UTF-16) と UTF-8 でも保存できる。 Stiring Windowsバイナリエディタ。必

  • コンピューターで全漢字使用可に 6万字コード化 | NHKニュース

    語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。 中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に名の外字を充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。 このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進め

    コンピューターで全漢字使用可に 6万字コード化 | NHKニュース
    indication
    indication 2017/12/25
    外字で印刷失敗したり、連携がコケて穴掘って謝ったりしなくてよくなる世界は...先が長そう。マイナンバーの賜物かもしれない。MS社に懸ってる。字形マジわからんし、プレビューと印刷で字形が違う
  • utf8_unicode_ci に対する日本の開発者の見解 - かみぽわーる

    RailsMySQLのcollationをサーバー側のデフォルトのutf8_general_ciからutf8_unicode_ciにわざわざ変えてるのどうせ大した理由じゃないだろと思って掘ってみたらやっぱり大した理由じゃなかった… https://t.co/6NeetGhTF0— Ryuta Kamizono (@kamipo) April 18, 2014 Railsでcollationとしてutf8_unicode_ci(RailsのDEFAULT_COLLATION)が採用されるのはcharsetが未指定もしくはutf8(RailsのDEFAULT_CHARSET)のときだけで、utf8mb4にすることとかは全く考慮されてない。— Ryuta Kamizono (@kamipo) April 19, 2014 @frsyuki MySQLのcharset utf8のときのデフォルト

    utf8_unicode_ci に対する日本の開発者の見解 - かみぽわーる
    indication
    indication 2015/03/09
    覚えておかないと人生を無駄にしそう
  • 全角チルダ問題

    JenkinsとDockerって何が良いの? 〜言うてるオレもわからんわ〜 #jenkinsstudyKazuhito Miura

    全角チルダ問題
    indication
    indication 2014/07/07
    誰かが、文字コードで人生が無駄になると言っていたように思う。しかしながら、よい資料。
  • 第2回 住民基本台帳ネットワーク統一文字

    2002年8月、住民基台帳ネットワークが稼働した。この住民基台帳ネットワークにおいて、文字情報をやりとりするために用いられているのが、住民基台帳ネットワーク統一文字(以下、住基文字)であり、現在は2万1170字を収録している。 各市区町村の住民票システム(あるいは住民基台帳システム)は、内部コードとしてはそれぞれ独自の文字コードを使用する一方、住民基台帳ネットワークとのやりとりにおいては必ず住基文字を使用する。住基文字には、それぞれ4桁の16進数が割り当てられており、稿では「J+xxxx」の形で示すことにする。 2万1170字の内訳は、以下のとおり。

    第2回 住民基本台帳ネットワーク統一文字
    indication
    indication 2014/07/01
    このおかげて何度も朝日を拝んでいる人たちもいるから、減ってほしいと心底願ってる。
  • ものかの » UTF-8-MAC なんていう文字コードはありません

    「OS X のファイルシステムの文字コードは UTF-8-MAC である」という完全に間違った情報があちこちで見られるので、ここで注意を促しておこうと思います。 状況を整理します。OS X のファイルシステムは HFS+。ここでいう文...UTF-8-MAC なんていう文字コードはありません 「OS X のファイルシステムの文字コードは UTF-8-MAC である」という完全に間違った情報があちこちで見られるので、ここで注意を促しておこうと思います。 状況を整理します。OS X のファイルシステムは HFS+。ここでいう文字コードはテキストエンコーディング。したがって、主題を正確に表現すると「HFS+がファイル名などを管理するときのテキストエンコーディング」ということになりますが、実はこの主題の立て方そのものが間違っています。 彼らが問題にしているのは、ファイル名に結合文字列が混在してしま

    indication
    indication 2013/07/11
    iconvの中の人も大変そう
  • 最近の mbstring 動向について(PHP 5.4〜) - t_komuraの日記

    PHP 5.4 に向けて、久しぶりに PHP の mbstring に対して機能追加と修正がありましたので、メモしておきます。 PHP 5.4.0 の正式リリースまでに「十分なテストが必要」とのことですので、気になる方はテストに参加した方が良いと思います。 変更点は以下の通りです。 携帯絵文字のサポート 正しい UTF-8 チェックの強化 詳しくは以下のページを参照してください。 mbstring/libmbfl:携帯絵文字とUnicode 6.0の相互変換 mbstring/libmbfl 正しいUTF-8チェックの強化 携帯絵文字のサポート 開発中の PHP-5.4.0alpha3 で新たに追加された文字エンコーディングは以下の通りです。 SJIS-Mobile#DOCOMO SJIS-Mobile#DOCOMO-PUA SJIS-Mobile#KDDI SJIS-Mobile#KDD

    最近の mbstring 動向について(PHP 5.4〜) - t_komuraの日記
    indication
    indication 2011/08/19
    携帯絵文字対応等
  • RedmineでCVSとSVNのコミットコメントの文字コードが違う場合の対処 - maru.cc@はてな

    現在うちで使っているメインのバージョン管理ツールは SVN(Subversion) だが、過去の案件で CVS を使っているものがある。 開発が活発に続いているものは、タイミングをみて SVN へ移行してきたのだが、ひそやかに保守が続いていて、そこまでコストをかけられないものは CVS のままという状況だ。 SVN から GIT などの分散リポジトリも使ってみようということになり、今までは、SVN+Trac だったのを、Redmine に移すことにした。 (Redmine を CakePHP へ移植している candycane も考えてみたのだが、ちょっとまだ実務に投入するのは怖いかなぁと。。) せっかく Redmine にするのであれば、CVSの案件もまとめて管理をしようということになり、追加をしようとしたが、CVSのバージョンが古くてリポジトリの追加ができなかった。 Redmine

    RedmineでCVSとSVNのコミットコメントの文字コードが違う場合の対処 - maru.cc@はてな
    indication
    indication 2011/07/19
    トラブルシューティング
  • SQL Server の LEN 関数は文字列の長さを正確に取得出来ない・・・だけじゃない - ぐるぐる~

    サロゲート文字*1を含む文字列だと、LEN 関数正しい文字列長を取得出来ない。 -- このSQLを実行すると、1ではなく2が返される SELECT LEN(N'𠮷'); 注意:環境によっては□が表示されるかもしれないけど、実際はつちよし (吉の上が士じゃなくて土) です。 以下、□が現れたら脳内変換するか、表示できる環境で見るかしてくだしあ。 で、実は問題は LEN 関数だけじゃなくて、他の文字列関数や、文字列型にまで及ぶ。 文字列型 例えば、nchar(1) 型や nvarchar(1) の列には「𠮷」を格納することは出来ないし*2、nchar(1) 型や nvarchar(1) 型の変数に代入すると、後ろ 1 バイト分が切り詰められ、結果文字化けする。 だから例えば、「10 文字あれば十分」と判断したとしても、安直に nvarchar(10) なんてしてはいけないということ。 もし

    SQL Server の LEN 関数は文字列の長さを正確に取得出来ない・・・だけじゃない - ぐるぐる~
  • Perlクイックリファレンス - 1部 Perl入門 - [SMART]

    変数は以下のように値を代入したり出力することができます。 # 変数に文字列を代入 $value = "テストです"; # 変数を出力 print $value; 【参照ページ】 変数 配列 複数の値を1つの変数で管理したい場合は、『配列』という変数が最適です。 配列を初期化する場合は、要素をカッコで囲み、各要素毎にカンマで区切ります。 @week = ('日曜', '月曜', '火曜', '水曜', '木曜', '金曜', '土曜'); 配列はインデックスを使って参照します。インデックスは 0から始まるので注意してください。たとえば1番目のデータ "日曜" を呼び出すときは、$week[0]、"月曜"なら $week[1] とします。 # 配列 @week の1番目の要素を表示 print $week[0], "\n"; > 日曜 # 配列 @week の2番目の要素を表示 print $

    Perlクイックリファレンス - 1部 Perl入門 - [SMART]
  • Escape Codec Library: ecl.js

    日頃より楽天のサービスをご利用いただきましてありがとうございます。 サービスをご利用いただいておりますところ大変申し訳ございませんが、現在、緊急メンテナンスを行わせていただいております。 お客様には、緊急のメンテナンスにより、ご迷惑をおかけしており、誠に申し訳ございません。 メンテナンスが終了次第、サービスを復旧いたしますので、 今しばらくお待ちいただけますよう、お願い申し上げます。

  • 1