[B! 文字コード] indicationのブックマーク

文字コード | 衆議院議員河野太郎公式サイト

2023.05.10 官報に使われる「官報文字」というものがあります。そこには渡辺さんの「辺」の異体字が１４０文字も登録されています。日本語の常用漢字には２１３６文字ありますが、そこには邉や邊などは入っていません。そこでＪＩＳの第四水準までを含むJIS X 0213という標準を定め、スマホやパソコンではここまでを標準的に表示できるようにしています。ところが我が国の戸籍で使ってもよいとされている文字はそれを遙かに超えていて、少なくとも５５，２７０文字もあります。全ての国民の氏名をコンピュータで扱えるようになることを目指して、戸籍統一文字や住基ネット用の統一文字を網羅した「文字情報基盤」を２０１１年に策定し、それにあわせたフォントを作成し、無償で提供しています。この「文字情報基盤」（ＭＪ）には、５８，８６２文字が含まれています。しかし、このＭＪを全庁的に採用している自治体は、川口

indication 2023/05/12

職権修正という大変な仕事を地道に続けたおかげかも。現存しなくても維持しないといけなものは、どうするのだろう。

リンク

ハイフンに似ている横棒を全て統一するᅳㅡ˗𐆑–᭸‒-─−▬𐄐—━‐‑ー﹣―ｰ﹘－⁃➖⁻！ - Qiita

はじめにこれらの横棒、コンピュータにとっては全て違うのですが見分けがつくでしょうか？ -˗ᅳ᭸‐‑‒–—―⁃⁻−▬─━➖ーㅡ﹘﹣－ｰ𐄐𐆑 郵便番号、住所、電話番号など、横棒が使われているデータを扱うとき、人が入力したデータや購入したデータであると、同じ記号が使われていないことはよくあることです。 090-1234-5678 090᭸1234᭸5678 090‑1234‑5678 090−1234−5678 これらの電話番号の文字列も phone_no_list = ['090-1234-5678', '090᭸1234᭸5678', '090‑1234‑5678', '090−1234−5678'] # 文字をUnicodeコードポイントに変換 for n in phone_no_list: # 文字列の４番目の横棒の文字コードを見てみる print(n[3], ord(n[3]

indication 2021/11/04

正規表現に持って行きやすそう。さすがにサロゲートペアはないよね

リンク

Unicode 版美乳テーブルを探せ

美乳テーブルとは「美乳テーブル」という物がある。「EUC-JP の文章を Shift_JIS だと誤認識されない様に、EUC-JP 固有のバイト値を文章先頭付近に埋め込んでおく」という物。具体的に、Shift_JIS には 0xFD と 0xFE が現れず、EUC-JP にはそれが現れるので、その値を含む文字コードを書いておこうという事で、その文字の集合に付いた名前。 “美” = 0xC8FE、“乳” = 0xC6FD。各文字エンコーディングの事情但し、これは EUC-JP での話。一応、文章の先頭付近に日本語の文字を書いておくのは、他の文字エンコーディングでも認識のヒントにはなるけど。逆に「Shift_JIS の文章を EUC-JP だと誤認識されない様にする」には、EUC-JP にはないバイト値の 0x80〜0xA0 を書けばいいんだろうけど、これは沢山ありそうだから、慎

indication 2021/04/04

先頭から読まないといけない事にはじめて気づいた（テーブルを必死に探した）

リンク

[PDF]新元号名で使用する文字コードについて（周知）（平成３１年４月５日経済産業省事務連絡）

indication 2019/04/16

せめて一週間早くほしかったな　→4/5交付で気付くのが遅かったorz

リンク

char8_tによせて - なるせにっき

C++標準化委員会、ついに文字とは何かを理解する: char8_tという記事が話題だってので、つらつらと書いてみました。「グリフ」についてグリフ（glyph）という言葉の定義をめぐってでも触れられていますが、「グリフ」という言葉が「字体」を指すのか「字形」を指すのかってのは議論がありますね。文字コードの文脈では普通「字形」の意味だとして話を進めることが多いように思います。 CJK統合漢字について Wikipediaの記事にまとまっていますが、実際に推進していたのは中国みたいですね。うまくやればあんまり問題なかったんでしょうが、あんまりうまく行かなかったんですが、それでも国ごとにその国の過去にあった文字コードとの互換性は取れているので、実際の所CJK統合漢字ってあんまり問題にはなってないと思うんですよね。中国語フォントと日本語フォントを切り替えないといけないって問題はありますけど、それ

indication 2018/12/24

utf8_tがあれば解決(ちがう)

リンク

文字コード - Global Wiki

ツール文字コードに携わるときに知っておくと便利なツール。 nkf 日本語の文字コードを変換・判別するUnixコマンド。Windows版もあり。 iconv 文字コードを変換するライブラリおよびコマンド。日本語以外にも無数のエンコーディングに対応している。文字コードを判別する機能はない。文字コード表（charmap.exe） Windowsのスタートメニューからアクセサリ→システムツール→文字コード表。指定したフォントで利用できる全文字を表示することができる。「詳細表示」というチェックをオンにするとちょっと機能が増える。メモ帳ご存知 notepad。Windows で扱える文字はすべて扱えると思われる。その意味で信頼性が高い。ASCII (SJIS) の他、Unicode (UTF-16) と UTF-8 でも保存できる。 Stiring Windows のバイナリエディタ。必

indication 2018/05/12

文字コード

リンク

コンピューターで全漢字使用可に６万字コード化 | NHKニュース

日本語の漢字は、戸籍などに使われているものも含めると６万字あるのに対し、コンピューターは、実は１万字しか扱うことができません。これに対し、このほど１５年越しの作業の末、６万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの２つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。このためＩＰＡ＝情報処理推進機構は平成１４年から、経済産業省とともに外字を含めたおよそ６万字の漢字１つ１つに、コードを割りつける作業を進め

indication 2017/12/25

外字で印刷失敗したり、連携がコケて穴掘って謝ったりしなくてよくなる世界は...先が長そう。マイナンバーの賜物かもしれない。MS社に懸ってる。字形マジわからんし、プレビューと印刷で字形が違う

文字コード

リンク

utf8_unicode_ci に対する日本の開発者の見解 - かみぽわーる

RailsがMySQLのcollationをサーバー側のデフォルトのutf8_general_ciからutf8_unicode_ciにわざわざ変えてるのどうせ大した理由じゃないだろと思って掘ってみたらやっぱり大した理由じゃなかった… https://t.co/6NeetGhTF0— Ryuta Kamizono (@kamipo) April 18, 2014 Railsでcollationとしてutf8_unicode_ci(RailsのDEFAULT_COLLATION)が採用されるのはcharsetが未指定もしくはutf8(RailsのDEFAULT_CHARSET)のときだけで、utf8mb4にすることとかは全く考慮されてない。— Ryuta Kamizono (@kamipo) April 19, 2014 @frsyuki MySQLのcharset utf8のときのデフォルト

indication 2015/03/09

覚えておかないと人生を無駄にしそう

リンク

全角チルダ問題

JenkinsとDockerって何が良いの？〜言うてるオレもわからんわ〜 #jenkinsstudyKazuhito Miura

indication 2014/07/07

誰かが、文字コードで人生が無駄になると言っていたように思う。しかしながら、よい資料。

リンク

第2回住民基本台帳ネットワーク統一文字

2002年8月、住民基本台帳ネットワークが稼働した。この住民基本台帳ネットワークにおいて、文字情報をやりとりするために用いられているのが、住民基本台帳ネットワーク統一文字（以下、住基文字）であり、現在は2万1170字を収録している。各市区町村の住民票システム（あるいは住民基本台帳システム）は、内部コードとしてはそれぞれ独自の文字コードを使用する一方、住民基本台帳ネットワークとのやりとりにおいては必ず住基文字を使用する。住基文字には、それぞれ4桁の16進数が割り当てられており、本稿では「J+xxxx」の形で示すことにする。 2万1170字の内訳は、以下のとおり。

indication 2014/07/01

このおかげて何度も朝日を拝んでいる人たちもいるから、減ってほしいと心底願ってる。

リンク

ものかの » UTF-8-MAC なんていう文字コードはありません

「OS X のファイルシステムの文字コードは UTF-8-MAC である」という完全に間違った情報があちこちで見られるので、ここで注意を促しておこうと思います。状況を整理します。OS X のファイルシステムは HFS+。ここでいう文...UTF-8-MAC なんていう文字コードはありません「OS X のファイルシステムの文字コードは UTF-8-MAC である」という完全に間違った情報があちこちで見られるので、ここで注意を促しておこうと思います。状況を整理します。OS X のファイルシステムは HFS+。ここでいう文字コードはテキストエンコーディング。したがって、主題を正確に表現すると「HFS+がファイル名などを管理するときのテキストエンコーディング」ということになりますが、実はこの主題の立て方そのものが間違っています。彼らが問題にしているのは、ファイル名に結合文字列が混在してしま

indication 2013/07/11

iconvの中の人も大変そう

文字コード

リンク

最近の mbstring 動向について(PHP 5.4〜) - t_komuraの日記

PHP 5.4 に向けて、久しぶりに PHP の mbstring に対して機能追加と修正がありましたので、メモしておきます。 PHP 5.4.0 の正式リリースまでに「十分なテストが必要」とのことですので、気になる方はテストに参加した方が良いと思います。変更点は以下の通りです。携帯絵文字のサポート正しい UTF-8 チェックの強化詳しくは以下のページを参照してください。 mbstring/libmbfl：携帯絵文字とUnicode 6.0の相互変換 mbstring/libmbfl 正しいUTF-8チェックの強化携帯絵文字のサポート開発中の PHP-5.4.0alpha3 で新たに追加された文字エンコーディングは以下の通りです。 SJIS-Mobile#DOCOMO SJIS-Mobile#DOCOMO-PUA SJIS-Mobile#KDDI SJIS-Mobile#KDD

indication 2011/08/19

携帯絵文字対応等

リンク

RedmineでCVSとSVNのコミットコメントの文字コードが違う場合の対処 - maru.cc@はてな

現在うちで使っているメインのバージョン管理ツールは SVN(Subversion) だが、過去の案件で CVS を使っているものがある。開発が活発に続いているものは、タイミングをみて SVN へ移行してきたのだが、ひそやかに保守が続いていて、そこまでコストをかけられないものは CVS のままという状況だ。 SVN から GIT などの分散リポジトリも使ってみようということになり、今までは、SVN+Trac だったのを、Redmine に移すことにした。（Redmine を CakePHP へ移植している candycane も考えてみたのだが、ちょっとまだ実務に投入するのは怖いかなぁと。。）せっかく Redmine にするのであれば、CVSの案件もまとめて管理をしようということになり、追加をしようとしたが、CVSのバージョンが古くてリポジトリの追加ができなかった。 Redmine で

indication 2011/07/19

トラブルシューティング

リンク

SQL Server の LEN 関数は文字列の長さを正確に取得出来ない・・・だけじゃない - ぐるぐる～

サロゲート文字*1を含む文字列だと、LEN 関数正しい文字列長を取得出来ない。 -- このSQLを実行すると、1ではなく2が返される SELECT LEN(N'𠮷'); 注意：環境によっては□が表示されるかもしれないけど、実際はつちよし (吉の上が士じゃなくて土) です。以下、□が現れたら脳内変換するか、表示できる環境で見るかしてくだしあ。で、実は問題は LEN 関数だけじゃなくて、他の文字列関数や、文字列型にまで及ぶ。文字列型例えば、nchar(1) 型や nvarchar(1) の列には「𠮷」を格納することは出来ないし*2、nchar(1) 型や nvarchar(1) 型の変数に代入すると、後ろ 1 バイト分が切り詰められ、結果文字化けする。だから例えば、「10 文字あれば十分」と判断したとしても、安直に nvarchar(10) なんてしてはいけないということ。もし

indication 2011/05/23

リンク

Perlクイックリファレンス - 1部 Perl入門 - [SMART]

変数は以下のように値を代入したり出力することができます。 # 変数に文字列を代入 $value = "テストです"; # 変数を出力 print $value; 【参照ページ】変数配列複数の値を1つの変数で管理したい場合は、『配列』という変数が最適です。配列を初期化する場合は､要素をカッコで囲み､各要素毎にカンマで区切ります｡ @week = ('日曜', '月曜', '火曜', '水曜', '木曜', '金曜', '土曜'); 配列はインデックスを使って参照します。インデックスは 0から始まるので注意してください。たとえば1番目のデータ "日曜" を呼び出すときは、$week[0]、"月曜"なら $week[1] とします。 # 配列 @week の1番目の要素を表示 print $week[0], "\n"; > 日曜 # 配列 @week の2番目の要素を表示 print $

indication 2011/04/11

リンク

Escape Codec Library: ecl.js

日頃より楽天のサービスをご利用いただきましてありがとうございます。サービスをご利用いただいておりますところ大変申し訳ございませんが、現在、緊急メンテナンスを行わせていただいております。お客様には、緊急のメンテナンスにより、ご迷惑をおかけしており、誠に申し訳ございません。メンテナンスが終了次第、サービスを復旧いたしますので、今しばらくお待ちいただけますよう、お願い申し上げます。

indication 2010/09/02

リンク

はてなブックマーク

タグ

関連タグで絞り込む (19)

文字コードに関するindicationのブックマーク (16)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス