タグ

charsetに関するmas-higaのブックマーク (21)

  • ZawgyiとUnicode: ミャンマーの文字の電子化について - にせねこメモ

    まえがき ミャンマーでは公用語としてビルマ語が使われている。ビルマ語の表記にはビルマ文字を用いるのだが、このビルマ文字のインターネット上での使用は、混迷を極めていた。そしておそらく今もまだ…。なぜか? それは、Unicodeという文字コードの標準がありながら、Zawgyiというものが広く使われていたためである。なぜそのようなものが登場し、普及することとなったのか、この記事で解説する。 目次 まえがき 目次 凡例 この記事で使う名称について ビルマ語表記 コードポイント ラテン文字表記について Zawgyiの概説と歴史 Zawgyiとは Zawgyiのダウンロード Zawgyi誕生・普及の経緯 複雑なビルマ文字 ビルマ文字とUnicode 回避策としてのビルマ文字フォントの登場 Zawgyiの普及 Zawgyiの実装 実装の方針 文字の並べ替えをせず、左から右に書く 文字の形のバリエーション

    ZawgyiとUnicode: ミャンマーの文字の電子化について - にせねこメモ
  • マイナンバーの行く手に見えてきた厄介な課題

    ついにマイナンバー制度の情報連携と、マイナポータルの試行運用が、7月18日に始まった。情報連携を担うのは、国の機関や自治体が個別に保有している住民個人情報を連携させる「情報提供ネットワークシステム」である。制度としては試行運用だが、マイナンバー制度の基盤を支えるシステムとしては格稼働したことになる。もうひとつのマイナポータルは、住民が自身の登録情報や情報連携の履歴を確認できるインターネット上のサイトであり、正式な名称は「情報提供等記録開示システム」という。 「ついに」と書いたが、各種メディアでの扱いはこじんまりとしたものだ。2015年秋にマイナンバーの通知カードの発送が始まったときや、2016年初めにマイナンバーカードの交付が始まったときは、テレビなどでも盛んに報道されたが、今回は総じてひっそりとしている。 通知カードは全国民に配布されたし、マイナンバーカードは申請が必要だが実体があるカ

    マイナンバーの行く手に見えてきた厄介な課題
    mas-higa
    mas-higa 2017/07/28
    20年ほど前、当時住んでた市から「おまえの名字は PC で入力できんから、この漢字に変えといたで」的な通知がきてた。今にして思えば単なる異字体でヒラギノなんかには入ってる。
  • http://www.ysnb.net/meadow/meadow-users-jp/2012/msg00012.html

    [Message Prev][Message Next][Thread Prev][Thread Next][Message Index][Thread Index] Re: [質問] Emacs24 環境依存文字が正しく表示されない X-ml-count: 7466 Subject: Re: [質問] Emacs24 環境依存文字が正しく表示されない From: Takahiro Yamaguchi <Takahiro.Yamaguchi@xxxxxxxxxxx> Date: Thu, 02 Aug 2012 02:32:44 +0100 User-agent: Wanderlust/2.15.9 (Almost Unreal) SEMI/1.14.6 (Maruoka) LIMIT/1.14.10 (Furuichi) APEL/10.7 Emacs/24.1 (i386-mingw-

  • Gmailが日本語など非アルファベット文字を含むメールアドレスとの送受信に対応

    Google日、日語を含む非アルファベット文字を使うメールアドレスとの送受信に対応させると発表しました。 Official Google Blog: A first step toward more global email http://googleblog.blogspot.jp/2014/08/a-first-step-toward-more-global-email.html 従来、メールアドレスに使える文字はAからZまでのラテン文字(アルファベット)だけで、非アルファベットを使用した場合、Gmailから認識することはできず、メールの送受信は不可能でした。この状況を改善して、Googleは日語や中国語、アクセントつきのラテン特殊文字などをGmail側から認識できるようにしました。これにより、例えば、「武@メール.グーグル」というメールアドレスからのメールを受信でき、またこの

    Gmailが日本語など非アルファベット文字を含むメールアドレスとの送受信に対応
    mas-higa
    mas-higa 2014/08/07
    アクサンの向き間違ったら、違う人にメール届いたりするん?
  • 80〜90年代のシフトJISの諸方言について

    PCの黎明期には、各社がシフトJISにベンダ外字セットを独自に付け加えていたものでした。ついこの間のことだと思っていたら、今それらの機種依存文字の詳細を調べようと思うとなかなか骨なようです。

    80〜90年代のシフトJISの諸方言について
    mas-higa
    mas-higa 2013/05/15
    8bit PCの時代に「檜」のコードに「桧」のグリフを当ててもいいと JIS で決まってるって見た気がするが、ソースが見つからない。
  • いいから聞け! 俺が文字コードについて教えてやるよ その1(前提知識編) - 谷本 心 in せろ部屋

    ちょっと久々のJavaネタですが、 前から書き溜めていた、文字コードやエンコードについてのノウハウを書きます。 今回は、詳細な説明に入る前に、前提になる知識や用語について説明しておきます。 文字コードとエンコードって違うの? 新人くん「では、HTMLの文字コードはUTF-8でお願いします」 先輩社員「文字コードじゃなくてエンコーディングでしょ?」 新人くん「えっ。あぁ、はい、それで」 文字コードとエンコード(エンコーディング)を混同して使ったりすると、 ちょっと原理主義的な人に怒られたりするんですけど、 大まかに言えば、「文字コード」は文字に割り当てられた「数字」のことで、 「エンコード」は文字と数字をマッピングする「方式」のことだと捉えていれば、大きくは外れません。 ただ、「文字コード」という言葉は、「数字」「方式」の両方で使われるほか、 文字一覧を示す「Charset」という意味で使わ

    いいから聞け! 俺が文字コードについて教えてやるよ その1(前提知識編) - 谷本 心 in せろ部屋
    mas-higa
    mas-higa 2011/06/17
    "char*" は「キャラアスター」で "charset" は「チャーセット」って言っちゃうな。あと Java 関係ない。
  • いろんな日本語EUCについてのまとめ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    語EUC(EUC-JP)にはいろいろあって頭がこんがらがってきたので、サルにもわかるように(つまり、自分があとから見て理解できるように)まとめてみた*1。まず、EUC-JPにはどんな種類があるのだろうということで、わたしの環境で実装例を確認できるものをピックアップしてみた。下図のうちeucJP-openとIANAのEUC-JPについては身近な実装例を思いつかなかったが、これを外すわけにはいかないだろうと思って入れておいた。 各EUC-JPのレパートリをまとめたのが、下図。eucJP-openには上図に示したようなバリエーションがあるが、レパートリは共通。「JIS X 0208の国際基準版・漢字用8ビット符号 + JIS X 0201片仮名」については、これを一言で表現できる呼称を思いつかないので、以下の図では仮に「TextEdit」と表記する。 下図は、各EUC-JPのレパートリと符号

    いろんな日本語EUCについてのまとめ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • 2010-02-14 - 未来のいつか/hyoshiokの日記

    例えば、次の言葉の意味を知りたい、聞いたことがあるけどよく分かっていないプログラマにとって、お勧めの書籍だ。Unicode/UTF-8/UTF-16/USC-2/JIS X0208/JIS X0212/JIS X0213/SJIS/EUC-JP/CP932/ISO-2022-JP/ASCII/Latin-1/ISO 10646/ISO 8859-1/サロゲートペア/文字化け/機種依存文字/半角カナ/絵文字… JIS X0208やJIS X0213の解説などは圧巻である。書籍にはWebにない利点がある。Webには即時性があるが、文字コードの解説においては、即時性はそれほど求められない。字体ないし字形の差異についてWebではその字体ないし字形がなければ表現しようがないが、書籍であれば細部までこだわって表現できる。 例えば、包摂された「辻」という字の一点しんにょうと二点しんにょうの字体の差はWe

    2010-02-14 - 未来のいつか/hyoshiokの日記
    mas-higa
    mas-higa 2010/02/15
    文字コードの世界は BK 満載で面白いなぁ。
  • アポストロフィの悩み | Okumura's Blog

    何でもいいから英語の単語に「痴」を付けてGoogleで検索してみる。例えば「he痴」でもいい。うまく見つからなければ,例えば Shakespeare痴 Got A Gun を見てみる。英語のサイトなのに何でこう「痴」が多いのか(うまく「痴」に見えないなら,ブラウザのデフォルトのエンコーディングをシフトJISにしてみてください)。 答え:Windows-1252(CP1252)のアポストロフィは 0x92 であり,これにs(0x73)が付くと 92 73 となり,これはシフトJISで「痴」になる。つまり,「He's」が「He痴」に化けるページはアポストロフィをWindows-1252でエンコーディングし,エンコーディング指定をしていないのでシフトJISで表示してしまったのである。書いた人はLatin-1(ISO 8859-1)のつもりかもしれない。 アポストロフィは '(0x27)でいいの

  • pは$KCODEを指定しないと8進記法で表示される - http://rubikitch.com/に移転しました

    コマンドの実行結果を得る - CodeObs. p s=`date` これで良い筈だけど、私の環境では結果+文字化けした文字列が表示されます。 文字化けかどうかはなんともいえないが、8進記法だったら pの前に $KCODE='e' か $KCODE='s' か $KCODE='u' を入れてみよう。e=EUC-JP, s=Shift_JIS, u=UTF-8だ。 `date`の返す文字列の文字コードと端末の文字コードが一致していたら文字化けは直るだろう。 一致してないと文字化けするので気になる場合は require 'kconv' してから「.toeuc」、「.tosjis」、「.toutf8」メソッドを適用してみましょう。 require 'kconv' $KCODE='e' p `date`.toeuc

    pは$KCODEを指定しないと8進記法で表示される - http://rubikitch.com/に移転しました
  • Japanese Filename|RFC2231の誤り

    目次 はじめに MIME ヘッダ ファイル名の記述方法 現状の Windows のメイラーにおける日語ファイル名の取り扱い RFC 2231 RFC 2231 の誤り はじめに Windows のメイラーでは日語のファイル名の付いた添付ファイルを扱えるものがほとんどであるが、その実装は正しいのであろうか? 実はほどんどが誤りである。しかし、誤りではあるが同じ方法を実装していれば相互間の運用にはそれほど不都合はないため、Windows しか使っていないユーザーは誤りであることに気が付かないことが多い。定義されていない実装であるから当然のことながら、正しい実装をしている IMAP サーバやメイラーではそのファイル名を認識できない。末転倒である。そこで、ここでは添付ファイルにおける日語のファイル名について考察を行っていくことにする。 MIME ヘッダ まず、この文書を理解するために必要な

  • Japanese in the header

    目次 関連する RFC quoted-string と日語の扱いに関して encoded-word 前後の空白文字 Subject 全体を符号化することに関して ヘッダにおける JIS コードの扱い 添付ファイルにおける日語のファイル名 関連する RFC Internet Message Format 基中の基である RFC 822 の改定版。 RFC 2047 "MIME Part Three: Message Header Extensions for Non-ASCII Text" ヘッダで日語を扱うには基的にはこの方法による。 RFC 2231 "MIME Parameter Value and Encoded Word Extensions: Character Sets, Languages, and Continuations ヘッダで parameter として

  • https://emaillab.org/essay/japanese-character.html

  • 404 Page Not Found. - GMOインターネット

    404 Error - Page Not Found. 指定されたページ(URL)は見つかりません GMOインターネットのページへ戻る Copyright (c) 2020 GMO Internet, Inc. All Rights Reserved.

  • Infoseek[インフォシーク] - 楽天が運営するポータルサイト

    Infoseek, およびInfoseekロゴは 楽天株式会社の商標です。 これら以外のマークは、それぞれ関係各社の商標および登録商標です。 Copyright (c) Rakuten, Inc. All Rights Reserved.

    Infoseek[インフォシーク] - 楽天が運営するポータルサイト
  • 東京大学総合研究博物館 デジタルミュージアム展

    文字文化の継承と未来 はじめに グーテンベルグ以来の文字文化の革命 日語の漢字は何文字あるのか 電子文字の準備がなぜ遅れているのか 文字使用に関する知的怠惰の蔓延 外字の非効率性 情報基盤としての文字 図書目録の試作 テクストは文字の集合 のない電子図書館? 「漢字は奥が深いですよ」 現在流通している漢字の収集 漢字データ・ベースの構築 まずは2万字、そして6万字の漢字を目指して 各要素で引ける漢字データ・ベース 国字、異体字、難字の収集 多国語テクスト処理の現状 画像から文字を切り出す方法 プロジェクト紹介 昨年から主として日語の文字を電子化するプロジェクトを推進してきた。 文字文化の未来はデジタル・ミュージアム構想とも無縁ではありえない と思うので、 ここにプロジェクトの概要と達成すべき課題とを簡単に紹介しておきたい。 そもそもがわれわれのプロジェクトは「世界のありとあらゆる文字

  • japanese font, charactor code / 日本語フォント、文字コード

    書籍 文字コードに関する入門 文字コード超研究 図解雑学 文字コード インターネット時代の文字コード 漢字問題と文字コード JIS規格 JISハンドブック 情報基 - JIS X 0201,0208,0213,0221等の規格が載っている(目次のpdf)。 PCやUNIXでの文字処理について パソコンにおける日語処理・文字コード - (サポートページ) UNIX System 5—リリース4国際化機能 CJKV日中韓越情報処理 - ((著者)Ken Lunde's Home Page) 各国の文字コード 文字コードの世界 - 出版元のページ 文字符号の歴史—欧米と日編 文字符号の歴史 アジア編 漢字について e康煕字典 日語版 [CD-ROM] - (出版元のページ) 日の漢字 知っておきたい漢字の知識 メーリングリスト JIS X 0213 Mail Listの御案内 UTF-

  • ほら貝:文字コード

    <BODY BGCOLOR="#04CBCA" LINK="#00008B" VLINK="#403C3C"> <H1><FONT SIZE=5>文字コード問題を考える</FONT></H1> <BR>&nbsp; <BR> <HR> <BR> <DL><DL><DL><FONT FACE="MS明朝"> <DT><B><A HREF="revised.htm">◇</A> 主な変更履歴</B> <DD><BR> <DT><B><A HREF="show.htm">◇</A> 小は大をかねるか?</B> <DD><BR> <DT><B><A HREF="revised.htm">◇</A> 主な変更履歴</B>            Nov07 1998更新 <DD>&nbsp; <DT><B><A HREF="show.htm">◇</A> 小は大をかねるか?</B>         N

  • Shift-JISテキストを正しく扱う perl 日本語パターンマッチ正規表現 の問題と落とし穴

    最近の更新履歴 2006-10-28: 「Shift-JISの漢字を含むファイル名/パス名」について若干追記。 2005-03-26: 「最初に」中、XML日語プロファイル第2版に基づき、若干追記。 2005-03-09: 「最初に」中、文章を若干修正。 2003-06-24: Shift-JISの漢字を含むファイル名/パス名 2003-05-31: 「最初に」中、「シフトJIS」などの表記について。 2003-05-24: CP932重複定義文字の変換 2002-08-30: Perl 5.8.0 について。 2002-01-17: 長い文字列に対する正規表現検索 2001-12-15: ShiftJIS::Collate が overrideCJK パラメータを廃止したことに伴う 日語文字列を並び替えるの書き換え。 最初に 日語の文字コードにはいくつかのものが使われています。ある

  • 文字コード最新リンク集2005

    正規表現/文字コード最新リンク2005 [3000URL最新人気リンク発表][お報せ][開発管理運営者][サイトマップ] ★リンク追加希望はホムペ紹介掲示板へ | 文字主体の高速表示リンク集 | 紹介文付き ■:最近行ってない | ■:最近行った | ●リンク切れ最終チェック:2003/10/26 NEWSだ!(^o^)/ : 台風 - 地図検索 Start is Hello world : HSP - C - Borland - VB - DLL&OCX - Web開発 - DB - 正規表現 コミュニティ : 掲示板 - 市場 - 出会い  トレンド : そよ風くん(風力発電機) メモ帳(M)あります : 小説 - 料理 - 占い - ? - 辞書&文例 - HARD - SOFT - 政 - 名スレ ◆文字コード表 ◆日はjp ◆Unicode時代のWeb開発 ◆Un