タグ

文字コードに関するvanbraamのブックマーク (7)

  • ロシアの一修道院に保管されている教会スラヴ語訳聖書に一回だけ登場する文字「ꙮ」

    ティラノサウルス @7XL03 多眼O、ロシアの一修道院に保管されている教会スラヴ語訳聖書に一回だけ登場する「мн҄оꙮ҄читїи҄(たくさんの眼がある)」という語彙を表すためだけにあるらしくて熱すぎる pic.twitter.com/N5Th6O5B2H 2022-05-06 19:11:34

    ロシアの一修道院に保管されている教会スラヴ語訳聖書に一回だけ登場する文字「ꙮ」
    vanbraam
    vanbraam 2022/05/13
    全然関係ないけど,失われたヤ行エ段の文字を連想した.こちらはUnicodeには含まれてないけど; cf https://ja.wikipedia.org/wiki/%E3%82%84%E8%A1%8C%E3%81%88
  • ことばマガジン:朝日新聞デジタル

    能登半島地震 パレスチナ情勢 速報 朝刊 記事一覧 紙面ビューアー 夕刊 記事一覧 紙面ビューアー 連載 ランキング その他 コメントプラス ニュースの要点 特集 動画・音声・写真 土曜別刷り「be」 記者イベント 天気 数独 12星座占い サイトマップ 検索 ヘルプ Q&A(よくある質問) 総合ガイド お申し込み ログイン マイページ 有料会員紙面ビューアーコース登録済み 無料会員(クーポン適用中)紙面ビューアーコース登録済み 無料会員紙面ビューアーコース登録済み 朝日ID会員 紙面ビューアーコース お客様サポート(個人設定) お客様サポート(個人設定) お客様サポート(個人設定) メール設定 スクラップブック MYキーワード 会員特典・プレゼント 提携プレミアムサービス ログアウト

    ことばマガジン:朝日新聞デジタル
    vanbraam
    vanbraam 2017/11/19
    via b:id:entry:349428002;"JIS漢字に入っているのに意味や読みが不明"な"JIS幽霊文字"の"彁"が大正12年朝日新聞PDFに,と思ったら"彊"だった,スキャン&認識失敗では?という話
  • 絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama

    UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語

    絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama
    vanbraam
    vanbraam 2017/11/15
    "ほとんどの絵文字は他の最近採用された文字と同じくUTF-16では4バイト必要なのだが、どの言語でも極端に利用頻度が高いので、急に世界中の誰もがサロゲートペアについてきちんと考えざるを得なくなった"<なるほどなぁ
  • シフトJISを使い続ける上場企業をまとめてみた - megamouthの葬列

    srad.jp こういうニュースがあった。世界のWebサイトの90%がutf-8を使用している、という。 昔、シフトJISでエンコードされたPHPファイルを編集させられた時、「表示」が表示できず(文字通りの意味である)バイナリリテラルを書いていたことを思い出す。 文字コード断絶の歴史を乗り越え、世界はようやくUnicodeの元に集結したのである。 日の上場企業のcharset指定状況 さて、美しいニッポンである我が国はどうであろうか、 www.pathfindergate.com 私は上記のサイトより早速日の上場企業のHPのリストをダウンロードさせていただくと、さらっとクローラーを書いてHTTPヘッダのcharsetとmetaタグのcharset、ついでにDOCTYPE宣言を集計することにした。 というのは実は嘘で、去年の12月頃にクローラーは出来上がっていたのだ。この記事が出る前にと

    シフトJISを使い続ける上場企業をまとめてみた - megamouthの葬列
    vanbraam
    vanbraam 2017/10/21
    マキタが"Bluetoothスピーカーなどで有名"というのは違和感ある."などでも"ならいいのだが;XHTML意外と多いんだな
  • HTML文書は文字エンコーディングUTF-8でなければなりません - 水底の血

    さよならレガシーエンコーディング。 文字エンコーディング宣言が存在するかどうかにかかわらず、文書のエンコードに使用される実際の文字エンコーディングはUTF-8でなければならない。 4.2.5.5 文書の文字エンコーディングを指定する - HTML Standard 日語訳 Require utf-8 when specifying character encoding by sideshowbarker · Pull Request #3091 · whatwg/htmlにより、HTMLで使用できるエンコーディングはUTF-8のみとなりました。これにより、古いHTMLでは許容されていた、Shift_JIS、ISO-2022-JP、EUC-JP、UTF16LEといった文字エンコーディングは適合するHTMLではなくなりました。すでにNu Html CheckerでUTF-8以外の文字エンコー

    HTML文書は文字エンコーディングUTF-8でなければなりません - 水底の血
  • APFSで再燃したNFD問題 - Qiita

    iOS 10.3 でAPFSが番投入されました。それでiPhoneiPadが文鎮化するなどの深刻な問題はみられなかったものの、やはり無問題とはいかなかったようで。 iOS10.3で不具合の出るアプリは、APFS関連の影響かも(Unicode Normalizationの振る舞いが変わったらしい)。GoodReaderとDropboxの同期でエラーが出るようになったのだが、ファイル名に濁点を含むファイルを除いたら同期できるように。 — 山路達也 (@Tats_y) March 29, 2017 原因を調べてみました。 #!/usr/bin/env perl use strict; use warnings; use feature ':all'; use Encode; use Unicode::Normalize; use utf8; binmode STDOUT, ':utf8';

    APFSで再燃したNFD問題 - Qiita
  • C/C++のとんだ落とし穴(ハマっちまったよ) - 檜山正幸のキマイラ飼育記 (はてなBlog)

    とあるC++コードがコンパイルエラーするんですが、原因がまったく分からなかったんですよ。「そんなバカな?!」という感じ。しばらくハマってしまいましたよ。 結局、C++でもCでも同じことが起きることが分かりました。次は、僕が遭遇したのと同じ現象が起きるC言語のソースコードです。 // -*- coding: sjis -*- // strange.c struct ThreeNums { int x; // 負の数も指定可能 int y; int z; }; int total(struct ThreeNums nums) { return nums.x + nums.y + nums.z; } コンパイルすると: $ type tdm-gcc tdm-gcc is aliased to `/c/Installed/TDM-GCC-64/bin/gcc.exe' $ tdm-gcc --ve

    C/C++のとんだ落とし穴(ハマっちまったよ) - 檜山正幸のキマイラ飼育記 (はてなBlog)
    vanbraam
    vanbraam 2016/04/16
    自分でSJIS使う事はもうないが,昔書かれた他人のコードを触る時のためにブクマ
  • 1