タグ

文字コードに関するImamuのブックマーク (37)

  • 文字化けでよく出てくる漢字の意味を調べて愛でる

    1992年三重生まれ、会社員。ゆるくまじめに過ごしています。ものすごく暇なときにへんな曲とへんなゲームを作ります。 前の記事:無糖の飲みものに砂糖を入れる > 個人サイト ほりげー インターネットは文字化けと共にある インターネットが普及して20年をゆうに超える。メール、添付ファイル、Webブラウザなど、様々な場面で我々は文字化けに苦しめられてきたし、今でもたまに苦しめられる。「文字が化ける」と書いて文字化け。そこにはお化けみたいで悪いイメージがあるが、それも仕方がない。読めないのだから。必要な情報が読めないのはシンプルに悪いことだ。 DPZの記事を無理やり文字化けさせてみると、こうなる。 でも、一方的に文字化けを避けていては、文字化けと仲良くなれない。文字が化けた先にあるのは文字だ。化ける前の文字ばかり愛していては、化けた後の文字がかわいそうではないか。我々は、化けた後の文字をもっと愛す

    文字化けでよく出てくる漢字の意味を調べて愛でる
    Imamu
    Imamu 2020/03/26
    「ひらがなやカタカナをUTF-8からSJISに変換すると、多く場合、「縺」「繧」「繝」のどれかが登場」「UTF8→EUCの文字化けでよく登場~「鐚」「蕋」」「SJIS→UTF8の文字化け~「悤」」
  • Windows と日本語のテキストについて - Windows Blog for Japan

    すべての Microsoft 製品 Global Microsoft 365 Teams Copilot Windows Surface Xbox セール 法人向け サポート ソフトウェア Windows アプリ AI OneDrive Outlook Skype OneNote Microsoft Teams PC とデバイス Xbox を購入する アクセサリ VR & 複合現実 エンタメ Xbox Game Pass Ultimate Xbox Live Gold Xbox とゲーム PC ゲーム Windows ゲーム 映画テレビ番組 法人向け Microsoft Cloud Microsoft Security Azure Dynamics 365 一般法人向け Microsoft 365 Microsoft Industry Microsoft Power Platform W

    Windows と日本語のテキストについて - Windows Blog for Japan
  • 朝日新聞デジタル、英数字をついに全角から半角へ 広報「特に全角表示にこだわっていたわけではない」

    朝日新聞デジタルが2020年1月14日から、記事内の英数字を半角に変更しています。これは実に読みやすい……! 長きにわたり全角英数字表記を貫いてきた朝日新聞デジタル。日時をはじめ、URLなども全角で記載していたことから、URLをコピー&ペーストしにくいといった不満の声や単純に読みづらいという声が定期的に上がっており、2014年10月12日には朝日新聞 国際報道部が公式Twitterにて「『全角、読みにくい』というご意見をいただいます。すみません。技術的なことがわかる人に対応可能か聞いてみます」とツイートすることもありました。 過去には朝日新聞 国際報道部が公式Twitterからこんなツイートも(朝日新聞 国際報道部が公式Twitter) 朝日新聞デジタル「特に全角表示にこだわっていたわけではない」 半角英数字表記になった理由について、ねとらぼ編集部は朝日新聞に問い合わせました。 半角英数字

    朝日新聞デジタル、英数字をついに全角から半角へ 広報「特に全角表示にこだわっていたわけではない」
  • インターネットの怪異 - インターネット

    そのことに最初に気付いたのは、ずいぶん前だったような気がする。 通勤時間の暇潰しのためにWikipediaのアプリを入れてたまに読んでいるのだが、そのアプリの機能として「よく読まれている記事」という一種のアクセスランキング機能がある。例えば芸能人が不祥事を起こしたり亡くなればその人のページが翌日ランクインするし、何かの事件の判決が出たらその事件のページがランクインしたりする。ある意味では「ネットユーザーの興味の総意」みたいなところがあるランキングである。 しかし、ある時奇妙な項目がランクインしていたのを目にした。それは「今昔文字鏡」というソフトウェアに対する記事である。あまり一般に知られたソフトではないにも関わらず、今世間一般で話題になっている数々の項目を抑えてランクインしていたのである。 ja.wikipedia.org これだけなら「まぁ一部で何か話題になったんだろう、たまにはそんなこ

    インターネットの怪異 - インターネット
    Imamu
    Imamu 2019/04/25
    「なにせ今昔文字鏡を作っていた研究会は19年2月に解散とその項目にある。もはや話題が生まれようもないのだ」「Wikipediaに説明を丸投げ」「対照表を作った人物はどうやら今昔文字鏡というソフトのあり方に相当な不満」
  • I18N: 令の字にUNICODEのコードが2つあったはなし

    U+FA98 https://t.co/EQfIZ854DD は互換漢字,トラブルのもとです. たとえば, ・Twitterで使うと,U+FA98はU+4EE4に変わります. ・U+FA98とU+4EE4を(Ctrl+Fで)検索するときに同一視するかどうかはブラウザによります. お仕事がちょっと増えた人がいるかもしれません. pic.twitter.com/Ujg5dbXEN2 — Taro Yabuki (@yabuki) April 1, 2019 めでたく、新元号が「令和」となったわけですが、令に「令(U+4EE4)」と「令(U+F9A8)」が有る事がわかりました。とは言っても、基的に後者の方はCJK互換漢字に分類され、U+F900 – U+FA0Bは韓国の文字コード企画KS X 1001との往復変換を可能にするために追加された文字(一部文字はJIS X 0123と共有しているがこ

    I18N: 令の字にUNICODEのコードが2つあったはなし
    Imamu
    Imamu 2019/04/01
    「令(U+4EE4)」と「令(U+F9A8)」 "U+F900 – U+FA0Bは韓国の文字コード企画KS X 1001との往復変換を可能にするために追加された文字(一部文字はJIS X 0123と共有しているがこの字は異なる)"
  • Unicode 12.0正式版が登場。日本語では小文字の「ゐ」「ゑ」「を」「ヰ」「ヱ」「ヲ」「ン」が追加。新元号が発表され次第、次の12.1で新元号キャラクタを追加

    Unicode 12では4つの言語(script)、554種類の文字が追加されました。これによりUnicodeに収録されている言語は150、文字は13万7292種類になりました。 追加された文字には日語の文字が7種類、小さな文字としての「ゐ」「ゑ」「を」「ヰ」「ヱ」「ヲ」「ン」が含まれています(通常の大きさの文字は以前からありました)。これらは古い文書を記述するために使われるとされています。 そのほか、現在のイラン南西部に存在したアケメネス朝で使われていたアラム語のElymaic文字。南インドのサンスクリット語、カンナダ語で使われていたNandinagari文字。ラオス、タイ、ベトナム、フランス、オーストラリア、カナダ、米国などで使われていた現代White Hmong語、Green Hmong語のNyiakeng Puachue Hmong文字。インド、ミャンマー、ブータンの現代Wanc

    Unicode 12.0正式版が登場。日本語では小文字の「ゐ」「ゑ」「を」「ヰ」「ヱ」「ヲ」「ン」が追加。新元号が発表され次第、次の12.1で新元号キャラクタを追加
  • C++標準化委員会、ついに文字とは何かを理解する: char8_t - Qiita

    C++ Advent Calendar 2018 この記事はC++ Advent Calendar 2018 15日目の記事です。 14日目: VTKライブラリ 16日目: C++のエラー処理との付き合い方 当初見積もりよりも大幅に長い記事となり、投稿したのは12/22で1週間遅刻です。すみません。 お知らせ cpprefjpにchar8_t型追加について解説を書きました。ぎゅぎゅっとコンパクトに、また査読を受けて中立的な表現で書いていますので、よければどうぞ。 UTF-8エンコーディングされた文字の型としてchar8_tを追加 - cpprefjp C++語リファレンス 追記 全ての開発者が知っておくべきUnicodeについての最低限の知識 - GIGAZINE Unicodeについて簡潔にまとまってるいい記事を見つけました。 Caution この文章には以下の要素が含まれます。苦手

    C++標準化委員会、ついに文字とは何かを理解する: char8_t - Qiita
    Imamu
    Imamu 2018/12/24
    「Unicodeというのがもともと業界団体が作ったものだったのに対してUCSはISO」「Unicodeで決めたものを再度ISO側で段階を経てISOから発行するという手順を踏んでいたりします」勝手に同じだと思いこんでたなこれ
  • 【山田祥平のRe:config.sys】さよならシフトJIS、主なしとて春な忘れそ - PC Watch

    【山田祥平のRe:config.sys】さよならシフトJIS、主なしとて春な忘れそ - PC Watch
    Imamu
    Imamu 2018/12/14
    「たとえばコマンドプロンプトやPower Shellにおける type コマンドで表示させようとしても表示ができない」
  • 余録:日本人の目には、どう見てもひらがなの「も」である… | 毎日新聞

    人の目には、どう見てもひらがなの「も」である。しかし、トルコで「₺」を見かけたら、それは通貨「リラ」を示すマークだ。円の「¥」にあたる▲以前は、「L」に横棒で、イギリスのポンドマークそっくりだった。先祖が同じ古代ローマの単位、リブラだから不思議ではない。それを2012年にわざわざ「₺」に変えた人は、当時のエルドアン首相、現大統領である▲いかりの右半分の形をしているため、エルドアン氏は「安全な港」の意味が込められていると強調していた。2の横棒は、厳密には20度の右肩上がりでなければならない。「評価の上昇」を表すそうだ。慢性的なインフレにより、通貨の評価は右肩下がりの連続だったのだ▲そのトルコリラに再び試練である。評価の急降下に見舞われ、歯止めをかけたい大統領は、国民に手持ちの米ドルや金を売ってリラを買い支えるよう呼びかける。安全な港どころではない▲荒波の上空には、トランプ米大統領による

    余録:日本人の目には、どう見てもひらがなの「も」である… | 毎日新聞
    Imamu
    Imamu 2018/08/19
    トルコリラ記号2012年に Unicode 6.2 にて収録されたらしい。U+20BA。なぜか文字代替をあらわす下駄記号で記事掲載されちゃったというネタ
  • 「日本語の揚げ足をとる」作家、円城塔の本気の「ことば遊び」

    Imamu
    Imamu 2018/08/16
    「ぼくらはいつのまにか、Unicodeの文字を当然のように受け止めて使っている。いわばUnicodeに縛られているわけですが」「大漢和辞典の方が収録字数が多い」
  • 「メモ帳」がLinuxの改行コードをサポート/LF/CRコードのテキストも「メモ帳」で閲覧・印刷できるように【やじうまの杜】

    「メモ帳」がLinuxの改行コードをサポート/LF/CRコードのテキストも「メモ帳」で閲覧・印刷できるように【やじうまの杜】
    Imamu
    Imamu 2018/05/09
    「文字コード」というタグは正確ではないが
  • Engadget | Technology News & Reviews

    Research indicates that carbon dioxide removal plans will not be enough to meet Paris treaty goals

    Engadget | Technology News & Reviews
    Imamu
    Imamu 2018/02/17
    「爆弾文字列の条件はデーヴァナーガリー文字、ベンガル文字、テルグ文字で、「子音1、ヴィラーマ(発音区別符号)、子音2、ZWNJ (制御文字のゼロ幅非接合子)、母音」の順に並ぶ文字列。」
  • TechCrunch

    The California Public Utilities Commission has suspended Cruise’s authority to carry and charge passengers for its robotaxi service, following similar action from the state’s Department of

    TechCrunch
  • コンピューターで全漢字使用可に 6万字コード化 | NHKニュース

    語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。 中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に名の外字を充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。 このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進め

    コンピューターで全漢字使用可に 6万字コード化 | NHKニュース
    Imamu
    Imamu 2017/12/24
    「IPA=情報処理推進機構」
  • Android民「iPhone民から♂♀とか性別のアピールが送られてくるのはなぜ?」「流行りかと思った」

    板垣ハコ@まどめコミック⑦発売中 @itagaki_hako 同じような感じで、たまに絵文字の隣に♀とか♂がついてる文を見かけてて、何だろう、流行り?とずっと謎だったのだけど、最近絵文字の性別がiPhoneと違う場合に表示される仕様と知った……なんでそんな細かいとこ…(↑iPhone↓自分のAndroid) pic.twitter.com/BwaNzn0o09 2017-12-14 23:04:58 Neue @NeueDesigns iOS 10やAndroid 7.1以降など「Emoji Version 4.0」をサポートした機種で入力された↓のような絵文字Android 7.0以前の機種だと♂♀の記号がつきます。 逆に言えば、今使っている機種の絵文字に性別の記号がついているならば 新しい絵文字の仕様に対応しておらず正しく表示されていないだけです😭 pic.twitter.com

    Android民「iPhone民から♂♀とか性別のアピールが送られてくるのはなぜ?」「流行りかと思った」
    Imamu
    Imamu 2017/12/24
    「Emoji Version 4.0」
  • 絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama

    UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語

    絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama
    Imamu
    Imamu 2017/11/13
    「ほとんどの絵文字~UTF-16では4バイト必要~どの言語でも極端に利用頻度が高いので、急に世界中の誰もがサロゲートペアについてきちんと考えざるを得なくなった」「最初からUTF-8を使う方がいいじゃないかという認識が」
  • 文字コード地獄秘話 第1話:Unicodeにおける全角・半角 - ALBERT Engineering Blog

    ごあいさつ 皆様はじめまして、文字コードおじさんです。細々とカメラ屋を営んでおりましたが、エンジニアとしての技量を評価され、ALBERTのシステム開発・コンサルティング部で働くことを許されました。特技はサーバーの統廃合です。 今回は最初ということですが、Unicodeにおける全角・半角の取り扱いについて触れてみようと思います。なお、さも連載するかのように第1話と銘打っていますが、上層部の無慈悲な裁決によっては1話打ち切りもありえますので、その際はご容赦ください。 固定観念を捨てよう 「全角50文字、半角100文字まで」といったような文言を見かけたことがあると思います。 特にUnicode以前のレガシーな処理系では全角文字に2バイト、それ以外は1バイトという割り当てが慣習となっていました。 このため、「全角=2バイト文字、半角=1バイト文字」という観念が世間に定着しているのが現状です。 しか

    文字コード地獄秘話 第1話:Unicodeにおける全角・半角 - ALBERT Engineering Blog
    Imamu
    Imamu 2014/04/21
    「Unicode Standard Annex #11」「East Asian Width」「Unicodeの文字は下記の6つに分類」Fullwidth/Halfwidth/Wide/Narrow)/Ambiguous(文脈次第で全角・半角か取扱いが変わる・ギリシア文字、キリル文字など)/Neutral(アラビア文字、ヘブライ文字など)