[B! Unicode] [2ページ] kenjiro_nのブックマーク

https://www.web-development-kb-ja.site/ja/c/c%E3%81%AEunicode%E6%96%87%E5%AD%97%E5%88%97%E3%81%AE%E6%96%87%E5%AD%97%E3%82%92%E6%95%B0%E3%81%88%E3%82%8B%E6%96%B9%E6%B3%95/940429475/

kenjiro_n 2020/08/19

C
Unicode

リンク

第4回　UTF-8の冗長なエンコード | gihyo.jp

今回は、文字コードに関連するセキュリティの話題では古参ともいえるUTF-8の冗長なエンコードというテーマについて紹介します。 UTF-8とは UTF-8は、各文字を1～4バイトの可変長で表現するUnicodeの符号化方式のひとつです。 U＋0000からU＋007Fの範囲の文字を0x00から0x7Fの1バイトで表現しているため、US-ASCIIと互換性がある、バイト列の途中からでも文字の先頭バイトを簡単に検出できる、多バイト文字の途中に0x00や0x5C（\⁠）⁠、0x2F（/）などが現れない、などの特徴があります。 UTF-8での文字のビットパターンは表1のようになります。表1　UTF-8でのビットパターン

kenjiro_n 2020/08/19

リンク

GitHub - JuliaStrings/utf8proc: a clean C library for processing UTF-8 Unicode data

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

kenjiro_n 2020/08/18

リンク

文字コード関連 - 技術情報Wiki

一般† 文字コードの世界の第一歩 - KAKEHASHI Tech Blog 2023.3 目に見えない文字を悪用してサイトを好き放題荒らされた話 - Qiita 2022.12 PythonでUnicodeコードポイントと文字を相互変換（chr, ord, \x, \u, \U） | note.nkmk.me 2022. Pythonで学ぶ文字コード - Qiita 2022.9 i18n g11n l10n m17n とは何なのかまとめてみた - mabots' blog 2012 i18n internationalization 国際化 l10n localization 地域化 m17n multilingalization 多言語化 g11n globalization グローバル化（m17nの別名）「コピペできない文章」がコピペできなかった理由 2012.4.23 絶対にコ

kenjiro_n 2020/08/18

リンク

Pythonのchardetモジュールが、"testあ"という文字列（UTF-8）の文字コードを"Windows-1254"だと判定する

"testあ"のUTF-8表現は、74 65 73 74 e3 81 82 (1バイトデータの表記は全部16進、以下同様, python3風に書くとb'\x74\x65\x73\x74\xe3\x81\x82')で、chardetが判定するのは「文字列」ではなく、このバイト列です。ちなみにこのバイト列をUTF-8, Shift_JIS, EUC-JP, ISO-8859-1, Code Page 437, Windows-1254で解釈すると、以下のようになります。 UTF-8 testあ (まぁ、当たり前) Shift_JIS (不正) EUC-JP (不正) ISO-8859-1 testã (81 82 は制御コードにあたるので見えないが不正ではない) CP437 testπüé Win1254 testã‚ (81は未定義なので本来は不正、chardetは未定義にあたるバイトが現

kenjiro_n 2020/08/18

せめて"testあいうえお"と書いてほしかった、という回答が返ってきていました。

リンク

UTF8とSHIFT-JISの判別し方

UTF8はUTF16を算術演算して一定のコード範囲に収めるようにした文字コードである、らしい。実際のところ、以下の5つパターンに収束する。 (1)c2～df+80～bf　　　 2バイト (2)e0～ef+80～bf+80～bf　　　 3バイト (3)f0～f7+80～bf +80～bf +80～bf 4バイト (4)f8～fb+80～bf +80～bf +80～bf +80～bf 5バイト (5)fc～fd+80～bf +80～bf +80～bf +80～bf +80～bf 6バイト UTF8データ群中では、先頭のバイトで長さがわかる。逆に後ろから

kenjiro_n 2020/08/18

Unicode

リンク

７.２ ASCII の NUL と DEL の本来の意味 - 文字コードに関する覚え書きと実験

文字コードについて調べたことや実験したこと，テストプログラム，データファイルなどを随時掲載する予定です．ただし筆者の理解不足や誤解により誤りがあるかもしれませんので，ご利用は自己責任で．このページの主な更新は Blog でお知らせします．表示確認ブラウザ：FireFox 22.0，IE8．０．目次シフトJIS Shift_JIS と Windows-31J (CP932) の違いシフトJIS ２バイト文字の判定謎の検索ワード集 (シフトJIS編) 「Shift_JIS(SJIS，Windows-31J，CP932) ３バイト文字」「Shift_JIS(SJIS，Windows-31J，CP932) サロゲート(ペア)」「UTF-8 4バイト文字 Shift_JIS(SJIS，Windows-31J，CP932) 変換」「Unicode(UTF-8，UTF-16) か

kenjiro_n 2020/08/18

リンク

UTF-8の文字コード表 - 備忘帳 - オレンジ工房

UTF-8の文字コード表なのです。いつも検索して、よそ様のページを参照させていただいていたのですが、面倒なので自分で作りました。 perlのスクリプトでガーッと出したので、見栄えはアレですが、とりあえず。 1バイト文字 2バイト文字 3バイト文字 E2 9C 80 ～ Dingbats、昔からある記号、絵文字とか E3 80 80 ～全角ひらがな・カタカナ EF BC 80 ～全角英数字、半角カナ 4バイト文字 F0 9F 8C 80 ～たぶん今どきの皆さんの言う絵文字 F0 9F 98 80 ～顔文字更新履歴 (2018-05-10 追記) コード表を全体的に再出力しました。変更点は以下の通りです。 unicode追加面、4バイト文字の表もつくりました。各文字ブロックにタイトルを付けました。英語タイトルはUnicode仕様書PDFへ直リンクしています。表示されてないけど、ど

kenjiro_n 2020/08/03

リンク

UTF-8コード表(1)

UTF-8の仕組み UTF-8は１～４バイト(初期の定義では６バイトまで)の可変長コード Unicodeスカラ値, UTF-16を含め、詳しい説明は Unicode にあります。コードカテゴリ備考

kenjiro_n 2020/08/03

リンク

UTF-8で4バイトになる文字 at softelメモ

JIS X 0213の第3・4水準漢字の一部が4バイトとなる。マイナーな文字ですね。例えば、第1・2水準漢字だけ対応していればよい案件などでは考慮しなくてよいでしょう。 MySQLではこのUTF-8で4バイトになる文字を扱えないのだとか（MySQL6なら対応したそうだ）。数値文字参照で全部書いてみた。（パッチのあたっていないWindowsXPなどでは表示されないです。）𠀋𡈽𡌛𡑮𡢽𠮟𡚴𡸴𣇄𣗄𣜿𣝣𣳾𤟱𥒎𥔎𥝱𥧄𥶡𦫿𦹀𧃴𧚄𨉷𨏍𪆐𠂉𠂢𠂤𠆢𠈓𠌫𠎁𠍱𠏹𠑊𠔉𠗖𠘨𠝏𠠇𠠺𠢹𠥼𠦝𠫓𠬝𠵅𠷡𠺕𠹭𠹤𠽟𡈁𡉕𡉻𡉴𡋤𡋗𡋽𡌶𡍄𡏄𡑭𡗗𦰩𡙇𡜆𡝂𡧃

kenjiro_n 2020/08/03

リンク

PowerShellで日本語を含むJSONをPOST - Qiita

リクエストボディを[byte]型の配列にしてからInvoke-RestMethodコマンドレットで送信します。 $postText = @{text="日本語"} | ConvertTo-Json -Compress $postBody = [Text.Encoding]::UTF8.GetBytes($postText) $postUri = "http://localhost:3000/api/texts" Invoke-RestMethod -Method POST -Uri $postUri -Body $postBody -ContentType application/json

kenjiro_n 2020/06/26

リンク

ng-1.5beta1をUTF-8対応させてみた。: hidevのひとりごと

ここ10年以上OpenBSDを使っていたが、最近都合でFedoraCore 6も使い始めた。 OpenBSDでは漢字コードは仕事の都合もあってSJISメインで、日本語ファイル名はcapで適当なフィルタやらなんやらを作っていろいろ処理していた。ちょっとした設定ファイルの編集などにkemacsを使っていたのだが、FedoraCore 6ではいろいろとUTF-8になっているようなのでいいまいちうまくない。 viでもいいんだが、emacs使いとしてはやっぱり軽量エディタもemacs系にしたい。しょうがないので、ng-1.5beta1のファイルI/Oと入力と表示をUTF-8対応させてみた。欲しい人はこちらからどうぞ Ng サポートページから、ng-1.5beta1.tar.gz を拾ってきて、適当に展開したディレクトリで gunzip <ng-1.5beta1-utf8.patch.gz |

kenjiro_n 2020/05/19

現時点でパッチが落とせた。

リンク

西野竜太郎／Ryutaro Nishino on Twitter: "もうすぐ公開のUnicode 13で、超難字とされるビャンビャン麺の「ビャン」が追加される。 https://t.co/NuP5Tja8dk"

もうすぐ公開のUnicode 13で、超難字とされるビャンビャン麺の「ビャン」が追加される。 https://t.co/NuP5Tja8dk

kenjiro_n 2020/03/09

てっきりいらすとやにある id:entry:4673164675742022914 からUnicodeにも収録されていると思ってたんだけどそういえば見たことがなかった。あと武田早雲さんの書は id:entry:4667763206729003874

リンク

外字を使うのはやめてくれ！ Unicodeへの移行を呼びかけるMicrosoftの公式ブログ記事が話題に／今や「メモ帳」でさえテキストファイルをUnicodeで保存する時代！ Shift_JISはやめよう【やじうまの杜】

kenjiro_n 2020/03/04

外字とは関係のない話だけど、部首漢字という地雷の話をしていた「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記 id:entry:326807755 というエントリを思い出す。それらを正しく除去できる手段はあるんだろうか。

リンク

Windows と日本語のテキストについて - Windows Blog for Japan

すべての Microsoft 製品 Global Microsoft 365 Teams Copilot Windows Surface Xbox セール法人向けサポートソフトウェア Windows アプリ AI OneDrive Outlook Skype OneNote Microsoft Teams PC とデバイス Xbox を購入するアクセサリ VR & 複合現実エンタメ Xbox Game Pass Ultimate Xbox Live Gold Xbox とゲーム PC ゲーム Windows ゲーム映画とテレビ番組法人向け Microsoft Cloud Microsoft Security Azure Dynamics 365 一般法人向け Microsoft 365 Microsoft Industry Microsoft Power Platform W

kenjiro_n 2020/02/20

リンク

Google、絵文字を組み合わせた「ハート付きうんち」などを使える「Emoji Kitchen」開始

米Googleは2月12日（現地時間）、Android向けキーボードアプリ「Gboard」の新機能「Emoji Kitchen」を発表した。2つの絵文字をミックスしてカスタマイズした絵文字を使える。同日からすべてのGboardユーザー向けにロールアウトしていく。 Gboardをメインのキーボードに設定し、Gmail、Googleのメッセージ、メッセンジャー、Snapchat、Telegram、WhatsAppなどのアプリでの入力で絵文字を選ぶと使える（本稿執筆現在、筆者のGboardではまだできない）。自分で新しい絵文字を作れるわけではないようだ。公式ブログには、「絵文字をタップすると、Googleのデザイナーが特別に手作りしたステッカーが（候補として）多数表示される」とある。関連記事「Unicode Emoji 13.0」決定──タピオカドリンクも遅まきながら登場 Unicode

kenjiro_n 2020/02/13

性的な意味でのそれなら世界全体ではナスと桃の組み合わせ（参考 id:entry:4676629605848129410 ）がメジャーなようです。＞id:mistake3 さん

リンク

僕は、なぜ絵文字の長さが、直感に反するのか理解したい...!! - Qiita

対象者 UnicodeやUTF-16について、よくわかってない人 -> ここから "😀".split("")で文字化けする理由がわからない人 -> ここから [..."👨‍👩‍👧"].lengthが5になる理由がわからない人 -> ここから文字コードについてもう一度文字コードは以下の二つで構成されています符号化文字集合: 文字と、その文字の位置を示す一意の番号の集合文字符号化方式: 文字に振られた番号をバイト表現にエンコードする方法符号化文字集合符号化文字集合は、文字その文字の位置を示す一意の番号この二つの組み合わせの集合のことを指します。例えばASCIIでは 8bit(128通り) でラテン文字や英数字を表現しています。しかしASCIIには日本語などの非英語圏の文字が収録されていません。そのため、日本語を収録したShift-JISやアジア圏の文字を収録した

kenjiro_n 2020/01/21

リンク

厶とは (シとは) [単語記事] - ニコニコ大百科

厶単語シ 5 0pt ほめる掲示板へ記事編集漢字として掲示板厶とは、耜の形をした漢字である。カタカナのムにそっくりだがム関係。漢字として厶 Unicode U+53B6 JIS X 0213 1-50-51 部首厶部画数 2画⼛ Unicode U+2F1B 意味私の初文であり、わたくし、私有という意味がある。また日本ではござると読む。〔説文解字〕には「姦衺なり」とある。共有の田に対して私有の田を姦邪としている。某と同じ音であり、意味も同じとする説もある。字形諸説ある。〔説文〕は「韓非曰く『蒼頡字を作るや、自ら營むを厶と爲す』」と〔韓非子・五蠹〕を引用し、自ら営むことを表す記号であるとする。〔韓非子〕にはこの後に「私に背く。之れを公と謂ふ」と公について述べる。これは八＋厶から、厶に背く（八＝背く）ということで公であるという解釈である。しかし公の下の字形は甲骨文では

kenjiro_n 2019/12/03

部首漢字（だったっけ？）の一つ。参考：西の字が面倒なことになっているという話を扱った「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記 id:entry:326807755

リンク

Twitterで「機種依存文字 Unicode」と検索するとなぜか自殺を制止されるロジックが判明【やじうまWatch】

kenjiro_n 2019/09/17

京阪特急のウリであるプレミアムカーも「アムカ」が「アームカット」の俗語表現としてとらえられて同様の案内が出るというのを最近知りました。

リンク

Windows上でperlを使って日本語ファイル名を操作する(メモ – OSAKANA TAROのメモ帳

slashdot.jpの「Perlはゾンビだ」に、日本語Windows環境において、perlを使って日本語ファイル名を操作する時の注意点がまとめられていたので、引用＆備忘録化。過去にperlスクリプトを作る際、ファイル内に書かれた日本語の操作に関することはWindows/Linuxで動作が共通化できたものの、「日本語ファイル名の取り扱い」について、Windows上での動作がいまいち分からず、面倒になり、NASに該当ファイル群を置き、Linuxで処理する、ということをしたことがある。その時に受けた感じからすると、以下の解説は非常に納得がいくモノだった。「Anonymous Coward の書き込み (#2628619) 」よりコマンドラインからの引数取得とかファイル操作とかのたびに @ARGV = map { decode(‘cp932’, $_) } @ARGV; とか open

kenjiro_n 2019/05/16

リンク

はてなブックマーク

タグ

関連タグで絞り込む (91)

Unicodeに関するkenjiro_nのブックマーク (118)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス