タグ

文字コードに関するyamadarのブックマーク (14)

  • 「//このコメントを消したら動かない」は大体Shift_JISの2バイト目が原因で発生する - Qiita

    TL;DR Shift_JISにしただけでコンパイラが通らなくなる恐ろしい事件とその回避法について。 \ (¥)のASCIIコードは0x5c 表、能は良くない UTF-8は神 2023/12/06追記 誤りがあったので訂正します。こんな読まれると思ってなかったので正直ちょっとびっくりしていますが、いろいろコメントありがとうございました。(ツイート等全て拝見しました。) Shift_JISが悪いわけではない(デフォルトのエンコーディング設定の問題)→追記しました UTF-8にはUTF-FSSという仕様でこの問題が回避されている→マジでタメになる知識ありがとうございます OSによってデフォルトのエンコーディング設定が異なるせいで、デフォルト環境での動作がOSにより異なる→なるほど?(調査中) CRLFとLF問題では→なるほど?(調査中) そんな問題何を今更→UTF-8が出てから生まれたからです

    「//このコメントを消したら動かない」は大体Shift_JISの2バイト目が原因で発生する - Qiita
    yamadar
    yamadar 2023/12/05
    「Shift_JISさん悪く言ってごめんなさい」からの、勢いあるまとめで笑う
  • Slackはハイライト部分をU+E000とU+E001で囲って表していそう - hogashi.*

    Slack は、メッセージのどこからどこまでハイライトするかを、 Unicode の私用領域 *1の U+E000 と U+E001 を使って表しているらしく、こういう HTML を glitch とかで書いて、 <html> <head> <meta property="og:title" content="Slackで&#xE000;タイトルをハイライト&#xE001;する" /> <meta property="og:description" content="Slackで&#xE000;説明&#xE001;も&#xE000;好きな部分をハイライト&#xE001;する" /> </head> </html> そのページを Slack で展開させたりすることで、好きな部分を勝手にハイライトできて面白い *2 *3。 ちなみに printf "\ue000寿司\ue001が光ったら成功"

    Slackはハイライト部分をU+E000とU+E001で囲って表していそう - hogashi.*
    yamadar
    yamadar 2022/10/06
    なにかに使えるかも
  • 𓁲 𓀀 𓀁 𓀂 𓀃 𓀄 𓀅 𓀆 𓀇 𓀈 𓀉 𓀊 𓀋 𓀌 𓀍 ..

    𓁲 𓀀 𓀁 𓀂 𓀃 𓀄 𓀅 𓀆 𓀇 𓀈 𓀉 𓀊 𓀋 𓀌 𓀍 𓀎 𓀏 𓀐 𓀑 𓀒 𓀓 𓀔 𓀕 𓀖 𓀗 𓀘 𓀙 𓀚 𓀛 𓀜 𓀝 𓀞 𓀟 𓀠 𓀡 𓀢 𓀣 𓀤 𓀥 𓀦 𓀧 𓀨 𓀩 𓀪 𓀫 𓀬 𓀭 𓀮 𓀯 𓀰 𓀱 𓀲 𓀳 𓀴 𓀵 𓀶 𓀷 𓀸 𓀹 𓀺 𓀻 𓀼 𓀽 𓀾 𓀿 𓁀 𓁁 𓁂 𓁃 𓁄 𓁅 𓁆 𓁇 𓁈 𓁉 𓁊 𓁋 𓁌 𓁍 𓁎 𓁏 𓁐 𓁑 𓁒 𓁓 𓁔 𓁕 𓁖 𓁗 𓁘 𓁙 𓁚 𓁛 𓁜 𓁝 𓁞 𓁟 𓁠 𓁡 𓁢 𓁣 𓁤 𓁥 𓁦 𓁧 𓁨 𓁩 𓁪 𓁫 𓁬 𓁭 𓁮 𓁯 𓁰 𓁱 𓁳 𓁴 𓁵 𓁶 𓁷 𓁸 𓁹 𓁺 𓁻 𓁼 𓁽 𓁾 𓁿 𓂀 𓂁 𓂂 𓂃 𓂄

    𓁲 𓀀 𓀁 𓀂 𓀃 𓀄 𓀅 𓀆 𓀇 𓀈 𓀉 𓀊 𓀋 𓀌 𓀍 ..
  • Your code displays Japanese wrong

    A static site to link people to when their code is displaying Japanese wrong. View the Project on GitHub heistak/your-code-displays-japanese-wrong Why am I here? If someone gave you a link to this page, that person probably thinks your code displays Japanese wrong. In short, from a native Japanese eye, yѳur ҭєxҭ lѳѳκs κιnd ѳf lικє ҭЋιs. This page will give you a brief description of the glyph appe

  • ハイフンに似ている横棒を全て統一するᅳㅡ˗𐆑–᭸‒-─−▬𐄐—━‐‑ー﹣―ー﹘-⁃➖⁻! - Qiita

    はじめに これらの横棒、コンピュータにとっては全て違うのですが 見分けがつくでしょうか? -˗ᅳ᭸‐‑‒–—―⁃⁻−▬─━➖ーㅡ﹘﹣-ー𐄐𐆑 郵便番号、住所、電話番号など、横棒が使われているデータを扱うとき、 人が入力したデータや購入したデータであると、同じ記号が使われていないことはよくあることです。 090-1234-5678 090᭸1234᭸5678 090‑1234‑5678 090−1234−5678 これらの電話番号の文字列も phone_no_list = ['090-1234-5678', '090᭸1234᭸5678', '090‑1234‑5678', '090−1234−5678'] # 文字をUnicodeコードポイントに変換 for n in phone_no_list: # 文字列の4番目の横棒の文字コードを見てみる print(n[3], ord(n[3]

    ハイフンに似ている横棒を全て統一するᅳㅡ˗𐆑–᭸‒-─−▬𐄐—━‐‑ー﹣―ー﹘-⁃➖⁻! - Qiita
    yamadar
    yamadar 2021/11/03
    いつか使いそう
  • PHPの文字コードではSJISじゃなくてSJIS-win、EUC-JPじゃなくてeucJP-winを | IT女子のお気に入りフォルダ

    ホーム > PHP > PHPの文字コードではSJISじゃなくてSJIS-win、EUC-JPじゃなくてeucJP-winを PHPで使える文字コード変換はmb_list_encodings()を使って確認することができます。 foreach(mb_list_encodings() as $jcode) echo $jcode . '<br>¥n'; 注目するのは「SJIS-win」と「eucJP-win」です。 どっちも「win」が付いているのでおわかりでしょうが、Windows拡張の文字に対応できるようになっています。 つまり、SJISよりもSJIS-winの方が文字が多いということです。 SJIS-winにあってSJISにない文字は、 NEC 特殊文字(13区) NEC 選定 IBM 拡張文字(89~92区) IBM 拡張文字(115~119区) よく使うところでは、以下のような文字

    PHPの文字コードではSJISじゃなくてSJIS-win、EUC-JPじゃなくてeucJP-winを | IT女子のお気に入りフォルダ
  • 【PHP】PHPで機種依存文字を変換する場合は文字コードをSJIS-winにしてから! - Wataame Frog

    PHPCSVファイル取込機能を作成中、機種依存文字である「㈱」を「(株)」(半角カッコ・株・半角カッコ)に変換しようとした時にはまってしまったので、その対策方法を忘備録としてポストします。 機種依存文字を変換する際の文字コードは「SJIS-win」と指定する 上手くいかないこと 作成しているシステムでCSVフォーマット(文字コードはSJIS)のファイルからインポートする機能をつけました。 その時にありがちですが、社名や備考などに含まれている機種依存文字の「㈱」を「(株)」に変換しようとしたら、全然うまく行かない。 シンプルに str_replace() で当てても変換されない始末。 CSVファイル取込・変換の基的な流れは以下の感じ。 CSVファイルをオープン 全体の文字コードを SJIS から UTF-8 に変換 機種依存文字を変換 かなり単純に書きましたが、特に変なことはしていないと

  • javascript: escape(), encodeURI(), encodeURIComponent() 比較 (groundwalker.com)

    « DoBeDo 2.5 | メイン | javascript で Query String » javascript: escape(), encodeURI(), encodeURIComponent() 比較 javascript の escape(), encodeURI(), encodeURIComponent() 関数群について、どの文字がエンコードされてどの文字がエンコードされないのか分かりにくいのでまとめておく。 まずは、対象範囲 %20(半角スペース)〜%7E(チルダ~) 元データ !"#$%&'()*+,-./ 0123456789 :;<=>?@ ABCDEFGHIJKLMNOPQRSTUVWXYZ [\]^_` abcdefghijklmnopqrstuvwxyz {|}~ escape() %20%21%22%23%24%25%26%27%28%29*+%2C-

    yamadar
    yamadar 2011/07/03
    escape() と encodeURI の違い
  • JavaScript のみで、SHIFT_JIS や EUC-JP を UrlEncode に近い Escapeする Escape Codec Library : logical error

    オリジナルはVector からダウンロードできる事を確認しました。しかし、実際は ecl.js と Sleipnir の相性が悪い件について という記事があり、そちらで新しいものが配布されています。 とりあえずこちらにも用意しました。 ecl_new.txt 内容は単純に変換関数がグローバルに追加されます。 EscapeSJIS UnescapeSJIS EscapeEUCJP UnescapeEUCJP EscapeJIS7 UnescapeJIS7 EscapeJIS8 UnescapeJIS8 EscapeUnicode UnescapeUnicode EscapeUTF7 UnescapeUTF7 EscapeUTF8 UnescapeUTF8 EscapeUTF16LE UnescapeUTF16LE 一つだけタイプを取得する関数が以下です。 GetEscapeCodeType

    JavaScript のみで、SHIFT_JIS や EUC-JP を UrlEncode に近い Escapeする Escape Codec Library : logical error
  • ecl.js (Escape Codec Library) と Sleipnir の相性が悪い件について

    とあるサイトで ecl.js を使っています。ecl.js とは JavaScript で文字コード変換を行うライブラリで Escape Codec Library が正式名称です。配布元は Escape Codec Library: ecl.js です。ちなみに yaplog に組み込まれている /blog/js/urlEnDecoding.js も元ネタは ecl.js みたいですね。もちろん Sleipnir で yaplog 見ると激遅です・・・ Shift_JISエンコードやEUC-JPエンコードなども可能な escape エンコード・デコード関数のライブラリ 文字列をすべてのコンピュータで読めるような形式に変換したり、変換されたものを元の文字列にデコードすることができる関数のライブラリです。 ビルトイン関数 escape() , unescape() とは異なり、どの種類のブラ

  • memo - Haskell

    articlehistoryHaskelldifference of 2 revisions.rev.3 2009-06-17 11:24 (28days ago)rev.12 2009-07-15 22:59 (31mins ago)deleted lineadded lineプログラミング言語の1つで、純粋非正格の関数型言語に分類される。「純粋」とは副作用(変数への値の代入)がないことであり、「非正格」とは部分式を先行評価しないこと(遅延評価)を指す。LispやRubyなど一般的な言語のほとんどは純粋でなく、非正格でもない。そのため、Haskellでのプログラミングは、一般的な言語でのそれとはだいぶパラダイムが異なる(論理型言語のPrologに近いのかもしれない)。* モナド演算をつなぐ機能。Maybeモナド、Listモナド、IOモナドなどがある。各モナドは>>=演算子とreturn関

  • QuercusでJavaからの日本語入力を取得して動作させる。

    プログラミングを週末にぼちぼちやります。 twitterはこちらhttp://twitter.com/#!/search/taktod Quercusの内部設定をUTF-8で動作させ、ほかの環境がすべてUTF8の状態にしても、JavaのStringの状態で日語を受け取ると化けまくります。 そこでなんとかしましょう。 まず成功事例 1:Java側のオブジェクトをbyteベースの文字列に変換 2:PHP側の文字列として取得 3:packで文字列に戻す。 これでうまくいきました。 また、PHP側で取得済みのStringオブジェクトを変換用のクラスに渡せばきちんと変換されました。 以下コード 0:変換対象のStringオブジェクトを応答する関数 public static String TestString() { return "あいうえお"; } 1:byte文字列に変換 public st

    yamadar
    yamadar 2011/07/03
    これはありがたい。
  • cakePHP とsmartyを使い、html helperで日本語を使うためのメモ - 雑想空間

    苦労したので、次のためにメモ 初期 cakePHPとsmarty使う方法は 第11回 Smartyとフレームワーク(その1:CakePHP編) - Smarty講座 これ見ればいけるので、省略。 んで、このなかで巧く動かない部分があった。 以下のコードを先ほどのindex.tplに書いてみてください。 {$html->link('yossy先生のSmarty講座', 'http://www.phppro.jp/school/smarty/')} http://(ドメイン名)/test/index にアクセスしてみて、リンクは表示されたでしょうか?「いいえ」 <a href="http://www.phppro.jp/school/smarty/"></a> こんな感じで、リンク名が入らない ちなみに、リンク名を英数字だけにすると <a href="http://www.phppro.jp/

    cakePHP とsmartyを使い、html helperで日本語を使うためのメモ - 雑想空間
  • Unicodeの似た文字を整理してみた - y-kawazの日記

    XMLやCSV等のデータをJavaで色々加工して出力したりといったことをしてると必ずハマるのが波線などの文字化け問題です。 文字化けが発覚するたびにググって場当たり的な対処を繰り返すのに疲れたのでよく問題になる文字と形が似た文字をリストアップして、更にそれをJavaで各種エンコーディングに変換したらどの文字になるかを頑張って纏めました。 ついでに文字化けしないよう上手いこと出力可能な文字に置換する関数も作ってみました。 Javaの変換テーブル 表中の U,S,W,E,J はそれぞれ、UTF-8、Shift_JIS、Windows-31J、EUC-JP、ISO-2022-JP で出力した際の文字です。 見た目で分からないくらい似た文字ばかりなので、各セルにマウスカーソルを乗せたらツールチップで確認できるようtitleにコードポイントを書いておきました。 分かりやすいよう、青は文字化けなし、黄

    Unicodeの似た文字を整理してみた - y-kawazの日記
    yamadar
    yamadar 2010/12/20
    素晴らしい!
  • 1