[B! 文字コード] yamadarのブックマーク

「//このコメントを消したら動かない」は大体Shift_JISの2バイト目が原因で発生する - Qiita

TL;DR Shift_JISにしただけでコンパイラが通らなくなる恐ろしい事件とその回避法について。 \ (¥)のASCIIコードは0x5c 表、能は良くない UTF-8は神 2023/12/06追記誤りがあったので訂正します。こんな読まれると思ってなかったので正直ちょっとびっくりしていますが、いろいろコメントありがとうございました。（ツイート等全て拝見しました。） Shift_JISが悪いわけではない（デフォルトのエンコーディング設定の問題）→追記しました UTF-8にはUTF-FSSという仕様でこの問題が回避されている→マジでタメになる知識ありがとうございます OSによってデフォルトのエンコーディング設定が異なるせいで、デフォルト環境での動作がOSにより異なる→なるほど？（調査中） CRLFとLF問題では→なるほど？（調査中）そんな問題何を今更→UTF-8が出てから生まれたからです

yamadar 2023/12/05

「Shift_JISさん悪く言ってごめんなさい」からの、勢いあるまとめで笑う

リンク

Slackはハイライト部分をU+E000とU+E001で囲って表していそう - hogashi.*

Slack は、メッセージのどこからどこまでハイライトするかを、 Unicode の私用領域 *1の U+E000 と U+E001 を使って表しているらしく、こういう HTML を glitch とかで書いて、 <html> <head> <meta property="og:title" content="Slackでタイトルをハイライトする" /> <meta property="og:description" content="Slackで説明も好きな部分をハイライトする" /> </head> </html> そのページを Slack で展開させたりすることで、好きな部分を勝手にハイライトできて面白い *2 *3。ちなみに printf "\ue000寿司\ue001が光ったら成功"

yamadar 2022/10/06

なにかに使えるかも

リンク

𓁲 𓀀 𓀁 𓀂 𓀃 𓀄 𓀅 𓀆 𓀇 𓀈 𓀉 𓀊 𓀋 𓀌 𓀍 ..

𓁲 𓀀 𓀁 𓀂 𓀃 𓀄 𓀅 𓀆 𓀇 𓀈 𓀉 𓀊 𓀋 𓀌 𓀍 𓀎 𓀏 𓀐 𓀑 𓀒 𓀓 𓀔 𓀕 𓀖 𓀗 𓀘 𓀙 𓀚 𓀛 𓀜 𓀝 𓀞 𓀟 𓀠 𓀡 𓀢 𓀣 𓀤 𓀥 𓀦 𓀧 𓀨 𓀩 𓀪 𓀫 𓀬 𓀭 𓀮 𓀯 𓀰 𓀱 𓀲 𓀳 𓀴 𓀵 𓀶 𓀷 𓀸 𓀹 𓀺 𓀻 𓀼 𓀽 𓀾 𓀿 𓁀 𓁁 𓁂 𓁃 𓁄 𓁅 𓁆 𓁇 𓁈 𓁉 𓁊 𓁋 𓁌 𓁍 𓁎 𓁏 𓁐 𓁑 𓁒 𓁓 𓁔 𓁕 𓁖 𓁗 𓁘 𓁙 𓁚 𓁛 𓁜 𓁝 𓁞 𓁟 𓁠 𓁡 𓁢 𓁣 𓁤 𓁥 𓁦 𓁧 𓁨 𓁩 𓁪 𓁫 𓁬 𓁭 𓁮 𓁯 𓁰 𓁱 𓁳 𓁴 𓁵 𓁶 𓁷 𓁸 𓁹 𓁺 𓁻 𓁼 𓁽 𓁾 𓁿 𓂀 𓂁 𓂂 𓂃 𓂄

yamadar 2022/08/04

助かる

リンク

Your code displays Japanese wrong

A static site to link people to when their code is displaying Japanese wrong. View the Project on GitHub heistak/your-code-displays-japanese-wrong Why am I here? If someone gave you a link to this page, that person probably thinks your code displays Japanese wrong. In short, from a native Japanese eye, yѳur ҭєxҭ lѳѳκs κιnd ѳf lικє ҭЋιs. This page will give you a brief description of the glyph appe

yamadar 2021/11/06

リンク

ハイフンに似ている横棒を全て統一するᅳㅡ˗𐆑–᭸‒-─−▬𐄐—━‐‑ー﹣―ｰ﹘－⁃➖⁻！ - Qiita

はじめにこれらの横棒、コンピュータにとっては全て違うのですが見分けがつくでしょうか？ -˗ᅳ᭸‐‑‒–—―⁃⁻−▬─━➖ーㅡ﹘﹣－ｰ𐄐𐆑 郵便番号、住所、電話番号など、横棒が使われているデータを扱うとき、人が入力したデータや購入したデータであると、同じ記号が使われていないことはよくあることです。 090-1234-5678 090᭸1234᭸5678 090‑1234‑5678 090−1234−5678 これらの電話番号の文字列も phone_no_list = ['090-1234-5678', '090᭸1234᭸5678', '090‑1234‑5678', '090−1234−5678'] # 文字をUnicodeコードポイントに変換 for n in phone_no_list: # 文字列の４番目の横棒の文字コードを見てみる print(n[3], ord(n[3]

yamadar 2021/11/03

いつか使いそう

文字コード

リンク

PHPの文字コードではSJISじゃなくてSJIS-win、EUC-JPじゃなくてeucJP-winを | IT女子のお気に入りフォルダ

ホーム > PHP > PHPの文字コードではSJISじゃなくてSJIS-win、EUC-JPじゃなくてeucJP-winを PHPで使える文字コード変換はmb_list_encodings()を使って確認することができます。 foreach(mb_list_encodings() as $jcode) echo $jcode . '<br>¥n'; 注目するのは「SJIS-win」と「eucJP-win」です。どっちも「win」が付いているのでおわかりでしょうが、Windows拡張の文字に対応できるようになっています。つまり、SJISよりもSJIS-winの方が文字が多いということです。 SJIS-winにあってSJISにない文字は、 NEC 特殊文字（13区） NEC 選定 IBM 拡張文字（89～92区） IBM 拡張文字（115～119区）よく使うところでは、以下のような文字

yamadar 2015/07/27

リンク

【PHP】PHPで機種依存文字を変換する場合は文字コードをSJIS-winにしてから！ - Wataame Frog

PHPでCSVファイル取込機能を作成中、機種依存文字である「㈱」を「（株）」（半角カッコ・株・半角カッコ）に変換しようとした時にはまってしまったので、その対策方法を忘備録としてポストします。機種依存文字を変換する際の文字コードは「SJIS-win」と指定する上手くいかないこと作成しているシステムでCSVフォーマット（文字コードはSJIS）のファイルからインポートする機能をつけました。その時にありがちですが、社名や備考などに含まれている機種依存文字の「㈱」を「（株）」に変換しようとしたら、全然うまく行かない。シンプルに str_replace() で当てても変換されない始末。 CSVファイル取込・変換の基本的な流れは以下の感じ。 CSVファイルをオープン全体の文字コードを SJIS から UTF-8 に変換機種依存文字を変換かなり単純に書きましたが、特に変なことはしていないと

yamadar 2015/07/24

リンク

javascript: escape(), encodeURI(), encodeURIComponent() 比較 (groundwalker.com)

« DoBeDo 2.5 | メイン | javascript で Query String » javascript: escape(), encodeURI(), encodeURIComponent() 比較 javascript の escape(), encodeURI(), encodeURIComponent() 関数群について、どの文字がエンコードされてどの文字がエンコードされないのか分かりにくいのでまとめておく。まずは、対象範囲 %20（半角スペース）〜%7E（チルダ~）元データ !"#$%&'()*+,-./ 0123456789 :;<=>?@ ABCDEFGHIJKLMNOPQRSTUVWXYZ [\]^_` abcdefghijklmnopqrstuvwxyz {|}~ escape() %20%21%22%23%24%25%26%27%28%29*+%2C-

yamadar 2011/07/03

escape() と encodeURI の違い

リンク

JavaScript のみで、SHIFT_JIS や EUC-JP を UrlEncode に近い Escapeする Escape Codec Library : logical　error

オリジナルはVector からダウンロードできる事を確認しました。しかし、実際は ecl.js と Sleipnir の相性が悪い件についてという記事があり、そちらで新しいものが配布されています。とりあえずこちらにも用意しました。 ecl_new.txt 内容は単純に変換関数がグローバルに追加されます。 EscapeSJIS UnescapeSJIS EscapeEUCJP UnescapeEUCJP EscapeJIS7 UnescapeJIS7 EscapeJIS8 UnescapeJIS8 EscapeUnicode UnescapeUnicode EscapeUTF7 UnescapeUTF7 EscapeUTF8 UnescapeUTF8 EscapeUTF16LE UnescapeUTF16LE 一つだけタイプを取得する関数が以下です。 GetEscapeCodeType

yamadar 2011/07/03

リンク

ecl.js (Escape Codec Library) と Sleipnir の相性が悪い件について

とあるサイトで ecl.js を使っています。ecl.js とは JavaScript で文字コード変換を行うライブラリで Escape Codec Library が正式名称です。配布元は Escape Codec Library: ecl.js です。ちなみに yaplog に組み込まれている /blog/js/urlEnDecoding.js も元ネタは ecl.js みたいですね。もちろん Sleipnir で yaplog 見ると激遅です・・・ Shift_JISエンコードやEUC-JPエンコードなども可能な escape エンコード・デコード関数のライブラリ文字列をすべてのコンピュータで読めるような形式に変換したり、変換されたものを元の文字列にデコードすることができる関数のライブラリです。ビルトイン関数 escape() , unescape() とは異なり、どの種類のブラ

yamadar 2011/07/03

リンク

memo - Haskell

articlehistoryHaskelldifference of 2 revisions.rev.3 2009-06-17 11:24 (28days ago)rev.12 2009-07-15 22:59 (31mins ago)deleted lineadded lineプログラミング言語の1つで、純粋非正格の関数型言語に分類される。「純粋」とは副作用（変数への値の代入）がないことであり、「非正格」とは部分式を先行評価しないこと（遅延評価）を指す。LispやRubyなど一般的な言語のほとんどは純粋でなく、非正格でもない。そのため、Haskellでのプログラミングは、一般的な言語でのそれとはだいぶパラダイムが異なる（論理型言語のPrologに近いのかもしれない）。* モナド演算をつなぐ機能。Maybeモナド、Listモナド、IOモナドなどがある。各モナドは>>=演算子とreturn関

yamadar 2011/07/03

文字コード

リンク

QuercusでJavaからの日本語入力を取得して動作させる。

プログラミングを週末にぼちぼちやります。 twitterはこちらhttp://twitter.com/#!/search/taktod Quercusの内部設定をUTF-8で動作させ、ほかの環境がすべてUTF8の状態にしても、JavaのStringの状態で日本語を受け取ると化けまくります。そこでなんとかしましょう。まず成功事例１：Java側のオブジェクトをbyteベースの文字列に変換２：PHP側の文字列として取得３：packで文字列に戻す。これでうまくいきました。また、PHP側で取得済みのStringオブジェクトを変換用のクラスに渡せばきちんと変換されました。以下コード０：変換対象のStringオブジェクトを応答する関数 public static String TestString() { return "あいうえお"; } １：byte文字列に変換 public st

yamadar 2011/07/03

これはありがたい。

文字コード

リンク

cakePHP とsmartyを使い、html helperで日本語を使うためのメモ - 雑想空間

苦労したので、次のためにメモ初期 cakePHPとsmarty使う方法は第11回 Smartyとフレームワーク(その1:CakePHP編) - Smarty講座これ見ればいけるので、省略。んで、このなかで巧く動かない部分があった。以下のコードを先ほどのindex.tplに書いてみてください。 {$html->link('yossy先生のSmarty講座', 'http://www.phppro.jp/school/smarty/')} http://(ドメイン名)/test/index にアクセスしてみて、リンクは表示されたでしょうか?「いいえ」 <a href="http://www.phppro.jp/school/smarty/"></a> こんな感じで、リンク名が入らないちなみに、リンク名を英数字だけにすると <a href="http://www.phppro.jp/

yamadar 2011/02/07

リンク

Unicodeの似た文字を整理してみた - y-kawazの日記

XMLやCSV等のデータをJavaで色々加工して出力したりといったことをしてると必ずハマるのが波線などの文字化け問題です。文字化けが発覚するたびにググって場当たり的な対処を繰り返すのに疲れたのでよく問題になる文字と形が似た文字をリストアップして、更にそれをJavaで各種エンコーディングに変換したらどの文字になるかを頑張って纏めました。ついでに文字化けしないよう上手いこと出力可能な文字に置換する関数も作ってみました。 Javaの変換テーブル表中の U,S,W,E,J はそれぞれ、UTF-8、Shift_JIS、Windows-31J、EUC-JP、ISO-2022-JP で出力した際の文字です。見た目で分からないくらい似た文字ばかりなので、各セルにマウスカーソルを乗せたらツールチップで確認できるようtitleにコードポイントを書いておきました。分かりやすいよう、青は文字化けなし、黄

yamadar 2010/12/20

素晴らしい！

リンク

はてなブックマーク

タグ

関連タグで絞り込む (9)

文字コードに関するyamadarのブックマーク (14)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

今週のはてなブックマーク数ランキング（2024年4月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス