タグ

textencodingに関するcu39のブックマーク (35)

  • プログラミング言語における文字コードの話

    世の中がほぼUnicode前提になってめでたしめでたし。とはいかなかった現実の話。 String型でできる文字列処理とか、ソースコード自体、特に識別子で使える文字とか。 軽くおさらい: Unicode まあいろんなところでいろんな人が書いてると思うのでさらっと概要だけ。 Unicodeは、元々、「65,536文字あれば十分だろ」とかいう幻想の元、2バイト固定長の文字コードとして作られていました。 もちろん足りなくて、ビット数を拡張。基が2バイトのままでこの拡張した分を取り扱えるようにしたのが今のUTF-16で、拡張分は2文字分(4バイト)を使って表現。 この、2文字分使って1文字を表すやつのことをサロゲートペア(surrogate pair: 代理対)と呼びます。 あと、ASCII文字も2バイトになるのを欧米人が嫌って、ASCII文字はASCIIコードのまま、逆に漢字・ひらがな・カタカナ

    プログラミング言語における文字コードの話
  • Unicodeの似た文字を整理してみた - y-kawazの日記

    XMLやCSV等のデータをJavaで色々加工して出力したりといったことをしてると必ずハマるのが波線などの文字化け問題です。 文字化けが発覚するたびにググって場当たり的な対処を繰り返すのに疲れたのでよく問題になる文字と形が似た文字をリストアップして、更にそれをJavaで各種エンコーディングに変換したらどの文字になるかを頑張って纏めました。 ついでに文字化けしないよう上手いこと出力可能な文字に置換する関数も作ってみました。 Javaの変換テーブル 表中の U,S,W,E,J はそれぞれ、UTF-8、Shift_JIS、Windows-31J、EUC-JP、ISO-2022-JP で出力した際の文字です。 見た目で分からないくらい似た文字ばかりなので、各セルにマウスカーソルを乗せたらツールチップで確認できるようtitleにコードポイントを書いておきました。 分かりやすいよう、青は文字化けなし、黄

    Unicodeの似た文字を整理してみた - y-kawazの日記
  • Shapecatcher: Draw the Unicode character you want!

    You need to find a specific Unicode character? With Shapecatcher.com you can search through a database of characters by simply drawing your character into a box. It can find the most similar character shapes for your drawing.

  • wが二つ重なった文字「ʬ」がバイラビアル・パーカッシブだと調べる方法

    もともと2ちゃんねるで回答されたものみたいですが、「wが縦に二つ重なった文字の出し方教えて」という質問に対して、「ʬ」を出したり、その読み方が「バイラビアルパーカッシブ」だと回答した人はどうやって調べたんでしょうね。 その回答者がこれを使ったかどうかはわかりませんが、ユニコード内の文字だと、ShapeCatcherというサイトで調べられます。 左側のボックスに、マウスで探したい文字を書き、”Recognize”(認識せよ)をクリックすると、下にそれに近い文字が列挙されます。wを縦に二つ書いてみましょう。 コード 0x2ac のラテン文字 bilabial percussive と出ました。 これが難しい漢字とかなら、日語IMEの手書き入力モードでも調べられます。しかし、Windows 7の標準IMEの手書き入力では、バイラビアル・パーカッシブは出てきませんでした。 Unicodeに限らず

    wが二つ重なった文字「ʬ」がバイラビアル・パーカッシブだと調べる方法
  • List of logic symbols - Wikipedia, the free encyclopedia

    This article contains logic symbols. Without proper rendering support, you may see question marks, boxes, or other symbols instead of logic symbols. In logic, a set of symbols is commonly used to express logical representation. The following table lists many common symbols, together with their name, how they should be read out loud, and the related field of mathematics. Additionally, the subsequen

  • もじもじカフェ > 第38回「戸籍と住基とマイナンバーの文字コード」

    内容かつては手書きで行われていた戸籍事務ですが,二十年くらい前から自治体ごとに徐々にコンピュータ化されていきました。そこで問題になったのが,人名・地名の漢字の多さ,とくに異体字の多さです。例えば渡辺の「辺」をとってみても,「邊」「邉」など多数の異体字があります。既存の文字コードでは間に合わないため,自治体ごとに多数の外字を作っていました。しかし,自治体ごとにバラバラではデータ交換に著しい不都合が生じます。法務省は独自の文字コード「戸籍統一文字」を定めました。 一方,住民票のデータベースである住民基台帳では,総務省が住民基台帳ネットワーク統一文字という別の文字コードを定めました。 ここに,先日可決したマイナンバー法に基づくマイナンバーが加わることになります。マイナンバーではユニコードを使う方向で話が進んでいますが,さて一体どうなるのでしょうか。 今回は,文字コード研究家の安岡孝一さん(京

  • Unicode/UTF-8-character table

    UTF-8 encoding table and Unicode characters page with code points U+0000 to U+00FF We need your support - If you like us - feel free to share.help/imprint (Data Protection)

  • 文字コード変換ミスによる文字化けパターンと想定される原因 - drk7jp

    とあるシステムでデータベースから引いてきたデータの表示が文字化けするという不具合がありました。 データベース内のデータとしては文字化けしていない状態で格納されていることはわかっていたので、どこかしらの文字変換で化けていることはわかっています。まずはどの誤変換により文字化けするのか原因切り分けのために、decode/encode の組み合わせによる文字化けパターン一覧を作りました。おかげさまでどのパターンに類するものか判別することができ、無事に改修することができました。 その話はまた別にするとして、今も昔も変わらず文字化けに悩む人は意外と多いと思います。誤変換結果一覧は原因解析の参考になると思い、記事としてまとめることにしました。 文字コード変換ミスによる文字化けパターンを可視化するプログラムと一覧表 まずは誤変換を生成する perl スクリプトです。プログラムはとっても簡単で、「文字化けで

  • はてなブログ | 無料ブログを作成しよう

    週報 2024/04/28 川はただ流れている 4/20(土) 初期値依存性 さいきん土曜日は寝てばかり。平日で何か消耗しているらしい。やったことと言えば庭いじりと読書くらい。 ベランダの大改造をした。 サンドイッチ 一年前に引っ越してからこんな配置だったのだけど、さいきん鉢を増やしたら洗濯担当大臣の氏…

    はてなブログ | 無料ブログを作成しよう
  • Vim: エンコーディング関係の設定の仕方 - while (”im mirrored”);

    vimVimでのエンコーディング関係のオプションは次の通り:'encoding'グローバルなオプション。Vimが内部で用いるエンコーディングを指定する。バッファやレジスタやVimスクリプトでの文字列の中身はこのオプションで指定されたエンコーディングが用いられる。また、他のエンコーディング関係のオプションが未設定ならばデフォルトの値としても用いられる。基的にvimrc以外で変更すべきではない。また、このオプションを変更しても既存のバッファやレジスタやVimスクリプトでの文字列の中身のエンコーディングは変化しない。(なお、ヘルプでは明言されていないがsystem()の結果は常に'encoding'として扱われ、'fileencoding'への変換は行われない。変換を期待する場合は:read!を使う必要がある。このためにvcscommandは一部で不具合が出る。)'fileencoding'バ

  • Gitの外部エディタにTextmateやvimを使う - Seasons.NET

    Gitの外部エディタとして、core.editorを設定すればそれが利用できるわけですが、 VIMの場合 git config --global core.editor 'vim -c "set fenc=utf-8"' TextMateの場合 git config --global core.editor 'mate -w' このように設定して下さい。

    Gitの外部エディタにTextmateやvimを使う - Seasons.NET
  • 文字コードに起因する脆弱性とその対策

    PHPカンファレンス2010テックデイでの講演資料 PDFダウンロードは http://www.hash-c.co.jp/archive/phpconf2010.htmlRead less

    文字コードに起因する脆弱性とその対策
    cu39
    cu39 2010/09/25
    Shift_JISの「5C問題」、EUC-JPの「蛍問題」、UTF-8の「非最短形式問題」など。
  • Project Web of pykf on OSDN Web space

    To all developers of pykf This page is a skeleton web page which was automatically set up by OSDN system. The purpose of this page is to encourage the full use of the project web. You can use the project web area to freely build Web sites to provide project information. For more details on the functions and rules of the project Web and how to use it, please read the documents regarding web site ho

    cu39
    cu39 2010/04/07
    ShiftJIS, EUC-JP, JIS相互変換。2.6未対応(ブクマ時点)。
  • 文字コード判定ライブラリ Universal Encoding Detector

    Universal Encoding Detector は Mozillaのコードが移植された、文字コードを判定するライブラリです。 とりあえずの使い方はとっても簡単で文字(列)をdetect()するだけで、推定されたエンコーディングと信頼度が返ってきます。 サポートされている文字コードも文句ありません。 「あ」1文字のように入力文字列が短すぎる場合の判定は常に信頼度0.505と出てましたがエンコーディングは合っていました。実用では1文字から推定するなんて皆無なので何も心配することはないでしょう。 <  | >

  • Universal Encoding Detector: character encoding auto-detection in Python

    Character encoding auto-detection in Python. As smart as your browser. Open source. >>> import urllib >>> urlread = lambda url: urllib.urlopen(url).read() >>> import chardet >>> chardet.detect(urlread("http://google.cn/")) {'encoding': 'GB2312', 'confidence': 0.99} >>> chardet.detect(urlread("http://yahoo.co.jp/")) {'encoding': 'EUC-JP', 'confidence': 0.99} >>> chardet.detect(urlread("http://amazo

  • Is there a Python library function which attempts to guess the character-encoding of some bytes?

  • 文字コード入門

    コンテンツ一覧 インデックスページ←いまここ コンピュータ上での数値の扱い コンピュータで文字を扱うには? ASCIIとJISローマ字 JIS漢字コード:JIS第一・第二水準 JIS補助漢字・第三・第四水準漢字 中国の文字コード 台湾の文字コード Unicode 大規模文字集合 参考資料(書籍) ページを作るにあたって参考にした書籍です。 川俣晶『パソコンにおける日語処理文字コードハンドブック』技術評論社 芝野耕司編『JIS漢字字典』日規格協会 漢字文献情報処理研究会編『電脳中国学』『電脳中国学II』『電脳中国学入門』好文出版 小池和夫/府川充男/直井靖/永瀬唯/『漢字問題と文字コード』 太田出版 1999 安岡孝一/素子『文字コードの世界』 東京電気大学出版局 1999 ユニコード漢字情報辞典編纂委員会編 『ユニコード漢字情報辞典』 三省堂 2000 小林/安岡/戸村/三上編 bi

  • Unicodeは文字集合か符号化方式か : 404 Blog Not Found

    2006年11月24日12:30 カテゴリLightweight Languages Unicodeは文字集合か符号化方式か 以下は、電脳で文字を扱う場合の基礎中の基礎なのだが、肝心の記事に重大な誤りがいくつもある。 文字コード規格の基礎:ITpro そろそろ具体的な説明に入ろう。最初にはっきりさせておく必要があるのは次の点だ。一般に「文字コード」と言う場合, 文字の集合 エンコード方法 という要素がある。この二つを区別して考えることが重要だ。もちろん大きな関連はあるのだが,ごちゃごちゃのままでは「わからなく」なる大きな要因となる。ここだ。 これによると、Unicodeは明らかに「エンコード方法」であるが、これは間違い。ここで書かれているものはUCS-2という名前のUnicodeが定めるいくつかの「エンコード方法」の一つであり、しかもUTF-16によって陳腐化した方式である。 まずUnic

    Unicodeは文字集合か符号化方式か : 404 Blog Not Found
  • 絵文字の修正提案をめぐる、ひとまずの総括 - もじのなまえ

    ここ数回、ISO/IEC 10646の追補8(Amd8)として審議中だった絵文字に対し、ぼくもふくめた5人が提出した修正案(N3711)にについてご報告してきました。 正確にはまだ最終決着とは言えない段階なのですが、ひとまずここまでの総括をしたいと思います。 WG2東京会議の審議結果について われわれの文書については、絵文字を一括して審議した分科会「Emoji Ad-Hoc meeting」で取り上げられ、その結果は「Emoji Ad-Hoc Meeting Report」の第17条(p.4)に明記されました。 17. In reference to documents N3711, N3713: The Ad-hoc agreed on a basic goal that names and glyphs for Emoji symbols in the UCS should refle

    絵文字の修正提案をめぐる、ひとまずの総括 - もじのなまえ
    cu39
    cu39 2009/12/11
    「いっそこう言った方が適切でしょう、提案しさえすれば、WG2はそれを拒めないはずだと」
  • 「PDAM8におけるEmoticonに対する修正提案」対訳版 - もじのなまえ

    10月22日のエントリ「自分の持ち場を守ること」に、たくさんのブックマーク、はてなスターをありがとうございました。とても勇気づけられました。明日から東京会議が始まるわけですが、おそらく日程の前半でEmoji Ad hoc meeting(絵文字分科会)が開催され、そこで提案趣旨を述べることになろうかと思います。 そこで、説明のためのアンチョコとして作成した提案書の対訳版を公開します。 ここに掲載するのは、第1節「Preface(前文)」と第2節「Details of the Proposal(提案の詳細)」だけです。第3節は表ですので、これは原文をご参照ください。また、第2節を読むに当たっても、原文第3節の表を参照しながらの方が分かりやすいと思います。 - 1. Preface(前文) 1.1 Reason of This Proposal(提案する理由) We welcome the p

    「PDAM8におけるEmoticonに対する修正提案」対訳版 - もじのなまえ