[B! unicode] neumannのブックマーク

Unicode Codepoint Chart

Unicode Codepoint Chart U+0000 to U+007F: Basic Latin U+0080 to U+00FF: Latin-1 Supplement U+0100 to U+017F: Latin Extended-A U+0180 to U+024F: Latin Extended-B U+0250 to U+02AF: IPA Extensions U+02B0 to U+02FF: Spacing Modifier Letters U+0300 to U+036F: Combining Diacritical Marks U+0370 to U+03FF: Greek and Coptic U+0400 to U+04FF: Cyrillic U+0500 to U+052F: Cyrillic Supplement U+0530 to U+058F:

neumann 2014/10/09

unicode

リンク

文字コード地獄秘話第1話：Unicodeにおける全角・半角 - ALBERT Engineering Blog

ごあいさつ皆様はじめまして、文字コードおじさんです。細々とカメラ屋を営んでおりましたが、エンジニアとしての技量を評価され、ALBERTのシステム開発・コンサルティング部で働くことを許されました。特技はサーバーの統廃合です。今回は最初ということですが、Unicodeにおける全角・半角の取り扱いについて触れてみようと思います。なお、さも連載するかのように第1話と銘打っていますが、上層部の無慈悲な裁決によっては1話打ち切りもありえますので、その際はご容赦ください。固定観念を捨てよう「全角50文字、半角100文字まで」といったような文言を見かけたことがあると思います。特にUnicode以前のレガシーな処理系では全角文字に2バイト、それ以外は1バイトという割り当てが慣習となっていました。このため、「全角=2バイト文字、半角=1バイト文字」という観念が世間に定着しているのが現状です。しか

neumann 2014/04/21

unicode

リンク

「ユニコードは犯罪だからやめてください」の衝撃 - yanok.net

新年早々、大笑いしてしまったこと。下らないといえば下らないので書くまでもないかと思ったのですが、後で忘れた頃に読み返すと面白いかもしれないので書きとめておくことにします。何があったのかは下記のページに詳しく書かれてあります。こちらを読んでいただければ、ぶっちゃけそれ以上のことはないです。「LINEウイルス」の正体とは―LINE内で流行する「ウイルス攻撃」の現状について簡単にまとめていうと、 LINE上で「ウイルス」なるものを送りつけることができるという噂があって、実際にそれを送りつけられるとLINEのアプリが誤動作(重くなる)らしい実際のところ、ここで「ウイルス」と呼ばれているものはある特定の文字列である (プログラムではない。であるからしてウイルスでもない) 特定の文字列を受け取ると動作が極端に重くなる不具合のあるアプリがある、というのが真相らしい問題を引き起こす文字列は、U

neumann 2014/01/11

ああ、UTF-16のサロゲートペアは犯罪だと思う。

unicode

リンク

サービス終了のお知らせ

サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

neumann 2013/08/04

ConvertUTF8toUCS2

unicode

リンク

4189-2 | UTF-16をUTF-8に変換する方法 - VB初心者友の会 - Q&A掲示板過去ログ

neumann 2013/08/04

unicode

リンク

Unicode�$BBP1~�(B �$BJ8;z%3!<%II=�(B

�$B!!�(BUnicode�$BBP1~$N�(BJIS�$BBhFs?e=`4A;z$NJ8;z%3!<%II=$G$9!#�(B �$B!!%V%i%&%6$r;H$C$F!"J8;z$dJ8;z%3!<%I$r8!:w$7$FC5$9$3$H$,$G$-$^$9!#�(B Unicode�$BBP1~$K$D$$$F�(B �$B!!�(BUnicode�$B$KBP1~$7$F!"6hE@HV9f!"�(BJIS�$B%3!<%I!"%7%U%H�(BJIS�$B%3!<%I!"�(BEUC�$B%3!<%I!"�(BUnicode(UTF-8, UTF-16)�$B$NBP1~I=$r:n@.$7$F$_$^$7$?!#�(B �$B!!�(BUTF-16�$B$O!"�(BUTF-16BE�$B!J%S%C%0%(%s%G%#%"%s!K$GI=<($7$^$9!#�(B

neumann 2013/08/04

JIS第二水準漢字・文字コード表

unicode

リンク

Unicode - 技術情報Wiki

「〜」のUnicde->ShiftJIS変換問題† Windows環境でSJIS<-->Unicode間のコード変換を往復すると「〜」がヘンなのに変換される問題。 http://blog.livedoor.jp/dankogai/archives/50488765.html Unicode とユーザ定義文字・ベンダ定義文字に関する問題点と解決策 @ITでの関連記事 http://www.atmarkit.co.jp/fjava/rensai3/mojibake02/mojibake02.html http://www.atmarkit.co.jp/fjava/rensai3/mojibake03/mojibake03.html 同様の問題を起こすコードの一覧表 http://www.ingrid.org/java/i18n/unicode.html ↑ Unicodeにしかない文字† Sh

neumann 2013/07/16

unicode

リンク

CAサポート

CA サポートからのお知らせ、セキュリティに関する重要なお知らせはこちらをご覧ください。テクニカルサポート -CAエンタープライズ製品のサポート- 製品別サポート技術情報へダウンロードへお問い合わせへ information Arcserveシリーズ製品お問い合わせ窓口変更のお知らせ Arcserveシリーズ製品の販売・サポートはすべてarcserve Japan合同会社が提供しています。本シリーズ製品に関するお問い合わせは、以下の窓口へご連絡ください。 Arcserveシリーズ製品お問い合わせ窓口 CA サポートからのお知らせ（最新5件）|全件表示 2014.10.15 エンハンスメントリクエスト受付方法　変更のお知らせ（全製品対象） 2014.10.09 製品エンハンスメントのリクエスト方法の変更のお知らせ　CA Single Sign-On(旧CA Sit eMinder®)

neumann 2013/07/15

CodePage 932 : 398 non-round-trip mappings

unicode

リンク

Difference of Unicode Conversion Tables

シフトJISからUnicodeへの変換テーブルの相違 1999年6月9日更新これは、川俣が調査した、シフトJISからUnicodeへの変換テーブルの相違をまとめたものです。調査にあたってミスなどがある可能性がありますので、他の調査結果と併用するなり、自分でも調べるなりして下さい。更新履歴 1999年6月9日　Another-HTML Lintを通るようにHTMLの間違いを訂正(内容は変化していません) 1998年12月28日　JIS X 0221の変換テーブルで句点1-17が「未定」と記述されていることを発見 1998年12月17日　HTML生成に不手際があり一部テーブルの項目がずれていました。これを修正しました。 1998年10月29日　Apple社、IBM社のテーブルを追加 1998年10月20日　最初の作成調査した変換テーブル cp932 Unicodeコンソーシアムがftp:/

neumann 2013/07/15

unicode

リンク

Unicodeについて

Maxyは、Unicode対応のテキストエディタです。ところで、そもそもUnicodeって何なのでしょうか。 UnicodeとUTF-8とかUTF-16との関係は？そのあたりのことを簡単に説明していきます。文字コードとは日本語を扱うには？文字化け多言語の混在 Unicodeの誕生サロゲートペアエンコード方式 BOM そして今… 資料文字コードとはまずは基本中の基本だけど、（現在のところ）コンピュータが扱えるのは数値のみという大前提がある。何をするにも数値をいじるしかない。きれいなCGも、優雅な音楽も、つまるところ数値なわけだ。「ここに100を書き込んで、ここに150を書き込んで…」と、コンピュータが必死になっていろんなところに数値を書き込んだ結果としてCGが表示されたり音楽が流れたりするわけ。そんなわけだから、当然コンピュータ内で文字を表現するにも数値が必要で、

neumann 2013/07/15

unicode

リンク

文字列の文字数とバイト数: MFC小技メモ集

※ 注意事項使用環境は、Windows XP sp3 Visual Studio 2008 sp1 VC++ MFC 使用文字セットは「Unicode」使用ですが、マルチバイト文字にも対応できます。文字セットをUnicodeとマルチバイトにした時の、文字列の文字数とバイト数について書きます。まず、これから書いていくことは、 CString str = _T("123あいう"); // 基本の文字列 int iLength; // 文字数 DWORD dwSize; // 文字サイズ　という、文字列を前提に話をしていきます。この文字列は、見た目で文字数iLengthは"6"ということがわかりますが、これをコードで、 iLength = str.GetLength();と書くと、iLeng

neumann 2013/07/14

バイトサイズ dwSize = str.GetLength() * sizeof(TCHAR);

unicode

リンク

https://support.microsoft.com/ja-jp/help/170559

すべての Microsoft 製品 Microsoft 365 Office Windows Surface Xbox セールサポートソフトウェア Windows アプリ OneDrive Outlook Skype OneNote Microsoft Teams PC とデバイス Xbox を購入するアクセサリ VR & 複合現実エンタメ Xbox Game Pass Ultimate Xbox Live Gold Xbox とゲーム PC ゲーム Windows ゲーム映画とテレビ番組法人向け Microsoft Azure Microsoft Dynamics 365 Microsoft 365 Microsoft Industry データプラットフォーム Power Platform 法人向けを購入する Developer & IT .NET Visual Studi

neumann 2013/07/14

Unicode との相互変換ができない文字のリストを次に掲載します。これは、容易に解決することができない既知の問題です。このリストは、ケースバイケースの回避方法を提供します。

リンク

Unihan Database Lookup

About the Unihan Database Lookup Tool The lookup interface on this page provides online access to property data in the Unicode Han (Unihan) database for individual ideographs via the “Lookup” button and text field above. Simply enter the four- or five-digit hexadecimal code point for the desired ideograph into the text field, or copy and paste the ideograph into it, then click the “Lookup” button.

neumann 2013/07/14

unicode

リンク

JIS2000/2004情報

2000年はじめに JIS X 0213：2000 いわゆる JIS2000 が発表されました。 JIS2000 では，従来の非漢字＋第1水準＋第2水準の計約 6800 字に加えて新たに約 4300 の文字が定義されました。また，2004年には，第3水準における10文字の追加と第1水準・第2水準における168文字の例示字形の変更がありました (JIS X 0213：2004 いわゆる JIS2004)。じつは，JIS2000 への対応は Unicode ベースでは進んでいました。 JIS2000 文字の Unicode への登録が完了したのが 2002 年なので，この時期以降に出た多くのフォントには JIS2000 の文字が含まれています。また，Mac OSX や Windows2000/XP は OS レベルで Unicode に対応しているので，フォントとアプリケーションが対応し

neumann 2013/07/14

サロゲートペア一覧

unicode

リンク

MORIYAMA Masayuki's Home Page!

森山将之のホームページへようこそ! あなたは、1996年8月26日から数えて番目の訪問者です。更新情報 2004年7月24日更新キーボード関連親指シフト配列 2002年6月6日更新キーボードの配列図 1997年6月3日更新キーボード配列案 2003年10月12日更新 - 最新作 USBキーボードのキーコード 2002年3月14日新規作成 Windows での USBキーボードの諸問題 2001年11月13日新規作成文字コード関連機種依存文字 2000年1月20日更新 JIS X 0201 片仮名(半角カナ) 2002年4月2日更新第3,第4水準漢字 1998年5月2日新規作成表示だけでは機種依存文字か判別できない文字 1998年5月3日新規作成 Windows-31J 情報 2003年8月21日更新ソフトウェア簡単なライブラリやパッチなどちょっとした資料

neumann 2013/07/13

シフトJIS 1区～120区の一覧 JIS X 0208 一覧 (Unicodeコンソーシアムの変換表による UTF-8) UTF-8 のテスト用 JIS X 0208 一覧 (マイクロソフトの変換表による UTF-8) UTF-8 のテスト用 JIS X 0212 一覧 (UTF-8) UTF-8 のテスト用

unicode

リンク

atpages.jp - このウェブサイトは販売用です！ - atpages リソースおよび情報

neumann 2013/07/13

utf-8 JIS X 0213 第3,4水準漢字一覧

unicode

リンク

サロゲートペア入門

はじめに Windows VistaのJIS2004対応により、WindowsのUnicode環境で使用できる日本語漢字の数が増えました。従来、12238字（Windows XP）だったのが13145字（Windows Vista）になり、907字追加されることになりました。これによって、JIS第3水準、JIS第4水準の漢字がすべてサポートされることになったのです（Windows XPまでは一部サポート）。またWindows XPでも、パッチさえ当てれば、Windows Vistaと同じように追加907字を加えた13145字の漢字が使用できるようになりました。ところが、この追加された907字の中には「サロゲートペア」という特殊な文字が304字あり、これらは今までのUnicodeの文字とは扱いが少し違います。この点について解説していきたいと思います。対象読者 Unicodeでデータ処理

neumann 2013/07/12

unicode

リンク

Unicode対応 JIS X 0208 文字コード表

Unicode対応 JIS X 0208 文字コード一覧 JIS X 0208 の区点番号、JISコード、シフトJISコード、EUCコード、Unicode(UTF-8, UTF-16)の文字コード対応一覧です。文字コードとその文字を順に出力しているだけですので、表示される文字はフォントによって決まります。 01区～08区　JIS非漢字（各種記号、英数字、かな） 13区～13区　NEC特殊文字（機種依存） 16区～47区　JIS第1水準漢字 48区～84区　JIS第2水準漢字文字コードについてのページや、文字コード一覧についての説明もあります。 JIS X 0208 JIS非漢字文字コード表区点 JIS SJIS EUC UTF-8 UTF-16 字 01 01 2121 8140 A1A1 E38080 3000 01 02 2122 8141 A1A2 E38081 3001

neumann 2013/07/11

JIS第一水準漢字・文字コード表

unicode

リンク

UnicodeとUTF-8の違いは？ - 自分的まとめ - Humanity

UnicodeとUTF-8の違いは？ - Humanityはあんなに反響があるとは思わなかった。ブコメにコピペじゃなくてまとめを書いてくれれば良い資料になるのにと書いてあったので今度は自分の知識をまとめてみる。と言っても自分もあのスレを見るまでUnicodeとUTF-8を混同してた一人なのでほとんどあのスレからの知識ですが...orz なので簡単なまとめ。引用を多分に含みます。間違ってたらつっこんでいただけるとうれしいです。調べる際に弾さんのエントリがかなり参考になったので(今頃意味が分かってきた)関連リンクとして度々載せさせていただきます。参考リンクじゃない理由は解説しているエントリだけじゃなくて既存のエンコーディングを拡張するといった高度なエントリも含まれているため。 UnicodeとUTF-8 まず一番重要なことは Unicodeは「符号化文字集合(Coded Charact