並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 1465件

新着順 人気順

文字コードの検索結果121 - 160 件 / 1465件

  • ruby|perl - 文字コードのちょっと高度な判定 : 404 Blog Not Found

    2007年01月11日21:00 カテゴリLightweight Languages ruby|perl - 文字コードのちょっと高度な判定 これははっきり言って悩ましい。ですが、判定が曖昧な場合はその旨をきちんと通知するのがBetter Practiceではないかと思います。 Matzにっき(2007-01-03) 手元のcalkiがUTF-8の「》」相当の文字(U+8BB)を含むエントリが文字化けするので、 nkf-utf8のソースを見てみた。 どうも自動判定の優先順位がEUC-JP,SJIS,JIS,UTF-8で固定されていて、 EUCの範囲内に収まる文字列はすべてEUC-JPとみなすことになっている。 で、UTF-8の「》」はEUC-JPの「損」と同じバイト列なのだ。例えば、以下を行ごとにコード判定すると、以下のような結果になります。 son.utf8 » 損 »損 »Son nk

      ruby|perl - 文字コードのちょっと高度な判定 : 404 Blog Not Found
    • 文字コードのUTF-8について、BOM無しと、BOM付き、というのがあったのですが、具体的に、どう異なるのでしょうか?…

      文字コードのUTF-8について、BOM無しと、BOM付き、というのがあったのですが、具体的に、どう異なるのでしょうか? 分かりやすく説明いただけますと嬉しいです。 よろしくお願い致します。

      • 東京Node学園#6 文字コードと Node

        東京Node学園#6 文字コードと Node - Download as a PDF or view online for free

          東京Node学園#6 文字コードと Node
        • Emacsの文字コード指定

          Emacsではバッファごとに文字コードの取り扱いを変えることができる. 変更できる文字コードには,主に次の3つがある: ◇ファイル文字コード バッファの内容をファイルに書き込むときの文字コード ◇キーボード文字コード Emacsにキーボードから入力されるコードで,端末が送り出す文字コードとキーボード文字コードを一致させておかねばならない ◇ディスプレイ文字コード Emacsから端末表示用に送り出される文字コードで,端末の表示に用いられるコードとディスプレイコードを一致させておかねばならない 他に,外部プロセスと通信するときに用いられるプロセス文字コード,コピー&ペースト などに使うセレクション転送時の文字コードなども変更できる. 編集中のバッファの文字コード・改行コードの判定 今,使っている編集バッファではどんな文字コードや改行コードを使っているかはEmacsウィンドウ下部にある黒ライン行

          • HTMLの文字コードをどうするべきか、あるいはHTMLとは何かという話 | なすびブログ

            HTML文書は文字エンコーディングUTF-8でなければなりませんという記事があり、混乱があるようなのでHTMLについてHTML5とHTML Living Standard(以下HTML LSと省略)について、そしてHTMLファイルの文字コードをどうするかについて、まとめておきます。 TL;DR HTMLファイルの文字コードはHTML Living Standardに従ってUTF-8にする 古いSJISやEUC-JPのHTMLファイルをUTF-8に変換する必要はない What is "HTML" ? 一般にHTMLと呼ばれる規格には複数あります。 HTML4.01を含むそれ以前のHTML (W3C) XHTML1.1 (W3C) HTML5.1 (W3C) HTML Living Standard (WHATWG) まず一旦古い話は置いておいて、HTML5とHTML LSについて考えることに

            • Webページの文字コードをUTF-8にする方法(前編)

              • MySQLの文字コード事情

                Node.js Native ESM への道 〜最終章: Babel / TypeScript Modules との闘い〜Teppei Sato

                  MySQLの文字コード事情
                • チェック作業の時間短縮!文字コード/改行コードの判定・変換ツール「FCChecker」 | バシャログ。

                  仮面ライダーウィザードのウィザードリングが5つ集まりました ishida です。 コレ以上あつめると嫁さんに怒られるので、リング集めはもう辞めます。でもベルトがほしいよぉー さてさて、本日はファイルも文字コードと改行コードチェックに便利なツールのご詳細です。 プロジェクトではそれぞれコーディングルールも異なります。 HTMLのバージョンだったり、文字コード、改行コード、対象ブラウザなど。 複数プロジェクトが同時進行の場合は、注意が必要です。 特に改行コードについては、目に見えるものではないので分かりにくいですよね。 Dreamweaverは環境設定で改行コードを変更できますが、プロジェクトごとに変更はできないので、改行コードをつい前回作業したままの状態になっていることも多いです。 そこで、便利なツールがこれ。 FileCode Checker ファイルの文字コードと改行コードを一覧表示して

                    チェック作業の時間短縮!文字コード/改行コードの判定・変換ツール「FCChecker」 | バシャログ。
                  • 文字コードを判別する: .NET Tips: C#, VB.NET, Visual Studio

                    文字コードを判別するバイト型配列を文字列に変換する方法は「バイト型配列のデータを文字コードを指定して文字列に変換する」で紹介しましたが、データの文字コードが分からなければ変換できません。ここでは、バイト型配列のデータから文字コードを判別する方法を紹介します。 .NET Frameworkでは、基本的には、文字コードを判別する方法が用意されていませんので、外部DLL、OCX等を使うか、自分でコードを書くかということになります。 BOMで判断する方法BOM(バイトオーダーマーク、byte order mark)と呼ばれる「印」がデータの先頭に付いている時は、これを手掛かりに文字コードを判別することができます。 以下に、BOMから文字コード(UTF-8、UTF-16BE、UTF-16LE、UTF-32BE、UTF-32LE)を判別するメソッドの例を示します。 ''' <summary> '''

                      文字コードを判別する: .NET Tips: C#, VB.NET, Visual Studio
                    • 携帯サイトを作る際に使える画像形式や文字コードなどまとめ

                      Twitter でアドバイス頂いことを下記にメモしておきました。個人的なメモですが公開しておきます。他にも情報があればコメント欄から情報提供頂けると幸いです。 また別途アドバイス頂いた情では御座いますが、本格的に作るなら携帯サイト コーディング&デザインを読むと良いらしいです。 現在は3キャリア GIF と JPEG を使うことができる 透過 GIF は OK GIF アニメは5コマまで Photoshop で書きだされる GIF89a で、アニメなし、インターレースなし、20KB以下なら問題が起きたことはない インターレースは一部機種不可、アニメは6コマ以上かつサイズが大きいとドコモ旧機種で問題有り Photoshop の「Web およびデバイス用に保存」の画面でインターレースとありますが、このチェックボックスのチェックは外す インターレース GIF はプログレッシブ JPEG (最初モ

                      • viエディタの文字コード自動判別

                        Red Hat Linux では、vi エディタで EUC-JP 以外の文書を開くと文字化けしてしまい編集できません。同様に Fedora Core では UTF-8 以外の文書は文字化けしてしまいます。vi エディタで、各文字コードに対応させるには、ホームディレクトリの .vimrc ファイルを編集します。 $ vi ~/.vimrc set encoding=euc-jp set fileencodings=iso-2022-jp,sjis,utf-8 Fedora Core の場合は、euc-jp と utf-8 の部分を入れ替えればよいと思います。これで vi エディタで文字化けせずに、各文字コードを扱うことができるようになります。

                        • Macで文字化けに困ったときに文字コードを一括で変換してくれるMultiTextConverter|男子ハック

                          MacおすすめアプリMacで文字化けに困ったときに文字コードを一括で変換してくれるMultiTextConverter2013年1月27日133 文字コードに気を使わないといけない場面ってあまり多くないのですが、今回WordPressをいじっていて、まとめて20ファイルほど文字コードを変換するニーズが発生。助けてくれたのがMultiTextConverterでした。

                            Macで文字化けに困ったときに文字コードを一括で変換してくれるMultiTextConverter|男子ハック
                          • 文字コード最新リンク集2005

                            正規表現/文字コード最新リンク2005 [3000URL最新人気リンク発表][お報せ][開発管理運営者][サイトマップ] ★リンク追加希望はホムペ紹介掲示板へ | 文字主体の高速表示リンク集 | 紹介文付き ■:最近行ってない | ■:最近行った | ●リンク切れ最終チェック:2003/10/26 NEWSだ!(^o^)/ : 台風 - 地図検索 Start is Hello world : HSP - C - Borland - VB - DLL&OCX - Web開発 - DB - 正規表現 コミュニティ : 掲示板 - 市場 - 出会い  トレンド : そよ風くん(風力発電機) メモ帳(M)あります : 小説 - 料理 - 占い - ? - 辞書&文例 - HARD - SOFT - 政 - 名スレ ◆文字コード表 ◆日本はjp ◆Unicode時代のWeb開発 ◆Un

                            • WindowsでInternet Explorerを使って文字コードを変換する

                              対象ソフトウェア:Windows XP/Windows Vista/Windows 7/Windows 8/Windows 8.1/Windows Server 2003/Windows Server 2008/Windows Server 2008 R2/Windows Server 2012/Windows Server 2012 R2、Internet Explorer 6/7/8/9/10/11 解説 コンピューターで使われる文字コード体系にはさまざまなものがある。Windowsで使われる文字コードとしては、MS-DOSの時代から「シフトJIS」コードがほぼ標準であった。だが、UNIX/LinuxやMac、スマートフォン/タブレット、そしてインターネット環境などでは、その他の文字コードも多く使われている。 また日本語だけでなく、世界中の言語もコンピューターで統一的に取り扱うために、

                                WindowsでInternet Explorerを使って文字コードを変換する
                              • javascriptで文字コード変換 - Qiita

                                概要 javascriptの文字列はUTF-16で String#charCodeAt(i) で取得出来る数値は2byte(0x0000から0xffff)になる。 escape("あ") は UTF-16がそのままエスケープされ "%u3042" になるが encodeURI("あ"),encodeURIComponent("あ") などではUTF-8に変換されて "%E3%81%82" になる。 var str = "文字列をUTF-8に"; var utf8str = unescape(encodeURIComponent(str)); var utf16str = decodeURIComponent(escape(utf8str)); if (str == utf16str) {alert(true);} //=> true とすることで UTF-16<=>UTF-8 の変換は出来

                                  javascriptで文字コード変換 - Qiita
                                • 文字コードをまとめようとして挫折した - Webと文字

                                  土日でできませんでした。 進捗率:10%ぐらい 目標:符号化方式を追加すること ∧,,∧    僕には無理でした ( ´・ω・) c(,_U_U      ・゚・。・ ゚・。・゚・ 。・゚・ ━ヽニニフ PDF:http://www.geocities.jp/project_the_tower2/web_mozi/code/matome.pdf 右クリックで保存してローカルで開いてください。 OpenOfficeDrawで作ったファイル:http://www.geocities.jp/project_the_tower2/web_mozi/code/matome.zip ダウンロードしたら、拡張子をodgに変えてOpenOfficeで開いてください。 追記1 ブクマがいっぱいでびっくり。ダウンロード先のリンクを修正します。いいか、見て幻滅するんじゃないぞ(´・ω・`)!本当は修正したい箇所

                                    文字コードをまとめようとして挫折した - Webと文字
                                  • もじもじカフェ 戸籍と住基とマイナンバーの文字コード - ちくちく日記

                                    もじもじカフェ第38回「戸籍と住基とマイナンバーの文字コード」に参加してきました。 もじもじカフェは「文字と印刷について市民と専門家・業界人がお茶を飲みながら気楽に話し合う」というイベント。 勉強会とかセミナーとは違って「お茶を飲みながら気楽に」というスタイルなので、会場もこぢんまりした喫茶店のようなところで、講師を中心に皆で大きなテーブルを囲んで話をするスタイル。 今回のテーマは「戸籍と住基とマイナンバーの文字コード」京都大学の安岡孝一氏を講師に現在策定が進められているマイナンバー制度などを文字コードの視点から説明してもらいました。 大変面白かったので、いつものようにレポートを。 このレポートは当日の安岡先生の話を私の手書きメモから書き起こしたものです。 聞き落とした部分もありますし、私が聞き間違えている可能性もあります。 大体こんな話だった程度の物と思ってお読みください。 もし何か間違

                                      もじもじカフェ 戸籍と住基とマイナンバーの文字コード - ちくちく日記
                                    • vimによる日本語文字コード自動判別と文字コード変換 [AFFRIT Portal]

                                      フロントエンドサーバのロケール環境は、LANG=en_US.UTF-8になっていますが、SASはEUCが標準となっています。 フロントエンドサーバでは、EUCのファイルは文字化けしてしまうので、SASのプログラムやデータを編集したり表示する場合には、UTF-8に変換する必要があります。 vimは標準で文字コードの自動判別や変換に対応しているので、vimやviewを使えば、UTF-8環境のフロントエンドサーバでもEUCのファイルを編集したり表示することができます。 WindowsのPCとのファイル転送を行う場合に、改行コードの変換が必要となりますが、改行コードについても文字コードと同様にvimでの自動判別や変換が可能です。 vimの文字コード自動判別を有効にするには、“.vimrc”を設定する必要があります。

                                      • Appleカラー絵文字文字コード表(UTF-16) - mixi engineer blog

                                        期末のお忙しいところ失礼致します。iPhoneアプリ開発担当の七尾です。 iOS5がリリースされてしばらく経ちましたが、iOS5の新機能のひとつである、Appleカラー絵文字についてUTF-16な文字コード表を作りましたので、お知らせ致します。 iOS Emoji - GitHub Pages テーブルの横幅が大きくなってしまったので、GitHub Pagesに乗せてしまいました。 また、画像数が多いので、GitHub Pagesで公開しているものは、カテゴリごとのhtmlに分割しています。統合版htmlはmasterブランチに入っていますので、必要な方はそちらをご利用ください。 iOS5からどこでも入力できるようになった絵文字は見た目はSoftbankのUnicode絵文字ですが、実体はAppleカラー絵文字(Unicode6互換)に変わっています。 ちなみに従来のSoftbank Un

                                          Appleカラー絵文字文字コード表(UTF-16) - mixi engineer blog
                                        • MySQLの文字コードとCollation - Qiita

                                          まずMySQLの文字コードですが絵文字のみでなく、JIS X 0213の第3・4水準漢字の 一部にUTF8 4バイト文字があり(まぁまず使われないと思いますが)、 MySQLの文字コードはこれからはutf8mb4一択のようです。 charsetは、サーバ、クライアント、サーバー/クライアント感の接続、データベース、、テーブル、カラムで個別に指定でき、 問題を起こさないようにするには、すべて揃えたほうが無難であります。 character_set_server=utf8mb4 character_set_client=utf8mb4 character_set_connection=utf8mb4 character_set_database=utf8mb4 character_set_results=utf8mb4

                                            MySQLの文字コードとCollation - Qiita
                                          • 第33回 enc2xs:標準の文字コード表にはない文字を変換する | gihyo.jp

                                            Encodeを使っても文字化けするとき Encodeは特定のエンコーディングにしたがって配列されたバイナリを「文字列」に置き換えるためのモジュールですが、かならずしもすべてのエンコーディングがあらゆるバイナリの組み合わせに対応しているわけではありません。 たとえば、「⁠シフトJIS」環境における機種依存文字の例としてよく取り上げられる丸付き数字をEncodeのお作法通りにdecode、encodeする場合、「⁠シフトJIS」だからと思って安易にshiftjis系列のエンコーディングでdecodeしてしまうと、丸付き数字のマッピングデータがないため「?@」のように文字化けを起こしてしまいます。 use strict; use warnings; use Encode; my $binary = pack('C*', 0x87, 0x40); # ①; my $string = decode(

                                              第33回 enc2xs:標準の文字コード表にはない文字を変換する | gihyo.jp
                                            • 文字コードについて(シフトJISの問題)

                                              文字コードをシフトJISで開発し、Windowsのサーバで動かす場合の文字コード問題について示します。 厳密にいうとWindowsが扱う文字コードは、シフトJISでは、ありません。MS932です。または、コードページ CP932ともいいます。MS932は、マ社がシフトJISを拡張して定義したコード体系です。 で、ここで何が問題になるかというと、クライアントへの出力をcharset="Shift_JIS"とか定義して、アプリケーションサーバーなど が一生懸命シフトJISで出力しようとすると、ある文字列が文字化けするのです。ようは、MS932にある文字コードはシフトJISには、ないので、'? 'で出力されるということです。なお、OC4JやJBuilderで利用するtomcatは、MS932で出力しようとするので、あんまり文字化けしませ ん。 Java内部で扱う文字コードは、Unicodeです。

                                              • macでファイルの文字コードを変換する『nkfコマンド』の使い方とオプション一覧

                                                今回困ったこと 「UTF-8」でエンコーディングされたhtmlファイルを「Shift-JIS」に変換したい。 ファイルのcharset宣言だけ変えたら文字化けした(調べてみて、そりゃそうだと納得・・・。) sublime textは「UTF-8」しか使えないらしい。 まずはnkfコマンドがインストールされているかチェック。デフォルトでは入っていないようです。 $ nkf --version インストールされていない場合はエラーが出ます。インストールしましょう。 「Homebrew」でnkfコマンドをインストール OS X用パッケージマネージャー「Homebrew」でnkfコマンドをインストールします。 「Homebrew」の環境が整っていない場合は公式サイトを参照してください。 $ brew install nkf インストールできたらバージョンをチェック $ nkf --version

                                                  macでファイルの文字コードを変換する『nkfコマンド』の使い方とオプション一覧
                                                • UTF-8の文字コード表 - 備忘帳 - オレンジ工房

                                                  UTF-8の文字コード表なのです。いつも検索して、よそ様のページを参照させていただいていたのですが、面倒なので自分で作りました。 perlのスクリプトでガーッと出したので、見栄えはアレですが、とりあえず。 1バイト文字 2バイト文字 3バイト文字 E2 9C 80 ~ Dingbats、昔からある記号、絵文字とか E3 80 80 ~ 全角ひらがな・カタカナ EF BC 80 ~ 全角英数字、半角カナ 4バイト文字 F0 9F 8C 80 ~ たぶん今どきの皆さんの言う絵文字 F0 9F 98 80 ~ 顔文字 更新履歴 (2018-05-10 追記) コード表を全体的に再出力しました。変更点は以下の通りです。 unicode追加面、4バイト文字の表もつくりました。 各文字ブロックにタイトルを付けました。英語タイトルはUnicode仕様書PDFへ直リンクしています。 表示されてないけど、ど

                                                  • Email::MIME::MobileJPで文字コードまわりに気をつかわないでメールの送受信をおこなう - Articles Advent Calendar 2010 Hacker

                                                    メール関係のモジュールをとりまとめて、カジュアルにつかえるようにするためのモジュールをかいてみました。 メールの受信(Parsing) メールのパーズは、以下のように、メールの文字列をくわせてやればいいです。 use Email::MIME::MobileJP::Parser; my $src_text = do { local $/; <> }; my $mail = Email::MIME::MobileJP::Parser->new($src_text); メールオブジェクトから Subject をえるには以下のようにしましょう。 ここでとれるものは MIME ヘッダにはいっている情報をもとに、UTF-8 に decode された文字列です。 可能ならば絵文字も decode します。これには [Encode::JP::Mobile](http://search.cpan.org/p

                                                      Email::MIME::MobileJPで文字コードまわりに気をつかわないでメールの送受信をおこなう - Articles Advent Calendar 2010 Hacker
                                                    • 文字コードと改行コード | UNIX & Linux コマンド・シェルスクリプト リファレンス

                                                      文字コードと改行コード 文字コード 古くから UNIX の日本語環境では EUC-JP が標準の文字コードとして使用されてきたが、近年の多く普及している Linux の日本語環境は UTF-8 が一般的になっている。さらに Windows では Shift-JIS が標準であるため、これらの環境を同時に使用している場合は、文字コードへの理解と各種文字コードの相互変換作業が必要となってくる。 使用されている文字コードを調べる →使用されている文字コードを調べるには nkf コマンドの -g オプションを使用する。 ファイルなどに使用されている文字コードを調べるには、後述する文字コードの変換に使用する nkf コマンドの -g オプションを使用する。 実際に文字コードの判別を行ってみる。 $ nkf -g sjis.txt Shift_JIS #↑sjis.txt は Shift-JIS で保

                                                        文字コードと改行コード | UNIX & Linux コマンド・シェルスクリプト リファレンス
                                                      • 文字コードに関する設定を記述する

                                                        MySQL を利用する上で文字コードの設定はクライアント側で使用する文字コードの設定とサーバ側でデータベースを作成した時のデフォルトの文字コードの設定を行う必要があります。ここでは MySQL の設定ファイルに対してサーバ側およびクライアント側で文字コードに関する設定を記述す方法について解説します。

                                                          文字コードに関する設定を記述する
                                                        • 小形克宏の「文字の海、ビットの舟」――文字コードが私たちに問いかけるもの

                                                          小形克宏の「文字の海、ビットの舟」 ―― 文字コードが私たちに問いかけるもの [Reported by 小形克宏] 第1部 2000JISがやってきた 第1回 2000JISとはなんだ? (2000年1月19日) 第2回 2000JISの原案はなぜ修整されたか? (2000年1月26日)加筆修正 2000年2月22日 第3回 前回までの訂正と補遺 (2000年2月2日)加筆修正 2000年2月22日 第4回 JCS委員長、芝野耕司の反論(前編) (2000年2月9日)加筆修正 2000年2月12日 第5回 JCS委員長、芝野耕司の反論(後編) (2000年2月16日)加筆修正 2000年2月22日 特別編 MacOS Xの新フォントと2000JISの関係 (2000年2月23日) 特別編2 ISO/IEC 10646で却下された(?)JIS X 0213の新漢字一覧表 (2000年3月8日

                                                          • 楽しい文字コード入門 知っておきたいUnicode Emoji編

                                                            Bizreach Tech Beer Bashでの発表資料です

                                                              楽しい文字コード入門 知っておきたいUnicode Emoji編
                                                            • なぜ『プログラマのための文字コード技術入門』の改訂新版にはSKKと Emacsの話が入っていないのか - yanok.net

                                                              拙著『[改訂新版] プログラマのための文字コード技術入門』(技術評論社,2018)についての感想で,初版にAppendixとして入っていたSKKとEmacsによるJIS X 0213対応の話が無くなっていることを惜しんでくれているものがありました。 これは初版執筆時に著者(私だ)がEmacsとSKKを使ってEUC-JIS-2004のプレーンテキストとして原稿を書いていたことを紹介し,当時の一般的な日本語入力環境が抱えていた問題点をこれによって解消できることを説明したものです。 当時の日本語入力環境というのは,おおまかにいえばJIS X 0208の第1・第2水準漢字に制約されており,それ以外の文字は入力できないか,できたとしても単漢字変換や文字パレットのような使いにくい方式によるしかないというものでした。そういう状況を改善し,現代日本で使われている文字は第1・第2水準漢字に限らず,分け隔てな

                                                              • 文字コードと改行コードについて[Apache/CGI/Perl]

                                                                {{tag: go, test, testing, actually }} actually は Go の testing ライブラリです。明示的なインターフェースと一貫性の高いメソッド群、そしてメンテナンスやリファクタリングの際に力を発揮するフェイルレポートを備えています。 [[https://github.com/bayashi/actually ac... つづきを読む

                                                                  文字コードと改行コードについて[Apache/CGI/Perl]
                                                                • JavaScript の文字コード処理に関する覚書

                                                                  • 文字コードの墓場 - しいしせねっと

                                                                    Last update  日本語には、いろんな文字コードがあります。 ややこしすぎるので、嫌です。 文字集合 エンコード + 文字コード 変換表 基礎知識 文字セット、エンコード(符号化方式)、2種類にわけて、この組み合わせで1つの文字コードになります。Unicodeをベースにしていることもあるのでさらに変換表的なものも加わると恐ろしいぐらいいろいろあります。 文字セットは、JISの場合、区点番号という区(row)と点(cell)と呼ばれる2つのコードを合わせて漢字1文字を指定します。区と点は1バイト目と2バイト目のような関係です。JISの区点はそれぞれ1〜94です。JIS X 0213やUnicodeになると区点では不足するため面(plane)という区点を区別するコードを加え、面区点の3つで区別します。 ISO-10646などでは、面区点でも不足する可能性があるため群(group)とい

                                                                    • 文字コードの発展経緯から役割と仕組みを学ぶ

                                                                      コンピュータを使っていると,画面上でさまざまな文字を目にすると思うが,これはすべて文字コードという考え方に基づいて表示している。ただ,コンピュータの内部と通信用で違う種類の文字コードを使い分けるケースも多く,なにかと複雑。これが原因で文字化けもしょっちゅう起こる。そこで,文字コードの世界を探ってみることにしよう。なお,この記事は日経NETWORK 2002年2月号に掲載したものです。それ以降の情報が盛り込まれていませんので,現在とは異なる場合があります。文字コード規格の基礎を手早く理解したい場合などにお役立てください。 インターネット上でやりとりされるデータは,すべて0か1のビットの列で表す。画像だろうと音楽だろうと,ビット列であることに変わりはない。文字だって同じである。 このため,ある文字をどのようなビット列に置き換えるのかということを,あらかじめ決めておく必要がある(図1)。具体的に

                                                                        文字コードの発展経緯から役割と仕組みを学ぶ
                                                                      • Webページの文字コードをUTF-8にする方法(前編)

                                                                        • MySQLの文字コード事情 - tmtms のメモ

                                                                          この前 MySQL Casual に登壇して、「MySQLの文字コード事情」と称して発表してきました。 終電の都合で途中退席しましたが楽しかったです。また機会があれば参加したいです。 発表スライドはこちら MySQLの文字コード事情 2017版 from Masahiro Tomita www.slideshare.net 以下、補足のような何か。 「Charset≒エンコーディング (MySQLに限らない)」 英語版のWikipediaでもcharsetは Character encoding にリダイレクトされます。 自分がcharsetという用語に出会ったのはおそらくメールのContent-Typeヘッダが初めてだったと思います。 今ではメールだけではなくHTTPのヘッダでも使用されています。 なお、CharsetはInternet Assigned Numbers Authorit

                                                                            MySQLの文字コード事情 - tmtms のメモ
                                                                          • 既存の日本語文字コードと Unicode の間のマッピングルール

                                                                            • 日本語文字コード変換 mojimoji

                                                                              第九回 日本語文字コード変換 mojimoji Flash Lite 2.0 パソコン、携帯電話に対応 240×254 約 40KB ダウンロード 日本語にはいろいろと文字コード体系があります。大型コンピュータなどで使われている EBCDICなどを除き、シフトJIS(SJIS)、EUC は JISコードをもとに、規則的に変化させたものです。 最近では、国際的な規格、ユニコード(Unicode)が、よく使われるようになってきました。 これは、Unicode(UTF-8、UTF-16)、シフトJIS(SJIS)、EUC、JIS、区点コードを一発で変換するツールです。 URLエンコード(エンコードされた部分のみ)も解釈できるようになりました。 パソコンと、内部表現に Unicode を使用する携帯電話で利用できます。 なお、文字はデバイスフォントを使用していますため、端末で表現できない文字は変

                                                                              • 文字コードの世界の第一歩 - KAKEHASHI Tech Blog

                                                                                こんにちは、株式会社カケハシでおくすり連絡帳 Pocket Musubiの開発を担当している渡辺です。 今回は文字コードについての記事を書きました。 Pocket Musubiではお薬手帳用QRコードを読み込み、デコードした結果を利用します。ここでデコードするときにうまくいかないケースがあり、そこでの知見です。 文字コードについて 蛇足ですが、文字コードについて簡単におさらいします。 文字コードとは、文字をコンピューターで扱うために、文字ごと割り当てた数字のことです。 文字コードの対応表に基づいて、文字を数字に割り当てることを文字エンコードと言います。 文字コードの対応表には、ASCIIやUTF-8のような規格があります。 たとえば、アルファベットを扱うASCII文字だと'a' は97番、'b'は98番と割り当てられています。 ASCII 先ほども出てきた「ASCII」とは、文字コードの標

                                                                                  文字コードの世界の第一歩 - KAKEHASHI Tech Blog
                                                                                • 第9回 文字コードが引き起こす表示上の問題点[前編] | gihyo.jp

                                                                                  文字コードが引き起こす問題点は、これまで説明したような比較の一致・不一致といったソフトウェアの処理上のものだけでなく、人間に対する視覚的な効果という点でも強く影響を与え、攻撃者にとっての強力な道具となることがあります。 今回および次回で、そのような文字コードが引き起こす視覚的な問題点を紹介します。 視覚的に似た文字 見かけのよく似た文字は、フィッシングなどによく利用されます。典型的な例としては、アルファベット小文字のl(エル)と数字の1などがあります。たとえば、http://bank1.example.jp/ というURLのオンラインバンクがあったとすると、攻撃者は http://bankl.example.jp/ というURLを使ってフィッシングを企むということは容易に想像できると思います。 もちろん、収録している文字数が増えれば増えるだけ、このように見かけのよく似た文字が存在する率も高

                                                                                    第9回 文字コードが引き起こす表示上の問題点[前編] | gihyo.jp