タグ

文字コードに関するhiro7373のブックマーク (50)

  • 絵文字を支える技術について|nona

    はじめにこちらはmhidakaが建立したAdvent Calendar Day.3となります。 こんにちは、はじめまして、のなと申します。mhidakaさんのTweetを見つけて、初めてAdvent Calendarなるものを書いています。なにかお作法間違っていたら大目に見てください、よろしくお願いします。 軽く自己紹介をさせていただくと、普段はGoogleAndroidTextまわりの開発を行っており、DroidKaigiやShibuya APKで発表させていただいたりしています。最近はほぼ絵文字の話しかしてないので、絵文字おじさんと思われてそうですが、普段の仕事絵文字に限らず、Androidの文字表示の部分は大抵面倒をみています。 今回この機会をいただいたので、どんな内容を書こうか迷ったのですが、やはり皆が読んで面白い内容というと、絵文字になるのかなぁ、ということで性懲りもなく絵

    絵文字を支える技術について|nona
    hiro7373
    hiro7373 2023/12/03
    Unicodeの知識が全然アップデートされてなかったので非常に勉強になった
  • PDFをコピペするとなぜ“文字化け”が起きてしまうのか 変換テーブル“ToUnicode CMap”が原因だった

    NTT Tech Conferenceは、NTTグループのエンジニアたちが一堂に会し、NTTグループ内外のエンジニアたちと技術交流を行うためのカンファレンスです。ここで、細田氏が「PDFのコピペが文字化けするのはなぜか?〜CID/GIDと原ノ味フォント〜」をテーマに話します。まずは文字化けが起こってしまう原因について。 原ノ味フォントの作成者 細田真道氏(以下、細田):細田です。ふだんはNTTグループのどこかでDX仕事をしていますが、今日はぜんぜん仕事とは関係なく、個人的にやっているオープンソースなどの話をしたいと思います。よろしくお願いします。 簡単に自己紹介をします。楽譜を作成するプログラム「LilyPond」のコミッターと、GNUの公式文書フォーマット「Texinfo」のコミッターをしています。あとで話しますが、「原ノ味フォント」を作っていて、すごく似たような名前で「原ノ町」という

    PDFをコピペするとなぜ“文字化け”が起きてしまうのか 変換テーブル“ToUnicode CMap”が原因だった
  • PDFのコピペが文字化けするのはなぜか?~CID/GIDと原ノ味フォント~

    PGOを用いたPostgreSQL on Kubernetes入門(Open Source Conference 2023 Online/Hokkaido...NTT DATA Technology & Innovation

    PDFのコピペが文字化けするのはなぜか?~CID/GIDと原ノ味フォント~
  • 文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!|ハイクラス転職・求人情報サイト AMBI(アンビ)

    文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう! 文字コードには、どのような種類があり、それぞれどのような意味を持つのか、といった、文字コードの基的な概念、従来の文字コードを紹介し、現在のUnicodeの構成を概説し、プログラミングにおいて注意すべき箇所をいくつか取り上げます。 ソフトウェア開発に携わる方の多くは、何らかの形で文字コードに触れることがあるでしょう。文字や記号をコンピュータ上でデータとして扱うには、文字コードの知識が必要不可欠です。 稿では、書籍『プログラマのための文字コード技術入門』の著者である矢野啓介さんが、知っておきたい基礎知識を分かりやすく解説します。 文字コードとは? Unicode以前の文字コード Unicodeとその主な符号化形式 UTF-16 UTF-32 UTF-8 Webで文字コードを指定する仕組み

    文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!|ハイクラス転職・求人情報サイト AMBI(アンビ)
  • iPhoneの文字化けを防ぐ魔法の呪文 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    昨日のエントリ(「iPhoneのMailから送ったメッセージ全体が文字化け」のまとめ)読みましたよー。iPhoneから送るメールの文字化け防止策は、署名に「♡」を入れておけばOKなんですよね? うん。ただまあ、ちょっと気にする人はいるかもなあ。 男子に誤解されちゃう、と? いや、そういうのじゃなくて、つまり、化けちゃうんだよね。 えっ? 相手の環境によっては「♡」が化けるんだよ。 何ですかそれ。文字化け対策で入れた文字が化けたら意味ないじゃないですか。 意味はあるよ。iPhoneから送ったメールは相手先で全体が化けて読めなくなる可能性があるけど、「♡」でcharset=UTF-8にしておけば、この「全体化け」を防げるんだから。ただし、相手がケータイだったりすると、「♡」自体は「・」とか「?」とかになっちゃうってこと。 自らは捨て石となってメッセージ全体を救うということですか。UTF-8にな

    iPhoneの文字化けを防ぐ魔法の呪文 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • 『避難者名簿をテキスト化している有志の皆さんへ』

    避難所の名簿をテキスト化して下さっている有志の皆さんへ。 手書きには癖字・略字があったり、氏名には旧字、異体字などが多様されています。 それらに対応する為に何か御役に立てたらと、略字に慣れない方へ向けた参考資料を作ってみました。 新しい写真の投稿がある迄の間、眺めていただけると、入力の際に「この字は入力できる」 「この字は環境依存文字だから、両方で登録した方が良い」 「この字は入力できない文字だから、置換した方が良い」 等のひらめきに繋がると思います。 又、斎と斉などの別字を混同してしまうと、最悪の場合、せっかく登録して頂いたのに、検索してもヒットしない等となる可能性も有ります。 又、住所の入力間違いは、ヒットするしないにも関わります。 どうかご一読下さい。 (一人で取り急ぎ作ったものです。タイプミスや分かりづらい表記、ご容赦下さい。尚、明らかなミスが有った場合はメッセージ頂けましたら幸い

    『避難者名簿をテキスト化している有志の皆さんへ』
  • 文字コードに起因する脆弱性とその対策

    PHPカンファレンス2010テックデイでの講演資料 PDFダウンロードは http://www.hash-c.co.jp/archive/phpconf2010.htmlRead less

    文字コードに起因する脆弱性とその対策
    hiro7373
    hiro7373 2010/09/26
    素晴らしいまとめ
  • #05 ブラウザのバッドノウハウ コンテンツ編 | gihyo.jp

    ソフトウェアなどを使いこなすために、ストレスを感じながらもしぶしぶ覚えなければならないようなノウハウ、「⁠バッドノウハウ」がテーマの連載、第5回の今回はブラウザのBKを、コンテンツの扱いに関連するものに絞って取り上げたいと思います。 IEのContent sniffing 通常、ブラウザはHTTPのレスポンスのContent-Typeヘッダに応じて、コンテンツをどのように処理するか決めますが、Internet Explorer 7(IE7)はこのヘッダを無視するときがあります[1]⁠。 たとえば、リスト1のようなファイルをtest.txtという名前でWebサーバに置いて、IE7からアクセスすると、サーバからContent-Type:text/plain(ただのテキストファイル)として送られてきているにもかかわらず、HTMLとして解釈されてしまいます(図1⁠)⁠。 リスト1 test.tx

    #05 ブラウザのバッドノウハウ コンテンツ編 | gihyo.jp
    hiro7373
    hiro7373 2010/07/22
    IEやSafariの日本語ファイル名の扱い
  • Excel 2007 の CSV と 文字エンコーディング の関係 - Hello Another World!

    自己紹介 上亮介 (ue) @ わんくま同盟 Microsoft MVP for Development Platforms - VSTO (Jul 2008 - Jun 2009) Xbox Live Xbox 360 で遊んでいます。 あわせて読みたい この記事は Excel 2003 の CSV と 文字エンコーディング の関係 の改訂版です。 改訂前の記事は Excel 2003 ベースですが、YamaKenさんから Excel 2007 だとどうなるのかとの旨コメントを頂きました。 Yamakenさん、ありがとうございます。 カンマ区切り、タブ区切りそれぞれのテキストファイルを Excel 2007 で開いたときの挙動をまとめました。 先に結果を言うと、ほとんどの場合 Excel 2007 は Excel 2003 と同じ挙動を示します。 違う挙動を示すのは

  • UnicodeとUTF-8の違いは? - Humanity

    という2chのスレがかなり勉強になったのでまとめ。 少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合?)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。 たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記:簡単にまとめました。 1 :デフォルトの名無しさん:2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 :デフォルトの名無しさん:2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 :デフォルトの名無しさん:2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 :デフォルトの名無しさん:2007/04/

    UnicodeとUTF-8の違いは? - Humanity
    hiro7373
    hiro7373 2009/12/01
    ブックマーク数の割にコメントが少ないことが物語っているけど、わかってる人は突っ込み入れながら読むし、わかってない人はこのまとめを一度読んだくらいでは理解できないだろう。ブックマークして安心して終わり
  • 絵文字が開いてしまった「パンドラの箱」第3回--Unicode提案の限界とメリット

    前回までを振り返る--Unicodeコンソーシアムの影響力 前回はどこまでお話ししましたっけ。世界中の文字の収録を目的とした文字コード規格、Unicodeは、米国のIT企業を中心に結成されたUnicodeコンソーシアムが制定するデファクト規格に過ぎないこと。しかし公的な国際機関が定めるデジュール規格ISO/IEC 10646と同期することで、WTO/TBT協定にもとづき世界中の国々に普及させられるメリットを得たこと。 また、Unicodeコンソーシアム自体はオープンな組織だけれど、意志決定を行うUTC(Unicode Technical Committee/Unicode技術委員会)で一票を投じる権利を持つのは一握りの団体に限られること。そしてUTCはISO/IEC 10646のアメリカ・ナショナルボディであるL2委員会と合同でしか開催されておらず、同時にL2委員会とUnicodeコンソー

    絵文字が開いてしまった「パンドラの箱」第3回--Unicode提案の限界とメリット
    hiro7373
    hiro7373 2009/03/21
    まさにパンドラの箱。Googleが絵文字のUnicode化に踏み込んだのはGmailがきっかけなんだろうなぁ
  • 絵文字が開いてしまった「パンドラの箱」第2回--Googleの開けてしまった箱の中味

    じつはコメントを送っていたNTTドコモ 最初に前回のおさらいをしておきましょう。スタート当初の携帯電話の絵文字には、キャリア間でメールのやり取りの中で文字化けしてしまう欠点があったこと、それを解決する仕組みをキャリア各社が作ったものの、その場しのぎの欠点の多いものであったこと、そして絵文字のUnicode符号化というのはそうした欠点を一挙に解決するはずであること。ついでにGoogle絵文字のUnicode符号化を進めることで、キャリア各社は今まで自分たちが育ててきた絵文字の主導権を奪われてしまうということも。 それから前回の最後では、キャリア各社に対してGoogleの提案についてどう思うか、パブリックレビューに参加する意向があるかを聞いてみました。そこでの回答は、各社そろって消極的と受け取れるものでした。 ところが前回の掲載後に、NTTドコモがGoogle絵文字メーリングリストに投稿し

    絵文字が開いてしまった「パンドラの箱」第2回--Googleの開けてしまった箱の中味
  • JavaScriptにおけるURLエンコードの処理

    このメモは、JavaScriptでクッキーを処理する場合のポイントをお示しし、URLエンコードに関わるトラブルを回避していただくことを目的にしています。お急ぎの方は3章と4章を飛ばして読んで頂いて構いません。なおこのメモはなるべくIEでご覧下さい。 目次 1.  1 クッキーとURLエンコーディング 2.  2 URLエンコーディングとは 3.  3 JavaScriptにおけるescape()とunescape()関数 4.  4 JavaScriptにおけるencodeURI、decodeURI、encodeURIComponent、decodeURIComponent 5.  5 それでは一体どうすればよいか? 6.  6 UTF-8のURLエンコード・デコード関数の例: プログラム例 7.  7 JSPとJavaScript間のクッキーによるデータ交換例 HTMLテキスト以外にウェ

  • javaScriptでShift-JISでURLエンコードされた文字列を、URLデコードにより元の文字列に戻したい。(しかもなるべく軽く!) - nishin5のWebデザイン&開発ログ

    あるページで次のjavaScriptファイルを読み込んでいる。 ■ecl.js http://nurucom-archives.hp.infoseek.co.jp/digital/escape-codec-library.html 文字コードがShift-JISなどでURLエンコードされた文字列を、再び元の文字列に戻すようにURLデコードしてくれる関数ライブラリ。 Firefoxでサクサク動いていたから、すっかり油断してた。IE6で動作確認したら、そのページがやたら重くて驚いた。この原因を探っていたら、このライブラリが悪さをしてることがわかった。なんとか対応したくって必死にググっていたら、同じ悩みを持った人のエントリーを発見。 Sleipnirで50タブくらい開いている状態でhttp://nurucom-archives.hp.infoseek.co.jp/digital/escape-c

    javaScriptでShift-JISでURLエンコードされた文字列を、URLデコードにより元の文字列に戻したい。(しかもなるべく軽く!) - nishin5のWebデザイン&開発ログ
  • LeopardにおけるJIS X 0213:2004(2004JIS)対応 - もじのなまえ

    それはともかく、iBookにLeopardをインストールしたので、取り急ぎ2004JIS対応についてお伝えしたい。とにかくインストールしたばかりなので、まだ十分には確認できない事情はご了解されたい。 ヒラギノフォントは90JIS対応の「Pro」と、2004JIS対応の「ProN」の両方がインストールされる(ただし角ゴW8 Stdに対してはStdN)。 PagesやKeynote、Numbers、iPhoto等のアップル純正アプリで、デフォルトフォントがProNになるということは、今のところ確認できていない。上書きインストールをしたのだが、この場合インストール前の設定が保存される。これらのアプリのうちKeynote、Numbersはインストール後Leopardで初めて起動したのだが、デフォルトフォントはProNにはなっていなかった。 上が事実であるとすれば、かつてのマイクロソフトがとった方法

    LeopardにおけるJIS X 0213:2004(2004JIS)対応 - もじのなまえ
  • サービス終了のお知らせ

    平素より「PHPプロ!」をご愛顧いただき、誠にありがとうございます。 2006年より運営してまいりました「PHPプロ!」ですが、サービスの利用状況を鑑みまして、2018年9月25日(火曜日)をもちましてサービスを終了させていただくことになりました。 サービス終了に伴いまして、2018年8月28日(火曜日)を持ちまして、新規会員登録ならびにQ&A掲示板への新たな質問、回答の投稿を停止させていただきます。 なお、ご登録いただいた皆様の個人情報につきましては、サービス終了後、弊社が責任をもって消去いたします。 これまで多くの皆様にご利用をいただきまして、誠にありがとうございました。 サービス終了に伴い、皆様にはご不便をおかけいたしますこと、心よりお詫び申し上げます。 件に関するお問い合わせはこちらよりお願いいたします。

  • サービス終了のお知らせ

    平素より「PHPプロ!」をご愛顧いただき、誠にありがとうございます。 2006年より運営してまいりました「PHPプロ!」ですが、サービスの利用状況を鑑みまして、2018年9月25日(火曜日)をもちましてサービスを終了させていただくことになりました。 サービス終了に伴いまして、2018年8月28日(火曜日)を持ちまして、新規会員登録ならびにQ&A掲示板への新たな質問、回答の投稿を停止させていただきます。 なお、ご登録いただいた皆様の個人情報につきましては、サービス終了後、弊社が責任をもって消去いたします。 これまで多くの皆様にご利用をいただきまして、誠にありがとうございました。 サービス終了に伴い、皆様にはご不便をおかけいたしますこと、心よりお詫び申し上げます。 件に関するお問い合わせはこちらよりお願いいたします。

  • 日本語と英語でよく使う約物の種類と名称 | コリス

    語と英語圏内でよく使用する、約物の種類と名称の一覧です。 日語圏内でよく使用する約物の種類と名称 記号 名称

    日本語と英語でよく使う約物の種類と名称 | コリス
  • Perl/Unicode - BugbearR's Wiki

    2017-04-16 FreeBSD/mpd 2016-12-23 RecentDeleted Blogアプリ 日記 2016-11-17 当にあった怖いコード/1 2016-05-16 .NET 2015-07-06 書きたいこと 2015-07-05 postgres Java/変数の初期化に安易に空オブジェクトを代入しない 2015-06-30 PukiWiki/1.4/マニュアル/プラグイン/u 当にあった怖いコード/15 2014-10-01 日記/2014-10-01 2014-09-09 日記/2014-09-09 2014-08-13 日記/2014-08-10 2014-05-28 バグパターン/日時 バグパターン 2014-04-13 IPv6 2014-03-20 パスワード問題 2014-01-27 DNS/ルートサーバーは13台という神話 2014-01-25

  • perl 5.8における日本語コード変換のメモ

    perl 5.8ではEncode.pmが標準モジュールとなり、多バイト文字を標準で簡単に扱えるようになりました。が、jcode.plやJcode.pmを用いたコード変換の経験があると、逆にこれが仇となって文字化けの嵐に遭います。(私の場合そうだったというだけで、普通はそんなこと無いのかもしれないのですが。)漸く最近になって基的な考え方が飲み込めるようになって来たので、この辺をまとめておこうと思います。なお、メモは新たにperl 5.8.x的なperlスクリプトを書く際に気をつけることをまとめたものであり、基的には既存のスクリプトにperl 5.8 + Encode.pmを適用するためのものではありません。また、utf8でスクリプトを書くことを前提にしています。が、どちらにせよ、この知識は参考になると思います。(たぶん。) 文冒頭ですが、まず参照先を示しておきます。以下のドキュメント