タグ

文字コードに関するgazi4のブックマーク (35)

  • UTF-8 の文字列をできる限り Shift_JIS に変換したい(実践編) | うなすけとあれこれ

    先日、きりきりやままさんがこのような記事を公開していました UTF-8 の文字列をできる限り Shift_JIS に変換したい - きりきりやま それでは実際にそのような文字列変換を行うにはどうすればよいのか、またコメントでiconvについて触れられていたので、この記事ではUnicodeにおけるNFKC正規化をどうやって行うのか試してみることにしました。 追記 GoPythonJavaScriptでの例を足しました。またいくつかのscriptにおいてブラウザ上で実行できるURLを添付しました。 (2020-08-17 16:22) “Go” に表記を統一しました。 (2020-08-17 17:00) Ruby 僕にとって文字列処理といえばRubyなので、まずは以下のようなscriptを書いてみました。 puts "\u304c" puts "String#encode('Shift_

    UTF-8 の文字列をできる限り Shift_JIS に変換したい(実践編) | うなすけとあれこれ
  • 一般社団法人文字情報技術促進協議会

    Unicode IVSは、外字を使わずにいた字を表現できる 国際標準規格です。(Unicode、ISO-10646規格の一部)

  • UTF-8の4バイト文字「土の異体字」を処理してくれない | Webシステム開発/教育ソリューションのタイムインターメディア

    今では多くのソフトがUTF-8を標準として採用し、たとえ英語圏で開発されたソフトでも日語処理に困らないことが多い。 しかし、それは、3バイトの漢字までで、4バイトになってしまう「土の異体字 」は扱えないことに出くわすことが多い。 最近、世のブームに引きずられてという訳ではないのだが、AI、言語処理系の何かをするとき、Pythonはツールが揃っているので使うことが多い。 Python自体は、4バイトの漢字も扱えるのだが、Pythonに非常にたくさんあるパッケージの中には扱えないものもある。 Pythonで文字処理をしていたのだが、GUIを用意しないと不便だなと思い、PythonGUIツールキットのTkinterを使って簡単なGUIを作りつつあるところだ。 それで、用意してあるテキストファイルを処理しようとしたら、「土屋(異体字)」さんの情報を処理しようとしたところで止まってしまった。

    UTF-8の4バイト文字「土の異体字」を処理してくれない | Webシステム開発/教育ソリューションのタイムインターメディア
  • macでファイルの文字コードを変換する『nkfコマンド』の使い方とオプション一覧

    今回困ったこと 「UTF-8」でエンコーディングされたhtmlファイルを「Shift-JIS」に変換したい。 ファイルのcharset宣言だけ変えたら文字化けした(調べてみて、そりゃそうだと納得・・・。) sublime textは「UTF-8」しか使えないらしい。 まずはnkfコマンドがインストールされているかチェック。デフォルトでは入っていないようです。 $ nkf --version インストールされていない場合はエラーが出ます。インストールしましょう。 「Homebrew」でnkfコマンドをインストール OS X用パッケージマネージャー「Homebrew」でnkfコマンドをインストールします。 「Homebrew」の環境が整っていない場合は公式サイトを参照してください。 $ brew install nkf インストールできたらバージョンをチェック $ nkf --version

    macでファイルの文字コードを変換する『nkfコマンド』の使い方とオプション一覧
  • IPA、あらゆる人名の文字化けがない「IPAmj明朝フォント」 ~約6万漢字を国際標準文字コードに対応

    IPA、あらゆる人名の文字化けがない「IPAmj明朝フォント」 ~約6万漢字を国際標準文字コードに対応
  • 異体字セレクタセレクタ

  • EPUBの外字画像の使用事例について

    JEPAの村田真さんよりEPUB Accessibility 1.0絡みで現状のEPUBでの「外字画像」の使用事例を知りたいとのお話をいただきましたので、私の知る限りで書いてみます。何人かの方にもお話をお聞きし、参考とさせていただきました。 どういった種類の外字かをわかりやすくするために、各種文字集合規格のマップを作成し、各外字がどこに位置するかを以下に図示しました。解説の番号に対応しています。併せてご参照ください。 画像内で使用している文字関連の専門用語をまとめて記述しておきます。 Unicode:1991年にバージョン1.0が出版された国際的な符号化文字集合の規格。世界中の文字を単一の文字集合で表記することを目的としている。2016年6月にUnicode9.0が出版されている。詳しくはこちら。 JIS X 0208:1978年に最初に制定された日の符号化文字集合の規格。改訂年度によっ

    EPUBの外字画像の使用事例について
    gazi4
    gazi4 2017/08/29
    縦書きの写植の斜体はイタリックとは違ったりする。が結局DTPでは無視されてイタリック風に定着してしまった
  • Unicode 10.0リリース、変体仮名を収録 - yanok.net

    Unicode 10.0が2017年6月20日にリリースされました。今回は8,518文字が追加されています。 日語話者にとって最も関係しそうなのは変体仮名の導入でしょう。 変体仮名とは 現在、平仮名は1音につき1文字ですが、以前は同じ音に対して複数の書き方がありました。例えば、平仮名の「か」は漢字「加」が元になっているもので、これ以外に「か」と読む平仮名はありませんが、かつては「可」を元にした仮名も使われていて同じく「か」と読まれました。そうした複数のバリエーションがあった仮名を明治時代に標準化したものが今の平仮名です。このとき採用されなかった異体が変体仮名と呼ばれるものです。 変体仮名は今日では文章を綴るのには使われませんが、そば屋の看板などで装飾的に用いられることがあります。 Unicodeにおける変体仮名 変体仮名はUnicodeではBMPでなく面01に配置されました。U+1B00

    gazi4
    gazi4 2017/06/22
    いいんですか?って感じになる。
  • 源ノ明朝/角ゴシック-4 Unicodeの漢字統合 – ものかの

    源ノ明朝/角ゴシック-3の続きです。 ここでは源ノ明朝/角ゴシックを使うときに知っておきたい「Unicodeの漢字統合」を説明します。そもそも、どうしてここでUnicodeが出てくるのでしょうか。 どこもかしこもUnicode Unicodeは、世界中の文字を同時に一緒に使うためのものです。இとか☯︎とか∭とか、さらに😀のような文字がここで日語と一緒に表示できるのは、ここにいるのがUnicodeの文字コードだからです。 パソコンやスマホにデジタルの文字が表示されていたら、そこにいるのは例外なくUnicodeの文字コードだと思ってかまいません。そのくらい今は満遍なく広く行き渡っています。源ノ明朝/角ゴシックもUnicodeがネイティブな文字コードです。 それぞれの文字コードが「何の文字なのか」は、1文字ずつ人間が考えて決めています。 例えば、“あ” は日語の平仮名のひとつ。他のいろいろ

    源ノ明朝/角ゴシック-4 Unicodeの漢字統合 – ものかの
  • APFSで再燃したNFD問題 - Qiita

    iOS 10.3 でAPFSが番投入されました。それでiPhoneiPadが文鎮化するなどの深刻な問題はみられなかったものの、やはり無問題とはいかなかったようで。 iOS10.3で不具合の出るアプリは、APFS関連の影響かも(Unicode Normalizationの振る舞いが変わったらしい)。GoodReaderとDropboxの同期でエラーが出るようになったのだが、ファイル名に濁点を含むファイルを除いたら同期できるように。 — 山路達也 (@Tats_y) March 29, 2017 原因を調べてみました。 #!/usr/bin/env perl use strict; use warnings; use feature ':all'; use Encode; use Unicode::Normalize; use utf8; binmode STDOUT, ':utf8';

    APFSで再燃したNFD問題 - Qiita
  • 「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記

    自分の知らないCJK Ideographのバリエーションがまだあったことに戦慄している pic.twitter.com/kUlyRLDDTM— moriyoshit (@moriyoshit) March 9, 2017 などというツイートをしたところ、思ったより反響があったのでまとめておく。 上記ではあいまいに「バリエーション」などと書いたが、Unicodeとそれを扱う環境においては、バリエーションと一口に言っても次のような状況がある。 意味論的に等価な異なる字形の集合 同じ字形で異なるコードポイントの集合 aは結構なじみ深いと思う。 a-1. 異なるコードポイントにそれぞれ異なる字形が割り当てられているもの 例: 「東」(U+6771) ⇔「东」(U+4E1C) 「斉」(U+6589) ⇔「齊」(U+9F4A) 「高」(U+9AD8) ⇔「髙」(U+9AD9) a-2. 同じコードポイ

    「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記
  • 青空文庫から.txtファイルの未来へ:パブリックドメインと電子テキストの20年

    民間のボランティアによって運営されているインターネット上のテキストアーカイブたる青空文庫注1)は,1997年7月7日の開設から早くも20年近くがたとうとしているが,今ではおよそ1万4,000点の電子テキストを収める国内有数のWebサイトにまで発展している(図1)。 稿では,その青空文庫が取り扱っている電子テキストに焦点を当て,フォーマットやツールあるいはビューアーなどの実作業にまつわる点から,JIS漢字コードをめぐる諸問題やファイルの変換や活用に至るまでを,青空文庫に長く携わってきた立場から解説してみたい。 現在,青空文庫で作業する際のよりどころとしているのは,テキストファイル(拡張子.txt),いわゆるプレーンテキストである。どのボランティアもまずはこのファイル形式で書籍を電子化し,そのあとでXHTMLファイルを自動作成して,両ファイルを公開するという手順が踏まれ,Web上で簡易閲覧す

  • 「Kindle パブリッシングガイドライン 2017.1」更新内容チェック

    Amazon Kindle向けコンテンツ作成の仕様書、「Amazon Kindle パブリッシングガイドライン」が更新されていたようですので、更新部分を含めてリフロー型電子書籍作成に関する部分をざっくりとチェックしました。英語版はこちら。以下、見出しは元文書の見出し項目そのまま、赤字はリジェクトの可能性があるなど特に重要と思われる箇所です。電書協ガイドとの互換性についての考察も入れています。ご一読ください。 “4.1 マーケティング用表紙画像は必須です” Amazonの商品ページやアファリエイトリンクなどに表示される書影画像(マーケティングカバー画像)についての規定です。最低サイズ2700×1600px以上、解像度300ppi以上、サイズ5MB以下のJPEG画像が必要とあります。また、「価格やその他の一時的な販売促進の提供に言及する」表紙画像は使用できないとの文言があり、例えばオビに価格や

    gazi4
    gazi4 2017/02/23
    意味不明な「Unicode 形式の文字は使用しないでください」という記述があると←誤訳らしい/Epub3と同ソースにできない可能性/sRGBどうこうってマジでまだ残ってる(2018.1)
  • InDesignのデータ結合でエラーが出た時に見る備忘録 – 503DESIGN

    上記を踏まえて、3つのパターンでダイアログの画像を掲載しますが、このダイアログはきっと他の原因でも出ることがあると思います。 あくまで私が失敗した経験のまとめなので、この限りではありませんのでご注意下さい。 書き出し形式さえ自分でちゃんと把握していれば、ほぼエラーは出ないと思います。 パターン1:読み込めない パターン1−1 選択したデータソースファイルにはレコードがないか、ファイル形式がサポートされていません。ファイルを修正するかレコードを含んだファイルを選択する、またはサポートされているファイル形式を選択してください。 上記の様なエラーが出る場合、だいたいファイルがUTF-8Excel 2016から保存形式にUTF-8が追加されており、思わずUTF-8で保存してしまっている失敗多々有り。 もしくはGoogleスプレッドシートを利用して作成している場合は、この子はUTF-8でしか書き

  • TRON Forum

    Happy New Year. Thank you for your continuing support for TRON Project and best wishes to all of you for the n...

  • IVD/IVSとは | 文字情報基盤整備事業

    IVS(Ideographic Variation Sequence/Selector)は、文字符号としては同一視される漢字の、細かな字形の差異を特別に使い分けるための仕組みです。IVSは文字符号の国際規格であるISO/IEC 10646(2008年版以降)に規定されています。また、IVSと、それに対応する字形の一覧は、UnicodeコンソーシアムからIVD(Ideographic Variation Database)として公開されており、ISO/IEC 10646から正規の規格として参照されています。 文字符号(文字コード)を定める日工業規格のJIS X 0213(以下、JIS)やISO/IEC 10646 Universal Coded Character Set(以下、UCS)などでは、複数の字形に対して一つの共通な符号(コード)を与える場合があります(「同一の符号位置に複数の字

  • セミナー配布用.indd

    印刷会社の電子書籍制作の担当者で,電書魂というブログを運営しています。印刷用の DTP データか ら電子書籍を制作するにあたっての外字や文字化けの問題についてお話しします。 「外字」というのは相 対的なものですが,以下の資料で取り上げられている「外字」とは,印刷物では使用できるのに電子書籍 では使用できない文字, より専門的には Adobe-Japan1 シリーズという印刷用の文字規格に含まれていて, Unicode では現状まだ使えなかったり,あるいは変換が必要になったりする文字のことを指します。 ▪ 電子書籍で使用できる文字数は,印刷物のそれよりかなり少ない 現在日語の印刷データの制作には, (通常に市販されてい るフォントを使用した場合)最大 23,058 文字を使用すること ができます。 それに対して,EPUB3 で日語の表現のために使える文字 数(UTF-8)は約 15,00

    gazi4
    gazi4 2016/02/05
    「DTPデータから電子書籍を制作する際の「外字」問題」
  • 絵文字が表示されない状況について改めてまとめてみる - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    絵文字の送受信に関しては、送り手と受け手の環境やメールアドレスの組み合わせによって結果が異なってくることに加え、文字ごとにキャリアの変換テーブルの影響を受けるため、その全容を記述するのは難しい。そこで今回は、「変換テーブルの影響」はバッサリ切り捨て、どのキャリアでも表示可能なペンギンの絵文字に絞って、基となる「送り手と受け手の環境やメールアドレスの組み合わせ」について、できるだけ網羅的に記述することとした*1。 SoftBank iPhoneでは、iOS 7.0.0から7.0.2までの間、メールアプリの仕様が変わったことによる絵文字のトラブルが多発していたが、iOS 7.0.3で以前と同様の仕様にもどって安定した。以下の図はすべて、iOS 7.0.3をベースとしている。 iPhoneから一般の(キャリアのものではない)メールアドレスで送信した場合(図では「@icloud.com」としてあ

    絵文字が表示されない状況について改めてまとめてみる - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • utf8_unicode_ci に対する日本の開発者の見解 - かみぽわーる

    RailsMySQLのcollationをサーバー側のデフォルトのutf8_general_ciからutf8_unicode_ciにわざわざ変えてるのどうせ大した理由じゃないだろと思って掘ってみたらやっぱり大した理由じゃなかった… https://t.co/6NeetGhTF0— Ryuta Kamizono (@kamipo) April 18, 2014 Railsでcollationとしてutf8_unicode_ci(RailsのDEFAULT_COLLATION)が採用されるのはcharsetが未指定もしくはutf8(RailsのDEFAULT_CHARSET)のときだけで、utf8mb4にすることとかは全く考慮されてない。— Ryuta Kamizono (@kamipo) April 19, 2014 @frsyuki MySQLのcharset utf8のときのデフォルト

    utf8_unicode_ci に対する日本の開発者の見解 - かみぽわーる
  • 全角チルダ問題

    JenkinsとDockerって何が良いの? 〜言うてるオレもわからんわ〜 #jenkinsstudyKazuhito Miura

    全角チルダ問題