[B! 文字コード] gazi4のブックマーク

gazi4 id:gazi4

文字コードに関するgazi4のブックマーク (35)

UTF-8 の文字列をできる限り Shift_JIS に変換したい(実践編) | うなすけとあれこれ
先日、きりきりやままさんがこのような記事を公開していました UTF-8 の文字列をできる限り Shift_JIS に変換したい - きりきりやまそれでは実際にそのような文字列変換を行うにはどうすればよいのか、またコメントでiconvについて触れられていたので、この記事ではUnicodeにおけるNFKC正規化をどうやって行うのか試してみることにしました。追記 GoとPythonとJavaScriptでの例を足しました。またいくつかのscriptにおいてブラウザ上で実行できるURLを添付しました。 (2020-08-17 16:22) “Go” に表記を統一しました。 (2020-08-17 17:00) Ruby 僕にとって文字列処理といえばRubyなので、まずは以下のようなscriptを書いてみました。 puts "\u304c" puts "String#encode('Shift_
gazi4 2020/08/17
文字コード
リンク
一般社団法人文字情報技術促進協議会
Unicode IVSは、外字を使わずにいた字を表現できる国際標準規格です。（Unicode、ISO-10646規格の一部）
gazi4 2019/02/10
unicode

文字コード
リンク
UTF-8の４バイト文字「土の異体字」を処理してくれない | Webシステム開発／教育ソリューションのタイムインターメディア
今では多くのソフトがUTF-8を標準として採用し、たとえ英語圏で開発されたソフトでも日本語処理に困らないことが多い。しかし、それは、３バイトの漢字までで、４バイトになってしまう「土の異体字」は扱えないことに出くわすことが多い。最近、世のブームに引きずられてという訳ではないのだが、AI、言語処理系の何かをするとき、Pythonはツールが揃っているので使うことが多い。 Python自体は、４バイトの漢字も扱えるのだが、Pythonに非常にたくさんあるパッケージの中には扱えないものもある。 Pythonで文字処理をしていたのだが、GUIを用意しないと不便だなと思い、PythonのGUIツールキットのTkinterを使って簡単なGUIを作りつつあるところだ。それで、用意してあるテキストファイルを処理しようとしたら、「土屋（異体字）」さんの情報を処理しようとしたところで止まってしまった。
gazi4 2018/04/08
UTF-8

文字コード
リンク
macでファイルの文字コードを変換する『nkfコマンド』の使い方とオプション一覧
今回困ったこと「UTF-8」でエンコーディングされたhtmlファイルを「Shift-JIS」に変換したい。ファイルのcharset宣言だけ変えたら文字化けした（調べてみて、そりゃそうだと納得・・・。） sublime textは「UTF-8」しか使えないらしい。まずはnkfコマンドがインストールされているかチェック。デフォルトでは入っていないようです。 $ nkf --version インストールされていない場合はエラーが出ます。インストールしましょう。「Homebrew」でnkfコマンドをインストール OS X用パッケージマネージャー「Homebrew」でnkfコマンドをインストールします。「Homebrew」の環境が整っていない場合は公式サイトを参照してください。 $ brew install nkf インストールできたらバージョンをチェック $ nkf --version
gazi4 2018/02/13
文字コード
リンク
IPA、あらゆる人名の文字化けがない「IPAmj明朝フォント」～約6万漢字を国際標準文字コードに対応
gazi4 2018/01/29
文字コード
リンク
異体字セレクタセレクタ
gazi4 2017/10/12
異体字

unicode

文字コード

IVS
リンク
EPUBの外字画像の使用事例について
JEPAの村田真さんよりEPUB Accessibility 1.0絡みで現状のEPUBでの「外字画像」の使用事例を知りたいとのお話をいただきましたので、私の知る限りで書いてみます。何人かの方にもお話をお聞きし、参考とさせていただきました。どういった種類の外字かをわかりやすくするために、各種文字集合規格のマップを作成し、各外字がどこに位置するかを以下に図示しました。解説の番号に対応しています。併せてご参照ください。画像内で使用している文字関連の専門用語をまとめて記述しておきます。 Unicode：1991年にバージョン1.0が出版された国際的な符号化文字集合の規格。世界中の文字を単一の文字集合で表記することを目的としている。2016年6月にUnicode9.0が出版されている。詳しくはこちら。 JIS X 0208：1978年に最初に制定された日本の符号化文字集合の規格。改訂年度によっ
gazi4 2017/08/29
縦書きの写植の斜体はイタリックとは違ったりする。が結局DTPでは無視されてイタリック風に定着してしまった

unicode

文字コード

外字

電子書籍
リンク
Unicode 10.0リリース、変体仮名を収録 - yanok.net
Unicode 10.0が2017年6月20日にリリースされました。今回は8,518文字が追加されています。日本語話者にとって最も関係しそうなのは変体仮名の導入でしょう。変体仮名とは現在、平仮名は1音につき1文字ですが、以前は同じ音に対して複数の書き方がありました。例えば、平仮名の「か」は漢字「加」が元になっているもので、これ以外に「か」と読む平仮名はありませんが、かつては「可」を元にした仮名も使われていて同じく「か」と読まれました。そうした複数のバリエーションがあった仮名を明治時代に標準化したものが今の平仮名です。このとき採用されなかった異体が変体仮名と呼ばれるものです。変体仮名は今日では文章を綴るのには使われませんが、そば屋の看板などで装飾的に用いられることがあります。 Unicodeにおける変体仮名変体仮名はUnicodeではBMPでなく面01に配置されました。U+1B00
gazi4 2017/06/22
いいんですか？って感じになる。

文字コード

unicode
リンク
源ノ明朝／角ゴシック-４　Unicodeの漢字統合 – ものかの
源ノ明朝／角ゴシック-３の続きです。ここでは源ノ明朝／角ゴシックを使うときに知っておきたい「Unicodeの漢字統合」を説明します。そもそも、どうしてここでUnicodeが出てくるのでしょうか。どこもかしこもUnicode Unicodeは、世界中の文字を同時に一緒に使うためのものです。இとか☯︎とか∭とか、さらに😀のような文字がここで日本語と一緒に表示できるのは、ここにいるのがUnicodeの文字コードだからです。パソコンやスマホにデジタルの文字が表示されていたら、そこにいるのは例外なくUnicodeの文字コードだと思ってかまいません。そのくらい今は満遍なく広く行き渡っています。源ノ明朝／角ゴシックもUnicodeがネイティブな文字コードです。それぞれの文字コードが「何の文字なのか」は、１文字ずつ人間が考えて決めています。例えば、“あ” は日本語の平仮名のひとつ。他のいろいろ
gazi4 2017/06/18
unicode

文字コード

フォント
リンク
APFSで再燃したNFD問題 - Qiita
iOS 10.3 でAPFSが本番投入されました。それでiPhoneやiPadが文鎮化するなどの深刻な問題はみられなかったものの、やはり無問題とはいかなかったようで。 iOS10.3で不具合の出るアプリは、APFS関連の影響かも（Unicode Normalizationの振る舞いが変わったらしい）。GoodReaderとDropboxの同期でエラーが出るようになったのだが、ファイル名に濁点を含むファイルを除いたら同期できるように。 — 山路達也 (@Tats_y) March 29, 2017 原因を調べてみました。 #!/usr/bin/env perl use strict; use warnings; use feature ':all'; use Encode; use Unicode::Normalize; use utf8; binmode STDOUT, ':utf8';
gazi4 2017/03/29
Mac

文字コード
リンク
「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記
自分の知らないCJK Ideographのバリエーションがまだあったことに戦慄している pic.twitter.com/kUlyRLDDTM— moriyoshit (@moriyoshit) March 9, 2017 などというツイートをしたところ、思ったより反響があったのでまとめておく。上記ではあいまいに「バリエーション」などと書いたが、Unicodeとそれを扱う環境においては、バリエーションと一口に言っても次のような状況がある。意味論的に等価な異なる字形の集合同じ字形で異なるコードポイントの集合 aは結構なじみ深いと思う。 a-1. 異なるコードポイントにそれぞれ異なる字形が割り当てられているもの例: 「東」(U+6771) ⇔「东」(U+4E1C) 「斉」(U+6589) ⇔「齊」(U+9F4A) 「高」(U+9AD8) ⇔「髙」(U+9AD9) a-2. 同じコードポイ
gazi4 2017/03/13
文字コード

ユニコード

異体字
リンク
青空文庫から.txtファイルの未来へ：パブリックドメインと電子テキストの20年
民間のボランティアによって運営されているインターネット上のテキストアーカイブたる青空文庫注1）は，1997年7月7日の開設から早くも20年近くがたとうとしているが，今ではおよそ1万4,000点の電子テキストを収める国内有数のWebサイトにまで発展している（図1）。本稿では，その青空文庫が取り扱っている電子テキストに焦点を当て，フォーマットやツールあるいはビューアーなどの実作業にまつわる点から，JIS漢字コードをめぐる諸問題やファイルの変換や活用に至るまでを，青空文庫に長く携わってきた立場から解説してみたい。現在，青空文庫で作業する際のよりどころとしているのは，テキストファイル（拡張子.txt），いわゆるプレーンテキストである。どのボランティアもまずはこのファイル形式で書籍を電子化し，そのあとでXHTMLファイルを自動作成して，両ファイルを公開するという手順が踏まれ，Web上で簡易閲覧す
gazi4 2017/03/03
電子書籍

ユニコード

文字コード

フォント

epub
リンク
「Kindle パブリッシングガイドライン 2017.1」更新内容チェック
Amazon Kindle向けコンテンツ作成の仕様書、「Amazon Kindle パブリッシングガイドライン」が更新されていたようですので、更新部分を含めてリフロー型電子書籍作成に関する部分をざっくりとチェックしました。英語版はこちら。以下、見出しは元文書の見出し項目そのまま、赤字はリジェクトの可能性があるなど特に重要と思われる箇所です。電書協ガイドとの互換性についての考察も入れています。ご一読ください。 “4.1 マーケティング用表紙画像は必須です” Amazonの商品ページやアファリエイトリンクなどに表示される書影画像（マーケティングカバー画像）についての規定です。最低サイズ2700×1600px以上、解像度300ppi以上、サイズ5MB以下のJPEG画像が必要とあります。また、「価格やその他の一時的な販売促進の提供に言及する」表紙画像は使用できないとの文言があり、例えばオビに価格や
gazi4 2017/02/23
意味不明な「Unicode 形式の文字は使用しないでください」という記述があると←誤訳らしい／Epub3と同ソースにできない可能性／sRGBどうこうってマジでまだ残ってる(2018.1)

Kindle

電子書籍

ガイドライン

文字コード
リンク
InDesignのデータ結合でエラーが出た時に見る備忘録 – 503DESIGN
上記を踏まえて、３つのパターンでダイアログの画像を掲載しますが、このダイアログはきっと他の原因でも出ることがあると思います。あくまで私が失敗した経験のまとめなので、この限りではありませんのでご注意下さい。書き出し形式さえ自分でちゃんと把握していれば、ほぼエラーは出ないと思います。パターン１：読み込めないパターン１−１選択したデータソースファイルにはレコードがないか、ファイル形式がサポートされていません。ファイルを修正するかレコードを含んだファイルを選択する、またはサポートされているファイル形式を選択してください。上記の様なエラーが出る場合、だいたいファイルがUTF-8。 Excel 2016から保存形式にUTF-8が追加されており、思わずUTF-8で保存してしまっている失敗多々有り。もしくはGoogleスプレッドシートを利用して作成している場合は、この子はUTF-8でしか書き
gazi4 2017/02/20
indesign

文字コード

Excel

DTP
リンク
TRON Forum
Happy New Year. Thank you for your continuing support for TRON Project and best wishes to all of you for the n...
gazi4 2016/10/20
フォント

日本語

書体

文字コード
リンク
IVD/IVSとは | 文字情報基盤整備事業
IVS(Ideographic Variation Sequence/Selector)は、文字符号としては同一視される漢字の、細かな字形の差異を特別に使い分けるための仕組みです。IVSは文字符号の国際規格であるISO/IEC 10646(2008年版以降)に規定されています。また、IVSと、それに対応する字形の一覧は、UnicodeコンソーシアムからIVD(Ideographic Variation Database)として公開されており、ISO/IEC 10646から正規の規格として参照されています。文字符号（文字コード）を定める日本工業規格のJIS X 0213(以下、JIS)やISO/IEC 10646 Universal Coded Character Set（以下、UCS）などでは、複数の字形に対して一つの共通な符号（コード）を与える場合があります（「同一の符号位置に複数の字
gazi4 2016/02/08
IVS

文字コード
リンク
セミナー配布用.indd
印刷会社の電子書籍制作の担当者で，電書魂というブログを運営しています。印刷用の DTP データから電子書籍を制作するにあたっての外字や文字化けの問題についてお話しします。「外字」というのは相対的なものですが，以下の資料で取り上げられている「外字」とは，印刷物では使用できるのに電子書籍では使用できない文字，より専門的には Adobe-Japan1 シリーズという印刷用の文字規格に含まれていて， Unicode では現状まだ使えなかったり，あるいは変換が必要になったりする文字のことを指します。 ▪ 電子書籍で使用できる文字数は，印刷物のそれよりかなり少ない現在日本語の印刷データの制作には，（通常に市販されているフォントを使用した場合）最大 23,058 文字を使用することができます。それに対して，EPUB3 で日本語の表現のために使える文字数（UTF-8）は約 15,00
gazi4 2016/02/05
「DTPデータから電子書籍を制作する際の「外字」問題」

indesign

異体字

文字コード

電子書籍
リンク
絵文字が表示されない状況について改めてまとめてみる - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
絵文字の送受信に関しては、送り手と受け手の環境やメールアドレスの組み合わせによって結果が異なってくることに加え、文字ごとにキャリアの変換テーブルの影響を受けるため、その全容を記述するのは難しい。そこで今回は、「変換テーブルの影響」はバッサリ切り捨て、どのキャリアでも表示可能なペンギンの絵文字に絞って、基本となる「送り手と受け手の環境やメールアドレスの組み合わせ」について、できるだけ網羅的に記述することとした*1。 SoftBank iPhoneでは、iOS 7.0.0から7.0.2までの間、メールアプリの仕様が変わったことによる絵文字のトラブルが多発していたが、iOS 7.0.3で以前と同様の仕様にもどって安定した。以下の図はすべて、iOS 7.0.3をベースとしている。 iPhoneから一般の（キャリアのものではない）メールアドレスで送信した場合（図では「@icloud.com」としてあ
gazi4 2015/03/12
文字コード

mobile
リンク
utf8_unicode_ci に対する日本の開発者の見解 - かみぽわーる
RailsがMySQLのcollationをサーバー側のデフォルトのutf8_general_ciからutf8_unicode_ciにわざわざ変えてるのどうせ大した理由じゃないだろと思って掘ってみたらやっぱり大した理由じゃなかった… https://t.co/6NeetGhTF0— Ryuta Kamizono (@kamipo) April 18, 2014 Railsでcollationとしてutf8_unicode_ci(RailsのDEFAULT_COLLATION)が採用されるのはcharsetが未指定もしくはutf8(RailsのDEFAULT_CHARSET)のときだけで、utf8mb4にすることとかは全く考慮されてない。— Ryuta Kamizono (@kamipo) April 19, 2014 @frsyuki MySQLのcharset utf8のときのデフォルト
gazi4 2015/03/08
unicode

文字コード
リンク
全角チルダ問題
JenkinsとDockerって何が良いの？〜言うてるオレもわからんわ〜 #jenkinsstudyKazuhito Miura
gazi4 2014/07/07
文字コード

ユニコード
リンク
1 2 次のページ