[B! unicode] Layzieのブックマーク

全角チルダ問題

JenkinsとDockerって何が良いの？〜言うてるオレもわからんわ〜 #jenkinsstudyKazuhito Miura

Layzie 2014/07/07

闇感

リンク

More About Unicode in Python 2 and 3

More About Unicode in Python 2 and 3 written on Sunday, January 5, 2014 It's becoming increasingly harder to have reasonable discussions about the differences between Python 2 and 3 because one language is dead and the other is actively developed. So when someone starts a discussion about the Unicode support between those two languages it's not an even playing field. So I won't discuss the actual

Layzie 2014/01/05

リンク

ターミナルで動画を観る試み - moriyoshiの日記

Unicode文字セットの一部に、これといって用途がわからないものがある。block elements というものだ。 Block Elements (Range: 2580-259F) マイコン世代にはおなじみのセミグラフィクス用キャラクターだ。なぜ Unicode 時代にもなってこれが必要だったのだろうという疑問はあるが、何にせよ、ノスタルジーをかき立てる身近な存在には違いない。今日はこれを使ってターミナルで動画を見てみたいと思ったのでこんなコードを書いた。出力はこんな感じ。 charfb: semigraphics on a Unicode-capable terminal.

Layzie 2013/06/04

リンク

SourceTree の圧倒的な素晴らしさと致命的な欠点について。(修正済み) - こせきの技術日記

(追記) 下記の問題点は、1.5で修正される予定とのことです。 (追追記) 濁点付きの検索はできないようですが、ログの問題は修正されていました。v1.5.3で確認。 SourceTree の UI は最高に素晴らしく、これまで見たどんなバージョン管理アプリケーションと比べても、次元が違う洗練されたユーザエクスペリエリンスが約束されており、有料になったら絶対買うんですが、いまは無料なので本当に感動的です。 Free Mac client for Git, Mercurial and SVN - Atlassian SourceTree Git、Mercurial 対応 DVCS Mac クライアント | Atlassian 日本語サイト Mac App Store - SourceTree (Git/Hg) Mac App Store でも一つだけ問題があって、、まともなコミットログが書けな

Layzie 2012/05/11

なんと。日本語でコミットコメントした事ないから分からんかった…。そういえば、GitHubのWikiのタイトルも濁点・半濁点が入ると、gitでpullした時にファイルが2つになったりする…。

リンク

Unicodeで「漢字」の正規表現 – ものかの

改訂：2017/07/22 Unicode 10.0に合わせて書き直し。正規表現を簡易にしようとしてやりすぎていたのを修正。改訂：2023/03/21 U+30000以降を追加。InDesignの正規表現を追記。正規表現で漢字の範囲指定をする場合、Unicodeではどうするかが悩ましいところです。 Unicodeの漢字の範囲として [一-龠] にしている例を見かけます。しかしこれは旧規格JIS X 0208の漢字が含まれる範囲をUnicodeの中から切り出しているだけです。互換漢字ブロックをまるごと取りこぼしているので、WindowsのシフトJIS（CP932）の拡張漢字に当たるものが含まれていません。現規格JIS X 0213の第３・第４水準漢字も考慮されていません。簡易な範囲指定だとしても、新常用漢字の「𠮟」が含まれておらず、今から見るとあまりに時代遅れです。 Unicodeのす

Layzie 2010/04/26

む、難しいな…

リンク

perl - Unicode「'あ'はAlphabetですが、何か?」 : 404 Blog Not Found

2010年04月23日07:00 カテゴリLightweight Languages perl - Unicode「'あ'はAlphabetですが、何か?」結論から言うと、仕様です。 Is "あ" an alphabet? - FloralCompany.log use utf8; print 1 if "あ" =~ /\p{IsAlpha}/; print 2 if "あ" =~ /\p{Alphabetic}/; print 3 if "あ" =~ /[[:alpha:]]/; ﾅﾝﾃﾞﾔﾈｰﾝそれも、PerlではなくUnicodeの。 UAX #44: Unicode Character Database Characters with the Alphabetic property. For more information, see Chapter 4 in [Unicode

Layzie 2010/04/23

リンク

Apacheで「Invalid command '\xef\xbb\xbf'」(UTF-8ファイルからBOMを削除) - 元RX-7乗りの適当な日々

とある環境で、いただいたApacheの設定ファイルを配置し、configtestを行うと、以下のエラーが出た。 Invalid command '\xef\xbb\xbf', perhaps misspelled or defined by a module not included in the server configuration ファイルの文字コードは、UTF8でしたが、"EF BB BF"は「BOM」と呼ばれる、テキストがUnicodeで書かれているか、や、記述形式の識別を行うための符号らしい。 (恥ずかしながら初めて知った。) ■BOM (Byte Order Mark, バイト・オーダー・マーク) UnicodeのUTF-16などの16bit単位の文字エンコーディングスキームでは、8bit単位でデータを配列する際のエンディアンとして、ビッグエンディアンとリトルエンディアンの

$Apacheで「Invalid command '\xef\xbb\xbf'」(UTF-8ファイルからBOMを削除) - 元RX-7乗りの適当な日々$

Layzie 2010/04/08

リンク

Pythonにおける日本語のエンコーディングの検出について - 試験運用中なLinux備忘録・旧記事

(2015/1/29)一部のリンク先を修正し、更にサンプルコードもPython 3で動作することなどを目的に一部修正した。エンコーディングの簡易検出例 ASCIIとISO-2022-JPの区別が重要でない場合のデコード実用的なエンコーディング判別パッケージエンコーディングの簡易検出「Pythonにおけるエンコーディングの扱いとエンコーディングの変換について」の最後で、特定のエンコーディングにエンコードされた文字列をUnicode文字列にデコードする際に実際のエンコーディングに合っていなければUnicodeDecodeErrorが出ることを書いたが、言い換えると、一部の例外を除いて正しいエンコーディング指定と文字列オブジェクトとの組み合わせでのみUnicodeDecodeErrorは発生しない。これを利用して、エンコーディングが不明な文字列オブジェクトに対して、エンコーディング名の

Layzie 2010/04/02

リンク

Pythonにおけるエンコーディングの扱いとエンコーディングの変換について - 試験運用中なLinux備忘録・旧記事

(2010/11/1)本記事の内容はバージョン2系のPythonについて書かれている。バージョン3系ではエンコーディングの扱いが変わっており、「バージョン3系のPythonにおける文字列とそのエンコーディングに関する覚え書き(文字列型とバイト列型)」で扱っている。 (2014/11/20)リファレンスのリンク先を修正した。エンコーディングとエンコード/デコード操作エンコーディングの変換 encode()やdecode()が失敗する場合についてエンコーディングとエンコード/デコード操作Pythonにおいて、UTF-8やCP932(WindowsのShift_JIS)などのそれぞれのエンコーディングの文字列はUnicodeの文字列と相互に変換することができる。各エンコーディングにエンコードされている文字列オブジェクトのメンバ関数decode()の引数にそのエンコーディング名を指定すると

Layzie 2010/04/02

リンク

IBM Developer

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

Layzie 2010/02/04

unicode
php

リンク

WebテキストのUnicode (UTF-8)化進む、50%に | エンタープライズ | マイコミジャーナル

Unicode is a computing industry standard allowing computers to consistently represent and manipulate text expressed in most of the world's writing systems. Googleから、Webで使われているテキストのエンコーディング割合がOfficial Google Blog: Unicode nearing 50% of the webにおいて発表された。1年半前の発表時点の傾向が続いており、ほかのエンコーディングを引き離してUnicode (UTF-8)が50%のシェアへ近づいている。変化割合は大きく、今後もUnicode (UTF-8)の割合が急成長していくとみられる。 Moving to Unicode 5.1より抜粋 Unicode n

Layzie 2010/02/02

わお。

web
unicode

リンク

Unicode の雪だるま - bkブログ

Unicode の雪だるま Unicode Snowman for You というサイトを知りました。Unicode の雪だるま (U+2603 SNOWMAN ☃) が表示されるだけのサイトです。が、ソースを見ると font-face で EOT 形式のウェブフォントが使われていることに気づきました。この EOT (Embedded Open Type) 形式のウェブフォントは IE しか対応していないようです。IE で表示するとこのような雪だるまが表示されました。これはおそらく Arial Unicode MS の雪だるまです。ちょっとこわいような。。一方、他のブラウザで表示すると、このような雪だるまが表示されました。これは私がデフォルトのフォントに設定しているメイリオの雪だるまです。これはかわいい。意外なところにも力が入っています。

Layzie 2009/12/25

unicode

リンク

新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能 | 日経 xTECH（クロステック）

普段使用する漢字の指針となる「常用漢字表」が、2010年度にも改正される。新たに追加される196文字の中に、文字コード「シフトJIS」にない漢字が含まれているため、情報システムに大きな影響を与えそうだ。最新のJIS規格「JIS X 0213:2004」の改正に委員としてかかわった京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。　　　　　（日経コンピュータ） 2009年11月10日、文部科学省の「文化審議会国語分科会」において、常用漢字表の改正案が承認された。現行の常用漢字表にある1945字から「銑」「錘」「勺」「匁」「脹」の5字を削除し、新たに196字を追加する改正案で、2010年度の内閣告示を目指している。新しい常用漢字表が告示されると、「シフトJIS」や「EUC-JP」といった従来からある文字コードを使用するシステムで大きな問題が生じ

Layzie 2009/12/17

リンク

UnicodeとUTF-8の違いは？ - Humanity

という2chのスレがかなり勉強になったのでまとめ。少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合？)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記：簡単にまとめました。 1 ：デフォルトの名無しさん：2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 ：デフォルトの名無しさん：2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 ：デフォルトの名無しさん：2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 ：デフォルトの名無しさん：2007/04/

Layzie 2009/11/30

日本語でおk。全部はわからんが、勉強になるな

リンク

ブラウザでさくさく確認できる、Unicodeの一覧表

ブラウザでさくさく確認できる、Unicodeの一覧表「Unicode table for you」を紹介します。

Layzie 2009/08/24

リンク

第4回　UTF-8の冗長なエンコード | gihyo.jp

今回は、文字コードに関連するセキュリティの話題では古参ともいえるUTF-8の冗長なエンコードというテーマについて紹介します。 UTF-8とは UTF-8は、各文字を1～4バイトの可変長で表現するUnicodeの符号化方式のひとつです。 U＋0000からU＋007Fの範囲の文字を0x00から0x7Fの1バイトで表現しているため、US-ASCIIと互換性がある、バイト列の途中からでも文字の先頭バイトを簡単に検出できる、多バイト文字の途中に0x00や0x5C（\⁠）⁠、0x2F（/）などが現れない、などの特徴があります。 UTF-8での文字のビットパターンは表1のようになります。表1　UTF-8でのビットパターン

Layzie 2009/05/08

リンク

はてなブックマーク

タグ

関連タグで絞り込む (20)

unicodeに関するLayzieのブックマーク (16)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス