タグ

unicodeに関するmakoto15のブックマーク (79)

  • 端末の文字幅問題の傾向と対策 | IIJ Engineers Blog

    電子メール、ネットワーク機器集中管理、異常検知、分散処理、クラウド基盤などのシステム開発に従事。古代Rubyist。 CLI や TUI なアプリケーションを使っていると、端末の画面が崩れてしまうことがよくあります。 たとえば、こんな TUI が、 環境によってはこんな感じで崩れます。 スクロールなどをしながらしばらく使っているとさらにどんどん崩れていきます。 こうなってしまった場合、とりあえず Ctrl-l で画面を再描画することで、大抵はなんとか読める程度にリセットできますので、ことあるごとに Ctrl-l を連打することになります。 ですが、どうしようもないケースもままあります。 例えば、私の場合は以下のようなシチュエーションで困ります。 w3m でテーブルなどを表示するとレンダリングが崩れる less でログの閲覧の際に表示されるべき文字が表示されず見落としが発生する Wander

    端末の文字幅問題の傾向と対策 | IIJ Engineers Blog
  • Python で Unicode 正規化 NFC/NFD の文字列を扱う - forest book

    先日、ビジネスパーソン向けの Python を執筆したことを書きました。 t2y.hatenablog.jp 稿では書のことを「できるPy」と呼びます。 Amazon でいくつかカスタマーレビューもいただいて次のコメントをみつけました。 python3.7 対応ということで、pathlib を使ってる点が(古いpython は切り捨てる!的なところは)潔いと言えば潔いし、日語のファイル名にも気を配っている記述はオライリーに期待するのは酷なところもある。でもこのでもNFD問題は全くの記述無し。だめだろ、それじゃ。 Amazon CAPTCHA まさに仰る通りです。執筆時にそのことに気づかずご指摘いただいてありがとうございます。 ここでご指摘されている NFD 問題というのは、ファイル名のみに限った問題ではなく、Unicode の文字集合を扱ってエンコード/デコードするときに発生する

    Python で Unicode 正規化 NFC/NFD の文字列を扱う - forest book
  • Unicodeの闇

    Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray

    Unicodeの闇
  • ニホニウムの簡体字 | karak

    こちらの鿭 – ウィクショナリー日語版をご覧ください。 当方の手元のGoogle Chromeでは次のように表示されます。 Firefoxでは次の通り。 Firefoxではニホニウムの簡体字がきちんと表示されていますが、Chromeでは □ になってしまっています。先日、フォントをインストールするまではFirefoxでも □ だったのですが、Source Han Sans の簡体字フォント(SourceHanSansSC.zip)と繁体字フォント(SourceHanSansTC.zip)をインストールすると問題が解消されました。 どうもニホニウム、オガネソン、テネシンの漢字は、一部のアプリケーションでうまく表示できないようです。いずれも最近Unicodeに追加された漢字で、Source Han Sansのようにこれらをカバーしているフォントを入手すると表示されるはずなのですが、Chrom

  • Windows 10ミニTips(444) 「ワールドワイド言語サポートでUnicode UTF-8を使用」は有効にすべき?

    Windows 10ミニTips」は各回の作成時点で最新のWindows 10環境を使用しています。 UTF-8化は世界的な流れだがトラブルを招く可能性アリ Windows 10の日語ロケール(日語文字コード)は慣例的にShift_JISとなっていたが、時代の流れと共にUTF-8化が進んできた。例えばメモ帳で作成したテキストファイルのファイル形式は、すでにANSI(Shift_JIS)からBOMなしUTF-8に変更されている。 バージョン1903では、メモ帳で使用する既定の文字コードがUTF-8になった このUTF-8を、Windows全体に適用するオプション(日語ロケール)はバージョン1803で加わった。下図に示した手順で日語ロケールをShift_JISからUTF-8に変更できるが、気になるのはバージョン1803でも“ベータ”だった機能が、現時点での最新となるバージョン190

    Windows 10ミニTips(444) 「ワールドワイド言語サポートでUnicode UTF-8を使用」は有効にすべき?
  • 12. Unicode、絵文字、Androidのテキスト関連のハンドリング、無数の文字トリビア

    Androidのテキスト処理を担当しているのなさんと、UnicodeやUnicode絵文字、テキスト処理の複雑さ、文字トリビアなどについて話をしました。出演者: のな (@ttuusskk)、Rui Ueyama (@rui314) https://turingcomplete.fm/12 ハッシュタグは#tcfmです。 TCFMはサポーターの投げ銭によって収益を上げています。このコンテンツに課金してもいいよという方はぜひクリエイター支援サイトPatreonから登録してご協力ください。 イントロ (0:00) 自分の読めない言語のテキスト処理は大変 (1:28) MMDDYYYYとDDMMYYYYの違いによる国際化バグ (3:07) Left-to-right言語とright-to-left言語 (5:23) アラビア語と英語のハイフネーション (6:15) 日語の禁則処理 (7:19)

    12. Unicode、絵文字、Androidのテキスト関連のハンドリング、無数の文字トリビア
  • 現在のUnicodeモンゴル文字の問題点と最近の動き - にせねこメモ

    モンゴル文字は、主にモンゴル語表記のための文字*1である。縦書き専用の文字であり、日語の場合とは反対に左から右へと行を進める。また、アラビア文字のように続け書きされ、文字が語のどの位置に来るかによって形が変わる。 モンゴル文字は現在も中国の内モンゴル自治区でモンゴル語の表記に現役で使用されている。他方モンゴル国ではソ連の影響下でモンゴル語の表記をキリル文字に切り替えたので、モンゴル文字は学校で習いはするものの一般にあまり使われない。 Unicode 3.0からモンゴル文字がシベ文字・トド文字・満州文字と統合されて収録されているため、コンピュータでこの文字を入力するにあたっては、独自の符号化方式を作成するのでなければUnicodeを利用しようとするのが当然に思える。しかし、現状のUnicodeモンゴル文字は致命的な欠陥を抱えている。 このエントリでは、2017年ころからUnicode Te

    現在のUnicodeモンゴル文字の問題点と最近の動き - にせねこメモ
  • Unicode in the Windows API - Win32 apps

  • Code Pages - Win32 apps

    Each code page is represented by a code page identifier, for example, 1252, and is handled by the Unicode and character set API functions. For a list of supported code page identifiers, see Code Page Identifiers. The "Code Pages" reference on the Microsoft Go Global Developer Center gives full descriptions of many code pages. Windows code pages, commonly called "ANSI code pages", are code pages fo

    Code Pages - Win32 apps
  • Character Sets Used in File Names - Win32 apps

  • Unicodeで「漢字」の正規表現 – ものかの

    改訂:2017/07/22 Unicode 10.0に合わせて書き直し。正規表現を簡易にしようとしてやりすぎていたのを修正。 改訂:2023/03/21 U+30000以降を追加。InDesignの正規表現を追記。 正規表現で漢字の範囲指定をする場合、Unicodeではどうするかが悩ましいところです。 Unicodeの漢字の範囲として [一-龠] にしている例を見かけます。しかしこれは旧規格JIS X 0208の漢字が含まれる範囲をUnicodeの中から切り出しているだけです。互換漢字ブロックをまるごと取りこぼしているので、WindowsのシフトJIS(CP932)の拡張漢字に当たるものが含まれていません。現規格JIS X 0213の第3・第4水準漢字も考慮されていません。簡易な範囲指定だとしても、新常用漢字の「𠮟」が含まれておらず、今から見るとあまりに時代遅れです。 Unicodeのす

    Unicodeで「漢字」の正規表現 – ものかの
  • 新絵文字56種類が追加された「Unicode 10.0」が発表される

    2017年6月20日、Unicode Consortiumが新たに追加された絵文字56種を含む「Unicode 10.0」の正式リリースを発表しました。 The Unicode Blog: Announcing The Unicode® Standard, Version 10.0 http://blog.unicode.org/2017/06/announcing-unicode-standard-version-100.html 「Unicode 10.0」で新たに追加される絵文字は、以下のように新しい表情の顔のほか、Mage(魔法使い)やFairy(妖精)、Vampire(吸血鬼)、Merperson(人魚)、Zombie(ゾンビ)、Person in Lotus Position(ヨガのポーズ)、Giraffe(キリン)、Hedgehog(ハリネズミ)、T-Rex(恐竜)、Broc

    新絵文字56種類が追加された「Unicode 10.0」が発表される
  • Apple、世界絵文字デーに年内リリースの新絵文字を披露 - iPhone Mania

    Appleは「世界絵文字デー」である7月17日、今年後半にiOS、macOS、watchOS向けにリリース予定の新絵文字披露しました。 今年後半に公開する絵文字を紹介 今回紹介された絵文字は、ヘッドスカープを着用した女性、髭を生やした人、授乳する女性、ヨガのポーズをとる人、サンドイッチ、ココナッツ、Tレックス、しまうま、ゾンビ、妖精、目から星が飛び出る顔、頭が爆破する顔、など。 これらすべての絵文字は、6月に発表された新しい「Unicode 10」で追加予定の絵文字リストに含まれています。 映画絵文字で表現 またAppleは同日、App Storeで「#WorldEmojiDayを祝おう」と題し各種絵文字アプリを集めたほか、iTunes Moviesのトップを、最近の人気映画や古い映画絵文字で表現した画像に置き換えています。 ちなみにこちらの一番上の絵文字が表現しているのは「美女と野

    Apple、世界絵文字デーに年内リリースの新絵文字を披露 - iPhone Mania
  • Python3でUnicodeDecodeErrorに遭遇したときのTODOリスト - Qiita

    落ち着く 深呼吸しましょう。焦りは禁物です。苛立ちは憎悪へと変わり自らを悔い改める機会を失うかもしれません。丹田に手を当てて鼻から息を吸って・・・「Fuxk!!!!」などと叫んではいけません。言葉遣いに気を付けましょう。 目的の文字コードを決める 深呼吸が済んだら目的としていた文字コードを思い出します。あなたはきっとこう呟く・・・UTF-8・・・UTF-8・・・。おめでとうございます。これでもう道に迷うことはありませんね。 端末の文字コードを確認する 旅立ちの前にあなたの良き伴侶となっているであろう端末に語りかけます。お前の文字コードは・・・UTF-8・・・UTF-8・・・。端末は答えてくれましたか? 私のはクリックミスで答えてくれませんでした。もう一度深呼吸をしましょう。それからLANG環境変数も確認しておきましょう。

    Python3でUnicodeDecodeErrorに遭遇したときのTODOリスト - Qiita
    makoto15
    makoto15 2017/06/21
    “Python3でUnicodeDecodeErrorに遭遇したときのTODOリスト”
  • Unicode の嫌なところを触ってしまった Python - yanok.net

    Pythonとlibiconv, nkf, Javaのコード変換を比較した記事がありました。 主な実装における EUC-JIS-2004, Shift_JIS-2004 から Unicode への変換結果の違い ASCIIとJIS X 0201の違いに起因する円記号問題とチルダ・オーバーライン問題、それにUnicodeのFTPサイトが原因と思われる全角ダッシュの件という既知の問題が多いので目新しくないのですが (『プログラマのための文字コード技術入門』をお読みいただければわかります)、Pythonについて目新しげな話がありました。 Pythonでは他と違って、二重(白抜き)の括弧をU+FFxxの位置にあるものでなくU+29xxに割り当てているそうです。うむ。そうか、そうきたか。 JISの公式な対応表ではU+FFxxの方になっています。文字名でいうとFULLWIDTH {LEFT|RIGHT

  • MySQL 8.0.1でutf8mb4_ja_0900_as_csが導入された

    Sushi = Beer ?! An introduction of UTF8 support in MySQL 8.0 | MySQL Server Blog (ユーザーによる日語訳: 寿司=ビール問題 : MySQL 8.0でのUTF8サポート入門 (MySQL Server Blogより) | Yakst)で言及されていた日語用の照合順序 utf8mb4_ja_0900_as_cs 。 mysql80> SHOW COLLATION LIKE 'utf8%ja%'; +-----------------------+---------+-----+---------+----------+---------+ | Collation | Charset | Id | Default | Compiled | Sortlen | +-----------------------+-

    MySQL 8.0.1でutf8mb4_ja_0900_as_csが導入された
  • Unicode 10、変体仮名と縦書きレイアウト導入へ

    Unicode is a computing industry standard allowing computers to consistently represent and manipulate text expressed in most of the world's writing systems. Unicode Consortiumは3月9日(米国時間)、「The Unicode Blog: Unicode 10.0 Beta Review」において、次のバージョンのUnicode 10.0で実施される変更点や新しく追加される機能などについて伝えた。Unicode 10.0ではいくつかの変更が行われることになっており、Unicode Line Breaking Algorithmn、Unicode Text Segmentation、Unicode Identifier an

    Unicode 10、変体仮名と縦書きレイアウト導入へ
  • 「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記

    自分の知らないCJK Ideographのバリエーションがまだあったことに戦慄している pic.twitter.com/kUlyRLDDTM— moriyoshit (@moriyoshit) March 9, 2017 などというツイートをしたところ、思ったより反響があったのでまとめておく。 上記ではあいまいに「バリエーション」などと書いたが、Unicodeとそれを扱う環境においては、バリエーションと一口に言っても次のような状況がある。 意味論的に等価な異なる字形の集合 同じ字形で異なるコードポイントの集合 aは結構なじみ深いと思う。 a-1. 異なるコードポイントにそれぞれ異なる字形が割り当てられているもの 例: 「東」(U+6771) ⇔「东」(U+4E1C) 「斉」(U+6589) ⇔「齊」(U+9F4A) 「高」(U+9AD8) ⇔「髙」(U+9AD9) a-2. 同じコードポイ

    「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記
  • http://rishida.net/blog/?p=1696

  • モンゴル文字とUnicode - にせねこメモ

    調べたのでまとめる。 モンゴル文字は主にモンゴル語を表記するための文字であり、中国内の内モンゴル自治区で使われる。一方でモンゴル国内では一般にキリル文字表記が使われている。 ここではモンゴル語表記の場合についてを書き、モンゴル文字から派生したトド文字、シベ文字、満州文字等については省略する。 特徴 左縦書き。つまり縦書き(上→下)で、かつ行は左→右へ書く(日語と逆) 語頭形(及び独立形)・語中形・語末形をもち、語のどの位置に書かれるかによって文字の形が異なる。また、それ以外にも特別な別形を持つ文字がある(10種持つ文字もあるらしい)。 単語は空白で区切られるが、単語の中にも空白(字空け)が現れうる。 宗教的なテキストのために、サンスクリット語やチベット語表記用の文字が追加されている。 チベット数字を元にした独自の数字をもつ。縦書き中でも左→右に横書きされるらしい*1。最近は回転させて文の

    モンゴル文字とUnicode - にせねこメモ