並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 28 件 / 28件

新着順 人気順

Unicodeの検索結果1 - 28 件 / 28件

  • 全ての開発者が知っておくべきUnicodeについての最低限の知識

    2003年には「プレーンテキストなんてものは全く存在しない」と言われ、テキストの解読には文字コードの情報が必須となっていました。しかし、2023年になるまでの20年の間に絵文字などのおかげでUnicodeの利用率は98%へと到達し、再び文字コードを気にせずにすむ時代がやってきています。そんな時代において、正しくUnicodeを使うために必要な知識をエンジニアのニキータ・プロコポフさんが解説しています。 The Absolute Minimum Every Software Developer Must Know About Unicode in 2023 (Still No Excuses!) @ tonsky.me https://tonsky.me/blog/unicode/ Unicodeの歴史と利用率の推移をまとめたグラフは下図の通り。2000年代後半から急速に普及が進んでいったこ

      全ての開発者が知っておくべきUnicodeについての最低限の知識
    • Googleが変体仮名フォント「Noto Hentaigana」をリリース ~蕎麦屋の看板などを再現可能/Unicodeに登録されている変体仮名286文字をカバー

        Googleが変体仮名フォント「Noto Hentaigana」をリリース ~蕎麦屋の看板などを再現可能/Unicodeに登録されている変体仮名286文字をカバー
      • 「Tera Term 5.0」がリリース ~18年ぶりのメジャーバージョンでUnicodeに全面対応/来年で30周年を迎える老舗のリモートログオンクライアント

          「Tera Term 5.0」がリリース ~18年ぶりのメジャーバージョンでUnicodeに全面対応/来年で30周年を迎える老舗のリモートログオンクライアント
        • awkが新しくなる!? 本家AwkがUnicode (UTF-8)とCSV対応に! - Qiita

          はじめに 2023年、長い時を経て awk がとうとう Unicode (UTF-8) と CSV に対応しました 🎉🎉🎉 awk で日本語がうまく扱えない(場合がある)、Excel が出力する CSV ファイルが扱えない(場合がある)、といった問題が解決に向けて一歩に進みます。 去年、本家 awk (One True Awk, nawk) に Unicode サポートが Brian Kernighan の手によって追加されたと話題になった(参照)ことを覚えているでしょうか? Brian Kernighan が誰だか知らない方がいるかもしれないので説明すると、オリジナルの awk の開発者の一人で awk の頭文字、Alfred Aho、Peter Weinberger、Brian Kernighan の一人です。通称「K&R」の「プログラミング言語C」や「プログラミング言語AWK」

            awkが新しくなる!? 本家AwkがUnicode (UTF-8)とCSV対応に! - Qiita
          • ZawgyiとUnicode: ミャンマーの文字の電子化について - にせねこメモ

            まえがき ミャンマーでは公用語としてビルマ語が使われている。ビルマ語の表記にはビルマ文字を用いるのだが、このビルマ文字のインターネット上での使用は、混迷を極めていた。そしておそらく今もまだ…。なぜか? それは、Unicodeという文字コードの標準がありながら、Zawgyiというものが広く使われていたためである。なぜそのようなものが登場し、普及することとなったのか、この記事で解説する。 目次 まえがき 目次 凡例 この記事で使う名称について ビルマ語表記 コードポイント ラテン文字表記について Zawgyiの概説と歴史 Zawgyiとは Zawgyiのダウンロード Zawgyi誕生・普及の経緯 複雑なビルマ文字 ビルマ文字とUnicode 回避策としてのビルマ文字フォントの登場 Zawgyiの普及 Zawgyiの実装 実装の方針 文字の並べ替えをせず、左から右に書く 文字の形のバリエーション

              ZawgyiとUnicode: ミャンマーの文字の電子化について - にせねこメモ
            • ファイルアップロードではNFC/NFD問題に気をつけろ!~MacファイルシステムにおけるUnicode正規化の闇~

              NFCではそのまま「パ」として表されますが、NFDでは「ハ」(基底文字)と「゜」(結合文字)の組み合わせとしての「パ(UTF-8でe3 83 8f e3 82 9a)」(合成文字)で表されます。試しにNFDで正規化された「パ(e3 83 8f e3 82 9a)」を任意のテキストエリアに貼り付けて削除してみると、半濁音のみが取れて「ハ」のみになると思います。 このように文字列の正規化形式が異なる場合、単純な比較演算子での評価は困難であり、文字列によっては想定外の挙動を引き起こす可能性があります。 特にMacファイルシステムではNFDを正規化方式と採用しているため、NFC/NFD問題が度々引き起こされています。先日(2023年03月27日)リリースされた「macOS 13.3 Ventura (22E252)」では、ファイル名に濁音や半濁音が含まれるファイルがFinderから開けなくなる

                ファイルアップロードではNFC/NFD問題に気をつけろ!~MacファイルシステムにおけるUnicode正規化の闇~
              • 私の名前ってUnicodeでどう表すの?~異体字セレクタとの出会い~ - NRIネットコムBlog

                本記事は 【Advent Calendar 2023】 17日目の記事です。 🎄 16日目 ▶▶ 本記事 ▶▶ 18日目 🎅 こんにちは。 2年目の草野です。年末が近づいてきましたね。 今回はAdvent Calendarの執筆に参加ということで、2023年の業務の中で印象深かったUnicodeについて少しお話したいと思います。 そもそもUnicodeとは サロゲートペア文字 突然ですが…… 異体字セレクタとの出会い 異体字セレクタって? 全く同じ意味を持つ文字、異体字 異体字セレクタの誕生 具体例 結局私の名字はどう書くの? おわりに そもそもUnicodeとは みなさんご存じの通り、Unicodeは文字を表すための国際的な標準規格の1つです。 一般的には [U+91CE] のように、16進数で表記されます。 常用文字は [U+0000] ~ [U+FFFF] の16進数4文字=2バ

                  私の名前ってUnicodeでどう表すの?~異体字セレクタとの出会い~ - NRIネットコムBlog
                • 「Unicode 15.0」に対応した「GNU Emacs 29.1」、高速パーサー「tree-sitter」の採用も/Windows環境ではダブルバッファリングをサポート

                    「Unicode 15.0」に対応した「GNU Emacs 29.1」、高速パーサー「tree-sitter」の採用も/Windows環境ではダブルバッファリングをサポート
                  • 「PowerToys」v0.76でキーマップ変更ツールが強化、使わないキーをUnicode挿入に活用/Microsoftがパワーユーザー向けに提供している無償ツール集

                      「PowerToys」v0.76でキーマップ変更ツールが強化、使わないキーをUnicode挿入に活用/Microsoftがパワーユーザー向けに提供している無償ツール集
                    • 平成30年2月(新元号発表前)に「令和」を言い当てた超人がTwitterに居た!そのからくりはズバリ「Unicode」

                      シャポコ🌵 @shapoco 絵を描く、電気で遊ぶ、通知を無視する。 同じ名前で Misskey\.io と Bluesky にもいます。 お題箱 : https://t.co/TcgjTuG4wh shapoco.net

                        平成30年2月(新元号発表前)に「令和」を言い当てた超人がTwitterに居た!そのからくりはズバリ「Unicode」
                      • http://codh.rois.ac.jp/tensho/unicode/U+5FC3/ これがそうか

                        http://codh.rois.ac.jp/tensho/unicode/U+5FC3/ これがそうか

                          http://codh.rois.ac.jp/tensho/unicode/U+5FC3/ これがそうか
                        • 「Twitter」改め「X」のロゴはUnicodeの「U+1D54F」らしい/「黒板文字」や「重ね打ち体」と呼ばれる文字の1つ【やじうまの杜】

                            「Twitter」改め「X」のロゴはUnicodeの「U+1D54F」らしい/「黒板文字」や「重ね打ち体」と呼ばれる文字の1つ【やじうまの杜】
                          • ChatGPTを使って、文字コードの理解と記述の負担を軽減できるのか 「日本語と認識しているUnicodeの範囲」「括弧の検出」「新字体への変換」を調査してみた

                            「『生成AIを使ってこんなもの作ってみました』開発者LT大会」は、急速に発展しているChatGPTや生成AIといったAI技術を使って何かを作ってみた人たちがアイデアや成果を共有する、ログミーTech主催のイベントです。ここでPR TIMES社の土屋氏が登壇。「ChatGPTを使って文字コードを扱う負担を軽減できるか」という調査の内容と結果について紹介します。 Shun氏の自己紹介と、本セッションのアジェンダ Shun氏(以下、Shun):それでは、PR TIMES社の土屋が発表します。私の名前はShunといいます。PR TIMESに勤めていて、ソフトウェアエンジニアをやっています。 本日のアジェンダです。私の発表はどちらかというと、個人開発でChatGPTを使ったものを作って、それで実験をしてみたという内容になっております。 表題にもあるとおり、ChatGPTに文字コードのことを聞いてどん

                              ChatGPTを使って、文字コードの理解と記述の負担を軽減できるのか 「日本語と認識しているUnicodeの範囲」「括弧の検出」「新字体への変換」を調査してみた
                            • 数字の絵文字とUNICODE

                              数字の絵文字とUNICODE 絵文字 UNICODE 0️⃣ \u0030\ufe0f\u20e3 1️⃣ \u0031\ufe0f\u20e3 2️⃣ \u0032\ufe0f\u20e3 3️⃣ \u0033\ufe0f\u20e3 4️⃣ \u0034\ufe0f\u20e3 5️⃣ \u0035\ufe0f\u20e3 6️⃣ \u0036\ufe0f\u20e3 7️⃣ \u0037\ufe0f\u20e3 8️⃣ \u0038\ufe0f\u20e3 9️⃣ \u0039\ufe0f\u20e3 数字の絵文字はUNICODEでは3バイトになる 後半の2バイト(\ufe0f\u20e3の部分)は共通 先頭の1バイトが \u0030~ \u0039で絵文字の0~9に対応している pythonで文字列中に出てくる数字の絵文字を普通の数字に変換する方法 def trans_emoji_

                                数字の絵文字とUNICODE
                              • The Absolute Minimum Every Software Developer Must Know About Unicode in 2023 (Still No Excuses!) @ tonsky.me

                                If you combine this with the Unicode table, you’ll see that English is encoded with 1 byte, Cyrillic, Latin European languages, Hebrew and Arabic need 2, and Chinese, Japanese, Korean, other Asian languages, and Emoji need 3 or 4. A few important points here: First, UTF-8 is byte-compatible with ASCII. The code points 0..127, the former ASCII, are encoded with one byte, and it’s the same exact byt

                                  The Absolute Minimum Every Software Developer Must Know About Unicode in 2023 (Still No Excuses!) @ tonsky.me
                                • GitHub - SixArm/usv: Unicode Separated Values (USV) data markup for units, records, groups, files, streaming, and more.

                                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                    GitHub - SixArm/usv: Unicode Separated Values (USV) data markup for units, records, groups, files, streaming, and more.
                                  • GitHub - cmang/durdraw: Versatile ASCII and ANSI Art text editor for drawing in the Linux/Unix/macOS terminal, with animation, 256 and 16 colors, Unicode and CP437, and customizable themes

                                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                      GitHub - cmang/durdraw: Versatile ASCII and ANSI Art text editor for drawing in the Linux/Unix/macOS terminal, with animation, 256 and 16 colors, Unicode and CP437, and customizable themes
                                    • Find all Unicode Characters from Hieroglyphs to Dingbats – Unicode Compart

                                      U+1D54F is the unicode hex value of the character Mathematical Double-Struck Capital X. Char U+1D54F, Encodings, HTML Entitys:𝕏,𝕏,𝕏, UTF-8 (hex), UTF-16 (hex), UTF-32 (hex)

                                      • Python入門ガイド: Unicode、正規表現、バイナリデータの扱い方【データ操作のマスター!】|Yuu's Memo

                                        データの自在な操作 データ操作はプログラミングにおいて重要なスキルです。Pythonでは、文字列やUnicode、正規表現、バイナリデータなど、さまざまなデータ形式を柔軟に操作することができます。この記事では、Pythonを使ったデータ操作の基本と応用について解説します。以下の各節では、実際のコード例を交えながら詳しく説明します。 文字列:Unicode Unicode は、コンピュータ処理のためのテキストの表現に使用される汎用の文字エンコーディング規格です。 Unicode は、多言語テキストをエンコードする一貫した方法を提供し、国際化対応テキストファイルの交換を容易にします。 多言語テキストをコード化するための規格は ISO/IEC 10646 です。 Python 3のUnicode文字列 Python 3では、文字列はデフォルトでUnicode文字列として扱われます。Unicode

                                          Python入門ガイド: Unicode、正規表現、バイナリデータの扱い方【データ操作のマスター!】|Yuu's Memo
                                        • Unicode is harder than you think · mcilloni's blog

                                          Reading the excellent article by JeanHeyd Meneide on how broken string encoding in C/C++ is made me realise that Unicode is a topic that is often overlooked by a large number of developers. In my experience, there’s a lot of confusion and wrong expectations on what Unicode is, and what best practices to follow when dealing with strings that may contain characters outside of the ASCII range. This a

                                          • [Unicode]スペース以外の見えない空白文字の一覧 | 404 motivation not found

                                            目次 はじめにスペースや全角スペースのような空白文字一覧参考にしたサイトはじめに スペースや全角スペース以外にもいくつか存在する目に見えない Unicode の文字の一覧です。 スペースや全角スペースのような空白文字一覧 ブラウザや環境によっては表示されない場合があると思います。 Unicode 実体 説明 description

                                              [Unicode]スペース以外の見えない空白文字の一覧 | 404 motivation not found
                                            • 日本語AI音声なども利用可能になった「Windows 11 バージョン 22H2」4回目の大型更新/「Unicode 15.0」の絵文字、Windows 共有・スポットライトの強化なども【Windows 11 22H2 Moment 4】

                                                日本語AI音声なども利用可能になった「Windows 11 バージョン 22H2」4回目の大型更新/「Unicode 15.0」の絵文字、Windows 共有・スポットライトの強化なども【Windows 11 22H2 Moment 4】
                                              • Writing prettier Haskell with Unicode Syntax and Vim

                                                A short write-up on combining digraphs, a feature built-in to vim, and Haskell's UnicodeSyntax extension, to easily write beautiful Haskell programs with unicode symbols. #haskell#vim 1 Haskell’s Unicode Syntax Extension Haskell (well, GHC Haskell) features an extension called UnicodeSyntax. When enabled, this extension allows the use of certain unicode symbols in place of their corresponding keyw

                                                • 「Unicode 15.0」の絵文字を追加 ~「Windows 11」Build 23475がDevチャネルに/「エクスプローラー」のホーム画面が近代化、光るマウス・キーボードもOSで制御

                                                    「Unicode 15.0」の絵文字を追加 ~「Windows 11」Build 23475がDevチャネルに/「エクスプローラー」のホーム画面が近代化、光るマウス・キーボードもOSで制御
                                                  • Unicode絵文字の仕組みをみてみる

                                                    Unicode絵文字で使われている仕組み、特に、複数の文字を組み合わせて1つの絵文字を組み立てる「Emoji Sequences」のことは意外と知られていないかもしれません。Unicode絵文字がどのように成り立っているか、ひととおり大雑把に紹介してみます。 例えば: ❤️‍🔥 (heart on fire) ← ❤️ + ZWJ + 🔥 ❤️‍🩹 (mending heart) ← ❤️ + ZWJ + 🩹 🏳️‍⚧️ (transgender flag) ← 🏳️ + ZWJ + ⚧️ 🏳️‍🌈 (rainbow flag) ← 🏳️ + ZWJ + 🌈 🏴‍☠️ (pirate flag) ← 🏴 + ZWJ + ☠️ 🐕‍🦺 (service dog) ← 🐕 + ZWJ + 🦺 🐈‍⬛ (black cat) ← 🐈 + ZWJ + ⬛ 🐦‍

                                                      Unicode絵文字の仕組みをみてみる
                                                    • オープンソース版Twemoji 15.1.0のリリース ~Unicode Emoji 15.1に対応 | gihyo.jp

                                                      オープンソース版Twemoji 15.1.0のリリース ~Unicode Emoji 15.1に対応 X/Twitterの絵文字として著名なTwemojiのフォーク版(@jdecked/twemoji)が本日、コミュニティの協力のもとUnicode Emoji 15.1に対応したバージョンTwemoji 15.1.0をリリースした。ライセンスは、コードがMIT、絵文字自体がCC-BY 4.0。 Twemoji 15.1.0に収録された新しい絵文字 イーロンマスク氏のX/Twitter買収後から公式のTwemojiリポジトリでは新しい絵文字が追加されなくなったため、当時TwitterでTwemojiに携わっていたJustine De Caires氏(@jdecked)がその後フォークし、コミュニティと協力してオープンソース版のTwemojiをリリースしている。 なお、現在策定中のUnicod

                                                        オープンソース版Twemoji 15.1.0のリリース ~Unicode Emoji 15.1に対応 | gihyo.jp
                                                      • Vaporwave and Unicode Analysis

                                                        This article will explore the unique role that text plays in vaporwave music and art. Why do vaporwave tracks, albums, and artist names use stretched out fullwidth text, Japanese writing 変, and 𐒖Ƭᖇ𝚫ƝǤⵟ looking Unicode characters? Why are track titles sometimes formatted to look like FILENAME.AVI or Muzak Corp™ Song Title? Analyzing the text characters that accompany vaporwave can help us underst

                                                        • Durdraw - ANSI, ASCII and Unicode Art Animation Studio for Linux

                                                          ▄▄▄▄▄▄▄ ▀ ▀██████▄▄▄▄ ▄▄▄▄ ▀████▀ ███▀▀▀█▓▓▓▌ ▄▓▌ ▒▄▄ ▄▄▄ ■ ▓▓▓▓ ▓▓▓▓▌ ▓▓▓▓ ▐▒▒▒▌ ▒▒▒▌ ▒▒▒▒▌ ▄▄ ▀▀ ▀▀ █████▄█▌ ░░░█ ▐░░░█ █░░░ ▐████ ▐██▌ ▄░░░▀ ▄███▓ ▓▓▓▓███ ▐███▌ ▐████ ▐░░░▌ ░░░░ ▐▒▒▒ ■░░▄▄ ■██▀▓▓▓ ▄▓■ ▄ ▄▄▄■▀▀▓▒▓▓ ▐▒▒▒▌ ▐▒▒▒▒ ▐▓▓▓▌ ▓▓▓▓ ▐▓▓▓ ▓▓▓▓▄▀▒▒▒▒▄▄▓▓▓▌ ▐░▒▌ ▄▓▓▓▓▀▓▓███░░▌ ████ ▄████▀_ ▀███▄▄███▀ ░ ███▌ ░ ████▌▐░░▒▒▒▀▀░▓ ▀▀ ▐▒▀█▓▒▀▀▀▀▓▓▒▒ ▐████▀▀▀▀ ▄▄▓▓▄▄ ▀▀▀▀ ▄▒▒▄▀▀▀▀ ▀.▀▀▀▀▀ ░▓█░░░▀▀ ■ ■

                                                          1