並び順

ブックマーク数

期間指定

  • から
  • まで

401 - 421 件 / 421件

新着順 人気順

Unicodeの検索結果401 - 421 件 / 421件

  • エンジニアHubにて「文字コード再入門─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!」公開 - yanok.net

    「エンジニアHub」にて記事を執筆しました。「文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!」として公開されています。 若手エンジニア向けのWebメディアとのことで、プログラミング上の注意点にフォーカスした内容になっています。コード例にはJava, Python, Rubyを用いています。 拙著をすでにお読みの方には復習となる内容ですが、まだの方はこの機会に是非お読みいただければと思います。記事の最後に拙著『[改訂新版]プログラマのための文字コード技術入門 (WEB+DB PRESS plusシリーズ)』の版元へのリンクも設定されていますので、興味を持たれた方には書籍の方もお読みいただければ幸いです。 当記事編集担当の方には「とても品質の高い記事」とのことで感謝のお言葉をいただきました。読者のお役に立つことを願っています。

    • Unicode 13.0.0

      Unicode® 13.0.0 2020 March 10 (Announcement) Version 13.0.0 has been superseded by the latest version of the Unicode Standard. This page summarizes the important changes for the Unicode Standard, Version 13.0.0. This version supersedes all previous versions of the Unicode Standard. A. Summary B. Technical Overview C. Stability Policy Update D. Textual Changes and Character Additions E. Conformance

      • 長い文字列作成ツール - instant tools

        折り返さない 概要 任意の内容で、指定された長さの文字列を作成します。 入力上限のテスト等で使用することを想定しています。 「Unicode範囲」には、Unicodeのコードポイント値をHex形式で入力して下さい。Unicodeのコードポイント値は、 こちら「Unicode文字一覧表」で調べられます。

        • String.prototype.trim() は何をトリムするのか?

          @okunokentaro さんが似た内容で先にスクラップを投稿されており、本記事の執筆時期と内容が重なってしまいました。こちらでは ECMAScript に加え、Java での調査結果なども含まれています。併せてご参考ください! https://zenn.dev/okunokentaro/scraps/256c7d9a56ac69 (本記事の公開はご本人にも確認を取っております) String.prototype.trim() JavaScript でコードを書いていて、とある文字列の端から空白を削除したくなったらどうしますか? 多くの人は String.prototype.trim() を使うかと思います。 では、ここで削除される "空白" は何を指すか知っているでしょうか? 恥ずかしながら、私は正確には把握しておらず、「半角・全角スペースとか改行、タブあたりをいい感じに消してくれる良

            String.prototype.trim() は何をトリムするのか?
          • Unicode Utilities: Confusables

            With this demo, you can supply an Input string and see the combinations that are confusable with it, using data collected by the Unicode consortium. You can also try different restrictions, using characters valid in different approaches to international domain names. For more info, see Data below.

            • https://www.iana.org/assignments/language-subtag-registry/language-subtag-registry

              • [python3] EUC-JPなのにShift-JISの機種依存文字が入っててUTF-8にできなかったときの対策 - Qiita

                表題の通りです。 先人が機種依存文字対策に苦心した痕跡がちらりほらり… ※ はしご高とかそういうタイプの機種依存文字はこの記事では扱いません。 環境 Windows 10 Python 3.8.5 スクレイピング:requests 状況(読まなくても良い) 最近 seesaawiki の記事の自サイトへの移植をごそごそとしているのですが。 seesaawikiからスクレイピングでHTMLソースを取得すると、 <meta http-equiv="Content-Type" content="text/html; charset=EUC-JP"> とあって確かに EUC-JP のはずなのに、wikiソース内で「①」のような Shift-JIS の機種依存文字が使えるせいでたまにこれが紛れてくるんです。 で普通に

                  [python3] EUC-JPなのにShift-JISの機種依存文字が入っててUTF-8にできなかったときの対策 - Qiita
                • mͤ iͪ kͥ aͫ nͤ

                  mͤ iͪ kͥ aͫ nͤ

                    mͤ iͪ kͥ aͫ nͤ
                  • Fancy Text Generator (𝓬𝓸𝓹𝔂 𝖆𝖓𝖉 𝓹𝓪𝓼𝓽𝓮) ― LingoJam

                    So perhaps, you've generated some fancy text, and you're content that you can now copy and paste your fancy text in the comments section of funny cat videos, but perhaps you're wondering how it's even possible to change the font of your text? Is it some sort of hack? Are you copying and pasting an actual font? Well, the answer is actually no - rather than generating fancy fonts, this converter cre

                    • 寿司とビール問題を解決したらハマった罠

                      tl;dl脳死でutf8mb4_binを指定しても🍣と🍺問題は解決しません。 寿司とビール問題MySQLで絵文字を入れるためにutf8mb4を指定しただけでは🍣と🍺が同じものとして扱われてしまう。 (🍣と🍺に限らず、🐶と😺も一緒になる) 対応策としてutf8mb4_bin(バイナリ照合順序)を指定してあげれば絵文字も、大文字小文字も、濁点半濁点も全部違うものとして扱ってくれるよ!というのがよくあるやつ。 いざ検索

                        寿司とビール問題を解決したらハマった罠
                      • Regional indicator symbol - Wikipedia

                        The regional indicator symbols are a set of 26 alphabetic Unicode characters (A–Z) intended to be used to encode ISO 3166-1 alpha-2 two-letter country codes in a way that allows optional special treatment. These were defined by October 2010 as part of the Unicode 6.0 support for emoji, as an alternative to encoding separate characters for each country flag. Although they can be displayed as Roman

                        • ブロック (Unicode) - Wikipedia

                          Unicodeにおいて、ブロック(英語: block)とは、符号位置 (code points) の連続する範囲を意味する。ブロックには一意に名前が付けられ、重なりはない。各ブロックは hhh0 形式の開始符号位置と hhhF 形式の終了符号位置を持つ。ブロックは、未割当 (unassigned) または非文字 (non-character) である符号位置 (en) を、明示的に含むことができる[1]。名前付きのブロックのいずれにも属さない符号位置、例えば未割当の面である第4面-第13面に属する符号位置は、ブロックとして「No_block」という値を持つ。 逆に言えば、割当済 (assigned) の符号位置はすべて「ブロック名」(Block name) という特性(英語版) (property) を持つ。これはその文字 (character) があるブロックの名前である。これは符号位置

                          • Haskell with UTF-8

                            hGetContents: invalid argument (invalid byte sequence) hPutChar: invalid argument (invalid character) commitBuffer: invalid argument (invalid character) Oh no! Bad news: something is wrong. Good news: it is not necessarily an issue with your code, it can be one of the libraries or build tools that you depend on. Yes, really. Haskell tools you are using every day have a problem that can cause this

                              Haskell with UTF-8
                            • どんな絵文字をよく使う? | スラド IT

                              Unicode Consortium の調べによると、2021 年に最も多く使われた絵文字は 😂 (歓喜の涙を流す顔) だったそうだ (Unicode Consortium の記事、 9to5Mac の記事、 Mac Rumors の記事)。 😂 はもう古いなどとも報じられたが、前回 2019 年の調査時から割合としては大きく減少したものの 2021 年に使われた絵文字の 5 % を占め、2 位の ❤️ (赤いハート) 以外には大きな差をつけているという。 3 位以下は以下の通り。 🤣 笑い転げる顔 👍 サムズアップ 😭 号泣する顔 🙏 合わせた手 😘 投げキスする顔 🥰 ハートに囲まれた笑顔 😍 ハート目の顔 😊 目も笑っている笑顔 トップ 10 中 6 個は 2019 年の調査でも 1 位 ~ 6 位 (😂 ❤️ 😍 🤣 😊 🙏) に入っており、あまり大き

                              • Unicode character class escape: \p{...}, \P{...} - JavaScript | MDN

                                JavaScript Tutorials Complete beginners JavaScript basics JavaScript first steps JavaScript building blocks Introducing JavaScript objects JavaScript Guide Introduction Grammar and types Control flow and error handling Loops and iteration Functions Expressions and operators Numbers and dates Text formatting Regular expressions Indexed collections Keyed collections Working with objects Using classe

                                  Unicode character class escape: \p{...}, \P{...} - JavaScript | MDN
                                • Add BWK's email. · onetrueawk/awk@9ebe940

                                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                    Add BWK's email. · onetrueawk/awk@9ebe940
                                  • Announcing ICU4X 1.0

                                    News, announcements, release info, and calendar updates from the Unicode Consortium I. IntroductionHello! Ndeewo! Molweni! Салам! Across the world, people are coming online with smartphones, smart watches, and other small, low-resource devices. The technology industry needs an internationalization solution for these environments that scales to dozens of programming languages and thousands of human

                                      Announcing ICU4X 1.0
                                    • 四半世紀の時を経て、新聞系サイトが英数字の表記を半角へ « ハーバー・ビジネス・オンライン

                                      1月末に、朝日新聞デジタルが、英数字を全角から半角に変えるという話題が流れてきた(参照:ねとらぼ)。私はこの話題について、書かなければならない理由があったので、この記事を書いている。 朝日新聞デジタルでは、2020年1月14日から、記事内の英数字を半角に変更した。こうした変更は、2019年の春頃に、神戸新聞 NEXT でも実施されて話題になった。同紙では、なぜ全角表記になっているかの記事を掲載した。その1ヶ月ほどあと、半角へと移行したことを知らせる記事を公開した。 新聞系のWebサイトは、元々Webからスタートしたわけではない。紙の新聞がまずあり、そこからWebサイトに記事を転載するようになった。縦書きで書いていた記事を、横書きのメディアにも掲載し始めたのがスタートである。そのため、縦書きの原稿の慣習をそのまま引きずっていた。 一手間かければ半角に変換できるものの、その一手間はコストになる

                                        四半世紀の時を経て、新聞系サイトが英数字の表記を半角へ « ハーバー・ビジネス・オンライン
                                      • UTF-8からSJISに変換する時にはShift-JIS系エンコードの種類だけじゃなくてUNICODE正規化も気にしないとダメという話

                                        UTF-8からSJISに変換する時にはShift-JIS系エンコードの種類だけじゃなくてUNICODE正規化も気にしないとダメという話 利用シーン UTF-8で記述されたテキストをShift-JISエンコードに変換する機会はあります。 UNICODEで表現できる文字の種類の方がShift-JISに比べて圧倒的に広いのですべての文字が変換できるわけではありませんが、「これは変換できてよかろう」というものまでこぼれ落ちるケースは多数あります。 以下こぼれ落ちる例とその対応を示します。 サンプルコード まずはサンプルコード。 rubyで記述していますが、原理はどの言語でも同じです。 str = "あ~あ①髙島屋パバぱ" sjis = str.encode(Encoding::Shift_JIS, :invalid => :replace, :undef => :replace) File.

                                          UTF-8からSJISに変換する時にはShift-JIS系エンコードの種類だけじゃなくてUNICODE正規化も気にしないとダメという話
                                        • Unicode とサロゲートコードポイント

                                          Unicode は、文字コードの標準を目指して創設された規格であり、文字をどう処理するか、テキストデータとしてどう表すかを規定している。今や国際的に普及した規格で、特に Unicode が規定する符号化方式 UTF-8 は、いまやテキストデータのエンコーディングデファクト標準となっている。 Unicode は歴史的経緯からサロゲートコードポイントという仕様を包含している。今回は、この仕様の紹介と、UTF-8 を使う際の注意点を見ていく。なお, Unicode 13.0.0: https://www.unicode.org/versions/Unicode13.0.0/ を元にしていく. Unicode と固定長の夢 当初、Unicode は ASC-II の固定長 7bit 表現に倣い、固定長 16bit で世界中の文字を表現する規格として提案された。当時の提案 [1] では、 In th

                                            Unicode とサロゲートコードポイント
                                          • 仮名合字・合略仮名の文字コード - yanok.net

                                            合字とは 合字というものがあります。複数の文字を組み合わせて一文字となったものです。欧文の「Æ」のような文字はどこかで見たことがある人が多いでしょう。いうまでもなくAとEの組み合わせです。ドイツ語の「ß」も「ss」を表す合字です。合字を英語ではligatureといいます。 漢字にも,「麻呂」を組み合わせて一字になった「麿」や,「久米」の「粂」等の合字があります。 仮名文字にも合字があります。今日,通常の文章には用いられませんが,昔のものには見ることができます。こうしたものは仮名合字や合略仮名と呼ばれます。 ここではそれらのうち,現在符号化されているものについて文字コードをまとめてみます。 仮名合字の文字コード 文字読みJIS X 0213UnicodeUnicode文字名Unicodeブロック ゟより1-2-25U+309FHIRAGANA DIGRAPH YORIHiragana ヿコト