並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 107件

新着順 人気順

UTF8の検索結果1 - 40 件 / 107件

  • Decoding UTF8 with Parallel Extract

    Decoding UTF8 with Parallel Extract 23 Mar 2024 As a side-quest I recently decided to write a branchless utf8 decoder utilizing the pext or "parallel extract" instruction. It's compliant with rfc-3629, meaning that it doesn't just naively decode the code-point but also checks for overlong encoding, surrogate pairs and such. Compiled with gcc -O3 -march=x86-64-v3 the entire decoder results in just

    • You can't just assume UTF-8

      Humans speak countless different languages. Not only are these languages incompatible, but runtime transpilation is a real pain. Sadly, every standardisation initiative has failed. At least there is someone to blame for this state-of-affairs: God. It was him, after-all, who cursed humanity to speak different languages, in an early dispute over a controversial property development. However, mankind

        You can't just assume UTF-8
      • みんな忘れてるけど「文字コードというものにはシフトJISとUTF-8などがある」ということを知ってるだけでも世間一般からすればIT専門家である

        嶋田大貴 @shimariso みんな忘れてるけど、「テキストファイルという種類のファイルがあって、その中で使われる文字コードというものにはシフトJISとUTF-8などがある」ということを知ってるだけでも世間一般からすればIT専門家ですよ。 2024-04-02 12:42:01

          みんな忘れてるけど「文字コードというものにはシフトJISとUTF-8などがある」ということを知ってるだけでも世間一般からすればIT専門家である
        • UTF-8のバリデーションとモノイドと半群

          この記事はUTF-8のバリデーションとオートマトンの続きです。 前回はUTF-8のバリデーションが8状態のオートマトン (DFA) で表現できることを見ました。状態と遷移を擬似コードで書けば次のようになるでしょう: -- 8つの状態 data State = START | TAILx1 | TAILx2 | TAILx3 | A | B | C | D -- 入力バイトに応じて次の状態を返す。次の状態が該当しなかったら Nothing を返す next :: Word8 -> State -> Maybe State +----+----+-----+----+ | a0 | a1 | ... | aN | 8ビット整数列 +----+----+-----+----+ | | | v v v +----+----+-----+----+ | m0 | m1 | ... | mN | モノ

            UTF-8のバリデーションとモノイドと半群
          • UTF-8のバリデーションとオートマトン

            UTF-8は今日の文字エンコーディングの中で最も重要なものと言って差し支えないでしょう。UTF-8の仕様はこの辺で確認できます: Unicode 15.1.0 > 3.9 UTF-8 RFC 3629 - UTF-8, a transformation format of ISO 10646 この記事では、読者はすでにUTF-8にある程度の馴染みがあるものとして、UTF-8のバリデーションの細かいところを考えます。 UTF-8のバリデーションを行うには、以下のことを確かめなければなりません: 最初の1バイトが所定の範囲にあること:ASCII (0x00-0x7F) または0xC2以上。 後続のバイト(たち)が0x80-0xBFの範囲にあること。 長すぎないこと:U+007F以下の文字はちょうど1バイトで表現されていること、U+0080以上U+07FF以下の文字はちょうど2バイトで表現されて

              UTF-8のバリデーションとオートマトン
            • API Gateway(REST API)とLambda(Python)でBOM付きUTF8なCSVをレスポンスする方法

              API Gateway(REST API)とLambda(Python)の構成で、LambdaでBOM付きUTF8のCSVを作成して、API Gateway経由でCSVをレスポンスする方法を記載します。 BOM付きUTF8とすることで外字が文字化けしないCSVをAPI Gateway経由でダウンロードできます。 やること AWSの構成はAPI GatewayとLambda 使用する言語はPython 外字が文字化けしないCSVをダンロードできるようにする →BOM付きUTF8とすることで文字化け対策ができます。 Lambdaの作成 以下のソースコードでLambdaを作成します。 def lambda_handler(event, context): body_str = """column1,column2 "㐂","昱" """ return { 'statusCode': 200, '

                API Gateway(REST API)とLambda(Python)でBOM付きUTF8なCSVをレスポンスする方法
              • yokuさんにutf8→utf8mb4binのときに教えてもらった便利Tips

                You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                  yokuさんにutf8→utf8mb4binのときに教えてもらった便利Tips
                • neue cc - UTF8文字列生成を最適化するライブラリ Utf8StringInterpolation を公開しました

                  UTF8文字列生成を最適化するライブラリ Utf8StringInterpolation を公開しました 2023-10-13 Utf8StringInterpolationという新しいライブラリを公開しました!UTF8文字列の生成と書き込みに特化していて、動作をカスタマイズした文字列補間式によるC#コンパイラの機能を活用した生成と、StringBuilder的な連続的な書き込みの両方をサポートします。 Cysharp/Utf8StringInterpolation 基本的な流れはこんな感じで、Stringを生成するのと同じように、UTF8を生成/書き込みできます。 using Utf8StringInterpolation; // Create UTF8 encoded string directly(without encoding). byte[] utf8 = Utf8String

                  • awkが新しくなる!? 本家AwkがUnicode (UTF-8)とCSV対応に! - Qiita

                    はじめに 2023年、長い時を経て awk がとうとう Unicode (UTF-8) と CSV に対応しました 🎉🎉🎉 awk で日本語がうまく扱えない(場合がある)、Excel が出力する CSV ファイルが扱えない(場合がある)、といった問題が解決に向けて一歩に進みます。 去年、本家 awk (One True Awk, nawk) に Unicode サポートが Brian Kernighan の手によって追加されたと話題になった(参照)ことを覚えているでしょうか? Brian Kernighan が誰だか知らない方がいるかもしれないので説明すると、オリジナルの awk の開発者の一人で awk の頭文字、Alfred Aho、Peter Weinberger、Brian Kernighan の一人です。通称「K&R」の「プログラミング言語C」や「プログラミング言語AWK」

                      awkが新しくなる!? 本家AwkがUnicode (UTF-8)とCSV対応に! - Qiita
                    • 話題の「Telnet」電子公告、「平文やんけ」という指摘に応えて「over SSL」版を追加/文字コードも「UTF-8」に、ただし超長文の反論付き【やじうまの杜】

                        話題の「Telnet」電子公告、「平文やんけ」という指摘に応えて「over SSL」版を追加/文字コードも「UTF-8」に、ただし超長文の反論付き【やじうまの杜】
                      • PEP 686 – Make UTF-8 mode default | peps.python.org

                        PEP 686 – Make UTF-8 mode default Author: Inada Naoki <songofacandy at gmail.com> Discussions-To: Discourse thread Status: Accepted Type: Standards Track Created: 18-Mar-2022 Python-Version: 3.15 Post-History: 18-Mar-2022, 31-Mar-2022 Resolution: Discourse message Table of Contents Abstract Motivation Specification Enable UTF-8 mode by default locale.getencoding() Fixing encoding="locale" option B

                          PEP 686 – Make UTF-8 mode default | peps.python.org
                        • 不評だった「KEN_ALL.CSV」大幅改善で話題に。代替となる住所CSVデータを日本郵便が公開、カナ全角化・レコード統合・UTF-8導入など【やじうまWatch】

                            不評だった「KEN_ALL.CSV」大幅改善で話題に。代替となる住所CSVデータを日本郵便が公開、カナ全角化・レコード統合・UTF-8導入など【やじうまWatch】
                          • RDS Blue/Green Deployments を使ってシュッと utf8mb4 にマイグレーションした話 - カミナシ エンジニアブログ

                            こんにちは。ソフトウェアエンジニアの坂井 (@manabusakai) です。 カミナシでは RDB に Amazon Aurora MySQL 2(MySQL 5.7 互換)を使っています(以下 Aurora MySQL と略します)。 ある日、社内の Slack で「𠮷」などの文字列が登録できないのではないかという話が出ました。これを聞いて「あー」と思った方も多いでしょう。 MySQL で有名な UTF-8 の 4 バイト文字問題で、歴史的な理由から MySQL 5.7 以前では utf8 の文字セットは utf8mb4 ではなく utf8mb3 を指しています。 dev.mysql.com カミナシのアプリケーションは 4 バイトの文字列が入力された場合はシステムエラーを返す実装になっていますが、エラーの内容をユーザーにわかりやすく伝えることは難しいためユーザー体験としても良くない

                              RDS Blue/Green Deployments を使ってシュッと utf8mb4 にマイグレーションした話 - カミナシ エンジニアブログ
                            • Haruhiko Okumura on Twitter: "これはおもしろい。UTF-8とChatGPTのトークン: 視覴 e8 a6 96 e8 a6 b4 |25038|244|25038|112| 視覚 e8 a6 96 e8 a6 9a |25038|244|25038|248| 視聴 e8 a6 96 e8 81 b4 |25038|244|36735|112| 「覚」の前半と「聴」の後半がくっついたみたい"

                              • Haruhiko Okumura on Twitter: "これはおもしろい。UTF-8とChatGPTのトークン: 視覴 e8 a6 96 e8 a6 b4 |25038|244|25038|112| 視覚 e8 a6 96 e8 a6 9a |25038|244|25038|248| 視聴 e8 a6 96 e8 81 b4 |25038|244|36735|112| 「覚」の前半と「聴」の後半がくっついたみたい"

                                • RubyKaigi 2023で "UTF-8 is coming to mruby/c" というタイトルで話しました - Eggshell

                                  スライドタイトルは「サンタが街にやってくる」つまり「Santa Claus Is Coming to Town」のもじりでした。 UTF-8がルンルンでmruby/cにやってくる様子を思い浮かべながら決めました。 スライド きっかけ 発表内でも触れましたが、はすみさんにRubyWorldConference2022でmruby/cのUTF-8対応をしませんかと誘われたのがきっかけです。 文字コード好きなひとが来場する情報を事前にTwitterでキャッチしていたので、PicoRubyのUTF-8対応という釣り糸を垂らしたら、うまいこと引っかかりました。 質問タイムのときにちょうどその人が質問してくれて、「ちなみにUTF-8に興味ありません?」と聞いたら「めっちゃあります」とのことで、「じゃあ後ほど打ち合わせしましょう」と公衆の面前で言質をとった次第です。 mruby/cのUTF-8対応は進め

                                    RubyKaigi 2023で "UTF-8 is coming to mruby/c" というタイトルで話しました - Eggshell
                                  • MySQLのutf8mb4と戦った話 - Uzabase for Engineers

                                    皆様こんにちは、NewsPicksエンジニアの米澤です。 先日 2023/03/30は、こちらでアナウンスしていた通り、サービスの停止を伴うシステムメンテナンスを実施させて頂きました。 NewsPicksをご利用頂いている皆様には、ご迷惑おかけいたしました。 今回はこのメンテナンスの中で行われたDBテーブルのmigrationについてお話ししたいと思います。 ことの始まり やったこと 方針決め utf8mb4に対応していないテーブルを調べる migrationを作成する 影響範囲を調べる 開発環境でリハーサルを行う メンテナンスの日 最後に ことの始まり NewsPicksではバグの検知にBugSnagを利用しています。 ある時、BugSnagにこんなエラーが通知されてきました。 org.springframework.orm.hibernate4.HibernateJdbcExcepti

                                      MySQLのutf8mb4と戦った話 - Uzabase for Engineers
                                    • 【Rails×MySQL】utf8mb4対応の"encoding"と"charset"の、それぞれの役割について調べた - Qiita

                                      encodingとcharsetは同じ値を設定していますが、それぞれの役割が分からないので、動作検証とソース確認をしてみました。 結論 ・charsetはどこにも使われていない(ように見える) ・encodingはデータベースおよびシステム変数のcharset関連に適用される(結果としてテーブル・カラムも同様のcharsetになる) 検証環境 Rails: 7.0.4.2 MySQL: 8.0.32 mysql2: 0.5.5 そもそもMySQLでCharset指定できる箇所 MySQLでCharset関連の指定ができる箇所は、以下の4つがあるかと思います。 データベース (例:create database test_database charset utf8mb4;) テーブル (例:create table test_table (name varchar(255)) charset

                                        【Rails×MySQL】utf8mb4対応の"encoding"と"charset"の、それぞれの役割について調べた - Qiita
                                      • &lt;script async src="https://platform.twitter.com/widgets.js" charset="utf-8"&gt;&lt;/script&gt;

                                        一つ自分で自覚している差別感情がある。 「字が汚い女は低脳で下劣」 というもの。 字の巧拙と能力、品性には相関などないと頭では分かっているのに、汚い字で何かを書いている女性を見ると、近寄ってはいけない、と心の中の警報が鳴り出すのだ。#国際女性デー— 蟻巣 (@first_flush) March 8, 2022 &lt;script async src="https://platform.twitter.com/widgets.js" charset="utf-8"&gt;&lt;/script&gt;

                                          &lt;script async src="https://platform.twitter.com/widgets.js" charset="utf-8"&gt;&lt;/script&gt;
                                        • UTF-8で動くRailsがShift_JISな外部システムと通信する方法 - BOOK☆WALKER inside

                                          こんにちは。 メディアサービス開発部Webアプリケーション開発課のフサギコ(髙﨑)です。部署名が変わりました。 Ruby on Railsによるバックエンドの実装運用と、AWSによるサービスインフラの設計構築を中心とした、いわゆるテックリードのような立ち位置で働いています。 本記事では、UTF-8環境下で動くRailsがShift_JISな外部APIと通信する方法についてお話しします。 前提知識 文字コード UTF-8環境下で動くRailsがShift_JISな外部システムと通信するには Shift_JISな外部APIに対してPOSTリクエストする べた書きとしては Railsにおいては Shift_JISで使用できない文字が混ざっていないかをバリデーションする Shift_JISな外部システムからPOSTリクエストを受ける おまけ: ユーザのブラウザにShift_JISでPOSTさせる

                                            UTF-8で動くRailsがShift_JISな外部システムと通信する方法 - BOOK☆WALKER inside
                                          • 旧CGIプログラム(SJIS)をUTF8へ変更する方法

                                            すでに世の中、シフトJISから、UTF-8型式に文字コード体系が変化しています。 しかし、Perl/CGIのプログラムについては、その多くが「shift_jis」で稼働している状況です。ここで、最低限の移行・修正処理により、UTF-8型式へ移行・変換する対応を整理しました。 FileCode Checkerによる文字コード変換 上記のFileCode Checkerは、フリーソフトです。Win10版を導入しましょう。 フォルダ内ファイルを旧文字コード型式から、全てUTF8型式へ一括変換できます。 変換内容 文字コード:UTF8 改行コード:CRLF 元のファイルを置換(事前にバックアップを作成しておく) 変換手順 変換前のファイルについて、全てバックアップを作成しておきます。 FileCode Checkerのツールを起動 txt、cgi、datなど、旧コードの「shift_jis」で書か

                                              旧CGIプログラム(SJIS)をUTF8へ変更する方法
                                            • MySQLのテーブル作成後に、文字コードをutf8mb4に変更する

                                              MySQL のテーブルの文字コード latin1 と utf8mb4 が混在しているシステムを utf8mb4 に統一する機会がありました。調査した内容や実行したコマンドを残しておきます。MySQL のバージョンは 5.7 です。 目次 やったこと データベースの文字コードと照合順序を確認する テーブルの文字コードと照合順序を確認する 利用できる照合順序を確認する カラムの文字コードと照合順序を確認する テーブル内のすべての文字カラムを変換する データベースの文字コードを変更する テーブルの文字コードを変更する カラムの文字コードを変更する やったこと データベース、全テーブルの文字コードを調べる文字コードが utf8mb4 ではないテーブルを見つけたら、そのテーブルのカラムの文字コードを調べるカラムとテーブルの文字コードを utf8mb4 に変換するデータベースの文字コードを変更する 順

                                                MySQLのテーブル作成後に、文字コードをutf8mb4に変更する
                                              • GitHub - suzukiiichiro/Rogue2.Official: 【公式ローグII】rougeclone2 (データ分離版ローグ・クローンII UTF-8版)ターミナルへの出力はもちろん、メッセージファイル、ソースコードなどすべての処理と資源がUTF-8対応しています。Rogueのすばらしさを楽しみたい人、ソースコードを見て完成度を共感したい人、さらにオリジナルアイディアでゲームを拡張したいひと、待望の日本語UTF-8最終FIX版

                                                ============================================================================== 日本語版ローグ・クローンによる『運命の洞窟』への招待 鈴木維一郎 <suzuki.iichiro@gmail.com> 太田純氏の「ローグ・クローン2 日本語版1.3」、伊藤康史氏の「データ分離版ローグ・ クローンII」、FUNABARA Masao氏の「rogueclone2s」、 Naohiro Aota氏の 「rogueclone2s-utf8」、を経て本バージョンとなりました。 ○説明 rougeclone2s (データ分離版ローグ・クローンII  メンテナンスバージョン のUTF-8版) はターミナルへの出力のみが UTF-8対応となっていましたが、本バージョンは、ターミナ ルへの出力はもちろん、メッセージファイル、ソースコ

                                                  GitHub - suzukiiichiro/Rogue2.Official: 【公式ローグII】rougeclone2 (データ分離版ローグ・クローンII UTF-8版)ターミナルへの出力はもちろん、メッセージファイル、ソースコードなどすべての処理と資源がUTF-8対応しています。Rogueのすばらしさを楽しみたい人、ソースコードを見て完成度を共感したい人、さらにオリジナルアイディアでゲームを拡張したいひと、待望の日本語UTF-8最終FIX版
                                                • Windows 10の文字コード(システムロケール)をUTF-8に変更する方法

                                                  メモ帳で作成したテキストファイルの文字コードは「UTF-8」になります。それに対しWindowsのシステムでは「Shift-JIS」が使われているため文字化けが起こるのです。 この記事ではWindowsのシステムで既定の文字コード(システムロケール)を「Shift-JIS」から「UTF-8」に変更する手順について解説します。 合わせて以下のページもご参考ください。

                                                    Windows 10の文字コード(システムロケール)をUTF-8に変更する方法
                                                  • 思った通りに sort されない (LC_COLLATE=en_US.UTF-8 の罠) | ず@沖縄

                                                    ls -l | sort したら、思った通りの順番に並ばないという相談を受けた。その方のLinux環境では、このように並ぶらしい。 一見して変だ。各行の先頭の文字は通常は - d t の順序(ASCIIコード順)に並ぶのだが、 これは d – t の順にならんでいる。 d t – でもないのが怪しさを増している。 $ ls -l /var/log | sort drwx------ 2 root root 4096 Jul 12 2021 private drwxr-sr-x+ 2 root systemd-journal 4096 Jun 4 2021 journal drwxr-x--- 2 root adm 4096 Jul 22 2020 unattended-upgrades drwxr-xr-x 2 landscape landscape 4096 Jul 12 2021 la

                                                      思った通りに sort されない (LC_COLLATE=en_US.UTF-8 の罠) | ず@沖縄
                                                    • So Long Surrogates: How we moved to UTF-8 in Haskell

                                                      We released a blazingly fast Aho-Corasick implementation, written in Haskell, in 2019. This implementation was based on UTF-16 strings, since Haskell's text library uses that for its internal string representation. However, the most recent major update of text changed its internal string representation from UTF-16 to UTF-8. This is good news for us, since most of our customer’s data is ASCII, this

                                                      • Python 3.15からデフォルトのエンコーディングがUTF-8になります - methaneのブログ

                                                        Pythonがファイルを開くときなどに使われるエンコーディングはロケール(WindowsではANSIコードページ)依存でした。 Unixの世界ではどんどんUTF-8ロケールが一般的になっている一方、WindowsのANSIコードページはなかなかUTF-8になりません。 そのために、Unixユーザーが open(filepath) のようにエンコーディングを指定しないままUTF-8を仮定するコードを気軽に書いてしまって、Windowsユーザーがエラーで困るといった問題が発生します。 また、Windowsでもメモ帳(Notepad.exe)やVSCodeはすでにUTF-8をデフォルトのエンコーディングで使用しています。ANSIコードページがUTF-8になるのを待っていたらどんどん周りの環境から置いていかれ、レガシー化してしまいます。 Pythonがデフォルトで利用するエンコーディングをWind

                                                          Python 3.15からデフォルトのエンコーディングがUTF-8になります - methaneのブログ
                                                        • &lt;script async src="https://platform.twitter.com/widgets.js" charset="utf-8"&gt;&lt;/script&gt;

                                                          りぼん「まんがスクール」の評内の文章「(入賞者の長所を褒めた後に)…もしこうした才能が天性のものだとしたら、与えられた時と同じように、手放す瞬間も選ぶことが出来ません。それまでに手に入れるべきは、オリジナリティです。」になんか色々ぐっとくるものがあった。— おぶち (@pandaobuchi) November 6, 2019 &lt;script async src="https://platform.twitter.com/widgets.js" charset="utf-8"&gt;&lt;/script&gt;

                                                            &lt;script async src="https://platform.twitter.com/widgets.js" charset="utf-8"&gt;&lt;/script&gt;
                                                          • C# 11 Preview Updates - Raw string literals, UTF-8 and more! - .NET Blog

                                                            Azure Developers .NET Day is back on April 30th! Join the .NET community to learn cutting-edge cloud development techniques from experts on cloud services for AI, data, cloud-native, and developer productivity. Elevate your cloud development skills today! Features for C# 11 are coming along nicely! You can check these features out by downloading Visual Studio 17.2 Preview 3 or .NET 7 Preview 3 for

                                                              C# 11 Preview Updates - Raw string literals, UTF-8 and more! - .NET Blog
                                                            • 国産のWikiソフト「PukiWiki」が2年ぶりにバージョンアップ、「PHP 8.0/8.1」に対応/EUC-JP版をUTF-8へ変換するツールも用意

                                                                国産のWikiソフト「PukiWiki」が2年ぶりにバージョンアップ、「PHP 8.0/8.1」に対応/EUC-JP版をUTF-8へ変換するツールも用意
                                                              • 「Java 18」正式リリース デフォルトのCharsetが「UTF-8」に、シンプルWebサーバ搭載など新機能

                                                                この記事は新野淳一氏のブログ「Publickey」に掲載された「Java 18正式リリース。デフォルトのCharsetが「UTF-8」に、シンプルWebサーバ搭載など新機能」(2022年3月23日掲載)を、ITmedia NEWS編集部で一部編集し、転載したものです。 Javaは6カ月ごとに「フィーチャーリリース」と呼ばれるバージョンアップが行われ、そのなかの1つのバージョンが3年ごとに長期サポート(LTS:Long Term Support)版に指定されます。 現在のLTS版は2021年9月にリリースされたJava 17です。Java 18は、この次のバージョンとして登場しました。 業務アプリケーションの開発など、一定期間は安定したバージョンを使いたい場合にはLTS版のJava 17を、最新の機能をいちはやく利用したい場合には今回のJava 18を利用するのが適切でしょう。 参考:3年ぶ

                                                                  「Java 18」正式リリース デフォルトのCharsetが「UTF-8」に、シンプルWebサーバ搭載など新機能
                                                                • Java 18正式リリース。デフォルトのCharsetが「UTF-8」に、シンプルWebサーバ搭載など新機能

                                                                  Java 18正式リリース。デフォルトのCharsetが「UTF-8」に、シンプルWebサーバ搭載など新機能 Javaの新バージョン「Java 18」が正式にリリースされました。 Java 18 is now available! #Java18 #JDK18 #openjdk Download now: https://t.co/hTJU1ZzAWQ Release notes: https://t.co/Xdkj5TObNP API Javadoc: https://t.co/izFBPlYkd9 Features: https://t.co/3z0l5sXyDX pic.twitter.com/Ct1BvYmDYs — Java (@java) March 22, 2022 Javaは6カ月ごとに「フィーチャーリリース」と呼ばれるバージョンアップが行われ、そのなかの1つのバージョンが

                                                                    Java 18正式リリース。デフォルトのCharsetが「UTF-8」に、シンプルWebサーバ搭載など新機能
                                                                  • U+301C from UTF-8 to Windows-31J (Encoding::UndefinedConversionError) に対応する - ESM アジャイル事業部 開発者ブログ

                                                                    こんにちは。ima1zumi です。 私の開発している Rails アプリでは、Excel で読み込めるように 文字コードを Windows-31J に変換して CSV を出力する機能があります。 先日、CSV 出力にて Unicode の波ダッシュ 〜 を Windows-31J に変換しようとして Encoding::UndefinedConversionError が発生して CSV 出力に失敗したことがありました。なぜエラーになるのか、どうやって対応するのかをまとめました。 まとめ encode メソッドの fallback オプションを使って未定義文字の変換先を定義することで変換できます。 str = "\u{2014 301C 2016 2212 00A2 00A3 00AC}" undefined_signs = { "\u2014" => "\x81\x5C".force_

                                                                      U+301C from UTF-8 to Windows-31J (Encoding::UndefinedConversionError) に対応する - ESM アジャイル事業部 開発者ブログ
                                                                    • Kotlin / Swift での Unicode の扱いまとめ (見た目上の文字数カウント, UTF-8, UTF-16, BOM, 正規化, 異体字セレクタ) - Qiita

                                                                      Kotlin / Swift での Unicode の扱いまとめ (見た目上の文字数カウント, UTF-8, UTF-16, BOM, 正規化, 異体字セレクタ)AndroidiOSKotlinUnicodeSwift Kotlin と Swift での見た目上の文字数カウント実装を中心に、Unicode について知っておくべき知識をまとめます。 また、モバイルアプリで入力文字数のカウントや入力文字数の上限をどのように扱うかは以下の別の記事にまとめました。 文字数カウント まずは、文字数カウントが難しい例として絵文字と異体字セレクタ表現の例を挙げます。詳しい説明はこの記事の後半を確認してください。 絵文字 🧑‍🦰 の文字数について確認します。🧑‍🦰 は以下の Unicode で構成されています。 文字 Code point UTF-8 表現 UTF-16 表現 Descriptio

                                                                        Kotlin / Swift での Unicode の扱いまとめ (見た目上の文字数カウント, UTF-8, UTF-16, BOM, 正規化, 異体字セレクタ) - Qiita
                                                                      • C++(Visual Studio)でUTF-8を扱うための試行錯誤のメモ - Qiita

                                                                        目的 Visual Studio(Windows)を使ってC++のコンソールアプリケーションを開発する際、 ソースファイルの文字コード 出力するときの文字コード プログラム内で扱うデータの文字コード 全てをUTF-8で扱うための試行錯誤をまとめてみることにします。 2022/01/16 : 記事の公開当初は、ISO C++ 20 標準 (/std:c++20)(u8string)を使う予定でした。 しかし、検証した結果、ISO C++ 20 標準 (/std:c++20)は使わずにISO C++ 17 標準 (/std:c++17)を使う事にしました。 なぜならば、mbrtoc8(char -> char8_t) および c8rtomb(char8_t -> char)が実装されていないからです。 環境 Microsoft Visual Studio Community 2022 (3)

                                                                          C++(Visual Studio)でUTF-8を扱うための試行錯誤のメモ - Qiita
                                                                        • How does UTF-8 turn “😂” into “F09F9882”?

                                                                          More often than not the mechanism being used to turn bytes into characters and emojis on your computer is "UTF-8". I recently learned how UTF-8 works and felt that the definition lended itself perfectly to creating diagrams explaining the implementation. I created these diagrams for my own enjoyment and wanted to share them. Hopefully this will inspire you to learn how other low-level protocols wo

                                                                            How does UTF-8 turn “😂” into “F09F9882”?
                                                                          • ritsuka on Twitter: "鬼滅の刃に禰󠄀豆子というキャラがいるらしいけど、禰+異体字セレクタU+E0100を使わないと表現出来ない字なのか。 それでデフォルトではUTF-8は3バイトまでと決め打ちしてたMySQLとかそれを使うWordPressでトラブル起こすらしい"

                                                                            鬼滅の刃に禰󠄀豆子というキャラがいるらしいけど、禰+異体字セレクタU+E0100を使わないと表現出来ない字なのか。 それでデフォルトではUTF-8は3バイトまでと決め打ちしてたMySQLとかそれを使うWordPressでトラブル起こすらしい

                                                                              ritsuka on Twitter: "鬼滅の刃に禰󠄀豆子というキャラがいるらしいけど、禰+異体字セレクタU+E0100を使わないと表現出来ない字なのか。 それでデフォルトではUTF-8は3バイトまでと決め打ちしてたMySQLとかそれを使うWordPressでトラブル起こすらしい"
                                                                            • UTF-8のテーブル(MySQL5.6)に竈門禰󠄀豆子が格納できない問題を調べてみた - Qiita

                                                                              竈門禰󠄀豆子をMySQL5.6のテーブルにinsertしようとすると正しく格納できず、竈門禰となってしまうケースがあるという話を聞き、調べてみました。 実践 まずは試しにやってみます。 mysql> show create table verification\G *************************** 1. row *************************** Table: verification Create Table: CREATE TABLE `verification` ( `name` varchar(100) COLLATE utf8_bin DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin 1 row in set (0.01 sec) mysql> inse

                                                                                UTF-8のテーブル(MySQL5.6)に竈門禰󠄀豆子が格納できない問題を調べてみた - Qiita
                                                                              • UTF-8の文字コード表 - 備忘帳 - オレンジ工房

                                                                                UTF-8の文字コード表なのです。いつも検索して、よそ様のページを参照させていただいていたのですが、面倒なので自分で作りました。 perlのスクリプトでガーッと出したので、見栄えはアレですが、とりあえず。 1バイト文字 2バイト文字 3バイト文字 E2 9C 80 ~ Dingbats、昔からある記号、絵文字とか E3 80 80 ~ 全角ひらがな・カタカナ EF BC 80 ~ 全角英数字、半角カナ 4バイト文字 F0 9F 8C 80 ~ たぶん今どきの皆さんの言う絵文字 F0 9F 98 80 ~ 顔文字 更新履歴 (2018-05-10 追記) コード表を全体的に再出力しました。変更点は以下の通りです。 unicode追加面、4バイト文字の表もつくりました。 各文字ブロックにタイトルを付けました。英語タイトルはUnicode仕様書PDFへ直リンクしています。 表示されてないけど、ど

                                                                                • MySQL/MariaDB character sets and collations explained – why utf8 is not UTF-8

                                                                                  MySQL/MariaDB character sets and collations explained – why utf8 is not UTF-8 Jan 3, 2022 · 7 min read Table Of Contents The relationship between character sets and collations always seemed pretty vague to me, let alone the possible impact on performance. So if you are like me and want to know the difference between utf8 and utf8mb4 and why mixed collations are bad for your database performance, r

                                                                                    MySQL/MariaDB character sets and collations explained – why utf8 is not UTF-8