並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 104件

新着順 人気順

UTF8の検索結果1 - 40 件 / 104件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

UTF8に関するエントリは104件あります。 文字コードプログラミングunicode などが関連タグです。 人気エントリには 『「ASCIIをUTF-8にして」それが『できない』ことを理解してもらえなかった話 - Qiita』などがあります。
  • 「ASCIIをUTF-8にして」それが『できない』ことを理解してもらえなかった話 - Qiita

    物語の始まり 事の発端は納品後。 先方からメッセージが届きました。 クライアント様「このファイルの文字コードがShift_JISになっておりますので、UTF-8で再納品をお願いいたします。」 拙者(あれ…UTF-8にしてたと思うんだけどな) 拙者「確認いたします。」 文字コードを確認する 本案件はいわゆる更新案件で、今回の納品時に言われていたのは、「文字コードがUTF-8ではないものは変換して納品してくれ」ということ。 そして、ご指摘いただいたのは、今回の更新案件で中身はいじらなかったJavaScriptファイル。 本来ならば納品するファイルではないのですが、文字コード変換という要件があったため、納品ファイルとして加えられたものでした。 一括で文字コードを変えたので作業漏れかなぁと思っていました。 ファイルの中身は記事用にかなり適当につくったものですが、まあだいたいこんな感じです。

      「ASCIIをUTF-8にして」それが『できない』ことを理解してもらえなかった話 - Qiita
    • UTF-8のテーブル(MySQL5.6)に竈門禰󠄀豆子が格納できない問題を調べてみた - Qiita

      竈門禰󠄀豆子をMySQL5.6のテーブルにinsertしようとすると正しく格納できず、竈門禰となってしまうケースがあるという話を聞き、調べてみました。 実践 まずは試しにやってみます。 mysql> show create table verification\G *************************** 1. row *************************** Table: verification Create Table: CREATE TABLE `verification` ( `name` varchar(100) COLLATE utf8_bin DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin 1 row in set (0.01 sec) mysql> inse

        UTF-8のテーブル(MySQL5.6)に竈門禰󠄀豆子が格納できない問題を調べてみた - Qiita
      • BOMなしUTF-8によってWindowsでもたらされる困惑 (1/2)

        かつてWindowsでテキストファイルといえばシフトJIS形式のものが大半だった。しかし最近では、UTF-8形式のテキストファイルも普通に見かけるようになってきた。世の中はUTF-8が主流になりつつあると言っていいだろう。 しかし、WindowsでUTF-8を使うと、ちょっと困ったことがある。それは、エクスプローラーの検索欄などで用いるWindows Searchが、UTF-8にはしっかり対応していないのである。正確に言うと、Windows Searchはファイル先頭に「BOM」のあるUTF-8は認識して正確にインデックス化し、ファイルの全文検索が可能になるが、BOMのないUTF-8では正しくインデックス化できず、ファイルの全文検索はASCIIコードのみ可能で、日本語などの非ASCII文字では全文検索ができない。 同じ内容のテキストをUTF-8、UTF-8 BOM付き、UTF-16ビッグエ

          BOMなしUTF-8によってWindowsでもたらされる困惑 (1/2)
        • ターミナル用 UTF-8 テキストエディタを Rust でスクラッチからつくった - はやくプログラムになりたい

          言語処理系やテキストエディタなどのプログラミングツールが好きなので,その周辺を趣味で触ってます.Vim を Wasm にポートするために Vim の実装を読んだりはしているのですが,フルスクラッチでテキストエディタをつくったことはありませんでした. 今年のお盆はめちゃ暑かったので,引きこもって夏休みの自由工作的に Rust でテキストエディタをつくっていたという話です.普段ターミナルで作業しているので,つくるのもターミナル向けテキストエディタです.最近 vim.wasm で C と TypeScript ばかりだったので,そろそろまた Rust か Go を書きたかったのですが,Go はすでに micro という良さそうなテキストエディタ実装があったので,Rust で書いてみることにしました. まずは Build Your Own Text Editor というガイドを利用して,1000行

            ターミナル用 UTF-8 テキストエディタを Rust でスクラッチからつくった - はやくプログラムになりたい
          • Python 3.15からデフォルトのエンコーディングがUTF-8になります - methaneのブログ

            Pythonがファイルを開くときなどに使われるエンコーディングはロケール(WindowsではANSIコードページ)依存でした。 Unixの世界ではどんどんUTF-8ロケールが一般的になっている一方、WindowsのANSIコードページはなかなかUTF-8になりません。 そのために、Unixユーザーが open(filepath) のようにエンコーディングを指定しないままUTF-8を仮定するコードを気軽に書いてしまって、Windowsユーザーがエラーで困るといった問題が発生します。 また、Windowsでもメモ帳(Notepad.exe)やVSCodeはすでにUTF-8をデフォルトのエンコーディングで使用しています。ANSIコードページがUTF-8になるのを待っていたらどんどん周りの環境から置いていかれ、レガシー化してしまいます。 Pythonがデフォルトで利用するエンコーディングをWind

              Python 3.15からデフォルトのエンコーディングがUTF-8になります - methaneのブログ
            • 話題の「Telnet」電子公告、「平文やんけ」という指摘に応えて「over SSL」版を追加/文字コードも「UTF-8」に、ただし超長文の反論付き【やじうまの杜】

                話題の「Telnet」電子公告、「平文やんけ」という指摘に応えて「over SSL」版を追加/文字コードも「UTF-8」に、ただし超長文の反論付き【やじうまの杜】
              • MySQLのutf8mb4と戦った話 - Uzabase for Engineers

                皆様こんにちは、NewsPicksエンジニアの米澤です。 先日 2023/03/30は、こちらでアナウンスしていた通り、サービスの停止を伴うシステムメンテナンスを実施させて頂きました。 NewsPicksをご利用頂いている皆様には、ご迷惑おかけいたしました。 今回はこのメンテナンスの中で行われたDBテーブルのmigrationについてお話ししたいと思います。 ことの始まり やったこと 方針決め utf8mb4に対応していないテーブルを調べる migrationを作成する 影響範囲を調べる 開発環境でリハーサルを行う メンテナンスの日 最後に ことの始まり NewsPicksではバグの検知にBugSnagを利用しています。 ある時、BugSnagにこんなエラーが通知されてきました。 org.springframework.orm.hibernate4.HibernateJdbcExcepti

                  MySQLのutf8mb4と戦った話 - Uzabase for Engineers
                • awkが新しくなる!? 本家AwkがUnicode (UTF-8)とCSV対応に! - Qiita

                  はじめに 2023年、長い時を経て awk がとうとう Unicode (UTF-8) と CSV に対応しました 🎉🎉🎉 awk で日本語がうまく扱えない(場合がある)、Excel が出力する CSV ファイルが扱えない(場合がある)、といった問題が解決に向けて一歩に進みます。 去年、本家 awk (One True Awk, nawk) に Unicode サポートが Brian Kernighan の手によって追加されたと話題になった(参照)ことを覚えているでしょうか? Brian Kernighan が誰だか知らない方がいるかもしれないので説明すると、オリジナルの awk の開発者の一人で awk の頭文字、Alfred Aho、Peter Weinberger、Brian Kernighan の一人です。通称「K&R」の「プログラミング言語C」や「プログラミング言語AWK」

                    awkが新しくなる!? 本家AwkがUnicode (UTF-8)とCSV対応に! - Qiita
                  • UTF-8で動くRailsがShift_JISな外部システムと通信する方法 - BOOK☆WALKER inside

                    こんにちは。 メディアサービス開発部Webアプリケーション開発課のフサギコ(髙﨑)です。部署名が変わりました。 Ruby on Railsによるバックエンドの実装運用と、AWSによるサービスインフラの設計構築を中心とした、いわゆるテックリードのような立ち位置で働いています。 本記事では、UTF-8環境下で動くRailsがShift_JISな外部APIと通信する方法についてお話しします。 前提知識 文字コード UTF-8環境下で動くRailsがShift_JISな外部システムと通信するには Shift_JISな外部APIに対してPOSTリクエストする べた書きとしては Railsにおいては Shift_JISで使用できない文字が混ざっていないかをバリデーションする Shift_JISな外部システムからPOSTリクエストを受ける おまけ: ユーザのブラウザにShift_JISでPOSTさせる

                      UTF-8で動くRailsがShift_JISな外部システムと通信する方法 - BOOK☆WALKER inside
                    • 国産のWikiソフト「PukiWiki」が2年ぶりにバージョンアップ、「PHP 8.0/8.1」に対応/EUC-JP版をUTF-8へ変換するツールも用意

                        国産のWikiソフト「PukiWiki」が2年ぶりにバージョンアップ、「PHP 8.0/8.1」に対応/EUC-JP版をUTF-8へ変換するツールも用意
                      • RDS Blue/Green Deployments を使ってシュッと utf8mb4 にマイグレーションした話 - カミナシ エンジニアブログ

                        こんにちは。ソフトウェアエンジニアの坂井 (@manabusakai) です。 カミナシでは RDB に Amazon Aurora MySQL 2(MySQL 5.7 互換)を使っています(以下 Aurora MySQL と略します)。 ある日、社内の Slack で「𠮷」などの文字列が登録できないのではないかという話が出ました。これを聞いて「あー」と思った方も多いでしょう。 MySQL で有名な UTF-8 の 4 バイト文字問題で、歴史的な理由から MySQL 5.7 以前では utf8 の文字セットは utf8mb4 ではなく utf8mb3 を指しています。 dev.mysql.com カミナシのアプリケーションは 4 バイトの文字列が入力された場合はシステムエラーを返す実装になっていますが、エラーの内容をユーザーにわかりやすく伝えることは難しいためユーザー体験としても良くない

                          RDS Blue/Green Deployments を使ってシュッと utf8mb4 にマイグレーションした話 - カミナシ エンジニアブログ
                        • Java 18正式リリース。デフォルトのCharsetが「UTF-8」に、シンプルWebサーバ搭載など新機能

                          Java 18正式リリース。デフォルトのCharsetが「UTF-8」に、シンプルWebサーバ搭載など新機能 Javaの新バージョン「Java 18」が正式にリリースされました。 Java 18 is now available! #Java18 #JDK18 #openjdk Download now: https://t.co/hTJU1ZzAWQ Release notes: https://t.co/Xdkj5TObNP API Javadoc: https://t.co/izFBPlYkd9 Features: https://t.co/3z0l5sXyDX pic.twitter.com/Ct1BvYmDYs — Java (@java) March 22, 2022 Javaは6カ月ごとに「フィーチャーリリース」と呼ばれるバージョンアップが行われ、そのなかの1つのバージョンが

                            Java 18正式リリース。デフォルトのCharsetが「UTF-8」に、シンプルWebサーバ搭載など新機能
                          • UTF-8 の文字列をできる限り Shift_JIS に変換したい - きりきりやま

                            Shift_JIS の CSV で連携する外部サービスがあり、DB では UTF-8 でテキストを持っていたため文字コードを変換する必要が生じた。 ところが UTF-8 に存在する多くの文字は Shift_JIS に対応がないため変換することができない1。 そこで、事前に NFKC 形式で Unicode 正規化することで変換可能な文字を増やすことを試みた。 まずは Unicode 正規化の前提として、Unicode の正準等価と互換等価について説明する。 以降の U+16進数 という表記は Unicode のコードポイント (文字に ID のようなものが割り当てられている) を示す。 また、コードポイントに対応する文字の詳細は https://codepoints.net/ といったサイトで確認することができる。 正準等価 例として、ひらがなの「が」について考える。Unicode では「

                              UTF-8 の文字列をできる限り Shift_JIS に変換したい - きりきりやま
                            • `<meta charset="UTF-8">` を書く必要性があるケースとデメリット

                              HTML 文書内に <meta charset="UTF-8"> を書いていますか? 書いているとしたら、その必要性を問われた時に理由を説明できますか? 実は私も勘違いしていた部分があり[1]、改めてまとめてみました。 <meta> による文字エンコーディング指定の歴史 Content-Type ヘッダーと <meta> の関係性と優先度 <meta> が必要なケース <meta> で文字エンコーディングを指定するデメリット <meta> による文字エンコーディング指定の歴史 § まず基本的なおさらいをします。<meta charset="UTF-8"> は HTML5 で登場した新しい記法で、 HTML4 以前は <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> などという長くて覚えにくい書き方をしてい

                                `<meta charset="UTF-8">` を書く必要性があるケースとデメリット
                              • オープンソースの老舗テキストエディター「サクラエディタ」v2.4.0.0 ~約2年ぶりのアップデート/BOMなしのUTF-8がデフォルトの文字コードに。不透明度を調整できるエディター壁紙も

                                  オープンソースの老舗テキストエディター「サクラエディタ」v2.4.0.0 ~約2年ぶりのアップデート/BOMなしのUTF-8がデフォルトの文字コードに。不透明度を調整できるエディター壁紙も
                                • メモ帳の文字コード既定値がUTF-8に、Windows 10「May 2019 Update」

                                  2019年5月21日(米国時間)から、Windows 10の大型アップデート「Windows 10 May 2019 Update(May 2019 Update)」の配信が順次始まった。主要な新機能や変更点を見ていこう。 May 2019 Updateでは、Linuxとの親和性をさらに高める機能が追加された。この他、メモ帳のデフォルト設定の文字コードがUTF-8となり、今まで以上にソフトウエア開発者に使いやすくなった。

                                    メモ帳の文字コード既定値がUTF-8に、Windows 10「May 2019 Update」
                                  • UTF-8 の文字列をできる限り Shift_JIS に変換したい(実践編) | うなすけとあれこれ

                                    先日、きりきりやままさんがこのような記事を公開していました UTF-8 の文字列をできる限り Shift_JIS に変換したい - きりきりやま それでは実際にそのような文字列変換を行うにはどうすればよいのか、またコメントでiconvについて触れられていたので、この記事ではUnicodeにおけるNFKC正規化をどうやって行うのか試してみることにしました。 追記 GoとPythonとJavaScriptでの例を足しました。またいくつかのscriptにおいてブラウザ上で実行できるURLを添付しました。 (2020-08-17 16:22) “Go” に表記を統一しました。 (2020-08-17 17:00) Ruby 僕にとって文字列処理といえばRubyなので、まずは以下のようなscriptを書いてみました。 puts "\u304c" puts "String#encode('Shift_

                                      UTF-8 の文字列をできる限り Shift_JIS に変換したい(実践編) | うなすけとあれこれ
                                    • CSVファイルを読み込むときはBOM付きUTF-8に気をつける - Pepabo Tech Portal

                                      EC事業部エンジニアのharashoです。この記事はEC事業部ブログリレーの13日目の記事で、12日目は@ku00さんによるカラーミーショップの一機能をAngular Elementsで実装しましたでした。 タイトルがこの記事の結論になりますが、私が遭遇したCSVファイルの読み込み処理で起きた不具合と原因、対応方法について書きます。 CSVファイルの読み込み処理で起きた不具合 不具合の原因 BOMについて 対応方法: BOMを取り除く おわりに CSVファイルの読み込み処理で起きた不具合 私が開発に携わったカラーミーリピートの一括発送アプリには、注文に対する発送リストをCSVファイルから一括登録して、発送処理を行う機能があります。以下はその機能の簡単な流れと、CSVファイルのイメージです。

                                        CSVファイルを読み込むときはBOM付きUTF-8に気をつける - Pepabo Tech Portal
                                      • PythonのデフォルトエンコーディングをUTF-8にするために - methaneのブログ

                                        Python がテキストファイルを開く時のデフォルトエンコーディングがUTF-8でないことは、多くのWindowsユーザー、特にプログラミング初心者にとって障害になっています。 UnicodeDecodeError で検索すると、多くのWindowsユーザーが問題に遭遇しているのがわかります。 https://qiita.com/Yuu94/items/9ffdfcb2c26d6b33792e https://www.mikan-partners.com/archives/3212 https://teratail.com/questions/268749 https://github.com/neovim/pynvim/issues/443 https://www.coder.work/article/1284080 https://teratail.com/questions/2713

                                          PythonのデフォルトエンコーディングをUTF-8にするために - methaneのブログ
                                        • &lt;script async src="https://platform.twitter.com/widgets.js" charset="utf-8"&gt;&lt;/script&gt;

                                          一つ自分で自覚している差別感情がある。 「字が汚い女は低脳で下劣」 というもの。 字の巧拙と能力、品性には相関などないと頭では分かっているのに、汚い字で何かを書いている女性を見ると、近寄ってはいけない、と心の中の警報が鳴り出すのだ。#国際女性デー— 蟻巣 (@first_flush) March 8, 2022 &lt;script async src="https://platform.twitter.com/widgets.js" charset="utf-8"&gt;&lt;/script&gt;

                                            &lt;script async src="https://platform.twitter.com/widgets.js" charset="utf-8"&gt;&lt;/script&gt;
                                          • みんな忘れてるけど「文字コードというものにはシフトJISとUTF-8などがある」ということを知ってるだけでも世間一般からすればIT専門家である

                                            嶋田大貴 @shimariso みんな忘れてるけど、「テキストファイルという種類のファイルがあって、その中で使われる文字コードというものにはシフトJISとUTF-8などがある」ということを知ってるだけでも世間一般からすればIT専門家ですよ。 2024-04-02 12:42:01

                                              みんな忘れてるけど「文字コードというものにはシフトJISとUTF-8などがある」ということを知ってるだけでも世間一般からすればIT専門家である
                                            • neue cc - UTF8文字列生成を最適化するライブラリ Utf8StringInterpolation を公開しました

                                              UTF8文字列生成を最適化するライブラリ Utf8StringInterpolation を公開しました 2023-10-13 Utf8StringInterpolationという新しいライブラリを公開しました!UTF8文字列の生成と書き込みに特化していて、動作をカスタマイズした文字列補間式によるC#コンパイラの機能を活用した生成と、StringBuilder的な連続的な書き込みの両方をサポートします。 Cysharp/Utf8StringInterpolation 基本的な流れはこんな感じで、Stringを生成するのと同じように、UTF8を生成/書き込みできます。 using Utf8StringInterpolation; // Create UTF8 encoded string directly(without encoding). byte[] utf8 = Utf8String

                                              • UTF-8のバリデーションとモノイドと半群

                                                この記事はUTF-8のバリデーションとオートマトンの続きです。 前回はUTF-8のバリデーションが8状態のオートマトン (DFA) で表現できることを見ました。状態と遷移を擬似コードで書けば次のようになるでしょう: -- 8つの状態 data State = START | TAILx1 | TAILx2 | TAILx3 | A | B | C | D -- 入力バイトに応じて次の状態を返す。次の状態が該当しなかったら Nothing を返す next :: Word8 -> State -> Maybe State +----+----+-----+----+ | a0 | a1 | ... | aN | 8ビット整数列 +----+----+-----+----+ | | | v v v +----+----+-----+----+ | m0 | m1 | ... | mN | モノ

                                                  UTF-8のバリデーションとモノイドと半群
                                                • Excel CSV形式ファイルにおける今どきUTF-8文字コード問題の傾向と対策

                                                  環境依存文字を含むデータをCSV形式でやりとりするには 人名や地名の中には、環境依存文字(異字体など)が含まれていることがある。環境依存文字を含むExcelのシートをCSV形式でやりとりしなければならない場合、文字コードにUTF-8を指定するとよい。なお画面の住所録は、「テストデータ・ジェネレータ」によって作成した架空のサンプル用のデータを記事用に修正したものである。 「Microsoft Excel(エクセル)」で作成した表を、CSV形式で保存し、別のアプリケーションに読み込ませることはないだろうか。また、取引先にデータを送る際に、XLSX形式ではなく、CSV形式が要求されることもあるだろう。逆にCSV形式で受け取ったデータをExcelで読み込んで処理したいというケースもあり得る。 このような場合、環境依存文字(機種依存文字)が含まれていると、CSV形式に変換する際に、正しく文字が出力さ

                                                    Excel CSV形式ファイルにおける今どきUTF-8文字コード問題の傾向と対策
                                                  • MySQL 8.0 でも utf8mb4_general_ci を使い続けたい僕らは - mita2 database life

                                                    このエントリーは MySQL Advent Calendar 2020 の 12/7 のエントリーです。 照合順序(COLLATION)とは 照合順序は文字列の比較やソート順のルールのことです。各キャラクタセットごとに照合順序が定義されています。 -- SHOW COLLATIONS で一覧が見れる mysql> SHOW COLLATIONS; +----------------------------+----------+-----+---------+----------+---------+---------------+ | Collation | Charset | Id | Default | Compiled | Sortlen | Pad_attribute | +----------------------------+----------+-----+-------

                                                      MySQL 8.0 でも utf8mb4_general_ci を使い続けたい僕らは - mita2 database life
                                                    • UTF-8のバリデーションとオートマトン

                                                      UTF-8は今日の文字エンコーディングの中で最も重要なものと言って差し支えないでしょう。UTF-8の仕様はこの辺で確認できます: Unicode 15.1.0 > 3.9 UTF-8 RFC 3629 - UTF-8, a transformation format of ISO 10646 この記事では、読者はすでにUTF-8にある程度の馴染みがあるものとして、UTF-8のバリデーションの細かいところを考えます。 UTF-8のバリデーションを行うには、以下のことを確かめなければなりません: 最初の1バイトが所定の範囲にあること:ASCII (0x00-0x7F) または0xC2以上。 後続のバイト(たち)が0x80-0xBFの範囲にあること。 長すぎないこと:U+007F以下の文字はちょうど1バイトで表現されていること、U+0080以上U+07FF以下の文字はちょうど2バイトで表現されて

                                                        UTF-8のバリデーションとオートマトン
                                                      • 【Windows 10/11】えっ、UTF-8じゃなくてShift-JISで? お手軽文字コード変換方法まとめ

                                                        【Windows 10/11】えっ、UTF-8じゃなくてShift-JISで? お手軽文字コード変換方法まとめ:Tech TIPS Windows OSのコマンドプロンプト上でテキスト処理をする場合、基本的にはShift-JIS(シフトJIS)コードのテキストファイルしか扱えない。その他の文字コードのテキストを扱う場合は、Shift-JISに変換する必要がある。「メモ帳」アプリやnkfコマンドなどで文字コードを変換する方法を解説する。

                                                          【Windows 10/11】えっ、UTF-8じゃなくてShift-JISで? お手軽文字コード変換方法まとめ
                                                        • PEP 686 – Make UTF-8 mode default | peps.python.org

                                                          PEP 686 – Make UTF-8 mode default Author: Inada Naoki <songofacandy at gmail.com> Discussions-To: Discourse thread Status: Accepted Type: Standards Track Created: 18-Mar-2022 Python-Version: 3.15 Post-History: 18-Mar-2022, 31-Mar-2022 Resolution: Discourse message Table of Contents Abstract Motivation Specification Enable UTF-8 mode by default locale.getencoding() Fixing encoding="locale" option B

                                                            PEP 686 – Make UTF-8 mode default | peps.python.org
                                                          • 【Rust】文字列型のUTF-8検証の中身 - Qiita

                                                            コード値:00000000_00000000_0xxxxxxx(1-7ビット) ⇒ UTF-8:0xxxxxxx(1バイト) コード値:00000000_00000yyy_yyxxxxxx(8-11ビット) ⇒ UTF-8:110yyyyy 10xxxxxx(2バイト) コード値:00000000_zzzzyyyy_yyxxxxxx(12-16ビット) ⇒ UTF-8:1110zzzz 10yyyyyy 10xxxxxx(3バイト) コード値:000wwwzz_zzzzyyyy_yyxxxxxx(17-21ビット) ⇒ UTF-8:11110www 10zzzzzz 10yyyyyy 10xxxxxx(4バイト) 特に重要な点は以下の2つである。 1バイト目(開始バイト)の先頭のビットパターンによって全体のバイト数を判定できる。 (0...:1バイト、110...:2バイト、1110...

                                                              【Rust】文字列型のUTF-8検証の中身 - Qiita
                                                            • &lt;script async src="https://platform.twitter.com/widgets.js" charset="utf-8"&gt;&lt;/script&gt;

                                                              りぼん「まんがスクール」の評内の文章「(入賞者の長所を褒めた後に)…もしこうした才能が天性のものだとしたら、与えられた時と同じように、手放す瞬間も選ぶことが出来ません。それまでに手に入れるべきは、オリジナリティです。」になんか色々ぐっとくるものがあった。— おぶち (@pandaobuchi) November 6, 2019 &lt;script async src="https://platform.twitter.com/widgets.js" charset="utf-8"&gt;&lt;/script&gt;

                                                                &lt;script async src="https://platform.twitter.com/widgets.js" charset="utf-8"&gt;&lt;/script&gt;
                                                              • RubyKaigi 2023で "UTF-8 is coming to mruby/c" というタイトルで話しました - Eggshell

                                                                スライドタイトルは「サンタが街にやってくる」つまり「Santa Claus Is Coming to Town」のもじりでした。 UTF-8がルンルンでmruby/cにやってくる様子を思い浮かべながら決めました。 スライド きっかけ 発表内でも触れましたが、はすみさんにRubyWorldConference2022でmruby/cのUTF-8対応をしませんかと誘われたのがきっかけです。 文字コード好きなひとが来場する情報を事前にTwitterでキャッチしていたので、PicoRubyのUTF-8対応という釣り糸を垂らしたら、うまいこと引っかかりました。 質問タイムのときにちょうどその人が質問してくれて、「ちなみにUTF-8に興味ありません?」と聞いたら「めっちゃあります」とのことで、「じゃあ後ほど打ち合わせしましょう」と公衆の面前で言質をとった次第です。 mruby/cのUTF-8対応は進め

                                                                  RubyKaigi 2023で "UTF-8 is coming to mruby/c" というタイトルで話しました - Eggshell
                                                                • 不評だった「KEN_ALL.CSV」大幅改善で話題に。代替となる住所CSVデータを日本郵便が公開、カナ全角化・レコード統合・UTF-8導入など【やじうまWatch】

                                                                    不評だった「KEN_ALL.CSV」大幅改善で話題に。代替となる住所CSVデータを日本郵便が公開、カナ全角化・レコード統合・UTF-8導入など【やじうまWatch】
                                                                  • Python で文頭に記載する文字コードの「アレ」(なんちゃら UTF-8 みたいなやつ)の名称と仕様 - Qiita

                                                                    「python 文頭に記載する アレ」とか「python 文頭 記述 文字コード アレ」の Qiita 記事をググっても出てこなかったので、自分のググラビリティ(備忘録)として。 TL; DR (今北産業) アレは英語で Magic comment と言います。 Python 3 の場合、ソースが UTF-8 の時は記載は不要です。(むしろ非推奨) Python 3 で使えるコーデック文字コードのエンコード一覧はこちらになります。 Standard Encodings | Codecs | Library | v3 @ docs.python.org 取りまとめ 英語で Magic comment と言います Magic comment の日本語表記について 英語の文献(PEP-263)には「magic comment」という記載がありました。 To define a source cod

                                                                      Python で文頭に記載する文字コードの「アレ」(なんちゃら UTF-8 みたいなやつ)の名称と仕様 - Qiita
                                                                    • yokuさんにutf8→utf8mb4binのときに教えてもらった便利Tips

                                                                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                        yokuさんにutf8→utf8mb4binのときに教えてもらった便利Tips
                                                                      • 週刊Railsウォッチ(20200212後編)Rubyistが解説するUnicodeとUTF-8、Sorbetが速い理由、CSSの歴史、2019年の脆弱性まとめほか|TechRacho by BPS株式会社

                                                                        2020.02.12 週刊Railsウォッチ(20200212後編)Rubyistが解説するUnicodeとUTF-8、Sorbetが速い理由、CSSの歴史、2019年の脆弱性まとめほか こんにちは、hachi8833です。昨日の大江戸Ruby会議をすっかり見落としてました😇。 大江戸Ruby会議で話すので東京にいたらそこで会いましょう! https://t.co/w1ADFEMhnx — Aaron Patterson (@tenderlove) February 8, 2020 サイト: 大江戸Ruby会議08 — 終わりました 各記事冒頭には⚓でパーマリンクを置いてあります: 社内やTwitterでの議論などにどうぞ 「つっつきボイス」はRailsウォッチ公開前ドラフトを(鍋のように)社内有志でつっついたときの会話の再構成です👄 毎月第一木曜日に「公開つっつき会」を開催しています

                                                                          週刊Railsウォッチ(20200212後編)Rubyistが解説するUnicodeとUTF-8、Sorbetが速い理由、CSSの歴史、2019年の脆弱性まとめほか|TechRacho by BPS株式会社
                                                                        • Kotlin / Swift での Unicode の扱いまとめ (見た目上の文字数カウント, UTF-8, UTF-16, BOM, 正規化, 異体字セレクタ) - Qiita

                                                                          Kotlin / Swift での Unicode の扱いまとめ (見た目上の文字数カウント, UTF-8, UTF-16, BOM, 正規化, 異体字セレクタ)AndroidiOSKotlinUnicodeSwift Kotlin と Swift での見た目上の文字数カウント実装を中心に、Unicode について知っておくべき知識をまとめます。 また、モバイルアプリで入力文字数のカウントや入力文字数の上限をどのように扱うかは以下の別の記事にまとめました。 文字数カウント まずは、文字数カウントが難しい例として絵文字と異体字セレクタ表現の例を挙げます。詳しい説明はこの記事の後半を確認してください。 絵文字 🧑‍🦰 の文字数について確認します。🧑‍🦰 は以下の Unicode で構成されています。 文字 Code point UTF-8 表現 UTF-16 表現 Descriptio

                                                                            Kotlin / Swift での Unicode の扱いまとめ (見た目上の文字数カウント, UTF-8, UTF-16, BOM, 正規化, 異体字セレクタ) - Qiita
                                                                          • ritsuka on Twitter: "鬼滅の刃に禰󠄀豆子というキャラがいるらしいけど、禰+異体字セレクタU+E0100を使わないと表現出来ない字なのか。 それでデフォルトではUTF-8は3バイトまでと決め打ちしてたMySQLとかそれを使うWordPressでトラブル起こすらしい"

                                                                            鬼滅の刃に禰󠄀豆子というキャラがいるらしいけど、禰+異体字セレクタU+E0100を使わないと表現出来ない字なのか。 それでデフォルトではUTF-8は3バイトまでと決め打ちしてたMySQLとかそれを使うWordPressでトラブル起こすらしい

                                                                              ritsuka on Twitter: "鬼滅の刃に禰󠄀豆子というキャラがいるらしいけど、禰+異体字セレクタU+E0100を使わないと表現出来ない字なのか。 それでデフォルトではUTF-8は3バイトまでと決め打ちしてたMySQLとかそれを使うWordPressでトラブル起こすらしい"
                                                                            • Windows 10の文字コード(システムロケール)をUTF-8に変更する方法

                                                                              メモ帳で作成したテキストファイルの文字コードは「UTF-8」になります。それに対しWindowsのシステムでは「Shift-JIS」が使われているため文字化けが起こるのです。 この記事ではWindowsのシステムで既定の文字コード(システムロケール)を「Shift-JIS」から「UTF-8」に変更する手順について解説します。 合わせて以下のページもご参考ください。

                                                                                Windows 10の文字コード(システムロケール)をUTF-8に変更する方法
                                                                              • MySQL 8.0のCharset utf8mb4での日本語環境で使うCollationで文字比較をしてみる - CLOVER🍀

                                                                                これは、なにをしたくて書いたもの? MySQL 8.0のCharset utf8mb4で使えるCollationについて、ちょっと見ておこうかなと思いまして。 具体的には、「MySQL徹底入門 第4版」の「11.2 Collation」に書かれている文字比較およびソートについて自分で 確認してみたいと思います。 MySQL徹底入門 第4版 MySQL 8.0対応 作者:yoku0825,坂井 恵,鶴長 鎮一,とみたまさひろ,深町 日出海,福山 裕大,班石 悦夫,山﨑 由章発売日: 2020/07/06メディア: 単行本(ソフトカバー) utf8mb4でのCharsetとCollation MySQLのCharsetとCollationに関するドキュメントは、こちらです。 MySQL :: MySQL 8.0 リファレンスマニュアル :: 10 文字セット、照合順序、Unicode MySQ

                                                                                  MySQL 8.0のCharset utf8mb4での日本語環境で使うCollationで文字比較をしてみる - CLOVER🍀
                                                                                • Windows 上の Python で UTF-8 をデフォルトにする - Qiita

                                                                                  TL;DR: UTF-8をデフォルトで使いたい人は環境変数に PYTHONUTF8=1 を設定しよう Python は文字列が unicode なので、あちこちで「適切」なエンコーディングを選択する必要があります。残念ながら後方互換性やWindows固有の事情によりまだ ANSI Code Page (日本語なら cp932) がデフォルトで使われる場面があります。 ざっと Python と外の世界との入出力をあげてみます。 テキストファイルを読み書きする時のデフォルトのエンコーディング = ACP 標準入出力のエンコーディング 標準入出力がコンソールのとき = UTF-16 で WriteConsoleW 等を呼ぶ 標準入出力がコンソールでない時 = ACP 子プロセスとのPIPE = ACP 最近 chcp 65001 を使って UTF-8 を使う方法が広まっているように思います。これ

                                                                                    Windows 上の Python で UTF-8 をデフォルトにする - Qiita

                                                                                  新着記事