並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 107件

新着順 人気順

UTF8の検索結果41 - 80 件 / 107件

  • MySQL 8.0のCharset utf8mb4での日本語環境で使うCollationで文字比較をしてみる - CLOVER🍀

    これは、なにをしたくて書いたもの? MySQL 8.0のCharset utf8mb4で使えるCollationについて、ちょっと見ておこうかなと思いまして。 具体的には、「MySQL徹底入門 第4版」の「11.2 Collation」に書かれている文字比較およびソートについて自分で 確認してみたいと思います。 MySQL徹底入門 第4版 MySQL 8.0対応 作者:yoku0825,坂井 恵,鶴長 鎮一,とみたまさひろ,深町 日出海,福山 裕大,班石 悦夫,山﨑 由章発売日: 2020/07/06メディア: 単行本(ソフトカバー) utf8mb4でのCharsetとCollation MySQLのCharsetとCollationに関するドキュメントは、こちらです。 MySQL :: MySQL 8.0 リファレンスマニュアル :: 10 文字セット、照合順序、Unicode MySQ

      MySQL 8.0のCharset utf8mb4での日本語環境で使うCollationで文字比較をしてみる - CLOVER🍀
    • Windows 上の Python で UTF-8 をデフォルトにする - Qiita

      TL;DR: UTF-8をデフォルトで使いたい人は環境変数に PYTHONUTF8=1 を設定しよう Python は文字列が unicode なので、あちこちで「適切」なエンコーディングを選択する必要があります。残念ながら後方互換性やWindows固有の事情によりまだ ANSI Code Page (日本語なら cp932) がデフォルトで使われる場面があります。 ざっと Python と外の世界との入出力をあげてみます。 テキストファイルを読み書きする時のデフォルトのエンコーディング = ACP 標準入出力のエンコーディング 標準入出力がコンソールのとき = UTF-16 で WriteConsoleW 等を呼ぶ 標準入出力がコンソールでない時 = ACP 子プロセスとのPIPE = ACP 最近 chcp 65001 を使って UTF-8 を使う方法が広まっているように思います。これ

        Windows 上の Python で UTF-8 をデフォルトにする - Qiita
      • JavaScriptでBase64エンコード・デコード(UTF-8も) - Qiita

        様々なところで使われているエンコード方式です。バイナリデータから64進数にエンコードします。URLエンコードよりもデータ効率がいいらしい。 エンコード前 URLエンコード Base64エンコード

          JavaScriptでBase64エンコード・デコード(UTF-8も) - Qiita
        • Windows 10ミニTips(444) 「ワールドワイド言語サポートでUnicode UTF-8を使用」は有効にすべき?

          「Windows 10ミニTips」は各回の作成時点で最新のWindows 10環境を使用しています。 UTF-8化は世界的な流れだがトラブルを招く可能性アリ Windows 10の日本語ロケール(日本語文字コード)は慣例的にShift_JISとなっていたが、時代の流れと共にUTF-8化が進んできた。例えばメモ帳で作成したテキストファイルのファイル形式は、すでにANSI(Shift_JIS)からBOMなしUTF-8に変更されている。 バージョン1903では、メモ帳で使用する既定の文字コードがUTF-8になった このUTF-8を、Windows全体に適用するオプション(日本語ロケール)はバージョン1803で加わった。下図に示した手順で日本語ロケールをShift_JISからUTF-8に変更できるが、気になるのはバージョン1803でも“ベータ”だった本機能が、現時点での最新となるバージョン190

            Windows 10ミニTips(444) 「ワールドワイド言語サポートでUnicode UTF-8を使用」は有効にすべき?
          • すべての言語版のThunderbird、送信メールをUTF-8に変更へ | スラド IT

            Mozilla Thunderbirdはすべての言語版で、送信メールの文字コードをUTF-8へ変更するようだ(Bugzill Googleグループ)。リリースバージョンへの反映は予定通り進んだ場合、現行バージョンであるThunderbird 78.xの次のThunderbird 88.0 (90.0?)に反映される見込み(Mozilla wiki)。 日本語環境としては、SubjectやFromなどのヘッダーがThunderbird 38.0.1からUTF-8に固定変更され、Thunderbird 52.0で既定の文字エンコーディングがISO-2022-JPからUnicode (UTF-8)へ変更されているため、大きな問題は起こらないと予想される。 受信側としてのThunderbirdでは、不正なISO-2022-JPメールを受信し、Mozilla製品共通のセキュリティ仕様により不要なU+

            • MySQL 8.0の照合順序で標準になった「utf8mb4_0900_ai_ci」とは - Qiita

              MySQLで、テーブルやカラムを作る時に「照合順序(COLLATION)」を設定することができます。これが、MySQL8.0からは標準で「utf8mb4_0900_ai_ci」という設定になりました。 これは、次のような意味とのことです。

                MySQL 8.0の照合順序で標準になった「utf8mb4_0900_ai_ci」とは - Qiita
              • シフトJISのテキストファイルをUTF-8に変換するバッチ - シーゴの Excel 研究室

                今回の記事では、テキストファイルのエンコーディングを、シフト JIS から BOM あり/なしの UTF-8 に変換するバッチプログラムを紹介します。 内容が Excel から少し離れますが、次の記事で CSV ファイルの文字化け問題を取り上げる予定で、それに関連して Windows でのテキストエンコーディングの話題を本記事として切り離し、先行公開するものです。 【お知らせ】 本バッチプログラムの改良版を別記事で公開しました。機能的や使い方は一緒ですが、ファイル名に使用できない文字がある問題を解消しています。(詳細は下記【制限事項】を参照してください) www.shegolab.jp 【更新 2018/05/12】 バッチプログラムを一部修正しました。Windows 10 の UTF-8 サポートへの対応です。(追記参照) Windows のテキストエンコーディング事情 そもそもなぜ W

                  シフトJISのテキストファイルをUTF-8に変換するバッチ - シーゴの Excel 研究室
                • 【改良版】シフトJISをUTF-8に変換するバッチ - シーゴの Excel 研究室

                  以前の記事で公開した「シフトJIS⇒UTF-8変換」バッチを改良しましたので再度公開します。 バッチを書き直しました 【本記事のバッチは非推奨です】 本記事のあとにさらに改善された UTF-8 変換バッチを公開しました。 本記事の一部バッチにあった不具合を解消したうえ、信頼性、使い勝手もよくなっていますので、今後はこちらのご利用をよろしくお願いいたします。 www.shegolab.jp 以前、当ブログの記事で「シフトJIS⇒UTF-8変換」バッチを紹介しました。 シフトJISのテキストファイルをUTF-8に変換するバッチ - シーゴの Excel 研究室 実はこのバッチ、入力ファイル名に半角カッコ「()」など特定の記号が含まれていると、そのファイルを処理できない問題があることが最近判明しました。これは Winodow バッチの限界に起因する問題で手の打ちようがなく、困っていました。 そん

                    【改良版】シフトJISをUTF-8に変換するバッチ - シーゴの Excel 研究室
                  • 黒いひし形にはてなマークが出る文字(�)はUTF-8変換時のときに変換後の対象がない置き換え文字 - コード日進月歩

                    � という文字があるがクエスチョンマークだし、ググりにくいしはで、実際コレはなんなんだというメモ � とは ブラウザによっては見えない可能性があるので以下の画像のような文字 ※Specials (Unicode block) - Wikipedia) より引用 これは代替文字(REPLACEMENT CHARACTER)と呼ばれるもの。 REPLACEMENT CHARACTER UTF-8だと U+FFFD とされる文字であり、他の文字コードからUTF-8に置き換えたときに該当する文字がないときなどに使用される、らしい。 これらの変換はエディタや環境でよしなにやる部分なので、該当する文字があっても、表示時にない場合はコレに置き換えてしまうことがある様子。 関連リンク Specials (Unicode block) - Wikipedia) .NET での文字エンコード | Micros

                      黒いひし形にはてなマークが出る文字(�)はUTF-8変換時のときに変換後の対象がない置き換え文字 - コード日進月歩
                    • WSL2の.wslconfigを作成するときはUTF-8 BOMなしで - Qiita

                      ずっと詰まっていたこと .wslconfigが適用されない。配置場所もファイル名も記述内容もバージョンも正しいはずなのに。 .wslconfigとは WSL2を使用するときにメモリの使用量やらなんやら色々設定するファイル。 何が設定できるのかはMSのドキュメントを見に行ってください。 必要な環境 windows10 Home バージョン2004 (OSビルド19041) 以降 何らかのLinuxディストリビューション 私の環境 windows10 Home バージョン21H2 (OSビルド19044.1387) MSストアのUbuntu(Ubuntu 20.04 LTS) .wslconfigの作成方法 %UserProfile% に .wslconfig というファイルを作成する。 私はメモリの枯渇を止めたかったので次のように記述。 以下を参考に。 しかし、うまく適用されなかった。 結論

                        WSL2の.wslconfigを作成するときはUTF-8 BOMなしで - Qiita
                      • MySQL の utf8mb4 の文字照合順序まとめ

                        MySQL で文字コードを utf8mb4 を使うことになったので、照合順序を決めるための自分用メモです 巷にたくさん記事はあるけど、現時点(2021/03)でまとめておきたかった 条件 MySQL バージョン: 8.0.22 OS: MacOS クライアント: MySQL Workbench 確認手法 次のクエリを実行する。照合順序だけ変更して確認 SELECT 'はは' <> 'ハハ' COLLATE utf8mb4_bin, 'びょういん' <> 'びよういん' COLLATE utf8mb4_bin, 'はは' <> 'ぱぱ' COLLATE utf8mb4_bin, 'ハハ' <> 'ハハ' COLLATE utf8mb4_bin, 'A' <> 'a' COLLATE utf8mb4_bin, '🍣' <> '🍺' COLLATE utf8mb4_bin ;

                          MySQL の utf8mb4 の文字照合順序まとめ
                        • UnicodeとUTF-8の違い。UTF-8・UTF-16・UTF-32とは

                          インターネットが世界中で普及している現代では、世界中のコンピュータが相互にデータを授受できるように、文字コードの統一が必須です。 そこで,考案されたのがUnicode(ユニコード)と呼ばれるコード体系です。 UnicodeはISO(国際標準化機構)規格となり、国際的に認められています。 文字コードに関する記事はこちら

                            UnicodeとUTF-8の違い。UTF-8・UTF-16・UTF-32とは
                          • 『メモ帳』標準のBOMなしUTF-8に、Windows Searchは対応していない | スラド デベロッパー

                            ASCII.jpの記事によると、最近ではUTF-8形式のテキストファイルも増えているがその反面、WindowsでUTF-8を使うとWindows Searchの利用に不便が生じることがあるそうだ。 正確にはファイル先頭にバイトオーダーマーク(BOM)のあるUTF-8は正しく認識できるものの、BOMのないUTF-8の場合、日本語などの非ASCII文字で全文検索ができないとしている。BOMはUTF-8形式において必須項目とされていないため、BOMのないUTF-8のデータも数多く出回っている。Windowsに付属するメモ帳でも「19H1」(May 2019 Update)からは標準設定ではBOMのない仕様に変更されている。

                            • 【CSVの数字0落ち回避】エクセルUTF-8文字化け対応(VBAコピペマクロあり) - Ryst work-リーストワーク-

                              【CSVの数字0落ち回避】エクセルUTF-8文字化け対応(VBAコピペマクロあり) CSVがわかると作業の幅が広がります。 システム職でない人でもパソコンでデータを扱う機会が増えてきた昨今、「CSVファイル」の扱いに困ることがあるかと思います。 ファイルをダブルクリックで開くと、エクセルの画面で開くことが多いですが、文字化けしていたり、数字の「0」がなくなってしまうこともしばしば。 周りの人が困らずに作業していると、自分だけ質問もできない気がしてしまいます。 そこで今回はCSVファイルの扱い方をご紹介します。 【この記事を読むメリット 】 CSVファイルの扱いに悩まなくなる それでは今回のコンテンツです。 【CSVの数字0落ち回避】エクセルUTF-8文字化け対応(VBAコピペマクロあり) CSVとは何か エクセルの機能を使う 1.手作業でCSVを開く 2.VBAマクロを書く 基礎IT知識は

                                【CSVの数字0落ち回避】エクセルUTF-8文字化け対応(VBAコピペマクロあり) - Ryst work-リーストワーク-
                              • 思った通りに sort されない (LC_COLLATE=en_US.UTF-8 の罠) | ず@沖縄

                                ls -l | sort したら、思った通りの順番に並ばないという相談を受けた。その方のLinux環境では、このように並ぶらしい。 一見して変だ。各行の先頭の文字は通常は - d t の順序(ASCIIコード順)に並ぶのだが、 これは d – t の順にならんでいる。 d t – でもないのが怪しさを増している。 $ ls -l /var/log | sort drwx------ 2 root root 4096 Jul 12 2021 private drwxr-sr-x+ 2 root systemd-journal 4096 Jun 4 2021 journal drwxr-x--- 2 root adm 4096 Jul 22 2020 unattended-upgrades drwxr-xr-x 2 landscape landscape 4096 Jul 12 2021 la

                                  思った通りに sort されない (LC_COLLATE=en_US.UTF-8 の罠) | ず@沖縄
                                • CSVファイルをエクセルに変換する方法(UTF-8と文字化けも)

                                  カンマ区切りで保存されるCSVファイルを、エクセルファイルに変換したい場合どのようにしたら良いのでしょうか? ここではCSVファイルをエクセルファイルに変換して保存する方法と、CSVファイルで開いたときの文字化け対処法をご説明します。 また、反対にエクセルファイルをCSVに変換する方法は以下の記事をご確認ください。 エクセルをCSVに変換/出力する方法(UTF-8のCSVも)

                                    CSVファイルをエクセルに変換する方法(UTF-8と文字化けも)
                                  • UTF-8エンコーディングされた文字の型として`char8_t`を追加 - cpprefjp C++日本語リファレンス

                                    #include <iostream> template<typename> struct ct; template<> struct ct<char> { using type = char; }; int main() { const auto *u8s = u8"text"; // u8sの型はC++17まではconst char *だったが、C++20からはconst char8_t *になる const char *ps = u8s; // C++17までは適格だったがC++20からは不適格 const auto *u8rs = u8R"(text)"; // u8rsの型はC++17まではconst char *だったが、C++20からはconst char8_t *になる const char *prs = u8rs; // C++17までは適格だったがC++20からは不適格

                                    • Haruhiko Okumura on Twitter: "これはおもしろい。UTF-8とChatGPTのトークン: 視覴 e8 a6 96 e8 a6 b4 |25038|244|25038|112| 視覚 e8 a6 96 e8 a6 9a |25038|244|25038|248| 視聴 e8 a6 96 e8 81 b4 |25038|244|36735|112| 「覚」の前半と「聴」の後半がくっついたみたい"

                                      • U+301C from UTF-8 to Windows-31J (Encoding::UndefinedConversionError) に対応する - ESM アジャイル事業部 開発者ブログ

                                        こんにちは。ima1zumi です。 私の開発している Rails アプリでは、Excel で読み込めるように 文字コードを Windows-31J に変換して CSV を出力する機能があります。 先日、CSV 出力にて Unicode の波ダッシュ 〜 を Windows-31J に変換しようとして Encoding::UndefinedConversionError が発生して CSV 出力に失敗したことがありました。なぜエラーになるのか、どうやって対応するのかをまとめました。 まとめ encode メソッドの fallback オプションを使って未定義文字の変換先を定義することで変換できます。 str = "\u{2014 301C 2016 2212 00A2 00A3 00AC}" undefined_signs = { "\u2014" => "\x81\x5C".force_

                                          U+301C from UTF-8 to Windows-31J (Encoding::UndefinedConversionError) に対応する - ESM アジャイル事業部 開発者ブログ
                                        • utf8とutf8mb4の違い【MySQL】

                                          (なぜ2種類あるのかはMySQLの歴史によるものらしいのですが、私はいまいち分かっていないので詳しく知りたい方はググってみてください・・。) 保存できる文字の違い これはつまり、UnicodeのコードポイントがU+FFFFを超える文字は、utf8では保存できないってことです。 例えば 崎(U+5D0E)←保存できる 﨑(U+FA11)←保存できる 😀(U+1F600)←保存できない 𩸽(U+29E3D)←保存できない ※ちなみにこの漢字はホッケと読みます みたいな感じ。 絵文字などを保存したい場合はutf8mb4を使わないといけません。 MySQLのutf8はUTF-8ではないのでは・・? UTF-8は「世界中の文字を1つの文字コードで表そうぜ!」な文字集合であるUnicodeを表すための文字符号化方式の1つなわけですが 本来UTF-8は、1~4バイトで文字を表すルールです。 なので、

                                          • 高速UTF-8バリデーションの世界 - Qiita

                                            参照: http://www.unicode.org/versions/Unicode6.0.0/ch03.pdf の "Table 3-7. Well-Formed UTF-8 Byte Sequences" アルゴリズムを理解する上で重要なUTF-8の特徴について述べます。 1コードポイントは1-4バイトのシーケンスで表現される 上位ニブル(1バイト8ビットのうち、上位4ビット)を確認することでシーケンスの情報が得られる そのバイトがシーケンス先頭バイトかどうかわかる もしそれがシーケンス先頭バイトだったなら、何バイトのシーケンスかわかる 先頭でないバイトは基本的に0x80..0xBFの範囲が許容されているが、何箇所か例外があるのでそれもバリデーションしなければならない 例外の箇所は表では太字で示した 例えば、表を見て分かるように、先頭バイトが0xE0のとき2バイト目は0xA0..0x

                                              高速UTF-8バリデーションの世界 - Qiita
                                            • PowerShell起動時、文字コードをUTF-8に変える方法 - Qiita

                                              Goal ショートカット設定でPowerShell起動時に文字コードをUTF-8に変える。 経緯 プログラムをコンソールから実行した時、 日本語が含まれていると文字化けが 発生します。 特にWindowsでは、UIの文字コードを UTF-8にするためには、システム全体の 表示言語を英語にする必要があり、 UIは日本語、文字コードはShift-JIS (CP932、Windows-31J)を妥協して 使っている方が多いと思います。 プログラムをコンパイルして実行する前に、 chcp 65001を打ち込んで文字コードを 変える儀式を繰り返すことは無駄だと 気付いた時、即座にリンク先の中に 下記の内容を記述しましょう。 手順 PowerShellショートカットのプロパティを開く。 リンク先を編集する。 プロパティのOKボタンをクリックする。 詳細説明 PowerShellのショートカットの場所を

                                                PowerShell起動時、文字コードをUTF-8に変える方法 - Qiita
                                              • GitHub - serokell/haskell-with-utf8: Get your IO right on the first try

                                                You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.

                                                  GitHub - serokell/haskell-with-utf8: Get your IO right on the first try
                                                • You can't just assume UTF-8

                                                  Humans speak countless different languages. Not only are these languages incompatible, but runtime transpilation is a real pain. Sadly, every standardisation initiative has failed. At least there is someone to blame for this state-of-affairs: God. It was him, after-all, who cursed humanity to speak different languages, in an early dispute over a controversial property development. However, mankind

                                                    You can't just assume UTF-8
                                                  • UTF-8対応、R言語で組織内行動データ可視化する「Microsoft Workplace Analytics」

                                                    UTF-8対応、R言語で組織内行動データ可視化する「Microsoft Workplace Analytics」 Microsoftは米国時間2021年3月16日、組織内の行動データを可視化する「Microsoft Workplace Analytics(以下、Workplace Analytics)」に加えた更新を公式ブログを通じて報告した。メトリック(測定値)名でUTF-8エンコードが使用可能になり、R言語のwpaパッケージを用いたWorkplace Analyticsのデータ分析および可視化を実現する。 UTF-8対応に伴い、日本語のメトリックス名も使用できる(画像はすべて公式ブログより抜粋) 従来のWorkplace Analyticsはメトリックス名をラテン語に限定していたが、今回の更新に伴いクエリおよびOData(Open Data Protocol)出力時の文字コードとしてU

                                                      UTF-8対応、R言語で組織内行動データ可視化する「Microsoft Workplace Analytics」
                                                    • Ridiculously fast unicode (UTF-8) validation – Daniel Lemire's blog

                                                      One of the most common “data type” in programming is the text string. When programmers think of a string, they imagine that they are dealing with a list or an array of characters. It is often a “good enough” approximation, but reality is more complex. The characters must be encoded into bits in some way. Most strings on the Internet, including this blog post, are encoded using a standard called UT

                                                        Ridiculously fast unicode (UTF-8) validation – Daniel Lemire's blog
                                                      • Hideyuki Tanaka on Twitter: "文字コードがUTF8になっただけでは一切対応が進まなかったアメリカ人の書くコードの多倍長文字対応が、絵文字が入った途端に全てのソフトが完璧に多倍長文字に対応されるようになったんで、なんだかんだでアメリカ人に多倍長文字を使う強力なモ… https://t.co/JTxQUjo8vY"

                                                        文字コードがUTF8になっただけでは一切対応が進まなかったアメリカ人の書くコードの多倍長文字対応が、絵文字が入った途端に全てのソフトが完璧に多倍長文字に対応されるようになったんで、なんだかんだでアメリカ人に多倍長文字を使う強力なモ… https://t.co/JTxQUjo8vY

                                                          Hideyuki Tanaka on Twitter: "文字コードがUTF8になっただけでは一切対応が進まなかったアメリカ人の書くコードの多倍長文字対応が、絵文字が入った途端に全てのソフトが完璧に多倍長文字に対応されるようになったんで、なんだかんだでアメリカ人に多倍長文字を使う強力なモ… https://t.co/JTxQUjo8vY"
                                                        • VisualStudioのデフォルトエンコードをUTF-8にする方法 - Qiita

                                                          EditorConfig EditorConfig使えばほぼほぼ解決します。VSやVSCode, Riderや秀丸などたいがいのIDEは対応してます https://learn.microsoft.com/ja-jp/visualstudio/ide/create-portable-custom-editor-options?view=vs-2022 ずいぶん古くなってしまったので前のやつは畳んでおきます http://bloghandling.blogspot.jp/2016/05/visualstudioutf-8.html?m=1 確認したらずいぶん昔に書いたblogの内容のレイアウトがバラバラになってしまったのでQiitaに上げ直します。 introduction Visual studio's default encoding is SHIFT-JIS. But sometime

                                                            VisualStudioのデフォルトエンコードをUTF-8にする方法 - Qiita
                                                          • API Gateway(REST API)とLambda(Python)でBOM付きUTF8なCSVをレスポンスする方法

                                                            API Gateway(REST API)とLambda(Python)の構成で、LambdaでBOM付きUTF8のCSVを作成して、API Gateway経由でCSVをレスポンスする方法を記載します。 BOM付きUTF8とすることで外字が文字化けしないCSVをAPI Gateway経由でダウンロードできます。 やること AWSの構成はAPI GatewayとLambda 使用する言語はPython 外字が文字化けしないCSVをダンロードできるようにする →BOM付きUTF8とすることで文字化け対策ができます。 Lambdaの作成 以下のソースコードでLambdaを作成します。 def lambda_handler(event, context): body_str = """column1,column2 "㐂","昱" """ return { 'statusCode': 200, '

                                                              API Gateway(REST API)とLambda(Python)でBOM付きUTF8なCSVをレスポンスする方法
                                                            • VS Codeターミナル文字化け対策(shift-jis→utf-8)

                                                              20210429追記) Rの場合はコチラ→http://www.mathkuro.com/?p=2967 前に書いたVisual Studio Code (VS Code)でPython開発環境を作るという記事で書いていたのですが、記事がちょっと長くて文字化け対策の部分が埋もれてしまっていたのでここに切り出しておきます。 文字化け対策 VSCodeのターミナル(PowerShell)がデフォルトでshift-jis(932)で動くのでそれをutf-8(65001)で動くようにし設定します。 settings.jsonに以下を追加してするだけでOKです。 { "terminal.integrated.shellArgs.windows": [ "-NoExit", "chcp", "65001" ], }

                                                                VS Codeターミナル文字化け対策(shift-jis→utf-8)
                                                              • Haruhiko Okumura on Twitter: "これはおもしろい。UTF-8とChatGPTのトークン: 視覴 e8 a6 96 e8 a6 b4 |25038|244|25038|112| 視覚 e8 a6 96 e8 a6 9a |25038|244|25038|248| 視聴 e8 a6 96 e8 81 b4 |25038|244|36735|112| 「覚」の前半と「聴」の後半がくっついたみたい"

                                                                • 「Java 18」正式リリース デフォルトのCharsetが「UTF-8」に、シンプルWebサーバ搭載など新機能

                                                                  この記事は新野淳一氏のブログ「Publickey」に掲載された「Java 18正式リリース。デフォルトのCharsetが「UTF-8」に、シンプルWebサーバ搭載など新機能」(2022年3月23日掲載)を、ITmedia NEWS編集部で一部編集し、転載したものです。 Javaは6カ月ごとに「フィーチャーリリース」と呼ばれるバージョンアップが行われ、そのなかの1つのバージョンが3年ごとに長期サポート(LTS:Long Term Support)版に指定されます。 現在のLTS版は2021年9月にリリースされたJava 17です。Java 18は、この次のバージョンとして登場しました。 業務アプリケーションの開発など、一定期間は安定したバージョンを使いたい場合にはLTS版のJava 17を、最新の機能をいちはやく利用したい場合には今回のJava 18を利用するのが適切でしょう。 参考:3年ぶ

                                                                    「Java 18」正式リリース デフォルトのCharsetが「UTF-8」に、シンプルWebサーバ搭載など新機能
                                                                  • How does UTF-8 turn “😂” into “F09F9882”?

                                                                    More often than not the mechanism being used to turn bytes into characters and emojis on your computer is "UTF-8". I recently learned how UTF-8 works and felt that the definition lended itself perfectly to creating diagrams explaining the implementation. I created these diagrams for my own enjoyment and wanted to share them. Hopefully this will inspire you to learn how other low-level protocols wo

                                                                      How does UTF-8 turn “😂” into “F09F9882”?
                                                                    • So Long Surrogates: How we moved to UTF-8 in Haskell

                                                                      We released a blazingly fast Aho-Corasick implementation, written in Haskell, in 2019. This implementation was based on UTF-16 strings, since Haskell's text library uses that for its internal string representation. However, the most recent major update of text changed its internal string representation from UTF-16 to UTF-8. This is good news for us, since most of our customer’s data is ASCII, this

                                                                      • Mysql Workbenchでutf8mb4のテーブルを扱う際は要注意!!|株式会社クインテット

                                                                        制作開発部の野原です。 PandoではデータベースにMySQLの5.7系を利用しており、 絵文字や難しい漢字なども扱えるように、テーブルの文字コードはutf8mb4を設定しています。 みんな大好きなお寿司の絵文字 🍣 が表示できるのもこのおかげです。 今回は、utf8mb4のテーブルをMySql Workbenchで扱う際の注意点をお話しします。 utf8mb4とはutf8mb4という文字コードはあまり聞きなじみがないと思いますが、 通常、MySQLで定義されているutf8は BMP (Basic Multilingual Plane)  の範囲しか利用することができません。簡単に説明すると、文字の中でも一般的に利用するものを指します。 MySQLのBMPは3バイトしか保持できない仕様となっているため、4バイトを利用する範囲にある文字は格納できません。 この4バイトの範囲内にある絵文字や

                                                                          Mysql Workbenchでutf8mb4のテーブルを扱う際は要注意!!|株式会社クインテット
                                                                        • マイナーなCSV形式にも対応、BOMなしUTF-8が既定になった「EmEditor」v20.1.0/ファイル位置を指定してジャンプする機能などを追加し、細かな使い勝手も改善

                                                                            マイナーなCSV形式にも対応、BOMなしUTF-8が既定になった「EmEditor」v20.1.0/ファイル位置を指定してジャンプする機能などを追加し、細かな使い勝手も改善
                                                                          • UnicodeとUTF-8と、GoのByte型とrune型についてのまとめ - たのしい駆動開発

                                                                            UTF-8,Unicode, Goのbyte, rune関係がよく分からなかったのでいろいろ調べて、自分なりに解釈ができたので、まとめてみようと思います。 まずは定義から行きましょう。 UTF-8: Unicodeで使える8ビット符号単位の文字符号化形式 Unicode: 文字集合(文字セット)が単一の大規模文字セット ようするに、UTF-8は、Unicodeを符号化(エンコード)するやつで、Unicodeはいろんな文字の集合です。 aとか"あ"とか"亜"とか、ほんといろいろな文字の集合。 そして、Unicodeの文字には、識別しやすいように数字が割り振られていて、その数字をコードポイント(Go言語でrune型に割り当てられる)といいます。実際にコードで違いを見てみましょう。 func main() { s := "あいうえお" b := []byte(s) for _, bi := ra

                                                                            • Go言語(golang)でShiftJISのファイルをutf-8に変換する | DevelopersIO

                                                                              データアナリティクス事業本部の森脇です。 Go言語で文字コードを変換するための方法について調べました。 使用するGo言語のバージョンは1.13.6です。 パッケージのインストール 文字コード変換を行うために、準標準パッケージであるgolang.org/x/textを使用します。 $ go mod init example.com/moriwaki/iconv go: creating new go.mod: module example.com/moriwaki/iconv $ go get -u golang.org/x/text go: finding golang.org/x/text v0.3.2 go: downloading golang.org/x/text v0.3.2 go: extracting golang.org/x/text v0.3.2 $ cat go.mod

                                                                                Go言語(golang)でShiftJISのファイルをutf-8に変換する | DevelopersIO
                                                                              • PHPにてテキストファイルの文字コードをutf-8に統一する方法| eラーニングシステムのlearningBOX

                                                                                QuizGeneratorの生みの親、作り出しッペの西村です。実は、learningBOXの初期開発には参加しておらず、バージョン2.0のリリース頃から本格参戦しました。この度、文字コードの取り扱いに関するPull Requestを受けまして、文字コードについてもう少し語っておかないといけないなと思い、記事にまとめました。 今回の記事では「PHPにてテキストファイルの文字コードをutf-8に統一する方法」をご紹介いたします。本稿もどうぞよろしくお願いします。 目次はこちら 1. Shift-JISは避けられない 2. 文字化けの回避方法について 3. どうやって文字コードを判定するのか? 4. まとめ Shift-JISは避けられない learningBOXやQuizGeneratorのようなシステムでは、CSVなどのテキストファイルを受け取ることがあります。現代のWebシステムにおいて、

                                                                                  PHPにてテキストファイルの文字コードをutf-8に統一する方法| eラーニングシステムのlearningBOX
                                                                                • jq コマンドで UTF-8 の文字列をデコードやエンコード(codepoint を元に戻す) - それマグで!

                                                                                  コードポイントなった、日本語を単純に元のUTF-8に戻したり、コードポイントでエスケープして符号にする。 コードポイントになった文字列*1 単純に jq に通せば、日本語になる。 何も考えずに、 jq 通せばコードポイントを読める文字にすることができる・ root@acid:~# cat out | \jq - '.dir' ~/ダウンロード 逆に、コードポイントのママほしい -a オプションをつけて、ASCIIにエンコードするとちゃんと出てきます。やったね。 root@acid:~# cat out | \jq -a '.dir' "~/\u30c0\u30a6\u30f3\u30ed\u30fc\u30c9" *1:正確にはエンコード・デコードという用語が正しくないかもしれない

                                                                                    jq コマンドで UTF-8 の文字列をデコードやエンコード(codepoint を元に戻す) - それマグで!