タイトル「UTF8」を検索 - はてなブックマーク

41 - 80 件 / 107件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

UTF8の検索結果41 - 80 件 / 107件

MySQL 8.0のCharset utf8mb4での日本語環境で使うCollationで文字比較をしてみる - CLOVER🍀
- 8 users
- kazuhira-r.hatenablog.com
- テクノロジー
- 2021/09/22
これは、なにをしたくて書いたもの？ MySQL 8.0のCharset utf8mb4で使えるCollationについて、ちょっと見ておこうかなと思いまして。具体的には、「MySQL徹底入門第4版」の「11.2 Collation」に書かれている文字比較およびソートについて自分で確認してみたいと思います。 MySQL徹底入門第4版 MySQL 8.0対応作者:yoku0825,坂井恵,鶴長鎮一,とみたまさひろ,深町日出海,福山裕大,班石悦夫,山﨑由章発売日: 2020/07/06メディア: 単行本（ソフトカバー） utf8mb4でのCharsetとCollation MySQLのCharsetとCollationに関するドキュメントは、こちらです。 MySQL :: MySQL 8.0 リファレンスマニュアル :: 10 文字セット、照合順序、Unicode MySQ
- mysql
Windows 上の Python で UTF-8 をデフォルトにする - Qiita
- 8 users
- qiita.com/methane
- テクノロジー
- 2019/06/13
TL;DR: UTF-8をデフォルトで使いたい人は環境変数に PYTHONUTF8=1 を設定しよう Python は文字列が unicode なので、あちこちで「適切」なエンコーディングを選択する必要があります。残念ながら後方互換性やWindows固有の事情によりまだ ANSI Code Page (日本語なら cp932) がデフォルトで使われる場面があります。ざっと Python と外の世界との入出力をあげてみます。テキストファイルを読み書きする時のデフォルトのエンコーディング = ACP 標準入出力のエンコーディング標準入出力がコンソールのとき = UTF-16 で WriteConsoleW 等を呼ぶ標準入出力がコンソールでない時 = ACP 子プロセスとのPIPE = ACP 最近 chcp 65001 を使って UTF-8 を使う方法が広まっているように思います。これ
- UTF-8
- python
- WINDOWS
JavaScriptでBase64エンコード・デコード（UTF-8も） - Qiita
- 7 users
- qiita.com/i15fujimura1s
- テクノロジー
- 2021/06/26
様々なところで使われているエンコード方式です。バイナリデータから64進数にエンコードします。URLエンコードよりもデータ効率がいいらしい。エンコード前 URLエンコード Base64エンコード
- javascript
Windows 10ミニTips(444) 「ワールドワイド言語サポートでUnicode UTF-8を使用」は有効にすべき？
- 7 users
- news.mynavi.jp
- テクノロジー
- 2019/11/29
「Windows 10ミニTips」は各回の作成時点で最新のWindows 10環境を使用しています。 UTF-8化は世界的な流れだがトラブルを招く可能性アリ Windows 10の日本語ロケール（日本語文字コード）は慣例的にShift_JISとなっていたが、時代の流れと共にUTF-8化が進んできた。例えばメモ帳で作成したテキストファイルのファイル形式は、すでにANSI（Shift_JIS）からBOMなしUTF-8に変更されている。バージョン1903では、メモ帳で使用する既定の文字コードがUTF-8になったこのUTF-8を、Windows全体に適用するオプション（日本語ロケール）はバージョン1803で加わった。下図に示した手順で日本語ロケールをShift_JISからUTF-8に変更できるが、気になるのはバージョン1803でも“ベータ”だった本機能が、現時点での最新となるバージョン190
- unicode
- 文字コード
- Windows 10
- Windows
- tips
すべての言語版のThunderbird、送信メールをUTF-8に変更へ | スラド IT
- 7 users
- it.srad.jp
- テクノロジー
- 2020/08/14
Mozilla Thunderbirdはすべての言語版で、送信メールの文字コードをUTF-8へ変更するようだ（Bugzill Googleグループ）。リリースバージョンへの反映は予定通り進んだ場合、現行バージョンであるThunderbird 78.xの次のThunderbird 88.0 (90.0?)に反映される見込み（Mozilla wiki）。日本語環境としては、SubjectやFromなどのヘッダーがThunderbird 38.0.1からUTF-8に固定変更され、Thunderbird 52.0で既定の文字エンコーディングがISO-2022-JPからUnicode (UTF-8)へ変更されているため、大きな問題は起こらないと予想される。受信側としてのThunderbirdでは、不正なISO-2022-JPメールを受信し、Mozilla製品共通のセキュリティ仕様により不要なU+
- mail
- あとで読む
MySQL 8.0の照合順序で標準になった「utf8mb4_0900_ai_ci」とは - Qiita
- 6 users
- qiita.com/seltzer
- テクノロジー
- 2020/08/22
MySQLで、テーブルやカラムを作る時に「照合順序（COLLATION）」を設定することができます。これが、MySQL8.0からは標準で「utf8mb4_0900_ai_ci」という設定になりました。これは、次のような意味とのことです。
シフトJISのテキストファイルをUTF-8に変換するバッチ - シーゴの Excel 研究室
- 6 users
- www.shegolab.jp
- テクノロジー
- 2020/02/27
今回の記事では、テキストファイルのエンコーディングを、シフト JIS から BOM あり/なしの UTF-8 に変換するバッチプログラムを紹介します。内容が Excel から少し離れますが、次の記事で CSV ファイルの文字化け問題を取り上げる予定で、それに関連して Windows でのテキストエンコーディングの話題を本記事として切り離し、先行公開するものです。【お知らせ】本バッチプログラムの改良版を別記事で公開しました。機能的や使い方は一緒ですが、ファイル名に使用できない文字がある問題を解消しています。（詳細は下記【制限事項】を参照してください） www.shegolab.jp 【更新 2018/05/12】バッチプログラムを一部修正しました。Windows 10 の UTF-8 サポートへの対応です。（追記参照） Windows のテキストエンコーディング事情そもそもなぜ W
- 変換
- excel
- windows
- pc
【改良版】シフトJISをUTF-8に変換するバッチ - シーゴの Excel 研究室
- 6 users
- www.shegolab.jp
- テクノロジー
- 2019/08/15
以前の記事で公開した「シフトJIS⇒UTF-8変換」バッチを改良しましたので再度公開します。バッチを書き直しました【本記事のバッチは非推奨です】本記事のあとにさらに改善された UTF-8 変換バッチを公開しました。本記事の一部バッチにあった不具合を解消したうえ、信頼性、使い勝手もよくなっていますので、今後はこちらのご利用をよろしくお願いいたします。 www.shegolab.jp 以前、当ブログの記事で「シフトJIS⇒UTF-8変換」バッチを紹介しました。シフトJISのテキストファイルをUTF-8に変換するバッチ - シーゴの Excel 研究室実はこのバッチ、入力ファイル名に半角カッコ「()」など特定の記号が含まれていると、そのファイルを処理できない問題があることが最近判明しました。これは Winodow バッチの限界に起因する問題で手の打ちようがなく、困っていました。そん
- UTF-8
- PowerShell
- excel
黒いひし形にはてなマークが出る文字（�）はUTF-8変換時のときに変換後の対象がない置き換え文字 - コード日進月歩
- 6 users
- shinkufencer.hateblo.jp
- 世の中
- 2020/04/28
� という文字があるがクエスチョンマークだし、ググりにくいしはで、実際コレはなんなんだというメモ � とはブラウザによっては見えない可能性があるので以下の画像のような文字 ※Specials (Unicode block) - Wikipedia) より引用これは代替文字（REPLACEMENT CHARACTER）と呼ばれるもの。 REPLACEMENT CHARACTER UTF-8だと U+FFFD とされる文字であり、他の文字コードからUTF-8に置き換えたときに該当する文字がないときなどに使用される、らしい。これらの変換はエディタや環境でよしなにやる部分なので、該当する文字があっても、表示時にない場合はコレに置き換えてしまうことがある様子。関連リンク Specials (Unicode block) - Wikipedia) .NET での文字エンコード | Micros
WSL2の.wslconfigを作成するときはUTF-8 BOMなしで - Qiita
- 6 users
- qiita.com/_urusakuma
- テクノロジー
- 2021/12/12
ずっと詰まっていたこと .wslconfigが適用されない。配置場所もファイル名も記述内容もバージョンも正しいはずなのに。 .wslconfigとは WSL2を使用するときにメモリの使用量やらなんやら色々設定するファイル。何が設定できるのかはMSのドキュメントを見に行ってください。必要な環境 windows10 Home バージョン2004 (OSビルド19041) 以降何らかのLinuxディストリビューション私の環境 windows10 Home バージョン21H2 (OSビルド19044.1387) MSストアのUbuntu(Ubuntu 20.04 LTS) .wslconfigの作成方法 %UserProfile% に .wslconfig というファイルを作成する。私はメモリの枯渇を止めたかったので次のように記述。以下を参考に。しかし、うまく適用されなかった。結論
- WSL
- Windows
- Linux
- tips
- あとで読む
MySQL の utf8mb4 の文字照合順序まとめ
- 5 users
- zenn.dev/zoeponta
- テクノロジー
- 2021/10/06
MySQL で文字コードを utf8mb4 を使うことになったので、照合順序を決めるための自分用メモです巷にたくさん記事はあるけど、現時点(2021/03)でまとめておきたかった条件 MySQL バージョン: 8.0.22 OS: MacOS クライアント: MySQL Workbench 確認手法次のクエリを実行する。照合順序だけ変更して確認 SELECT 'はは' <> 'ハハ' COLLATE utf8mb4_bin, 'びょういん' <> 'びよういん' COLLATE utf8mb4_bin, 'はは' <> 'ぱぱ' COLLATE utf8mb4_bin, 'ハハ' <> 'ﾊﾊ' COLLATE utf8mb4_bin, 'A' <> 'a' COLLATE utf8mb4_bin, '🍣' <> '🍺' COLLATE utf8mb4_bin ;
- MySQL
- database
UnicodeとUTF-8の違い。UTF-8・UTF-16・UTF-32とは
- 5 users
- elite-lane.com
- 世の中
- 2019/10/14
インターネットが世界中で普及している現代では、世界中のコンピュータが相互にデータを授受できるように、文字コードの統一が必須です。そこで，考案されたのがUnicode（ユニコード）と呼ばれるコード体系です。 UnicodeはISO（国際標準化機構）規格となり、国際的に認められています。文字コードに関する記事はこちら
『メモ帳』標準のBOMなしUTF-8に、Windows Searchは対応していない | スラドデベロッパー
- 5 users
- developers.srad.jp
- テクノロジー
- 2021/06/15
ASCII.jpの記事によると、最近ではUTF-8形式のテキストファイルも増えているがその反面、WindowsでUTF-8を使うとWindows Searchの利用に不便が生じることがあるそうだ。正確にはファイル先頭にバイトオーダーマーク（BOM）のあるUTF-8は正しく認識できるものの、BOMのないUTF-8の場合、日本語などの非ASCII文字で全文検索ができないとしている。BOMはUTF-8形式において必須項目とされていないため、BOMのないUTF-8のデータも数多く出回っている。Windowsに付属するメモ帳でも「19H1」（May 2019 Update）からは標準設定ではBOMのない仕様に変更されている。
- Windows
【CSVの数字0落ち回避】エクセルUTF-8文字化け対応(VBAコピペマクロあり) - Ryst work-リーストワーク-
- 5 users
- www.biz-thinking-k.com
- 世の中
- 2019/07/30
【CSVの数字0落ち回避】エクセルUTF-8文字化け対応(VBAコピペマクロあり) CSVがわかると作業の幅が広がります。システム職でない人でもパソコンでデータを扱う機会が増えてきた昨今、「CSVファイル」の扱いに困ることがあるかと思います。ファイルをダブルクリックで開くと、エクセルの画面で開くことが多いですが、文字化けしていたり、数字の「0」がなくなってしまうこともしばしば。周りの人が困らずに作業していると、自分だけ質問もできない気がしてしまいます。そこで今回はCSVファイルの扱い方をご紹介します。【この記事を読むメリット】 CSVファイルの扱いに悩まなくなるそれでは今回のコンテンツです。【CSVの数字0落ち回避】エクセルUTF-8文字化け対応(VBAコピペマクロあり) CSVとは何かエクセルの機能を使う１．手作業でCSVを開く２．VBAマクロを書く基礎IT知識は
思った通りに sort されない（LC_COLLATE=en_US.UTF-8 の罠） | ず＠沖縄
- 5 users
- www.zukeran.org
- 学び
- 2022/05/24
ls -l | sort したら、思った通りの順番に並ばないという相談を受けた。その方のLinux環境では、このように並ぶらしい。一見して変だ。各行の先頭の文字は通常は　- d t の順序（ASCIIコード順）に並ぶのだが、これは d – t の順にならんでいる。 d t – でもないのが怪しさを増している。 $ ls -l /var/log | sort drwx------ 2 root root 4096 Jul 12 2021 private drwxr-sr-x+ 2 root systemd-journal 4096 Jun 4 2021 journal drwxr-x--- 2 root adm 4096 Jul 22 2020 unattended-upgrades drwxr-xr-x 2 landscape landscape 4096 Jul 12 2021 la
- あとで読む
CSVファイルをエクセルに変換する方法（UTF-8と文字化けも）
- 5 users
- office-hack.com
- 世の中
- 2020/07/07
カンマ区切りで保存されるCSVファイルを、エクセルファイルに変換したい場合どのようにしたら良いのでしょうか？ここではCSVファイルをエクセルファイルに変換して保存する方法と、CSVファイルで開いたときの文字化け対処法をご説明します。また、反対にエクセルファイルをCSVに変換する方法は以下の記事をご確認ください。エクセルをCSVに変換/出力する方法（UTF-8のCSVも）
UTF-8エンコーディングされた文字の型として`char8_t`を追加 - cpprefjp C++日本語リファレンス
- 5 users
- cpprefjp.github.io
- テクノロジー
- 2019/05/28
#include <iostream> template<typename> struct ct; template<> struct ct<char> { using type = char; }; int main() { const auto *u8s = u8"text"; // u8sの型はC++17まではconst char *だったが、C++20からはconst char8_t *になる const char *ps = u8s; // C++17までは適格だったがC++20からは不適格 const auto *u8rs = u8R"(text)"; // u8rsの型はC++17まではconst char *だったが、C++20からはconst char8_t *になる const char *prs = u8rs; // C++17までは適格だったがC++20からは不適格
- C++
Haruhiko Okumura on Twitter: "これはおもしろい。UTF-8とChatGPTのトークン: 視覴 e8 a6 96 e8 a6 b4 |25038|244|25038|112| 視覚 e8 a6 96 e8 a6 9a |25038|244|25038|248| 視聴 e8 a6 96 e8 81 b4 |25038|244|36735|112| 「覚」の前半と「聴」の後半がくっついたみたい"
- 5 users
- twitter.com
- テクノロジー
- 2023/06/08
- あとで読む
U+301C from UTF-8 to Windows-31J (Encoding::UndefinedConversionError) に対応する - ESM アジャイル事業部開発者ブログ
- 5 users
- blog.agile.esm.co.jp
- テクノロジー
- 2022/03/13
こんにちは。ima1zumi です。私の開発している Rails アプリでは、Excel で読み込めるように文字コードを Windows-31J に変換して CSV を出力する機能があります。先日、CSV 出力にて Unicode の波ダッシュ〜を Windows-31J に変換しようとして Encoding::UndefinedConversionError が発生して CSV 出力に失敗したことがありました。なぜエラーになるのか、どうやって対応するのかをまとめました。まとめ encode メソッドの fallback オプションを使って未定義文字の変換先を定義することで変換できます。 str = "\u{2014 301C 2016 2212 00A2 00A3 00AC}" undefined_signs = { "\u2014" => "\x81\x5C".force_
- windows
utf8とutf8mb4の違い【MySQL】
- 4 users
- penpen-dev.com
- テクノロジー
- 2021/09/05
（なぜ2種類あるのかはMySQLの歴史によるものらしいのですが、私はいまいち分かっていないので詳しく知りたい方はググってみてください･･。）保存できる文字の違いこれはつまり、UnicodeのコードポイントがU+FFFFを超える文字は、utf8では保存できないってことです。例えば崎（U+5D0E）←保存できる﨑（U+FA11）←保存できる 😀（U+1F600）←保存できない𩸽（U+29E3D）←保存できない ※ちなみにこの漢字はホッケと読みますみたいな感じ。絵文字などを保存したい場合はutf8mb4を使わないといけません。 MySQLのutf8はUTF-8ではないのでは･･？ UTF-8は「世界中の文字を1つの文字コードで表そうぜ！」な文字集合であるUnicodeを表すための文字符号化方式の1つなわけですが本来UTF-8は、1～4バイトで文字を表すルールです。なので、
- mysql
高速UTF-8バリデーションの世界 - Qiita
- 4 users
- qiita.com/saka1_p
- テクノロジー
- 2021/08/13
参照: http://www.unicode.org/versions/Unicode6.0.0/ch03.pdf の "Table 3-7. Well-Formed UTF-8 Byte Sequences" アルゴリズムを理解する上で重要なUTF-8の特徴について述べます。 1コードポイントは1-4バイトのシーケンスで表現される上位ニブル（1バイト8ビットのうち、上位4ビット）を確認することでシーケンスの情報が得られるそのバイトがシーケンス先頭バイトかどうかわかるもしそれがシーケンス先頭バイトだったなら、何バイトのシーケンスかわかる先頭でないバイトは基本的に0x80..0xBFの範囲が許容されているが、何箇所か例外があるのでそれもバリデーションしなければならない例外の箇所は表では太字で示した例えば、表を見て分かるように、先頭バイトが0xE0のとき2バイト目は0xA0..0x
- Unicode
PowerShell起動時、文字コードをUTF-8に変える方法 - Qiita
- 4 users
- qiita.com/s4i
- テクノロジー
- 2020/03/18
Goal ショートカット設定でPowerShell起動時に文字コードをUTF-8に変える。経緯プログラムをコンソールから実行した時、日本語が含まれていると文字化けが発生します。特にWindowsでは、UIの文字コードを UTF-8にするためには、システム全体の表示言語を英語にする必要があり、 UIは日本語、文字コードはShift-JIS (CP932、Windows-31J)を妥協して使っている方が多いと思います。プログラムをコンパイルして実行する前に、 chcp 65001を打ち込んで文字コードを変える儀式を繰り返すことは無駄だと気付いた時、即座にリンク先の中に下記の内容を記述しましょう。手順 PowerShellショートカットのプロパティを開く。リンク先を編集する。プロパティのOKボタンをクリックする。詳細説明 PowerShellのショートカットの場所を
- Windows
- tips
GitHub - serokell/haskell-with-utf8: Get your IO right on the first try
- 4 users
- github.com/serokell
- テクノロジー
- 2021/11/18
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.
You can't just assume UTF-8
- 4 users
- csvbase.com
- テクノロジー
- 2024/04/30
Humans speak countless different languages. Not only are these languages incompatible, but runtime transpilation is a real pain. Sadly, every standardisation initiative has failed. At least there is someone to blame for this state-of-affairs: God. It was him, after-all, who cursed humanity to speak different languages, in an early dispute over a controversial property development. However, mankind
- Programming
UTF-8対応、R言語で組織内行動データ可視化する「Microsoft Workplace Analytics」
- 4 users
- news.mynavi.jp
- テクノロジー
- 2021/03/17
UTF-8対応、R言語で組織内行動データ可視化する「Microsoft Workplace Analytics」 Microsoftは米国時間2021年3月16日、組織内の行動データを可視化する「Microsoft Workplace Analytics(以下、Workplace Analytics)」に加えた更新を公式ブログを通じて報告した。メトリック(測定値)名でUTF-8エンコードが使用可能になり、R言語のwpaパッケージを用いたWorkplace Analyticsのデータ分析および可視化を実現する。 UTF-8対応に伴い、日本語のメトリックス名も使用できる(画像はすべて公式ブログより抜粋) 従来のWorkplace Analyticsはメトリックス名をラテン語に限定していたが、今回の更新に伴いクエリおよびOData(Open Data Protocol)出力時の文字コードとしてU
- あとで読む
Ridiculously fast unicode (UTF-8) validation – Daniel Lemire's blog
- 4 users
- lemire.me
- テクノロジー
- 2020/10/21
One of the most common “data type” in programming is the text string. When programmers think of a string, they imagine that they are dealing with a list or an array of characters. It is often a “good enough” approximation, but reality is more complex. The characters must be encoded into bits in some way. Most strings on the Internet, including this blog post, are encoded using a standard called UT
Hideyuki Tanaka on Twitter: "文字コードがUTF8になっただけでは一切対応が進まなかったアメリカ人の書くコードの多倍長文字対応が、絵文字が入った途端に全てのソフトが完璧に多倍長文字に対応されるようになったんで、なんだかんだでアメリカ人に多倍長文字を使う強力なモ… https://t.co/JTxQUjo8vY"
- 4 users
- twitter.com/tanakh
- テクノロジー
- 2020/07/26
文字コードがUTF8になっただけでは一切対応が進まなかったアメリカ人の書くコードの多倍長文字対応が、絵文字が入った途端に全てのソフトが完璧に多倍長文字に対応されるようになったんで、なんだかんだでアメリカ人に多倍長文字を使う強力なモ… https://t.co/JTxQUjo8vY
- 文字
- font
- 開発
VisualStudioのデフォルトエンコードをUTF-8にする方法 - Qiita
- 4 users
- qiita.com/KTA552
- テクノロジー
- 2019/10/07
EditorConfig EditorConfig使えばほぼほぼ解決します。VSやVSCode, Riderや秀丸などたいがいのIDEは対応してます https://learn.microsoft.com/ja-jp/visualstudio/ide/create-portable-custom-editor-options?view=vs-2022 ずいぶん古くなってしまったので前のやつは畳んでおきます http://bloghandling.blogspot.jp/2016/05/visualstudioutf-8.html?m=1 確認したらずいぶん昔に書いたblogの内容のレイアウトがバラバラになってしまったのでQiitaに上げ直します。 introduction Visual studio's default encoding is SHIFT-JIS. But sometime
API Gateway(REST API)とLambda(Python)でBOM付きUTF8なCSVをレスポンスする方法
- 4 users
- it.kensan.net
- テクノロジー
- 2024/01/04
API Gateway(REST API)とLambda(Python)の構成で、LambdaでBOM付きUTF8のCSVを作成して、API Gateway経由でCSVをレスポンスする方法を記載します。 BOM付きUTF8とすることで外字が文字化けしないCSVをAPI Gateway経由でダウンロードできます。やること AWSの構成はAPI GatewayとLambda 使用する言語はPython 外字が文字化けしないCSVをダンロードできるようにする →BOM付きUTF8とすることで文字化け対策ができます。 Lambdaの作成以下のソースコードでLambdaを作成します。 def lambda_handler(event, context): body_str = """column1,column2 "㐂","昱" """ return { 'statusCode': 200, '
VS Codeターミナル文字化け対策(shift-jis→utf-8)
- 4 users
- www.mathkuro.com
- テクノロジー
- 2019/06/17
20210429追記) Rの場合はコチラ→http://www.mathkuro.com/?p=2967 前に書いたVisual Studio Code (VS Code)でPython開発環境を作るという記事で書いていたのですが、記事がちょっと長くて文字化け対策の部分が埋もれてしまっていたのでここに切り出しておきます。文字化け対策 VSCodeのターミナル(PowerShell)がデフォルトでshift-jis(932)で動くのでそれをutf-8(65001)で動くようにし設定します。 settings.jsonに以下を追加してするだけでOKです。 { "terminal.integrated.shellArgs.windows": [ "-NoExit", "chcp", "65001" ], }
Haruhiko Okumura on Twitter: "これはおもしろい。UTF-8とChatGPTのトークン: 視覴 e8 a6 96 e8 a6 b4 |25038|244|25038|112| 視覚 e8 a6 96 e8 a6 9a |25038|244|25038|248| 視聴 e8 a6 96 e8 81 b4 |25038|244|36735|112| 「覚」の前半と「聴」の後半がくっついたみたい"
- 4 users
- twitter.com
- テクノロジー
- 2023/06/09
「Java 18」正式リリース　デフォルトのCharsetが「UTF-8」に、シンプルWebサーバ搭載など新機能
- 4 users
- www.itmedia.co.jp
- テクノロジー
- 2022/03/25
この記事は新野淳一氏のブログ「Publickey」に掲載された「Java 18正式リリース。デフォルトのCharsetが「UTF-8」に、シンプルWebサーバ搭載など新機能」（2022年3月23日掲載）を、ITmedia NEWS編集部で一部編集し、転載したものです。 Javaは6カ月ごとに「フィーチャーリリース」と呼ばれるバージョンアップが行われ、そのなかの1つのバージョンが3年ごとに長期サポート（LTS：Long Term Support）版に指定されます。現在のLTS版は2021年9月にリリースされたJava 17です。Java 18は、この次のバージョンとして登場しました。業務アプリケーションの開発など、一定期間は安定したバージョンを使いたい場合にはLTS版のJava 17を、最新の機能をいちはやく利用したい場合には今回のJava 18を利用するのが適切でしょう。参考：3年ぶ
- techfeed
- Java
How does UTF-8 turn “😂” into “F09F9882”?
- 4 users
- sethmlarson.dev
- テクノロジー
- 2022/02/09
More often than not the mechanism being used to turn bytes into characters and emojis on your computer is "UTF-8". I recently learned how UTF-8 works and felt that the definition lended itself perfectly to creating diagrams explaining the implementation. I created these diagrams for my own enjoyment and wanted to share them. Hopefully this will inspire you to learn how other low-level protocols wo
So Long Surrogates: How we moved to UTF-8 in Haskell
- 4 users
- www.channable.com
- テクノロジー
- 2022/04/28
We released a blazingly fast Aho-Corasick implementation, written in Haskell, in 2019. This implementation was based on UTF-16 strings, since Haskell's text library uses that for its internal string representation. However, the most recent major update of text changed its internal string representation from UTF-16 to UTF-8. This is good news for us, since most of our customer’s data is ASCII, this
- Haskell
- プログラミング
Mysql Workbenchでutf8mb4のテーブルを扱う際は要注意！！｜株式会社クインテット
- 4 users
- pando.life
- テクノロジー
- 2019/06/17
制作開発部の野原です。 PandoではデータベースにMySQLの5.7系を利用しており、絵文字や難しい漢字なども扱えるように、テーブルの文字コードはutf8mb4を設定しています。みんな大好きなお寿司の絵文字　🍣　が表示できるのもこのおかげです。今回は、utf8mb4のテーブルをMySql Workbenchで扱う際の注意点をお話しします。 utf8mb4とはutf8mb4という文字コードはあまり聞きなじみがないと思いますが、通常、MySQLで定義されているutf8は BMP (Basic Multilingual Plane) の範囲しか利用することができません。簡単に説明すると、文字の中でも一般的に利用するものを指します。 MySQLのBMPは３バイトしか保持できない仕様となっているため、４バイトを利用する範囲にある文字は格納できません。この４バイトの範囲内にある絵文字や
マイナーなCSV形式にも対応、BOMなしUTF-8が既定になった「EmEditor」v20.1.0／ファイル位置を指定してジャンプする機能などを追加し、細かな使い勝手も改善
- 4 users
- forest.watch.impress.co.jp
- テクノロジー
- 2020/09/02
UnicodeとUTF-8と、GoのByte型とrune型についてのまとめ - たのしい駆動開発
- 4 users
- ssabcire.hatenablog.com
- テクノロジー
- 2020/05/21
UTF-8,Unicode, Goのbyte, rune関係がよく分からなかったのでいろいろ調べて、自分なりに解釈ができたので、まとめてみようと思います。まずは定義から行きましょう。 UTF-8: Unicodeで使える8ビット符号単位の文字符号化形式 Unicode: 文字集合（文字セット）が単一の大規模文字セットようするに、UTF-8は、Unicodeを符号化(エンコード)するやつで、Unicodeはいろんな文字の集合です。 aとか"あ"とか"亜"とか、ほんといろいろな文字の集合。そして、Unicodeの文字には、識別しやすいように数字が割り振られていて、その数字をコードポイント(Go言語でrune型に割り当てられる)といいます。実際にコードで違いを見てみましょう。 func main() { s := "あいうえお" b := []byte(s) for _, bi := ra
- プログラミング
- programming
Go言語(golang)でShiftJISのファイルをutf-8に変換する | DevelopersIO
- 4 users
- dev.classmethod.jp
- テクノロジー
- 2020/02/04
データアナリティクス事業本部の森脇です。 Go言語で文字コードを変換するための方法について調べました。使用するGo言語のバージョンは1.13.6です。パッケージのインストール文字コード変換を行うために、準標準パッケージであるgolang.org/x/textを使用します。 $ go mod init example.com/moriwaki/iconv go: creating new go.mod: module example.com/moriwaki/iconv $ go get -u golang.org/x/text go: finding golang.org/x/text v0.3.2 go: downloading golang.org/x/text v0.3.2 go: extracting golang.org/x/text v0.3.2 $ cat go.mod
PHPにてテキストファイルの文字コードをutf-8に統一する方法| eラーニングシステムのlearningBOX
- 4 users
- learningbox.online
- 学び
- 2020/02/17
QuizGeneratorの生みの親、作り出しッペの西村です。実は、learningBOXの初期開発には参加しておらず、バージョン2.0のリリース頃から本格参戦しました。この度、文字コードの取り扱いに関するPull Requestを受けまして、文字コードについてもう少し語っておかないといけないなと思い、記事にまとめました。今回の記事では「PHPにてテキストファイルの文字コードをutf-8に統一する方法」をご紹介いたします。本稿もどうぞよろしくお願いします。目次はこちら１. Shift-JISは避けられない２. 文字化けの回避方法について３. どうやって文字コードを判定するのか？４. まとめ Shift-JISは避けられない learningBOXやQuizGeneratorのようなシステムでは、CSVなどのテキストファイルを受け取ることがあります。現代のWebシステムにおいて、
- php
- tips
jq コマンドで UTF-8 の文字列をデコードやエンコード（codepoint を元に戻す） - それマグで！
- 3 users
- takuya-1st.hatenablog.jp
- テクノロジー
- 2019/07/10
コードポイントなった、日本語を単純に元のUTF-8に戻したり、コードポイントでエスケープして符号にする。コードポイントになった文字列*1 単純に jq に通せば、日本語になる。何も考えずに、 jq 通せばコードポイントを読める文字にすることができる・ root@acid:~# cat out | \jq - '.dir' ~/ダウンロード逆に、コードポイントのママほしい -a オプションをつけて、ASCIIにエンコードするとちゃんと出てきます。やったね。 root@acid:~# cat out | \jq -a '.dir' "~/\u30c0\u30a6\u30f3\u30ed\u30fc\u30c9" *1:正確にはエンコード・デコードという用語が正しくないかもしれない