タイトル「UTF8」を検索 - はてなブックマーク

1 - 40 件 / 107件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

UTF8の検索結果1 - 40 件 / 107件

Decoding UTF8 with Parallel Extract
- 3 users
- nrk.neocities.org
- テクノロジー
- 2024/05/06
Decoding UTF8 with Parallel Extract 23 Mar 2024 As a side-quest I recently decided to write a branchless utf8 decoder utilizing the pext or "parallel extract" instruction. It's compliant with rfc-3629, meaning that it doesn't just naively decode the code-point but also checks for overlong encoding, surrogate pairs and such. Compiled with gcc -O3 -march=x86-64-v3 the entire decoder results in just
You can't just assume UTF-8
- 4 users
- csvbase.com
- テクノロジー
- 2024/04/30
Humans speak countless different languages. Not only are these languages incompatible, but runtime transpilation is a real pain. Sadly, every standardisation initiative has failed. At least there is someone to blame for this state-of-affairs: God. It was him, after-all, who cursed humanity to speak different languages, in an early dispute over a controversial property development. However, mankind
- Programming
みんな忘れてるけど「文字コードというものにはシフトJISとUTF-8などがある」ということを知ってるだけでも世間一般からすればIT専門家である
- 40 users
- togetter.com
- 学び
- 2024/04/04
嶋田大貴 @shimariso みんな忘れてるけど、「テキストファイルという種類のファイルがあって、その中で使われる文字コードというものにはシフトJISとUTF-8などがある」ということを知ってるだけでも世間一般からすればIT専門家ですよ。 2024-04-02 12:42:01
UTF-8のバリデーションとモノイドと半群
- 22 users
- zenn.dev/mod_poppo
- テクノロジー
- 2024/02/24
この記事はUTF-8のバリデーションとオートマトンの続きです。前回はUTF-8のバリデーションが8状態のオートマトン (DFA) で表現できることを見ました。状態と遷移を擬似コードで書けば次のようになるでしょう： -- 8つの状態 data State = START | TAILx1 | TAILx2 | TAILx3 | A | B | C | D -- 入力バイトに応じて次の状態を返す。次の状態が該当しなかったら Nothing を返す next :: Word8 -> State -> Maybe State +----+----+-----+----+ | a0 | a1 | ... | aN | 8ビット整数列 +----+----+-----+----+ | | | v v v +----+----+-----+----+ | m0 | m1 | ... | mN | モノ
UTF-8のバリデーションとオートマトン
- 17 users
- zenn.dev/mod_poppo
- テクノロジー
- 2024/01/31
UTF-8は今日の文字エンコーディングの中で最も重要なものと言って差し支えないでしょう。UTF-8の仕様はこの辺で確認できます： Unicode 15.1.0 > 3.9 UTF-8 RFC 3629 - UTF-8, a transformation format of ISO 10646 この記事では、読者はすでにUTF-8にある程度の馴染みがあるものとして、UTF-8のバリデーションの細かいところを考えます。 UTF-8のバリデーションを行うには、以下のことを確かめなければなりません：最初の1バイトが所定の範囲にあること：ASCII (0x00-0x7F) または0xC2以上。後続のバイト（たち）が0x80-0xBFの範囲にあること。長すぎないこと：U+007F以下の文字はちょうど1バイトで表現されていること、U+0080以上U+07FF以下の文字はちょうど2バイトで表現されて
API Gateway(REST API)とLambda(Python)でBOM付きUTF8なCSVをレスポンスする方法
- 4 users
- it.kensan.net
- テクノロジー
- 2024/01/04
API Gateway(REST API)とLambda(Python)の構成で、LambdaでBOM付きUTF8のCSVを作成して、API Gateway経由でCSVをレスポンスする方法を記載します。 BOM付きUTF8とすることで外字が文字化けしないCSVをAPI Gateway経由でダウンロードできます。やること AWSの構成はAPI GatewayとLambda 使用する言語はPython 外字が文字化けしないCSVをダンロードできるようにする →BOM付きUTF8とすることで文字化け対策ができます。 Lambdaの作成以下のソースコードでLambdaを作成します。 def lambda_handler(event, context): body_str = """column1,column2 "㐂","昱" """ return { 'statusCode': 200, '
yokuさんにutf8→utf8mb4binのときに教えてもらった便利Tips
- 9 users
- gist.github.com/soudai
- テクノロジー
- 2023/12/14
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- mysql
- tips
neue cc - UTF8文字列生成を最適化するライブラリ Utf8StringInterpolation を公開しました
- 31 users
- neue.cc
- テクノロジー
- 2023/10/14
UTF8文字列生成を最適化するライブラリ Utf8StringInterpolation を公開しました 2023-10-13 Utf8StringInterpolationという新しいライブラリを公開しました！UTF8文字列の生成と書き込みに特化していて、動作をカスタマイズした文字列補間式によるC#コンパイラの機能を活用した生成と、StringBuilder的な連続的な書き込みの両方をサポートします。 Cysharp/Utf8StringInterpolation 基本的な流れはこんな感じで、Stringを生成するのと同じように、UTF8を生成/書き込みできます。 using Utf8StringInterpolation; // Create UTF8 encoded string directly(without encoding). byte[] utf8 = Utf8String
awkが新しくなる！？本家AwkがUnicode (UTF-8)とCSV対応に！ - Qiita
- 172 users
- qiita.com/ko1nksm
- テクノロジー
- 2023/09/16
はじめに 2023年、長い時を経て awk がとうとう Unicode (UTF-8) と CSV に対応しました 🎉🎉🎉 awk で日本語がうまく扱えない（場合がある）、Excel が出力する CSV ファイルが扱えない（場合がある）、といった問題が解決に向けて一歩に進みます。去年、本家 awk (One True Awk, nawk) に Unicode サポートが Brian Kernighan の手によって追加されたと話題になった（参照）ことを覚えているでしょうか？ Brian Kernighan が誰だか知らない方がいるかもしれないので説明すると、オリジナルの awk の開発者の一人で awk の頭文字、Alfred Aho、Peter Weinberger、Brian Kernighan の一人です。通称「K＆R」の「プログラミング言語C」や「プログラミング言語AWK」
- awk
- あとで読む
- linux
- unix
- Qiita
話題の「Telnet」電子公告、「平文やんけ」という指摘に応えて「over SSL」版を追加／文字コードも「UTF-8」に、ただし超長文の反論付き【やじうまの杜】
- 218 users
- forest.watch.impress.co.jp
- テクノロジー
- 2023/09/06
- telnet
- あとで読む
- ネタ
- SSL
- セキュリティ
- ネット
- 資料
- security
- 技術
PEP 686 – Make UTF-8 mode default | peps.python.org
- 13 users
- peps.python.org
- テクノロジー
- 2023/08/10
PEP 686 – Make UTF-8 mode default Author: Inada Naoki <songofacandy at gmail.com> Discussions-To: Discourse thread Status: Accepted Type: Standards Track Created: 18-Mar-2022 Python-Version: 3.15 Post-History: 18-Mar-2022, 31-Mar-2022 Resolution: Discourse message Table of Contents Abstract Motivation Specification Enable UTF-8 mode by default locale.getencoding() Fixing encoding="locale" option B
- Python
- Programming
不評だった「KEN_ALL.CSV」大幅改善で話題に。代替となる住所CSVデータを日本郵便が公開、カナ全角化・レコード統合・UTF-8導入など【やじうまWatch】
- 11 users
- internet.watch.impress.co.jp
- テクノロジー
- 2023/07/06
- software
RDS Blue/Green Deployments を使ってシュッと utf8mb4 にマイグレーションした話 - カミナシエンジニアブログ
- 139 users
- kaminashi-developer.hatenablog.jp
- テクノロジー
- 2023/07/03
こんにちは。ソフトウェアエンジニアの坂井 (@manabusakai) です。カミナシでは RDB に Amazon Aurora MySQL 2（MySQL 5.7 互換）を使っています（以下 Aurora MySQL と略します）。ある日、社内の Slack で「𠮷」などの文字列が登録できないのではないかという話が出ました。これを聞いて「あー」と思った方も多いでしょう。 MySQL で有名な UTF-8 の 4 バイト文字問題で、歴史的な理由から MySQL 5.7 以前では utf8 の文字セットは utf8mb4 ではなく utf8mb3 を指しています。 dev.mysql.com カミナシのアプリケーションは 4 バイトの文字列が入力された場合はシステムエラーを返す実装になっていますが、エラーの内容をユーザーにわかりやすく伝えることは難しいためユーザー体験としても良くない
- mysql
- aurora
- aws
- db
- あとで読む
- rds
- マイグレーション
- software
Haruhiko Okumura on Twitter: "これはおもしろい。UTF-8とChatGPTのトークン: 視覴 e8 a6 96 e8 a6 b4 |25038|244|25038|112| 視覚 e8 a6 96 e8 a6 9a |25038|244|25038|248| 視聴 e8 a6 96 e8 81 b4 |25038|244|36735|112| 「覚」の前半と「聴」の後半がくっついたみたい"
- 4 users
- twitter.com
- テクノロジー
- 2023/06/09
Haruhiko Okumura on Twitter: "これはおもしろい。UTF-8とChatGPTのトークン: 視覴 e8 a6 96 e8 a6 b4 |25038|244|25038|112| 視覚 e8 a6 96 e8 a6 9a |25038|244|25038|248| 視聴 e8 a6 96 e8 81 b4 |25038|244|36735|112| 「覚」の前半と「聴」の後半がくっついたみたい"
- 5 users
- twitter.com
- テクノロジー
- 2023/06/08
- あとで読む
RubyKaigi 2023で "UTF-8 is coming to mruby/c" というタイトルで話しました - Eggshell
- 11 users
- imaizumimr.hatenablog.com
- テクノロジー
- 2023/05/17
スライドタイトルは「サンタが街にやってくる」つまり「Santa Claus Is Coming to Town」のもじりでした。 UTF-8がルンルンでmruby/cにやってくる様子を思い浮かべながら決めました。スライドきっかけ発表内でも触れましたが、はすみさんにRubyWorldConference2022でmruby/cのUTF-8対応をしませんかと誘われたのがきっかけです。文字コード好きなひとが来場する情報を事前にTwitterでキャッチしていたので、PicoRubyのUTF-8対応という釣り糸を垂らしたら、うまいこと引っかかりました。質問タイムのときにちょうどその人が質問してくれて、「ちなみにUTF-8に興味ありません？」と聞いたら「めっちゃあります」とのことで、「じゃあ後ほど打ち合わせしましょう」と公衆の面前で言質をとった次第です。 mruby/cのUTF-8対応は進め
- rubykaigi
MySQLのutf8mb4と戦った話 - Uzabase for Engineers
- 178 users
- tech.uzabase.com
- テクノロジー
- 2023/04/28
皆様こんにちは、NewsPicksエンジニアの米澤です。先日 2023/03/30は、こちらでアナウンスしていた通り、サービスの停止を伴うシステムメンテナンスを実施させて頂きました。 NewsPicksをご利用頂いている皆様には、ご迷惑おかけいたしました。今回はこのメンテナンスの中で行われたDBテーブルのmigrationについてお話ししたいと思います。ことの始まりやったこと方針決め utf8mb4に対応していないテーブルを調べる migrationを作成する影響範囲を調べる開発環境でリハーサルを行うメンテナンスの日最後にことの始まり NewsPicksではバグの検知にBugSnagを利用しています。ある時、BugSnagにこんなエラーが通知されてきました。 org.springframework.orm.hibernate4.HibernateJdbcExcepti
- mysql
- あとで読む
- db
- 文字コード
- utf8mb4
- 環境
- unicode
- 開発
- システム
- development
【Rails×MySQL】utf8mb4対応の"encoding"と"charset"の、それぞれの役割について調べた - Qiita
- 3 users
- qiita.com/nanashisan_prog
- テクノロジー
- 2023/02/04
encodingとcharsetは同じ値を設定していますが、それぞれの役割が分からないので、動作検証とソース確認をしてみました。結論・charsetはどこにも使われていない（ように見える）・encodingはデータベースおよびシステム変数のcharset関連に適用される（結果としてテーブル・カラムも同様のcharsetになる）検証環境 Rails: 7.0.4.2 MySQL: 8.0.32 mysql2: 0.5.5 そもそもMySQLでCharset指定できる箇所 MySQLでCharset関連の指定ができる箇所は、以下の４つがあるかと思います。データベース（例：create database test_database charset utf8mb4;）テーブル（例：create table test_table (name varchar(255)) charset
- あとで読む
<script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>
- 43 users
- anond.hatelabo.jp
- 学び
- 2022/11/30
一つ自分で自覚している差別感情がある。「字が汚い女は低脳で下劣」というもの。字の巧拙と能力、品性には相関などないと頭では分かっているのに、汚い字で何かを書いている女性を見ると、近寄ってはいけない、と心の中の警報が鳴り出すのだ。#国際女性デー— 蟻巣 (@first_flush) March 8, 2022 <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>
- 増田
- 人間
- 差別
- 心理
- 考え方
- あとで読む
UTF-8で動くRailsがShift_JISな外部システムと通信する方法 - BOOK☆WALKER inside
- 166 users
- developers.bookwalker.jp
- テクノロジー
- 2022/09/02
こんにちは。メディアサービス開発部Webアプリケーション開発課のフサギコ(髙﨑)です。部署名が変わりました。 Ruby on Railsによるバックエンドの実装運用と、AWSによるサービスインフラの設計構築を中心とした、いわゆるテックリードのような立ち位置で働いています。本記事では、UTF-8環境下で動くRailsがShift_JISな外部APIと通信する方法についてお話しします。前提知識文字コード UTF-8環境下で動くRailsがShift_JISな外部システムと通信するには Shift_JISな外部APIに対してPOSTリクエストするべた書きとしては Railsにおいては Shift_JISで使用できない文字が混ざっていないかをバリデーションする Shift_JISな外部システムからPOSTリクエストを受けるおまけ: ユーザのブラウザにShift_JISでPOSTさせる
- rails
- 文字コード
- あとで読む
- unicode
- ruby
- プログラミング
- 通信
- API
- programming
旧CGIプログラム（SJIS）をUTF8へ変更する方法
- 3 users
- kuruma.rdy.jp
- 世の中
- 2022/08/19
すでに世の中、シフトJISから、UTF-8型式に文字コード体系が変化しています。しかし、Perl/CGIのプログラムについては、その多くが「shift_jis」で稼働している状況です。ここで、最低限の移行・修正処理により、UTF-8型式へ移行・変換する対応を整理しました。 FileCode Checkerによる文字コード変換上記のFileCode Checkerは、フリーソフトです。Win10版を導入しましょう。フォルダ内ファイルを旧文字コード型式から、全てUTF8型式へ一括変換できます。変換内容文字コード：UTF8 改行コード：CRLF 元のファイルを置換（事前にバックアップを作成しておく）変換手順変換前のファイルについて、全てバックアップを作成しておきます。 FileCode Checkerのツールを起動 txt、cgi、datなど、旧コードの「shift_jis」で書か
MySQLのテーブル作成後に、文字コードをutf8mb4に変更する
- 3 users
- www.karakaram.com
- テクノロジー
- 2022/08/06
MySQL のテーブルの文字コード latin1 と utf8mb4 が混在しているシステムを utf8mb4 に統一する機会がありました。調査した内容や実行したコマンドを残しておきます。MySQL のバージョンは 5.7 です。目次やったことデータベースの文字コードと照合順序を確認するテーブルの文字コードと照合順序を確認する利用できる照合順序を確認するカラムの文字コードと照合順序を確認するテーブル内のすべての文字カラムを変換するデータベースの文字コードを変更するテーブルの文字コードを変更するカラムの文字コードを変更するやったことデータベース、全テーブルの文字コードを調べる文字コードが utf8mb4 ではないテーブルを見つけたら、そのテーブルのカラムの文字コードを調べるカラムとテーブルの文字コードを utf8mb4 に変換するデータベースの文字コードを変更する順
GitHub - suzukiiichiro/Rogue2.Official: 【公式ローグII】rougeclone2 （データ分離版ローグ・クローンII UTF-8版）ターミナルへの出力はもちろん、メッセージファイル、ソースコードなどすべての処理と資源がUTF-8対応しています。Rogueのすばらしさを楽しみたい人、ソースコードを見て完成度を共感したい人、さらにオリジナルアイディアでゲームを拡張したいひと、待望の日本語UTF-8最終FIX版
- 3 users
- github.com/suzukiiichiro
- テクノロジー
- 2022/07/23
============================================================================== 日本語版ローグ・クローンによる『運命の洞窟』への招待鈴木維一郎 <suzuki.iichiro@gmail.com> 太田純氏の「ローグ・クローン2 日本語版1.3」、伊藤康史氏の「データ分離版ローグ・クローンII」、FUNABARA Masao氏の「rogueclone2s」、 Naohiro Aota氏の「rogueclone2s-utf8」、を経て本バージョンとなりました。 ○説明 rougeclone2s （データ分離版ローグ・クローンII　メンテナンスバージョンのUTF-8版）はターミナルへの出力のみが UTF-8対応となっていましたが、本バージョンは、ターミナルへの出力はもちろん、メッセージファイル、ソースコ
- vim
- game
Windows 10の文字コード（システムロケール）をUTF-8に変更する方法
- 9 users
- togeonet.co.jp
- テクノロジー
- 2022/07/17
メモ帳で作成したテキストファイルの文字コードは「UTF-8」になります。それに対しWindowsのシステムでは「Shift-JIS」が使われているため文字化けが起こるのです。この記事ではWindowsのシステムで既定の文字コード（システムロケール）を「Shift-JIS」から「UTF-8」に変更する手順について解説します。合わせて以下のページもご参考ください。
- Windows
思った通りに sort されない（LC_COLLATE=en_US.UTF-8 の罠） | ず＠沖縄
- 5 users
- www.zukeran.org
- 学び
- 2022/05/24
ls -l | sort したら、思った通りの順番に並ばないという相談を受けた。その方のLinux環境では、このように並ぶらしい。一見して変だ。各行の先頭の文字は通常は　- d t の順序（ASCIIコード順）に並ぶのだが、これは d – t の順にならんでいる。 d t – でもないのが怪しさを増している。 $ ls -l /var/log | sort drwx------ 2 root root 4096 Jul 12 2021 private drwxr-sr-x+ 2 root systemd-journal 4096 Jun 4 2021 journal drwxr-x--- 2 root adm 4096 Jul 22 2020 unattended-upgrades drwxr-xr-x 2 landscape landscape 4096 Jul 12 2021 la
- あとで読む
So Long Surrogates: How we moved to UTF-8 in Haskell
- 4 users
- www.channable.com
- テクノロジー
- 2022/04/28
We released a blazingly fast Aho-Corasick implementation, written in Haskell, in 2019. This implementation was based on UTF-16 strings, since Haskell's text library uses that for its internal string representation. However, the most recent major update of text changed its internal string representation from UTF-16 to UTF-8. This is good news for us, since most of our customer’s data is ASCII, this
- Haskell
- プログラミング
Python 3.15からデフォルトのエンコーディングがUTF-8になります - methaneのブログ
- 263 users
- methane.hatenablog.jp
- テクノロジー
- 2022/04/26
Pythonがファイルを開くときなどに使われるエンコーディングはロケール（WindowsではANSIコードページ）依存でした。 Unixの世界ではどんどんUTF-8ロケールが一般的になっている一方、WindowsのANSIコードページはなかなかUTF-8になりません。そのために、Unixユーザーが open(filepath) のようにエンコーディングを指定しないままUTF-8を仮定するコードを気軽に書いてしまって、Windowsユーザーがエラーで困るといった問題が発生します。また、Windowsでもメモ帳（Notepad.exe）やVSCodeはすでにUTF-8をデフォルトのエンコーディングで使用しています。ANSIコードページがUTF-8になるのを待っていたらどんどん周りの環境から置いていかれ、レガシー化してしまいます。 Pythonがデフォルトで利用するエンコーディングをWind
<script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>
- 11 users
- anond.hatelabo.jp
- 世の中
- 2022/04/21
りぼん「まんがスクール」の評内の文章「（入賞者の長所を褒めた後に）…もしこうした才能が天性のものだとしたら、与えられた時と同じように、手放す瞬間も選ぶことが出来ません。それまでに手に入れるべきは、オリジナリティです。」になんか色々ぐっとくるものがあった。— おぶち (@pandaobuchi) November 6, 2019 <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>
- ”AならばB”
- 言葉
C# 11 Preview Updates - Raw string literals, UTF-8 and more! - .NET Blog
- 3 users
- devblogs.microsoft.com
- テクノロジー
- 2022/04/19
Azure Developers .NET Day is back on April 30th! Join the .NET community to learn cutting-edge cloud development techniques from experts on cloud services for AI, data, cloud-native, and developer productivity. Elevate your cloud development skills today! Features for C# 11 are coming along nicely! You can check these features out by downloading Visual Studio 17.2 Preview 3 or .NET 7 Preview 3 for
- C#
- programming
国産のWikiソフト「PukiWiki」が2年ぶりにバージョンアップ、「PHP 8.0/8.1」に対応／EUC-JP版をUTF-8へ変換するツールも用意
- 150 users
- forest.watch.impress.co.jp
- テクノロジー
- 2022/03/31
- wiki
- php
- あとで読む
- PukiWiki
- ツール
- tech
- ソフト
- フリーソフト
- ソフトウェア
「Java 18」正式リリース　デフォルトのCharsetが「UTF-8」に、シンプルWebサーバ搭載など新機能
- 4 users
- www.itmedia.co.jp
- テクノロジー
- 2022/03/25
この記事は新野淳一氏のブログ「Publickey」に掲載された「Java 18正式リリース。デフォルトのCharsetが「UTF-8」に、シンプルWebサーバ搭載など新機能」（2022年3月23日掲載）を、ITmedia NEWS編集部で一部編集し、転載したものです。 Javaは6カ月ごとに「フィーチャーリリース」と呼ばれるバージョンアップが行われ、そのなかの1つのバージョンが3年ごとに長期サポート（LTS：Long Term Support）版に指定されます。現在のLTS版は2021年9月にリリースされたJava 17です。Java 18は、この次のバージョンとして登場しました。業務アプリケーションの開発など、一定期間は安定したバージョンを使いたい場合にはLTS版のJava 17を、最新の機能をいちはやく利用したい場合には今回のJava 18を利用するのが適切でしょう。参考：3年ぶ
- techfeed
- Java
Java 18正式リリース。デフォルトのCharsetが「UTF-8」に、シンプルWebサーバ搭載など新機能
- 90 users
- www.publickey1.jp
- テクノロジー
- 2022/03/23
Java 18正式リリース。デフォルトのCharsetが「UTF-8」に、シンプルWebサーバ搭載など新機能 Javaの新バージョン「Java 18」が正式にリリースされました。 Java 18 is now available! #Java18 #JDK18 #openjdk Download now: https://t.co/hTJU1ZzAWQ Release notes: https://t.co/Xdkj5TObNP API Javadoc: https://t.co/izFBPlYkd9 Features: https://t.co/3z0l5sXyDX pic.twitter.com/Ct1BvYmDYs — Java (@java) March 22, 2022 Javaは6カ月ごとに「フィーチャーリリース」と呼ばれるバージョンアップが行われ、そのなかの1つのバージョンが
- java
- api
- あとで読む
- web
- Software
- 開発
- サーバ
- 未分類
U+301C from UTF-8 to Windows-31J (Encoding::UndefinedConversionError) に対応する - ESM アジャイル事業部開発者ブログ
- 5 users
- blog.agile.esm.co.jp
- テクノロジー
- 2022/03/13
こんにちは。ima1zumi です。私の開発している Rails アプリでは、Excel で読み込めるように文字コードを Windows-31J に変換して CSV を出力する機能があります。先日、CSV 出力にて Unicode の波ダッシュ〜を Windows-31J に変換しようとして Encoding::UndefinedConversionError が発生して CSV 出力に失敗したことがありました。なぜエラーになるのか、どうやって対応するのかをまとめました。まとめ encode メソッドの fallback オプションを使って未定義文字の変換先を定義することで変換できます。 str = "\u{2014 301C 2016 2212 00A2 00A3 00AC}" undefined_signs = { "\u2014" => "\x81\x5C".force_
- windows
Kotlin / Swift での Unicode の扱いまとめ (見た目上の文字数カウント, UTF-8, UTF-16, BOM, 正規化, 異体字セレクタ) - Qiita
- 9 users
- qiita.com/irgaly
- テクノロジー
- 2022/02/21
Kotlin / Swift での Unicode の扱いまとめ (見た目上の文字数カウント, UTF-8, UTF-16, BOM, 正規化, 異体字セレクタ)AndroidiOSKotlinUnicodeSwift Kotlin と Swift での見た目上の文字数カウント実装を中心に、Unicode について知っておくべき知識をまとめます。また、モバイルアプリで入力文字数のカウントや入力文字数の上限をどのように扱うかは以下の別の記事にまとめました。文字数カウントまずは、文字数カウントが難しい例として絵文字と異体字セレクタ表現の例を挙げます。詳しい説明はこの記事の後半を確認してください。絵文字 🧑‍🦰 の文字数について確認します。🧑‍🦰 は以下の Unicode で構成されています。文字 Code point UTF-8 表現 UTF-16 表現 Descriptio
- unicode
- qiita
- # |ω・)……
- ios
C++(Visual Studio)でUTF-8を扱うための試行錯誤のメモ - Qiita
- 3 users
- qiita.com/BlueSilverCat
- テクノロジー
- 2022/02/13
目的 Visual Studio(Windows)を使ってC++のコンソールアプリケーションを開発する際、ソースファイルの文字コード出力するときの文字コードプログラム内で扱うデータの文字コード全てをUTF-8で扱うための試行錯誤をまとめてみることにします。 2022/01/16 : 記事の公開当初は、ISO C++ 20 標準 (/std:c++20)(u8string)を使う予定でした。しかし、検証した結果、ISO C++ 20 標準 (/std:c++20)は使わずにISO C++ 17 標準 (/std:c++17)を使う事にしました。なぜならば、mbrtoc8(char -> char8_t) および c8rtomb(char8_t -> char)が実装されていないからです。環境 Microsoft Visual Studio Community 2022 (3)
- 開発
- windows
How does UTF-8 turn “😂” into “F09F9882”?
- 4 users
- sethmlarson.dev
- テクノロジー
- 2022/02/09
More often than not the mechanism being used to turn bytes into characters and emojis on your computer is "UTF-8". I recently learned how UTF-8 works and felt that the definition lended itself perfectly to creating diagrams explaining the implementation. I created these diagrams for my own enjoyment and wanted to share them. Hopefully this will inspire you to learn how other low-level protocols wo
ritsuka on Twitter: "鬼滅の刃に禰󠄀豆子というキャラがいるらしいけど、禰＋異体字セレクタU+E0100を使わないと表現出来ない字なのか。それでデフォルトではUTF-8は3バイトまでと決め打ちしてたMySQLとかそれを使うWordPressでトラブル起こすらしい"
- 9 users
- twitter.com/ritsukaPya
- テクノロジー
- 2022/02/02
鬼滅の刃に禰󠄀豆子というキャラがいるらしいけど、禰＋異体字セレクタU+E0100を使わないと表現出来ない字なのか。それでデフォルトではUTF-8は3バイトまでと決め打ちしてたMySQLとかそれを使うWordPressでトラブル起こすらしい
UTF-8のテーブル(MySQL5.6)に竈門禰󠄀豆子が格納できない問題を調べてみた - Qiita
- 549 users
- qiita.com/ykami
- テクノロジー
- 2022/02/01
竈門禰󠄀豆子をMySQL5.6のテーブルにinsertしようとすると正しく格納できず、竈門禰となってしまうケースがあるという話を聞き、調べてみました。実践まずは試しにやってみます。 mysql> show create table verification\G *************************** 1. row *************************** Table: verification Create Table: CREATE TABLE `verification` ( `name` varchar(100) COLLATE utf8_bin DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin 1 row in set (0.01 sec) mysql> inse
- 文字コード
- mysql
- データベース
- あとで読む
- 開発
- UTF-8
- プログラミング
- UTF8
- db
- Qiita
UTF-8の文字コード表 - 備忘帳 - オレンジ工房
- 3 users
- orange-factory.com
- 暮らし
- 2022/02/01
UTF-8の文字コード表なのです。いつも検索して、よそ様のページを参照させていただいていたのですが、面倒なので自分で作りました。 perlのスクリプトでガーッと出したので、見栄えはアレですが、とりあえず。 1バイト文字 2バイト文字 3バイト文字 E2 9C 80 ～ Dingbats、昔からある記号、絵文字とか E3 80 80 ～全角ひらがな・カタカナ EF BC 80 ～全角英数字、半角カナ 4バイト文字 F0 9F 8C 80 ～たぶん今どきの皆さんの言う絵文字 F0 9F 98 80 ～顔文字更新履歴 (2018-05-10 追記) コード表を全体的に再出力しました。変更点は以下の通りです。 unicode追加面、4バイト文字の表もつくりました。各文字ブロックにタイトルを付けました。英語タイトルはUnicode仕様書PDFへ直リンクしています。表示されてないけど、ど
MySQL/MariaDB character sets and collations explained – why utf8 is not UTF-8
- 3 users
- www.hellodevops.blog
- テクノロジー
- 2022/01/04
MySQL/MariaDB character sets and collations explained – why utf8 is not UTF-8 Jan 3, 2022 · 7 min read Table Of Contents The relationship between character sets and collations always seemed pretty vague to me, let alone the possible impact on performance. So if you are like me and want to know the difference between utf8 and utf8mb4 and why mixed collations are bad for your database performance, r