並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 107 件 / 107件

新着順 人気順

UTF8の検索結果81 - 107 件 / 107件

  • Decoding UTF8 with Parallel Extract

    Decoding UTF8 with Parallel Extract 23 Mar 2024 As a side-quest I recently decided to write a branchless utf8 decoder utilizing the pext or "parallel extract" instruction. It's compliant with rfc-3629, meaning that it doesn't just naively decode the code-point but also checks for overlong encoding, surrogate pairs and such. Compiled with gcc -O3 -march=x86-64-v3 the entire decoder results in just

    • 文字コードの異なるフォームへのPOST(UTF8 to Shift_JIS)

      文字コードの異なるページへのPOSTって悩ましいですよね。 具体的には、こちらのサイトがUTF-8で作られていて、相手先がShift_JISだったりする場合。 そもそも相手サイトにPOSTしなきゃいけない理由とは SPAMサイトじゃあるまいし、普通は自サイト以外へのPOSTってあんまり考えられないかも知れません。 でも、実際はあるんです。例えばECサイトが良い例。 「ご購入ありがとうございました。決済手続きは次の画面でお願いします。」 みたいなの。 いまどきそんなの古いよーという方もいらっしゃるかも知れませんが、きっとそれは大手の通販サイトを使用されていることが多いからでしょう。ショッピングモールにさえ出店しない、個人商店レベルのサイトではこんなのいっぱいあります。 中の人いわく、「個人経営のショップサイトでクレジットカード番号を入力するのは怖いというお客様がいらっしゃる」とか。なるほど、

        文字コードの異なるフォームへのPOST(UTF8 to Shift_JIS)
      • UTF-8の文字コード表 - 備忘帳 - オレンジ工房

        UTF-8の文字コード表なのです。いつも検索して、よそ様のページを参照させていただいていたのですが、面倒なので自分で作りました。 perlのスクリプトでガーッと出したので、見栄えはアレですが、とりあえず。 1バイト文字 2バイト文字 3バイト文字 E2 9C 80 ~ Dingbats、昔からある記号、絵文字とか E3 80 80 ~ 全角ひらがな・カタカナ EF BC 80 ~ 全角英数字、半角カナ 4バイト文字 F0 9F 8C 80 ~ たぶん今どきの皆さんの言う絵文字 F0 9F 98 80 ~ 顔文字 更新履歴 (2018-05-10 追記) コード表を全体的に再出力しました。変更点は以下の通りです。 unicode追加面、4バイト文字の表もつくりました。 各文字ブロックにタイトルを付けました。英語タイトルはUnicode仕様書PDFへ直リンクしています。 表示されてないけど、ど

        • Pythonのchardetモジュールが、"testあ"という文字列(UTF-8)の文字コードを"Windows-1254"だと判定する

          "testあ"のUTF-8表現は、74 65 73 74 e3 81 82 (1バイトデータの表記は全部16進、以下同様, python3風に書くとb'\x74\x65\x73\x74\xe3\x81\x82')で、chardetが判定するのは「文字列」ではなく、このバイト列です。 ちなみにこのバイト列をUTF-8, Shift_JIS, EUC-JP, ISO-8859-1, Code Page 437, Windows-1254で解釈すると、以下のようになります。 UTF-8 testあ (まぁ、当たり前) Shift_JIS (不正) EUC-JP (不正) ISO-8859-1 testã (81 82 は制御コードにあたるので見えないが不正ではない) CP437 testπüé Win1254 testã‚ (81は未定義なので本来は不正、chardetは未定義にあたるバイトが現

            Pythonのchardetモジュールが、"testあ"という文字列(UTF-8)の文字コードを"Windows-1254"だと判定する
          • ピックアップRoslyn 10/9: base(T), UTF-8 String, Discard parameters

            数日前、いくつかの新機能について、仕様書のドラフト案が上がっていました。 base(T) - Draft Specification #2910 UTF8 String Literals - Draft Specification #2911 どちらも、これまであった Design Meeting の議事録通りな感じ。 あと、ちょこっと変更が検討されて、結局元さやに納まったものが1件。 Champion "Lambda discard parameters" #111 base(T) - Draft Specification #2910 これは、C# によるプログラミング入門に説明を書いた直後に「やっぱり C# 8.0 ではやめておく」となってしまったやつ。 (しょうがないんで「C# 8.0 から外れました」って書き足してそのまま残してあったり。) まあ、.NET ランタイムのレベルで対

              ピックアップRoslyn 10/9: base(T), UTF-8 String, Discard parameters
            • buu on Twitter: "そうだわ、病気は、 医師がこうやってちゃんと証明するのが常識🙄 https://t.co/ZIs9Utf8P2"

              そうだわ、病気は、 医師がこうやってちゃんと証明するのが常識🙄 https://t.co/ZIs9Utf8P2

                buu on Twitter: "そうだわ、病気は、 医師がこうやってちゃんと証明するのが常識🙄 https://t.co/ZIs9Utf8P2"
              • 【Python】encode・decodeメソッドで、文字列⇔文字コードをかんたん変換!(UTF-8・Shift_JIS)

                Python 【Python】encode・decodeメソッドで、文字列⇔文字コードをかんたん変換!(UTF-8・Shift_JIS) Pythonを使っていると、文字コードや文字列の変換が必要になることがありますよね。 でも、文字コードって何?どうやって変換すればいいの?と疑問に思ったことはありませんか? やり方はかんたんです。 「encode」メソッドと「decode」メソッドを使えば、あっという間に文字列と文字コードの変換ができるようになります! UTF-8、ASCII、Shift_JISといった代表的な文字コードの変換プログラムもまじえて解説しています。 実際にプログラムを動かすことで、どのように文字列と文字コードを変換するのか理解が深まると思います。ぜひ実際にコードを入力して動かしてみて下さいね。

                  【Python】encode・decodeメソッドで、文字列⇔文字コードをかんたん変換!(UTF-8・Shift_JIS)
                • 文字コードとは?~UTF-8はパソコンの世界共通語~|データ分析用語を解説 - GiXo Ltd.

                  本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1) Unicode、ASCIIコード、Shift-JIS、UTF-8、UTF-16の関係を理解する データ分析を行っていると、必ず出てくる専門用語で「文字コード」がありますが、それぞれの文字コードの概念は、曖昧になってはいませんか? これから説明する内容は、文字コードとは何かを代表的な文字コードの関係性から説明します。 UnicodeとUTF-16は別物 ~符号化文字集合と符号化形式について~ 若い情報処理系の技術者に対して、「代表的な文字コードって何?」と質問した時、返ってくる内容として「ASCIIコード、Shift-JIS、UTF-8、UTF-16、Unicode…」と答えるケースがあります。これは、厳密にいえば正しい答えではありません。 Unicodeは「符号化文字集合

                    文字コードとは?~UTF-8はパソコンの世界共通語~|データ分析用語を解説 - GiXo Ltd.
                  • PowerShellのエンコードをUTF8に変更する - dattesar

                    Windows PowerShellでUTF8形式のファイルを表示すると文字化けするので、エンコードをUTF8に変更します。ただ、エンコードをUTF8に変更しただけでは、UTF8(BOMなし)は文字化けしてしまいます。 そこで、Windows PowerShellで設定をするのは面倒なので、PowerShell Coreをインストールすることによって、UTF8(BOMなし)の文字化け問題に対応します。

                      PowerShellのエンコードをUTF8に変更する - dattesar
                    • MySQLのテーブル作成後に、文字コードをutf8mb4に変更する

                      MySQL のテーブルの文字コード latin1 と utf8mb4 が混在しているシステムを utf8mb4 に統一する機会がありました。調査した内容や実行したコマンドを残しておきます。MySQL のバージョンは 5.7 です。 目次 やったこと データベースの文字コードと照合順序を確認する テーブルの文字コードと照合順序を確認する 利用できる照合順序を確認する カラムの文字コードと照合順序を確認する テーブル内のすべての文字カラムを変換する データベースの文字コードを変更する テーブルの文字コードを変更する カラムの文字コードを変更する やったこと データベース、全テーブルの文字コードを調べる文字コードが utf8mb4 ではないテーブルを見つけたら、そのテーブルのカラムの文字コードを調べるカラムとテーブルの文字コードを utf8mb4 に変換するデータベースの文字コードを変更する 順

                        MySQLのテーブル作成後に、文字コードをutf8mb4に変更する
                      • GitHub - suzukiiichiro/Rogue2.Official: 【公式ローグII】rougeclone2 (データ分離版ローグ・クローンII UTF-8版)ターミナルへの出力はもちろん、メッセージファイル、ソースコードなどすべての処理と資源がUTF-8対応しています。Rogueのすばらしさを楽しみたい人、ソースコードを見て完成度を共感したい人、さらにオリジナルアイディアでゲームを拡張したいひと、待望の日本語UTF-8最終FIX版

                        ============================================================================== 日本語版ローグ・クローンによる『運命の洞窟』への招待 鈴木維一郎 <suzuki.iichiro@gmail.com> 太田純氏の「ローグ・クローン2 日本語版1.3」、伊藤康史氏の「データ分離版ローグ・ クローンII」、FUNABARA Masao氏の「rogueclone2s」、 Naohiro Aota氏の 「rogueclone2s-utf8」、を経て本バージョンとなりました。 ○説明 rougeclone2s (データ分離版ローグ・クローンII  メンテナンスバージョン のUTF-8版) はターミナルへの出力のみが UTF-8対応となっていましたが、本バージョンは、ターミナ ルへの出力はもちろん、メッセージファイル、ソースコ

                          GitHub - suzukiiichiro/Rogue2.Official: 【公式ローグII】rougeclone2 (データ分離版ローグ・クローンII UTF-8版)ターミナルへの出力はもちろん、メッセージファイル、ソースコードなどすべての処理と資源がUTF-8対応しています。Rogueのすばらしさを楽しみたい人、ソースコードを見て完成度を共感したい人、さらにオリジナルアイディアでゲームを拡張したいひと、待望の日本語UTF-8最終FIX版
                        • UTF-8の半角スペースには2種類ある

                          (2018.3.24追記。根本的に理解が間違っていたのでほとんど書き直しました。) SyntaxHighlighter3.0.9より前のバージョンで表示させているコードをChromeからPyCharmへコピペすると行頭のスペースが認識されません。FirefoxやIEからでは問題は起きません。Chromeからコピペするとノンブレーキングスペースが正しくペーストされずutf-8エンコードのままペーストされてしまうのが原因でした。SyntaxHighlighter3.0.9ではそうならないように対策されています(linuxBean14.04(111)SyntaxHighlighter3.0.9をビルドする:成功編参照。)。 Unicodeのノンブレーキングスペースとブレーキングスペース ノンブレーキングスペースとは改行されないスペースともいわれます。 HTMLでは通常の半角スペースは2個以上ある

                            UTF-8の半角スペースには2種類ある
                          • 旧CGIプログラム(SJIS)をUTF8へ変更する方法

                            すでに世の中、シフトJISから、UTF-8型式に文字コード体系が変化しています。 しかし、Perl/CGIのプログラムについては、その多くが「shift_jis」で稼働している状況です。ここで、最低限の移行・修正処理により、UTF-8型式へ移行・変換する対応を整理しました。 FileCode Checkerによる文字コード変換 上記のFileCode Checkerは、フリーソフトです。Win10版を導入しましょう。 フォルダ内ファイルを旧文字コード型式から、全てUTF8型式へ一括変換できます。 変換内容 文字コード:UTF8 改行コード:CRLF 元のファイルを置換(事前にバックアップを作成しておく) 変換手順 変換前のファイルについて、全てバックアップを作成しておきます。 FileCode Checkerのツールを起動 txt、cgi、datなど、旧コードの「shift_jis」で書か

                              旧CGIプログラム(SJIS)をUTF8へ変更する方法
                            • C++(Visual Studio)でUTF-8を扱うための試行錯誤のメモ - Qiita

                              目的 Visual Studio(Windows)を使ってC++のコンソールアプリケーションを開発する際、 ソースファイルの文字コード 出力するときの文字コード プログラム内で扱うデータの文字コード 全てをUTF-8で扱うための試行錯誤をまとめてみることにします。 2022/01/16 : 記事の公開当初は、ISO C++ 20 標準 (/std:c++20)(u8string)を使う予定でした。 しかし、検証した結果、ISO C++ 20 標準 (/std:c++20)は使わずにISO C++ 17 標準 (/std:c++17)を使う事にしました。 なぜならば、mbrtoc8(char -> char8_t) および c8rtomb(char8_t -> char)が実装されていないからです。 環境 Microsoft Visual Studio Community 2022 (3)

                                C++(Visual Studio)でUTF-8を扱うための試行錯誤のメモ - Qiita
                              • UTF-8文字列リテラル - cpprefjp C++日本語リファレンス

                                概要 charの文字列リテラルにu8プレフィックスを付けることで、その文字列リテラルはUCS/Unicode文字コードのUTF-8符号化形式にエンコードされる。 // 変数sには、UTF-8エンコーディングされた「あいうえお」という文字列が代入される char s[] = u8"あいうえお"; // 文字列中にユニバーサルキャラクタ名を直接入力できる。 // \uからはじめて4桁、もしくは\Uからはじめて8桁がユニバーサルキャラクタ名として扱われる。 char t[] = u8"\U00020BB7野家"; // 𠮷野家 u8プレフィックスを指定しない場合は、実装定義のマルチバイト文字コードにエンコードされる。その実装定義の文字コードは、ASCII文字コードと互換があることは保証されない。そのため、UTF-8のASCII互換部分が、実装定義の文字コードと互換があることも、保証されない。

                                • 「Ruby 2.7」に対応した「RubyInstaller」が登場 ~「Ruby」を手軽にWindows環境へ導入/「reline」の採用で「irb」が大幅改善。“UTF-8”のデフォルト化も実施

                                    「Ruby 2.7」に対応した「RubyInstaller」が登場 ~「Ruby」を手軽にWindows環境へ導入/「reline」の採用で「irb」が大幅改善。“UTF-8”のデフォルト化も実施
                                  • テキストファイル(UTF-8)を読み込み、書き出し(ADODB.Stream)

                                    ADO(ActiveX Database Object)の Stream オブジェクト(ADODB.Stream)を使用すると UTF-8 形式のテキストファイルを読み込むことができます。 ADO を使用するには、ライブラリファイルへの参照設定を行う方法と、CreateObject 関数を使う方法があります。 【書式】 <CreateObjects 関数を使用する場合> Dim st As Object Set st = CreateObject(“ADODB.Stream”) <参照設定を行う場合> Dim st As ADODB.Stream Set st = New ADODB.Stream Excel2003 以前では、Microsoft ActiveX Data Objects 2.8 Library を選択します。 Excel2007 以降では、Microsoft Active

                                      テキストファイル(UTF-8)を読み込み、書き出し(ADODB.Stream)
                                    • GitHub - sheredom/utf8.h: 📚 single header utf8 string functions for C and C++

                                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.

                                        GitHub - sheredom/utf8.h: 📚 single header utf8 string functions for C and C++
                                      • [python3] EUC-JPなのにShift-JISの機種依存文字が入っててUTF-8にできなかったときの対策 - Qiita

                                        表題の通りです。 先人が機種依存文字対策に苦心した痕跡がちらりほらり… ※ はしご高とかそういうタイプの機種依存文字はこの記事では扱いません。 環境 Windows 10 Python 3.8.5 スクレイピング:requests 状況(読まなくても良い) 最近 seesaawiki の記事の自サイトへの移植をごそごそとしているのですが。 seesaawikiからスクレイピングでHTMLソースを取得すると、 <meta http-equiv="Content-Type" content="text/html; charset=EUC-JP"> とあって確かに EUC-JP のはずなのに、wikiソース内で「①」のような Shift-JIS の機種依存文字が使えるせいでたまにこれが紛れてくるんです。 で普通に

                                          [python3] EUC-JPなのにShift-JISの機種依存文字が入っててUTF-8にできなかったときの対策 - Qiita
                                        • C# 11 Preview Updates - Raw string literals, UTF-8 and more! - .NET Blog

                                          Azure Developers .NET Day is back on April 30th! Join the .NET community to learn cutting-edge cloud development techniques from experts on cloud services for AI, data, cloud-native, and developer productivity. Elevate your cloud development skills today! Features for C# 11 are coming along nicely! You can check these features out by downloading Visual Studio 17.2 Preview 3 or .NET 7 Preview 3 for

                                            C# 11 Preview Updates - Raw string literals, UTF-8 and more! - .NET Blog
                                          • Haskell with UTF-8

                                            hGetContents: invalid argument (invalid byte sequence) hPutChar: invalid argument (invalid character) commitBuffer: invalid argument (invalid character) Oh no! Bad news: something is wrong. Good news: it is not necessarily an issue with your code, it can be one of the libraries or build tools that you depend on. Yes, really. Haskell tools you are using every day have a problem that can cause this

                                              Haskell with UTF-8
                                            • GitHub - ikorin24/U8XmlParser: Extremely fast UTF-8 xml parser library

                                              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                GitHub - ikorin24/U8XmlParser: Extremely fast UTF-8 xml parser library
                                              • MySQL/MariaDB character sets and collations explained – why utf8 is not UTF-8

                                                MySQL/MariaDB character sets and collations explained – why utf8 is not UTF-8 Jan 3, 2022 · 7 min read Table Of Contents The relationship between character sets and collations always seemed pretty vague to me, let alone the possible impact on performance. So if you are like me and want to know the difference between utf8 and utf8mb4 and why mixed collations are bad for your database performance, r

                                                  MySQL/MariaDB character sets and collations explained – why utf8 is not UTF-8
                                                • 【Rails×MySQL】utf8mb4対応の"encoding"と"charset"の、それぞれの役割について調べた - Qiita

                                                  encodingとcharsetは同じ値を設定していますが、それぞれの役割が分からないので、動作検証とソース確認をしてみました。 結論 ・charsetはどこにも使われていない(ように見える) ・encodingはデータベースおよびシステム変数のcharset関連に適用される(結果としてテーブル・カラムも同様のcharsetになる) 検証環境 Rails: 7.0.4.2 MySQL: 8.0.32 mysql2: 0.5.5 そもそもMySQLでCharset指定できる箇所 MySQLでCharset関連の指定ができる箇所は、以下の4つがあるかと思います。 データベース (例:create database test_database charset utf8mb4;) テーブル (例:create table test_table (name varchar(255)) charset

                                                    【Rails×MySQL】utf8mb4対応の"encoding"と"charset"の、それぞれの役割について調べた - Qiita
                                                  • UTF-8からSJISに変換する時にはShift-JIS系エンコードの種類だけじゃなくてUNICODE正規化も気にしないとダメという話

                                                    UTF-8からSJISに変換する時にはShift-JIS系エンコードの種類だけじゃなくてUNICODE正規化も気にしないとダメという話 利用シーン UTF-8で記述されたテキストをShift-JISエンコードに変換する機会はあります。 UNICODEで表現できる文字の種類の方がShift-JISに比べて圧倒的に広いのですべての文字が変換できるわけではありませんが、「これは変換できてよかろう」というものまでこぼれ落ちるケースは多数あります。 以下こぼれ落ちる例とその対応を示します。 サンプルコード まずはサンプルコード。 rubyで記述していますが、原理はどの言語でも同じです。 str = "あ~あ①髙島屋パバぱ" sjis = str.encode(Encoding::Shift_JIS, :invalid => :replace, :undef => :replace) File.

                                                      UTF-8からSJISに変換する時にはShift-JIS系エンコードの種類だけじゃなくてUNICODE正規化も気にしないとダメという話
                                                    • MySQLの文字コードをutf8mb4に変更 - Qiita

                                                      +--------------------------+----------------------------+ | Variable_name | Value | +--------------------------+----------------------------+ | character_set_client | utf8mb4 | | character_set_connection | utf8mb4 | | character_set_database | utf8 | | character_set_filesystem | binary | | character_set_results | utf8mb4 | | character_set_server | utf8mb4 | | character_set_system | utf8mb4 | | char

                                                        MySQLの文字コードをutf8mb4に変更 - Qiita
                                                      • [CloudFront+S3]HTTPレスポンスヘッダのContent-Typeにcharset=UTF-8を指定する | DevelopersIO

                                                        吉川@広島です。 CloudFront+S3なSPAにLambda@Edge(もしくはCloudFront Functions)でセキュリティに関するレスポンスヘッダを追加する、というのはよくやると思います。 その中で、今回は、 安全なウェブサイトの作り方 - 1.5 クロスサイト・スクリプティング:IPA 独立行政法人 情報処理推進機構 で紹介されている、 HTTPレスポンスヘッダのContent-Typeフィールドに文字コード(charset)を指定する。 に対応してみました。 具体的な危険性は、 HTTPのレスポンスヘッダのContent-Typeフィールドには、「Content-Type: text/html; charset=UTF-8」のように、文字コード(charset)を指定できます。この指定を省略した場合、ブラウザは、文字コードを独自の方法で推定して、推定した文字コードに

                                                          [CloudFront+S3]HTTPレスポンスヘッダのContent-Typeにcharset=UTF-8を指定する | DevelopersIO