並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 16 件 / 16件

新着順 人気順

UTF8の検索結果1 - 16 件 / 16件

  • 話題の「Telnet」電子公告、「平文やんけ」という指摘に応えて「over SSL」版を追加/文字コードも「UTF-8」に、ただし超長文の反論付き【やじうまの杜】

      話題の「Telnet」電子公告、「平文やんけ」という指摘に応えて「over SSL」版を追加/文字コードも「UTF-8」に、ただし超長文の反論付き【やじうまの杜】
    • awkが新しくなる!? 本家AwkがUnicode (UTF-8)とCSV対応に! - Qiita

      はじめに 2023年、長い時を経て awk がとうとう Unicode (UTF-8) と CSV に対応しました 🎉🎉🎉 awk で日本語がうまく扱えない(場合がある)、Excel が出力する CSV ファイルが扱えない(場合がある)、といった問題が解決に向けて一歩に進みます。 去年、本家 awk (One True Awk, nawk) に Unicode サポートが Brian Kernighan の手によって追加されたと話題になった(参照)ことを覚えているでしょうか? Brian Kernighan が誰だか知らない方がいるかもしれないので説明すると、オリジナルの awk の開発者の一人で awk の頭文字、Alfred Aho、Peter Weinberger、Brian Kernighan の一人です。通称「K&R」の「プログラミング言語C」や「プログラミング言語AWK」

        awkが新しくなる!? 本家AwkがUnicode (UTF-8)とCSV対応に! - Qiita
      • RDS Blue/Green Deployments を使ってシュッと utf8mb4 にマイグレーションした話 - カミナシ エンジニアブログ

        こんにちは。ソフトウェアエンジニアの坂井 (@manabusakai) です。 カミナシでは RDB に Amazon Aurora MySQL 2(MySQL 5.7 互換)を使っています(以下 Aurora MySQL と略します)。 ある日、社内の Slack で「𠮷」などの文字列が登録できないのではないかという話が出ました。これを聞いて「あー」と思った方も多いでしょう。 MySQL で有名な UTF-8 の 4 バイト文字問題で、歴史的な理由から MySQL 5.7 以前では utf8 の文字セットは utf8mb4 ではなく utf8mb3 を指しています。 dev.mysql.com カミナシのアプリケーションは 4 バイトの文字列が入力された場合はシステムエラーを返す実装になっていますが、エラーの内容をユーザーにわかりやすく伝えることは難しいためユーザー体験としても良くない

          RDS Blue/Green Deployments を使ってシュッと utf8mb4 にマイグレーションした話 - カミナシ エンジニアブログ
        • みんな忘れてるけど「文字コードというものにはシフトJISとUTF-8などがある」ということを知ってるだけでも世間一般からすればIT専門家である

          嶋田大貴 @shimariso みんな忘れてるけど、「テキストファイルという種類のファイルがあって、その中で使われる文字コードというものにはシフトJISとUTF-8などがある」ということを知ってるだけでも世間一般からすればIT専門家ですよ。 2024-04-02 12:42:01

            みんな忘れてるけど「文字コードというものにはシフトJISとUTF-8などがある」ということを知ってるだけでも世間一般からすればIT専門家である
          • neue cc - UTF8文字列生成を最適化するライブラリ Utf8StringInterpolation を公開しました

            UTF8文字列生成を最適化するライブラリ Utf8StringInterpolation を公開しました 2023-10-13 Utf8StringInterpolationという新しいライブラリを公開しました!UTF8文字列の生成と書き込みに特化していて、動作をカスタマイズした文字列補間式によるC#コンパイラの機能を活用した生成と、StringBuilder的な連続的な書き込みの両方をサポートします。 Cysharp/Utf8StringInterpolation 基本的な流れはこんな感じで、Stringを生成するのと同じように、UTF8を生成/書き込みできます。 using Utf8StringInterpolation; // Create UTF8 encoded string directly(without encoding). byte[] utf8 = Utf8String

            • UTF-8のバリデーションとモノイドと半群

              この記事はUTF-8のバリデーションとオートマトンの続きです。 前回はUTF-8のバリデーションが8状態のオートマトン (DFA) で表現できることを見ました。状態と遷移を擬似コードで書けば次のようになるでしょう: -- 8つの状態 data State = START | TAILx1 | TAILx2 | TAILx3 | A | B | C | D -- 入力バイトに応じて次の状態を返す。次の状態が該当しなかったら Nothing を返す next :: Word8 -> State -> Maybe State +----+----+-----+----+ | a0 | a1 | ... | aN | 8ビット整数列 +----+----+-----+----+ | | | v v v +----+----+-----+----+ | m0 | m1 | ... | mN | モノ

                UTF-8のバリデーションとモノイドと半群
              • UTF-8のバリデーションとオートマトン

                UTF-8は今日の文字エンコーディングの中で最も重要なものと言って差し支えないでしょう。UTF-8の仕様はこの辺で確認できます: Unicode 15.1.0 > 3.9 UTF-8 RFC 3629 - UTF-8, a transformation format of ISO 10646 この記事では、読者はすでにUTF-8にある程度の馴染みがあるものとして、UTF-8のバリデーションの細かいところを考えます。 UTF-8のバリデーションを行うには、以下のことを確かめなければなりません: 最初の1バイトが所定の範囲にあること:ASCII (0x00-0x7F) または0xC2以上。 後続のバイト(たち)が0x80-0xBFの範囲にあること。 長すぎないこと:U+007F以下の文字はちょうど1バイトで表現されていること、U+0080以上U+07FF以下の文字はちょうど2バイトで表現されて

                  UTF-8のバリデーションとオートマトン
                • PEP 686 – Make UTF-8 mode default | peps.python.org

                  PEP 686 – Make UTF-8 mode default Author: Inada Naoki <songofacandy at gmail.com> Discussions-To: Discourse thread Status: Accepted Type: Standards Track Created: 18-Mar-2022 Python-Version: 3.15 Post-History: 18-Mar-2022, 31-Mar-2022 Resolution: Discourse message Table of Contents Abstract Motivation Specification Enable UTF-8 mode by default locale.getencoding() Fixing encoding="locale" option B

                    PEP 686 – Make UTF-8 mode default | peps.python.org
                  • RubyKaigi 2023で "UTF-8 is coming to mruby/c" というタイトルで話しました - Eggshell

                    スライドタイトルは「サンタが街にやってくる」つまり「Santa Claus Is Coming to Town」のもじりでした。 UTF-8がルンルンでmruby/cにやってくる様子を思い浮かべながら決めました。 スライド きっかけ 発表内でも触れましたが、はすみさんにRubyWorldConference2022でmruby/cのUTF-8対応をしませんかと誘われたのがきっかけです。 文字コード好きなひとが来場する情報を事前にTwitterでキャッチしていたので、PicoRubyのUTF-8対応という釣り糸を垂らしたら、うまいこと引っかかりました。 質問タイムのときにちょうどその人が質問してくれて、「ちなみにUTF-8に興味ありません?」と聞いたら「めっちゃあります」とのことで、「じゃあ後ほど打ち合わせしましょう」と公衆の面前で言質をとった次第です。 mruby/cのUTF-8対応は進め

                      RubyKaigi 2023で "UTF-8 is coming to mruby/c" というタイトルで話しました - Eggshell
                    • 不評だった「KEN_ALL.CSV」大幅改善で話題に。代替となる住所CSVデータを日本郵便が公開、カナ全角化・レコード統合・UTF-8導入など【やじうまWatch】

                        不評だった「KEN_ALL.CSV」大幅改善で話題に。代替となる住所CSVデータを日本郵便が公開、カナ全角化・レコード統合・UTF-8導入など【やじうまWatch】
                      • yokuさんにutf8→utf8mb4binのときに教えてもらった便利Tips

                        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                          yokuさんにutf8→utf8mb4binのときに教えてもらった便利Tips
                        • Haruhiko Okumura on Twitter: "これはおもしろい。UTF-8とChatGPTのトークン: 視覴 e8 a6 96 e8 a6 b4 |25038|244|25038|112| 視覚 e8 a6 96 e8 a6 9a |25038|244|25038|248| 視聴 e8 a6 96 e8 81 b4 |25038|244|36735|112| 「覚」の前半と「聴」の後半がくっついたみたい"

                          • You can't just assume UTF-8

                            Humans speak countless different languages. Not only are these languages incompatible, but runtime transpilation is a real pain. Sadly, every standardisation initiative has failed. At least there is someone to blame for this state-of-affairs: God. It was him, after-all, who cursed humanity to speak different languages, in an early dispute over a controversial property development. However, mankind

                              You can't just assume UTF-8
                            • API Gateway(REST API)とLambda(Python)でBOM付きUTF8なCSVをレスポンスする方法

                              API Gateway(REST API)とLambda(Python)の構成で、LambdaでBOM付きUTF8のCSVを作成して、API Gateway経由でCSVをレスポンスする方法を記載します。 BOM付きUTF8とすることで外字が文字化けしないCSVをAPI Gateway経由でダウンロードできます。 やること AWSの構成はAPI GatewayとLambda 使用する言語はPython 外字が文字化けしないCSVをダンロードできるようにする →BOM付きUTF8とすることで文字化け対策ができます。 Lambdaの作成 以下のソースコードでLambdaを作成します。 def lambda_handler(event, context): body_str = """column1,column2 "㐂","昱" """ return { 'statusCode': 200, '

                                API Gateway(REST API)とLambda(Python)でBOM付きUTF8なCSVをレスポンスする方法
                              • Haruhiko Okumura on Twitter: "これはおもしろい。UTF-8とChatGPTのトークン: 視覴 e8 a6 96 e8 a6 b4 |25038|244|25038|112| 視覚 e8 a6 96 e8 a6 9a |25038|244|25038|248| 視聴 e8 a6 96 e8 81 b4 |25038|244|36735|112| 「覚」の前半と「聴」の後半がくっついたみたい"

                                • Decoding UTF8 with Parallel Extract

                                  Decoding UTF8 with Parallel Extract 23 Mar 2024 As a side-quest I recently decided to write a branchless utf8 decoder utilizing the pext or "parallel extract" instruction. It's compliant with rfc-3629, meaning that it doesn't just naively decode the code-point but also checks for overlong encoding, surrogate pairs and such. Compiled with gcc -O3 -march=x86-64-v3 the entire decoder results in just

                                  1