並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 19 件 / 19件

新着順 人気順

エンコーディングの検索結果1 - 19 件 / 19件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

エンコーディングに関するエントリは19件あります。 プログラミング文字コードprogramming などが関連タグです。 人気エントリには 『Python 3.15からデフォルトのエンコーディングがUTF-8になります - methaneのブログ』などがあります。
  • Python 3.15からデフォルトのエンコーディングがUTF-8になります - methaneのブログ

    Pythonがファイルを開くときなどに使われるエンコーディングはロケール(WindowsではANSIコードページ)依存でした。 Unixの世界ではどんどんUTF-8ロケールが一般的になっている一方、WindowsのANSIコードページはなかなかUTF-8になりません。 そのために、Unixユーザーが open(filepath) のようにエンコーディングを指定しないままUTF-8を仮定するコードを気軽に書いてしまって、Windowsユーザーがエラーで困るといった問題が発生します。 また、Windowsでもメモ帳(Notepad.exe)やVSCodeはすでにUTF-8をデフォルトのエンコーディングで使用しています。ANSIコードページがUTF-8になるのを待っていたらどんどん周りの環境から置いていかれ、レガシー化してしまいます。 Pythonがデフォルトで利用するエンコーディングをWind

      Python 3.15からデフォルトのエンコーディングがUTF-8になります - methaneのブログ
    • 文字エンコーディングの検出方法

      こんにちは、技術開発室の滝澤です。 最近(2021年春)、Go言語でメールパーサーを書く機会があり、備忘録的な意味でも知見をまとめておこうかなと思い、この記事を書きました。 メールパーサーを書いていて考慮しないといけないことの一つは、文字エンコーディング(charset)が正しく指定されていないメールがときどきあることです。 MIME(Multipurpose Internet Mail Extensions)関連のインターネット標準であるRFCが公開された1990年代や世間一般にインターネットメールが利用され始めた2000年代初期ならともかくとして、2021年にもなってまだその点を考慮しないといけないのはなかなかつらいことです。 そのようなメールを取り扱うときには、文字エンコーディングの検出を行う必要があります。本記事ではその文字エンコーディングの検出方法について書いてみました。 なお、

      • MIMEヘッダエンコーディングは複雑すぎてつらい / MIME header encoding is hard

        プロトタイピングによる不確実性の低減 / Reducing Uncertainty through Prototyping

          MIMEヘッダエンコーディングは複雑すぎてつらい / MIME header encoding is hard
        • PythonのデフォルトエンコーディングをUTF-8にするために - methaneのブログ

          Python がテキストファイルを開く時のデフォルトエンコーディングがUTF-8でないことは、多くのWindowsユーザー、特にプログラミング初心者にとって障害になっています。 UnicodeDecodeError で検索すると、多くのWindowsユーザーが問題に遭遇しているのがわかります。 https://qiita.com/Yuu94/items/9ffdfcb2c26d6b33792e https://www.mikan-partners.com/archives/3212 https://teratail.com/questions/268749 https://github.com/neovim/pynvim/issues/443 https://www.coder.work/article/1284080 https://teratail.com/questions/2713

            PythonのデフォルトエンコーディングをUTF-8にするために - methaneのブログ
          • OpenAI 言語モデルごとのエンコーディング一覧

            はじめに 本家 OpenAI や Azure OpenAI Service で利用できる各言語モデルで使われているエンコーディングについて情報をまとめました。 エンコーディングとは OpenAI の言語モデルにおけるエンコーディングとは、テキストがトークンに変換される際の (トークナイズされる際の) ルールのようなものです。モデルによって使われるエンコーディングは異なります。 エンコーディングの種類 下記 3 種類のエンコーディングが存在しています。ただし、gpt-3.5-turbo 以降の全てのモデルで cl100k_base が使われていて、これが現在の主流になっています。一方で p50k_base と r50k_base (gpt2) は現在では非推奨の古いモデルでしか使われていません。 cl100k_base p50k_base r50k_base (gpt2) 確認方法 エンコー

              OpenAI 言語モデルごとのエンコーディング一覧
            • つくって学ぶ Protocol Buffers エンコーディング | メルカリエンジニアリング

              Wire type は実際の型を示しているわけではないことに注意してください。Wire type はあくまでも値を読み取るための手がかりにすぎないため、読み取った値をどの型にするべきか知るためには descriptor を参照しなければいけません。 タグは次のようなロジックでエンコードされます。 fieldNumber << 3 | wireType たとえばフィールド foo の場合、フィールド番号は 1、Wire type は 0 なので 08 となります。これはエンコードされたバイト列の先頭バイトと一致しています。 fieldNumber := 1 wireType := 0 tag := fieldNumber<<3 | wireType fmt.Printf("%x", tag) // 08 タグの直後にはそのフィールドに対応する実際の値が続きます。 Wire type に基づい

                つくって学ぶ Protocol Buffers エンコーディング | メルカリエンジニアリング
              • tomo-makes on Twitter: "動画エンコーディングが分かるとても良い解説記事。 YouTubeなどで何気なくお世話になる動画圧縮。 非圧縮なら140GBもの映像(720p, 1時間)が、なぜ360MB程(たった0.02%!)になるのか? 丁寧に、順を追った… https://t.co/6o3SvQaQGj"

                動画エンコーディングが分かるとても良い解説記事。 YouTubeなどで何気なくお世話になる動画圧縮。 非圧縮なら140GBもの映像(720p, 1時間)が、なぜ360MB程(たった0.02%!)になるのか? 丁寧に、順を追った… https://t.co/6o3SvQaQGj

                  tomo-makes on Twitter: "動画エンコーディングが分かるとても良い解説記事。 YouTubeなどで何気なくお世話になる動画圧縮。 非圧縮なら140GBもの映像(720p, 1時間)が、なぜ360MB程(たった0.02%!)になるのか? 丁寧に、順を追った… https://t.co/6o3SvQaQGj"
                • なぜHTTPS接続時しかBrotliエンコーディングを要求しないのか? | DevelopersIO

                  BrotliはHTTP圧縮を強く意識したデータ圧縮形式です。 Brotliの動作確認時にハマりがちなのが、主要ブラウザはHTTPS接続時しかBrotliエンコーディングを要求しないことです。 理由は、通信を暗号化することで、ミドルボックスがデータを書き換えられないようにするためです。 解説 HTTP通信時に、deflate・gzip以外のContent-Encodingを受け取ったミドルボックスの中には、元のエンコーディングを無視してgzipエンコードするものが存在します。 SDCHエンコーディング *1をChromeで展開する際にGoogleはこの問題に遭遇し、Content-Encoding: gzipを頼りにgzipデコードしてもうまくいかないときは、そこからさらにSDCHデコード(Content-Encoding: sdch,gzipでしょうか?)するといった涙ぐましいハックで対応

                    なぜHTTPS接続時しかBrotliエンコーディングを要求しないのか? | DevelopersIO
                  • ミュージック ビデオのエンコーディングの仕様 - YouTube ヘルプ

                    推奨はしていませんが、YouTube では圧縮音声を利用できます。YouTube では、音声は送信された形式からトランスコードされます。損失のある形式から再圧縮した場合と比べると、無損失の形式からトランスコードした方が音質ははるかに良くなります。 圧縮音声を送信しなければならない場合は、次の仕様にしてください。 コーデック: AAC-LC サンプルレート: 44.1 kHz ビットレート: チャンネル 2 つで 320 kbps 以上(高いほど良い。256 kbps も可) チャンネル数: 2(ステレオ)

                    • UTF-8エンコーディングされた文字の型として`char8_t`を追加 - cpprefjp C++日本語リファレンス

                      #include <iostream> template<typename> struct ct; template<> struct ct<char> { using type = char; }; int main() { const auto *u8s = u8"text"; // u8sの型はC++17まではconst char *だったが、C++20からはconst char8_t *になる const char *ps = u8s; // C++17までは適格だったがC++20からは不適格 const auto *u8rs = u8R"(text)"; // u8rsの型はC++17まではconst char *だったが、C++20からはconst char8_t *になる const char *prs = u8rs; // C++17までは適格だったがC++20からは不適格

                      • MailKitの使い方! エンコーディング指定や添付ファイをメールで送信する方法[C#/VB Tips]

                        MailKitの使い方! エンコーディング指定や添付ファイをメールで送信する方法[C#/VB Tips] 2021年2月10日水曜日 C# MailKit VB MailKitを使ってメールを送るサンプルコードです。(C#)MailKitでメールを送るサンプルです。 UTF8/iso-2022-jpのエンコーディング指定、GMail/YahooのSMTPサーバで送るなど、4つのサンプルコードでMailKitの使い方を紹介します。 スポンサーリンク MailKitって何? ** 2017年に.NET標準のSystem.Net.Mail.SmtpClientが廃止予定となり、Microsoftより、今後はオープンソースライブラリである、MailKitに置き換えるとアナウンスがありました。 既に現在では、SmtpClientは非推奨にとなっており、今後は廃止されていきます。現在、SmtpClie

                          MailKitの使い方! エンコーディング指定や添付ファイをメールで送信する方法[C#/VB Tips]
                        • 特殊なエンコーディングには気をつけよう Apache Tapestryにおける“注意すべき仕様”

                          「Apache Tapestryの​注意すべき特殊な仕様」というタイトルで登壇したのは、諌山貴由氏。「おもしろかった脆弱性」について解説し合い、脆弱性に関する知識を深めるためのイベント「Security․Tokyo #2」で、Apache Tapestry特有の仕様について説明しました。 登壇者の自己紹介 諌山貴由氏:始めたいと思います。最初に自己紹介です。私は、諌山貴由といいます。三井物産セキュアディレクションに所属しています。2008年ぐらいからセキュリティに関わる仕事を行っていまして、趣味は旅行です。 私はふだんWebアプリケーション診断を行っています。今回はその中で見つかった特殊な事例を紹介したいと思います。MBSD(三井物産セキュアディレクション)では定期的にライトニングトークを開催していて、日々の業務などで得た知見をチーム内に共有するという取り組みを行っています。今回の内容は、

                            特殊なエンコーディングには気をつけよう Apache Tapestryにおける“注意すべき仕様” 
                          • Goの固定長/可変長エンコーディングを理解する

                            この記事では、標準の encoding/binary パッケージを使ってカスタムフォーマットに従ってバイナリエンコーディングする方法と、その仕組みについて解説します。 はじめに プログラム上で扱うデータ構造をネットワークやファイルに書き込む際は、何らかのフォーマットに従って自己完結したバイト列へとエンコードする必要があります。 プロセス間でデータをやりとりする場合は通常、言語非依存な標準化されたフォーマットを利用します。 しかし、多くの標準化されたフォーマットは冗長すぎる傾向にあります。Protocol BufferやApache Thriftはバイナリエンコーディング形式なので、テキストフォーマットと比べるとはるかにサイズを小さく出来ますが、これらは専用のスキーマを定義することが必須です。一つのプロセスからしかアクセスしないようなケースなど、Go言語特有のフォーマットでエンコードしたくな

                              Goの固定長/可変長エンコーディングを理解する
                            • macOS 10.15.4 Catalinaでは日本語エンコーディングを含んだzipファイルが、エラー22で解凍できない問題がようやく修正。

                                macOS 10.15.4 Catalinaでは日本語エンコーディングを含んだzipファイルが、エラー22で解凍できない問題がようやく修正。
                              • GCCでのエンコーディング指定方法 | menonfled

                                こんにちは、めのんです! 昨日の「文字の正体は整数値」の中で少し触れた、GCCでコンパイルオプションを使ってソース文字集合と実行文字集合を指定する方法について今回はご紹介することにします。 実際には文字集合というよりは文字のエンコーディングを指定する方法なんですけどね。 具体的なコンパイルオプションをご紹介する前に、GCCのデフォルトのエンコーディングについてお話ししておく必要がありますね。 コンパイルオプションで何もしていしなければ、ソースファイルのエンコーディングも実行プログラムが使用するエンコーディングもUTF-8になります。 ソースファイルの先頭にBOM(バイトオーダーマーク)があってもなくてもかまいませんが、いろいろな処理系との互換性を考えると付けておいた方がいいかもしれません。 次にエンコーディングを明示的に指定するためのコンパイルオプションをご紹介します。 ソースコードのエン

                                  GCCでのエンコーディング指定方法 | menonfled
                                • Transformerにおける相対位置エンコーディングを理解する。 - Qiita

                                  自然言語処理を中心に近年様々な分野にて成功を納めているTransformerでは、入力トークンの位置情報をモデルに考慮させるために「positional encoding(位置エンコーディング)」と呼ばれる処理が必要になります。 この位置エンコーディングは通常、トークン系列の開始時点を基準とした絶対的な位置情報を埋め込みます。 しかし、タスクによってはトークンの絶対的な位置ではなくトークン間の相対的な位置関係をモデルに考慮させたい場合もあると思います。 そういった需要に応えるため、トークン間の相対的な位置を考慮した位置エンコーディング技法(relative position representation)がShawら(2018)により初めて提案され、Chengら(2018)により若干の定義変更とアルゴリズムの効率化がなされました。 本記事は、従来のSelf-Attention機構と位置エン

                                    Transformerにおける相対位置エンコーディングを理解する。 - Qiita
                                  • Goの構造体のバイナリエンコーディングを速くしたい - HRBrain Blog

                                    この記事は HRBrain Advent Calendar 2021 2日目の記事です。 qiita.com はじめに Goで構造体をバイナリエンコーディングする際、大抵は encoding/json か encoding/gob を使うと思います。 以下の記事を読んで、標準の encoding/binary パッケージを使えば任意の構造体のエンコード・デコード処理を自前で書けることを知りました。 zenn.dev 構造体のエンコード・デコード処理を自前で書くとどれくらい速くなるのか気になったので試してみました。 単純にreflectionを使わない分速くなりそうです。自前で書いたエンコード・デコードのパフォーマンスを、 encoding/json encoding/gob と比較してみます。 ※最初に言っておきますが実用性は殆ど無いと思います。 型ごとのエンコード・デコード方法 int

                                      Goの構造体のバイナリエンコーディングを速くしたい - HRBrain Blog
                                    • One-HotエンコーディングならPandasのget_dummiesを使おう

                                      特徴量処理(特徴量エンジニアリング)でよく使う処理として、「A,B,C」「1,2,3」といったカテゴリー変数をOne-Hotベクトル化するというのがあります。SkelarnのOneHotEncoderでもできますが、Pandasのget_dummies()を使うと、もっと統合的にすることができます。それを見ていきましょう。 One-Hotエンコーディングとは One-Hot、つまり1つだけ1でそれ以外は0のベクトル(行列)を指します。経済学や統計学では「ダミー変数」と呼ばれることもあります。One-Hotエンコーディングもダミー変数もやっていることはほとんど同じで、カテゴリー変数を0,1の変数に変換して、学習器が学習しやすい形に変換しているということです。 例えば次のようなクラス変数があったとしましょう。0,1,2はクラス0に属する、クラス1に属する、…を表します。 >>> X=np.ar

                                        One-HotエンコーディングならPandasのget_dummiesを使おう
                                      • macOS Catalinaで特定のエンコーディングを含んだzipファイルが、アーカイブユーティリティで解凍できない問題は「macOS 10.15.3 Catalina」でも修正されていないので注意を。

                                          macOS Catalinaで特定のエンコーディングを含んだzipファイルが、アーカイブユーティリティで解凍できない問題は「macOS 10.15.3 Catalina」でも修正されていないので注意を。
                                        1

                                        新着記事