並び順

ブックマーク数

期間指定

  • から
  • まで

281 - 320 件 / 395件

新着順 人気順

文字化けの検索結果281 - 320 件 / 395件

  • PHP 8.1以降のmb_convert_encodingなどでSJISに変換するとバグる文字がある - てきとうなさいと。べぇたばん

    TOP > てきとうにこらむ > ゲーム作りとプログラミング日記 > PHP 8.1以降のmb_convert_encodingなどでSJISに変換するとバグる文字がある バグ報です。mb_convert_encoding などを使ってSJISへ変換しようとする際に、チルダとバックスラッシュを変換しようとすると全角へと変換されます。PHP 8.1以降で再現します。php-srcには報告済みです。 mb_convert_encoding("~", "SJIS", "UTF-8"); https://github.com/php/php-src/issues/8281 このチケットがclosedされたバージョンが公開されたらこの記事のとおりにならなくなるかもしれないことに注意してください(推奨される対策は有効だと思う)。 推奨される対策 じゃあどうすればいいの?から見たい方のために先に対策を述

    • 文字化けを変換してくれるサイトまとめ

      サイトを開いたら突然文字化けが起きて困った、という経験がある人も少なくないでしょう。最近では文字コードにUnicodeが使われることが増えてきたために、文字化けに遭遇することも増えているようです。 大切なことが書かれているメールが文字化けしてしまった時に、送り直してもらっても解決しない場合や、解読方法がわからない場合、手軽に文字化けを変換できるサイトがあるととても便利です。 そこで今回は、いくつか文字化け変換サイトを紹介します。用途ごとに使い分けることが出来るので、それぞれの用途にあったものを試してみてください。 MIME Header Decode Service メールの宛名や題名に見られる文字化けを解消してくれるサイトです。文字化けしたSubjectやFromを貼り付けるだけで簡単に変換することが可能です。枠が短いため、無理にメール本文を貼り付けることは難しいです。 MIME Hea

      • MJ文字情報一覧 | 一般社団法人 文字情報技術促進協議会

        文字情報技術促進協議会は、文字情報基盤 文字情報一覧表(MJ文字情報一覧表) をクリエイティブ・コモンズ 表示 – 継承 2.1 日本 ライセンスによって提供しています。利用に際してはIPA の著作物であることを明記してください。なお、本成果物の内容を適用した結果生じたこと、また、適用できなかった結果について、文字情報技術促進協議会は一切の責任を負いませんのでご了承ください。 MJ文字情報一覧表リリース履歴はこちら。

        • VBAでファイルの文字コード判定を行う

          何故かVBAに無い「文字コード判定」 Microsoft Excel では、[データ]→[テキスト ファイル]と選んでいって、ファイルを選択すると文字コードの判定を自動でしてくれます。 この判定がVBAから利用できれば便利なのに、VBAにはその命令がありません。 関数を追加する そこで、文字コード(文字エンコード)を判定する関数を作成してみました。 VBAのエディタを開いたら、プロジェクト エクスプローラーで右クリック→[挿入]→[標準モジュール]として、以下を貼り付けてください。 Option Explicit 'fncGetCharset Ver1.6 @popozure Function fncGetCharset(FileName As String) As String Dim i As Long '汎用指数 Dim lngFileLen As Long 'ファイルサイズ Dim

            VBAでファイルの文字コード判定を行う
          • Word Macro Source Code : 文書中の康煕部首文字を正常文字に置き換える

            Word Macro Source Code : 文書中の康煕部首文字を正常文字に置き換える「置換」コマンドを連続して実行させる、実務に役立つWordのマクロの完全なソースコードを公開しています。学習目的でもOKですので、ご自由にお使いください。問題発生機序と本記事プログラムの守備範囲問題は次の順序で進んでいく1.メイリオフォントで文書を作成する2.この文書をPDFファイル化する。この変換時点で根本問題が発生する。3.Acrobat ReaderでこのPDFファイルを開き、康煕部首文字を「検索」してみる。例えば、文書内に「高」の文字を視認できれば、その「高」を「検索」してみる。ヒットしないことを確認する4.Acrobat Readerで、文字データを「コピー」する5.ワープロアプリWordの文書に「貼り付け」る6.Wordの「検索」コマンドで、康煕部首文字(例えば、「高」という文字)を「

              Word Macro Source Code : 文書中の康煕部首文字を正常文字に置き換える
            • 国語の文字コードの新版が発表 あまり使わない漢字約1万7000字を追加

              文字コードのGB規格(中国国家標準)である新版「情報技術中国語文字コードセット」(GB 18030-2022)が2023年8月1日から正式に実施される。収録されている漢字は8万7887字で、旧版よりも中国の常用外漢字1万7000字以上が追加され、人名や地名に使われている常用外漢字及び文献やテクノロジーといった専門分野の文字などをほとんどカバーしており、各種使用の需要を満たすことができるほか、中華文化を伝承し、中国語の情報処理能力を増強し、氏名に常用外漢字を使用している人々の需要に、標準という角度から力強い保障を提供している。人民日報が報じた。 GB 18030は、中国が独自に研究・制定した漢字をメインとしており、中国の少数民族の文字10種類を含む超大型中国語文字コードセットの国家標準で、中国語の情報システムにおける各種機能の基礎となっている。中国語の情報システムにおける各種機能の基礎を築い

                国語の文字コードの新版が発表 あまり使わない漢字約1万7000字を追加
              • さくらVPSのOSをCentOS 8に更新、さらにRedmineを4.1に更新(続々々々) - torutkのブログ

                さくらVPSのOSをCentOS 8に、Redmineを4.1に更新、の続き(5日目) 既に対処が終わっている内容ですが、以下の続きです。 torutk.hatenablog.jp MariaDBの文字コードを、utf8mb4に設定しました。これはUTF-8で1~4バイトの範囲を扱える設定です。一方、MariaDBで文字コードをutf8とした場合は、UTF-8で1~3バイトの範囲(基本プレーン)しか扱えません。utf8のデータベースに、例えばUTF-8で4バイトで表現される絵文字をWikiに記載し保存しようとするとエラーとなってしまいます。 ここで、今回の更新で起きた問題は、RedmineのこれまでのデータベースはMySQLのutf8で作成したものを移行してきたことに起因するものです。具体的には、新たにMariaDBの文字コードをutf8mb4に設定してもデータベース(テーブル)はutf8

                  さくらVPSのOSをCentOS 8に更新、さらにRedmineを4.1に更新(続々々々) - torutkのブログ
                • 完全な絵文字リスト (◕‿◕) SYMBL

                  このウェブサイトのすべての絵文字や記号の画像は情報のためにのみ使用され、権利は作者に帰属しており、作者の許可なしに商業目的で使用することはできません。 すべての記号の名前は公式の Unicode® 名です。リストされたコードポイントは Unicode 規格の一部です。 © SYMBL 2012—2024 Ex: Unicode キャラクター図鑑

                    完全な絵文字リスト (◕‿◕) SYMBL
                  • 寿司ビール問題について、問題の本質と解決法を解説! - Search Bank

                    MySQLは、オープンソースのリレーショナルデータベース管理システム(いわゆる「データベース」)で、WordPressやphpBBなどのWebアプリケーションで利用されています。FacebookやTwitter、Youtubeなど多くの有名なWebサイトでも使用されている。 MySQLでは、UTF-8の文字列を扱うutf8というcharacter-set(文字集合)がありますが、1バイトから3バイトまでの文字しか扱うことができません。絵文字のような、4バイトのUTF-8文字を扱う場合はutf8mb4を指定する必要があります。utf8mb4にすることで、絵文字をデータベースに登録・参照することができます。 これでオッケーと思いきや、照合順序(Collation)という壁が現れます。デフォルトの照合順序は utf8mb4_general_ci となっています。ただし、この utf8mb4_ge

                      寿司ビール問題について、問題の本質と解決法を解説! - Search Bank
                    • unzipコマンドで日本語が文字化けした際の文字コード指定 - Qiita

                      Register as a new user and use Qiita more conveniently You get articles that match your needsYou can efficiently read back useful informationYou can use dark themeWhat you can do with signing up

                        unzipコマンドで日本語が文字化けした際の文字コード指定 - Qiita
                      • 「ひらがなは2バイトで表す」「せやろか」大激論が勃発

                        前提条件ははっきりさせましょうという話でもあり。 まとめ主は漠然とひらがな=2バイトと思い込んでいたのでためになりました。

                          「ひらがなは2バイトで表す」「せやろか」大激論が勃発
                        • lina on Twitter: "Linuxユーザー ・気品がある ・センスいい ・優しい ・イケメン&美女 ・ロマンがある ・賢い ・人生勝ち組 Windowsユーザー ・豌怜刀縺後≠繧具シ ・繧サ繝ウ繧ケ縺?>? ・蜆ェ縺励>? ・窶ェ繧、繧ア繝。繝ウ??鄒… https://t.co/DyniKt5qN4"

                          Linuxユーザー ・気品がある ・センスいい ・優しい ・イケメン&美女 ・ロマンがある ・賢い ・人生勝ち組 Windowsユーザー ・豌怜刀縺後≠繧具シ ・繧サ繝ウ繧ケ縺?>? ・蜆ェ縺励>? ・窶ェ繧、繧ア繝。繝ウ??鄒… https://t.co/DyniKt5qN4

                            lina on Twitter: "Linuxユーザー ・気品がある ・センスいい ・優しい ・イケメン&美女 ・ロマンがある ・賢い ・人生勝ち組 Windowsユーザー ・豌怜刀縺後≠繧具シ ・繧サ繝ウ繧ケ縺?>? ・蜆ェ縺励>? ・窶ェ繧、繧ア繝。繝ウ??鄒… https://t.co/DyniKt5qN4"
                          • 1文字が2文字になる?toCharArrayメソッドの罠 - Qiita

                            はじめに 以下は、@tak777 さんの【Java】文字列を一文字ずつ切り出しする方法という記事に書かれた、@saka1029 さんの以下のコメントです。 Javaのchar型は16ビットですが、Unicodeの文字集合の符号空間は0x0から0x10FFFFで16ビットを超えます。 Javaは内部コードとしてUTF-16という符号化方式を採用していて、16ビットを超える文字はchar2個で1文字を表現します。 例えば「𩸽(ほっけ)」のUnicode番号は0x29E3Dであり、Javaでは0xD867と0xDE3Dの連続した2個のcharから構成されます。 記事にあるコードでは1文字の半分を切り出してしまう可能性があることに注意する必要があります。 このコメントを読んで、サロゲートペアを用いて表された文字だとtoCharArrayメソッドがどのような結果になるのかが気になったので、実際に検

                              1文字が2文字になる?toCharArrayメソッドの罠 - Qiita
                            • zip ファイル解凍時の文字化けに関する情報 - Cube Lilac

                              CubeICE の利用動機の一つとして Mac などで作成された zip ファイルを解凍する際に文字化けしない と言うものが挙げられます。この記事では、なぜ文字化けが発生するのかと言う基本的な情報から、Windows における主要な解凍ソフトの対応状況までを簡単に紹介していきます。 必ずしも UTF-8 の zip ファイル解凍時に文字化けする訳ではない Mac で作成された zip ファイルを Windows で解凍すると文字化けする原因は、Mac (Windows 以外) で採用されている文字コードが UTF-8 なので、日本語用 Windows で採用されている Shift_JIS (CP932) と異なるからと言われます。ただ、Windows 標準の解凍機能を用いた場合でも、必ずしも UTF-8 の zip ファイルで文字化けする訳ではありません。例えば、CubeICE には UT

                                zip ファイル解凍時の文字化けに関する情報 - Cube Lilac
                              • 【Ubuntu 16.04 LTS Server】日本語表示が文字化けする対応

                                前の記事で、Ubuntu 16.04 LTS Serverを、日本語を選択してインストールしたのだが、「◆◆◆・・・・」などの文字が表示された^^;。 Ubuntuサーバの日本語対応は「他のパソコンからリモートでサーバーに接続したとき、ロケールが日本語になっていれば、そちらのパソコン側では日本語を表示できる」というもの(参考1.参照) すなわち、サーバ本体のコンソールでは英語で使って、他のパソコンからSSHやTelnetで接続して使う場合には日本語にする事もできるよ!という意味らしい。 .bashrc の設定 そこで、下記を ~/.bashrc に追記することで対処する。(参考2.参照) case $TERM in linux) LANG=C ;; *) LANG=ja_JP.UTF-8;; esac $TERMの環境変数には、端末(ターミナル)の名称が入っているのでそれで判別する。サーバ

                                  【Ubuntu 16.04 LTS Server】日本語表示が文字化けする対応
                                • pythonのchardetにて文字コード判別がNoneになる。

                                  Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

                                    pythonのchardetにて文字コード判別がNoneになる。
                                  • Windows アプリで UTF-8 コード ページを使用する - Windows apps

                                    UTF-8 文字エンコードを使って Web アプリと他の *nix ベースのプラットフォーム (Unix、Linux など) との最適な互換性を確保し、ローカライズのバグを最小限に抑え、テストのオーバーヘッドを減らします。 UTF-8 は国際化のためのユニバーサル コード ページであり、Unicode 文字セット全体をエンコードすることができます。 Web では広く使われており、*nix ベースのプラットフォームではデフォルトとなっています。 プロセス コード ページを UTF-8 に設定する Windows バージョン 1903 (2019 年 5 月の更新プログラム) 以降、パッケージ化されたアプリの場合は appx マニフェスト、パッケージ化されていないアプリの場合は fusion マニフェストの ActiveCodePage プロパティを使って、プロセスのコード ページとして UT

                                      Windows アプリで UTF-8 コード ページを使用する - Windows apps
                                    • ユニコードと ASCII や EBCDIC など以前の規格との関係

                                      ユニコード規格は、他の規格にとって利点があります。ユニコードは、グローバル・アプリケーションの文字データの処理に伴う複雑さを軽減することができます。 限定されたプラットフォームを基にした標準の発展最新コンピューター・システムの文字データの表現は、グローバル・アプリケーションの要件によっては、かなり複雑なものになります。この複雑さの原因の 1 つは、このデータの処理方式が、初期のそれほど複雑でなかった環境やハードウェア・プラットフォーム向けの方式から展開されてきたことにあります。 実際に、当時のシステムの文字エンコード方式は、Telex (TTY) 端末やパンチ・カード・テクノロジーなど、特定の装置の機能上の必要性から導き出されていました。たとえば、削除文字 (ASCII 値の x'7F') は、パンチ・カードの 1 列の穴をすべてパンチして、その列は無視する必要があることを示すために必要で

                                      • ChromeOS(Chromebook)でおすすめのテキストエディター4選

                                          ChromeOS(Chromebook)でおすすめのテキストエディター4選
                                        • Snowflake 不正な UTF-8 シーケンス 完全攻略ガイド

                                          筆者 @indigo13love は Snowflake で Principal Cloud Support Engineer をやっていますが、この記事は個人的な記事であり、所属企業の意見などは含まれておりません。 はじめに Snowflake 上でサポートされている唯一の文字符号化方式は UTF-8 です。 すなわち、Snowflake 上のすべての文字列 (VARCHAR 型値) は UTF-8 として正しいバイトシーケンスである必要があります。 しかし、例えばインポートしようとしているログを書き出すときにプロセスが異常終了してしまって文字の途中で切れてしまったなど、UTF-8 として完全でないバイトシーケンスが混入することがあります。 今回は Snowflake 上でそんな不正な UTF-8 シーケンスが発生したときに、どう対処するべきかという話をします。 サンプル 今回はサンプル

                                            Snowflake 不正な UTF-8 シーケンス 完全攻略ガイド
                                          • 日本語ZIPを解凍して文字化けする際の対処方法 – NecoTech

                                            日本語環境で作成したZIPを英語環境のWindowsで解凍する場合、中の日本語のファイル名またはフォルダー名が文字化けになる時があります。 解決案 7z をダウンロードしインストールするコマンドライン(Command Line)で以下を実行する <7zのインストールパス>/7z.exe x -mcp=932 <解凍ファイル> “7zのインストールパス” は通常 C:\Program Files\7-Zip となりますmcp=932 は日本語コードページを使うという指定です 実行例 C:\Downloads>"C:\Program Files\7-Zip\7z.exe" x -mcp=932 MyFile.zip

                                            • PC版 Chrome / Firefox でWebページのエンコーディング変更 - Palm84 某所の日記

                                              ちょっと面倒なのでカスタマイズしてみた。 目次 about Chrome Firefox about 自作テキスト(スクリプト)ファイルを Google ドライブ + DriveToWeb に置いたんですが、Shift_JIS なのでブラウザで開くと文字化けしてしまうんですよね... 一例 : Create_MD5_SHA1_memo-sendto.vbs.txt 使う分には問題ないのでいいかなと思いつつ、エンコード変更についてちょっと調べてみました。 Chrome は設定メニューにないので拡張機能を追加 Firefox はメニューにあるけど辿るのが面倒なので、ツールバーボタンを追加 参考リンク : 文字化けに対応するためのエンコード設定 - Google Merchant Center ヘルプ Chrome テキストエンコーディング - Chrome ウェブストア コンテキストメニューに

                                                PC版 Chrome / Firefox でWebページのエンコーディング変更 - Palm84 某所の日記
                                              • 私用領域を使って UTF-8 エンコードされた文字列にバイナリを埋め込む術 - hsjoihs’s diary

                                                「ソースコードにアスキーアートや罫線文字使って図を頑張って書いて埋め込むのってめんどいことがあるよね」「どうして人類はプレーンテキストに画像も埋め込めるようにしておかなかったんだろうな」みたいなことを考えていたら、「私用領域を使って UTF-8 エンコードされた文字列にバイナリを埋め込もうとしたらどうなるかな」という発想に至った。ということで考えてみよう。 私用領域とは https://www.unicode.org/versions/Unicode15.0.0/ch23.pdf によれば、私用領域 (private use area) とは Private Use Area: U+E000–U+F8FF The primary Private Use Area consists of code points in the range U+E000 to U+F8FF, for a tot

                                                  私用領域を使って UTF-8 エンコードされた文字列にバイナリを埋め込む術 - hsjoihs’s diary
                                                • Unicode文字列処理

                                                  https://edge.connpass.com/event/161663/ にて登壇。 今現在、Unicodeという文字規格には13万個以上の文字が収録されています。それぞれの文字には文字のカテゴリー、文字と文字の連結方法、左右どちらから読むかなど、様々な付帯情報も定められています。英語でドキュメントがあり、例えばアラビア語を読めなくてもアラビア文字のレンダリング処理を書ける程度には詳細な仕様が書かれています。 本セッションでは、このUnicodeの仕様の概要と、それをプログラム(主にUnity上でのC#を想定)的に処理する際の注意点などについて説明します。Read less

                                                    Unicode文字列処理
                                                  • 自治体システム標準化の前にまず文字のキホンを理解せよ①|標準化どうしましょう(自治体システム標準化にちょっと関わってる)

                                                    自治体システムに携わると、普通のエンジニアでは基本的に意識しないものを意識する必要がある。それは、文字である。 普段目にする新聞やテレビの字幕スーパー(テロップ)等は、2千数百字のいわゆる常用漢字しかキホン使わない。Windowsユーザーならお馴染みの、MS明朝。これを使うと、約1万数千字の漢字や非漢字(英数字やひらがなカタカナそして記号等)が扱える。これでキホン世の中うまく廻る。 ところが、自治体システムに携わるとそうはいかない。 戸籍制度のもと、太古の昔から手書きで管理されていた漢字たちを誤字脱字を含めシステムで表現しなければならない。そして、その戸籍と同じ文字を皆様おなじみ証明書の頂点たる住民票であらわす必要がある。 どうやらその法的根拠はないらしいが。。。(諸説あり) その戸籍の文字が、数十~百数十万字あるらしい。これをシステムで表現するのは実に難しい。 前置きが長くなりました。こ

                                                      自治体システム標準化の前にまず文字のキホンを理解せよ①|標準化どうしましょう(自治体システム標準化にちょっと関わってる)
                                                    • ビルマ語(ミャンマー語)をWindowsで~Unicode以前 | エヤワディ Blog

                                                      2009/02/27IT, ビルマ語(ミャンマー語), ミャンマー絡み ユニコード(Unicode)とビルマ語の話を書こうと思ったら、Unicode以前の話も書かないとわかりづらいということで、前半と後半に分けることにした。前半は、Unicode以前、後半はUnicodeの話だ。もしかしたら私の無知や勘違いがあるかもしれないので、間違いがあったらご指摘を。 Windows95や98の時代は日本語Windowsでビルマ語を表記するのは大変だった。特に2階建て文字のような特殊文字を表示するのが難しかった。当時、文字は1バイト(8ビット)容量の中で扱われていた。8ビットだから256種類だ。256種のうち、前半はアスキー(ASCII)文字と言われる標準的なアルファべトと記号の範囲で、後半は各言語の独自の規格の部分になった。タイ語やアラビア語、日本語の半角カタカナなどがこの後半部に入れられた。なお、

                                                        ビルマ語(ミャンマー語)をWindowsで~Unicode以前 | エヤワディ Blog
                                                      • 5.3. CSV - ゼロから学ぶ Python

                                                        ホーム 1. Python を始める 2. 基本仕様 3. クラス 4. モジュールとパッケージ 5. ファイル操作 6. 例外 7. ジェネレータ 8. テスト CSV¶ Python で CSV の読み書きを行いたい場合は csv モジュールを使います。 読み込み¶ reader¶ CSV ファイルを読み込む場合は open() でファイルを開いた後、ファイルオブジェクトを csv.reader() に渡します。 #!/usr/bin/env python import csv def main(): with open('example.csv', newline='') as f: reader = csv.reader(f) for row in reader: print(row) # row は CSV の各行になる if __name__ == '__main__': ma

                                                        • ブラウザでPDFを開く時、ファイル名ではなく「タイトル」を表示させたい!<その方法と嬉しい効果> - 株式会社Eプレゼンス

                                                          TOP > 「無名」スタッフの心得帳 > ブラウザでPDFを開く時、ファイル名ではなく「タイトル」を表示させたい!<その方法と嬉しい効果> ホームページにアップされているPDFファイルをブラウザ上で開いたり、自分でもホームページにPDFファイルをアップする機会はありませんか? そのPDFファイルをブラウザで開いたとき、ブラウザのタブの部分の表示が気になったことはないでしょうか?PDFのファイル名がそのまま表示されていたり、文字化けしたような文字列が並んでいたり…(下図赤枠部分) ブラウザのタブの部分には、そのPDF文書の内容がわかるタイトルを表示させたいですよね。タブにタイトルが表示されていれば、PDFファイル自体が直接検索にヒットする可能性も高くなります! そこで今回は、ブラウザのタブにPDF文書のタイトルを表示させる方法をご紹介します! 方法1:PDFファイルにタイトルをつける PDF

                                                            ブラウザでPDFを開く時、ファイル名ではなく「タイトル」を表示させたい!<その方法と嬉しい効果> - 株式会社Eプレゼンス
                                                          • MS932 CP943C 変換問題 - Qiita

                                                            Shift_JIS の文字を Unicode に変換する際、文字エンコーディング(=変換テーブル)が異なると問題になることがある。 Shift_JIS Shift_JIS では「あ」を「0x82A0」、「い」を「0x82A2」、「う」を「0x82A4」で表すように決められている。 Shift_JIS のテキストファイルで「あいう」と書いて、バイナリエディタで開くと確認できる。 あ 0x82A0 (Shift_JIS) い 0x82A2 (Shift_JIS) う 0x02A4 (Shift_JIS) 図.バイナリエディタでShift_JISのテキストファイルを開いたところ Shift_JIS -> Unicode 変換 (MS932) Shift_JIS と Unicode では文字(上の例では「あ」)とコード(上の例では「0x82A0」)の割り当てが異なっているので、変換ルール(文字エン

                                                              MS932 CP943C 変換問題 - Qiita
                                                            • ファイルの文字コードをMacのターミナルで確認する&変換する - Qiita

                                                              ここでunknown-8bitと出てきたのでドキッとしてしまいましたが、unknown-8bitはShift_JISのことだそうでホッと一安心。 文字コードを変換する 文字コードを変換するにはnkfコマンドを使います。 //未インストールの場合、Homebrewでnkfをインストール $ brew install nkf //ファイルをShift_JISに変換(上書き保存)する $ nkf -s --overwrite ファイル名 //ファイルをUTF-8に変換(上書き保存)する $ nkf -w --overwrite ファイル名 いろいろなcharset 上記のコマンドをテストしようとして適当にテキストファイルを作成したところ、コマンドはもちろんエディターの設定をいろいろ変えて保存してもfile --mimeでの出力結果がずっとus-asciiになってしまい、大いにハマりました。 原因

                                                                ファイルの文字コードをMacのターミナルで確認する&変換する - Qiita
                                                              • 文字化けした迷惑メールを自動翻訳してみたら… | BrainDead World

                                                                数多く届けられる迷惑メールの中で、最近、以下のように「文字化け」(正確には文字化けというより、訳のわからない日本語が示されている)で来るものがあります。 「Amaおピげzon」という企業からのお知らせということになっています。 何がどうなってこうなるのかわからないですが、ふと、「これ自動翻訳で英語にしたらどうなる?」と思い、Google で翻訳しましたら、何と、 「ある程度ちゃんとした英語になる」 のでした。 以下のように翻訳が示されました。 Thank you for using Amd●●●zon. There is something wrong with your account. I’m going to roll it out, and I’m going to roll it out. Yano, I’m going to put my personal account on

                                                                • データロード機能の概要 | Snowflake Documentation

                                                                  データロード機能の概要¶ このトピックでは、 COPY INTO <テーブル> コマンドを使用してファイルからSnowflakeテーブルにデータをロードするためにサポートされている機能のクイックリファレンスを提供します。 このトピックの内容:

                                                                  • ハングルwiki(文字コード) - 初心者のための韓国語入門講座

                                                                    なぜ?韓国語が全然マスターできずに、挫折を繰り返していた32歳の主婦が、たった53日で憧れの韓流スターのセリフを字幕なしで聞き、今ではガイドなしで韓国旅行を思いっきり満喫できるようになったのか・・・?その秘密を公開中! ハングルwiki(文字コード) フリー百科事典『ウィキペディア(Wikipedia)』より ■完成型と組合型 字母を組み合わせて作られる文字の理論上の組み合わせは11,172文字だが、実際に使用されるのはその半分以下である(1987年に韓国の国家標準となったコンピュータ用の文字セット(KS完成型、KS C 5601-1987)には日常の99%が表記できる範囲として2,350字しか含まれなかった)。なお、1994-1995年ごろまでは11,172文字全部を表現できる文字セット(組合型、johab)が圧倒的に多く使われていたが、Windows 95でKS完成型を拡張した文字セッ

                                                                    • 文字コード入門―インデックスページ―

                                                                      コンテンツ一覧 インデックスページ←いまここ コンピュータ上での数値の扱い コンピュータで文字を扱うには? ASCIIとJISローマ字 JIS漢字コード:JIS第一・第二水準 JIS補助漢字・第三・第四水準漢字 中国の文字コード 台湾の文字コード Unicode 大規模文字集合 参考資料(書籍) 本ページを作るにあたって参考にした書籍です。 川俣晶『パソコンにおける日本語処理文字コードハンドブック』技術評論社 芝野耕司編『JIS漢字字典』日本規格協会 漢字文献情報処理研究会編『電脳中国学』『電脳中国学II』『電脳中国学入門』好文出版 小池和夫/府川充男/直井靖/永瀬唯/『漢字問題と文字コード』 太田出版 1999 安岡孝一/素子『文字コードの世界』 東京電気大学出版局 1999 ユニコード漢字情報辞典編纂委員会編 『ユニコード漢字情報辞典』 三省堂 2000 小林/安岡/戸村/三上編 bi

                                                                      • Visual Studio Code で出力結果が文字化け

                                                                        ともクラウド・ネットワーク・セキュリティ・仮想化・プログラミング・オープンソース・Web 開発をテーマにしたブログを運営👨‍💻 大手電気通信企業でコンシューマー向けエンタメ事業の新規開発・運営経験 / VCAP-DCA・CCIE Lifetime Emeritus 認定 / 技術とビジネス書愛好家📚

                                                                          Visual Studio Code で出力結果が文字化け
                                                                        • Unicode to CP932のフォールバック・マッピング - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

                                                                          Unicode to CP932のテーブルをtwitterで教えてもらった*1。このテーブルで目を引くのは、Latin-1 Supplementブロックに限って、数多くのフォールバックが定義されていること。で、この部分を図にしてみた(フォントはMSゴシック)。 2つずつ横に並べた文字のうち、左がオリジナルのUnicodeテキストで、右がそれをCP932に変換したもの。CP932の欄の白地は通常のマッピング、グレー地はマッピングなし、黄色地がフォルーバック。「Þ→T」や「ß→s」のような大胆な例も含まれる*2。 フォールバックは、ゲタよりはマシかもしれない。しかし、たとえばOutlookやWinMailは、「ß」を警告もなしに「s」に変換して送信してしまう。それしか手段がないならともかく、UTF-8で送れば問題ないのに。というわけで、このフォールバック・テーブルの存在は、一応心に留めておいた

                                                                            Unicode to CP932のフォールバック・マッピング - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
                                                                          • UTF-8が増加 - 12月Webサイト向け文字エンコーディングシェア

                                                                            Q-Successから2019年12月のWebサイト向け文字エンコーディングのシェアが発表された。2019年12月はUTF-8がシェアを増やし、ISO-8859-1とGB2312がシェアを減らした。 インターネット上のテキストコンテンツはエンコーディングとしてUTF-8を使用する傾向を強めており、日本語で使われるShift JISとEUC-JPの順位変動はなかった。 2019年12月Webサイト向け文字エンコーディングシェア/円グラフ

                                                                              UTF-8が増加 - 12月Webサイト向け文字エンコーディングシェア
                                                                            • PythonでCSVファイルの文字コードを変換する方法【初心者向け】

                                                                              エンコードとは エンコード(encode)とは、データを一定の規則に従い目的に応じた情報に変換することです。 日本語では、符号化を指します。対義語は復号(デコード、decode)です。 文字コードとは 文字コードとは、文字や記号をコンピューターで扱えるよう、個々に割り当てられた固有の符号です。英数字を表す文字コードにはASCIIがあり、1バイトで1文字を表します。 日本語には仮名、カタカナ、漢字などがあり、1バイトでは表現しきれません。そのため、マルチバイト(複数バイト)の文字コードを用います。Shift_JIS、EUC-JPなどの文字コードがあります。 UTF-8とは、ユニコード定義された文字集合を表現できる方式の一つです。1文字を1~6バイトの可変長で表現し、世界的に普及しています。 [PR] Pythonで挫折しない学習方法を動画で公開中 Pythonの標準エンコーディングとは Py

                                                                                PythonでCSVファイルの文字コードを変換する方法【初心者向け】
                                                                              • 単なるソートで詰まった話 - Qiita

                                                                                この記事はJustSystems Advent Calendar 2017の22日目の記事です。 はじめに 普段は自然言語処理に使う言語資源をいじっています。 担当している業務のひとつに、 辞書リソース(語句リストのようなもの)をソートしてね Excelの「並べ替え」機能を使ってやってね という工程が含まれています。 たしかにExcelで行っても特段コストのかかる作業ではありませんが、普通にsortコマンドで済ませたらもっと楽になるのでは?とあるとき思いました。 とはいえ、「ソート手順を変えた」という要因だけで従来のリソースとの差分が大量に出ると面倒くさいです・・・。1 ということで、まずは様々な条件でソートしてみて、Excelのソート結果を再現できるものはあるか試してみました。 結論としては、自分がやってみた限りではsortコマンドではExcelのソート結果を再現できませんでした。 ただ

                                                                                  単なるソートで詰まった話 - Qiita
                                                                                • filereadln のシェル連携文字コード変換

                                                                                  filereadln のシェル連携文字コード変換 検証環境 Tera Term Linux 検証コード UTF-8 でも日本語表記が OK な例 読み込む CSV が UTF-8 の日本語表記で文字化けする例 sample.csv (UTF-8 BOM無) filereadln で NG な例 実行結果 1行目全体の表示 1行目各列の表示 読み込む CSV が SJIS の日本語表記で文字化けしない例 sample.csv (SJIS) filereadln で OK な例 実行結果 1行目全体の表示 1行目各列の表示 読み込む CSV が UTF-8 の日本語表記なので文字化けを iconv で何とかする例(中途半端) sample.csv (UTF-8 BOM無) filereadln で NG な例 その他・備考 filereadln のシェル連携文字コード変換 Tera Term

                                                                                    filereadln のシェル連携文字コード変換