タグ

文字コードに関するpero_0104のブックマーク (21)

  • 文字化けテスター - instant tools

    任意の文字列を意図的に文字化けさせるツールです。また、文字化けの復元を試みることができます。 ひらがな・カタカナ・漢字・その他全角文字などを文字化けさせます。ASCII文字(半角英数字記号)は文字化けしません。 文字化けした文字列は、おおむね6~8割程度の部分を復元できるケースが多いです。 全体を完全に復元できるケースもありますが、 文が長いほど、完全に戻せる可能性は低下します。 完全に復元できる文字化けを作成したい場合には、短めの文で試すことをお勧めします。 その他、復元割合を高めるためのヒントを書いておきます。 クエスチョンマーク(?)に置き換えられている文字化けの部分は、 「情報が失われている文字化け」であり、その部分は復元できません。 文全体が「単独で安全な文字」だけで構成されていれば、必ず完全に復元できます。 ただし「単独で安全な文字」の直前の文字が「単独で安全な文字」ではない場

  • 5.3. CSV - ゼロから学ぶ Python

    ホーム 1. Python を始める 2. 基仕様 3. クラス 4. モジュールとパッケージ 5. ファイル操作 6. 例外 7. ジェネレータ 8. テスト CSVPythonCSV の読み書きを行いたい場合は csv モジュールを使います。 読み込み¶ reader¶ CSV ファイルを読み込む場合は open() でファイルを開いた後、ファイルオブジェクトを csv.reader() に渡します。 #!/usr/bin/env python import csv def main(): with open('example.csv', newline='') as f: reader = csv.reader(f) for row in reader: print(row) # row は CSV の各行になる if __name__ == '__main__': ma

    pero_0104
    pero_0104 2021/06/03
    “newline=''”
  • 【GitBash】Pythonの文字化け出力を直す - よちよちpython

    先日Windows10のGitBashをアップデートしました。 GitBashでPythonを実行すると日語が文字化けするようになってしまった。Python以外の日語は大丈夫なんだけど… GitBashでの作業風景 確認 GitBashでPythonを実行してみる。 $ python -c "print('日語')" (「日語」と出るべき所が金網みたいなやつに文字化け) したらば、次のコマンドを打つ。 $ echo $PYTHONIOENCODING cp932と出ていた。これをutf-8にすればいいみたい。 設定変更 次のコマンドでcp932 → utf-8に変わる。 $ export $PYTHONIOENCODING=utf8 設定変更確認 次のコマンドで確認。utf8になっていればOK。 $ echo $PYTHONIOENCODING utf8 再びPythonコードを実

    【GitBash】Pythonの文字化け出力を直す - よちよちpython
    pero_0104
    pero_0104 2021/06/02
    いろいろ試したけど解決しなくて…まじでたすかりました。ありがとう
  • 「ASCIIをUTF-8にして」それが『できない』ことを理解してもらえなかった話 - Qiita

    物語の始まり 事の発端は納品後。 先方からメッセージが届きました。 クライアント様「このファイルの文字コードがShift_JISになっておりますので、UTF-8で再納品をお願いいたします。」 拙者(あれ…UTF-8にしてたと思うんだけどな) 拙者「確認いたします。」 文字コードを確認する 案件はいわゆる更新案件で、今回の納品時に言われていたのは、「文字コードがUTF-8ではないものは変換して納品してくれ」ということ。 そして、ご指摘いただいたのは、今回の更新案件で中身はいじらなかったJavaScriptファイル。 来ならば納品するファイルではないのですが、文字コード変換という要件があったため、納品ファイルとして加えられたものでした。 一括で文字コードを変えたので作業漏れかなぁと思っていました。 ファイルの中身は記事用にかなり適当につくったものですが、まあだいたいこんな感じです。

    「ASCIIをUTF-8にして」それが『できない』ことを理解してもらえなかった話 - Qiita
  • まだ CSV の文字化けで消耗してるの?(Excel で直接開いても文字化けしない CSVファイルを Python3 で作成するスマートな方法) - akiyoko blog

    この投稿は 「python Advent Calendar 2017 - Qiita」 の 9日目の記事です。 こんにちは、akiyoko です。 「Python Advent Calendar」は 4年連続 4度目の参加になります。 *1, *2, *3 はじめに 皆さん、CSV は好きですよね? Excel も大好きですね? じゃあ当然、CSVファイルは Excel で開きますよね。 文字化けは? ・・もちろん嫌いですよね。 でも CSVファイルを Excel で開こうとしたときに、こんな文字化け地獄を経験したことはありませんでしたか? *4 ということで今回は、Excel で直接開いたときに文字化けしない CSV ファイルを Python3 で作成する方法 を紹介したいと思います。(おまけで Python2 でのやり方も書いておきますが、今時 Python2 で消耗している人なんてい

    まだ CSV の文字化けで消耗してるの?(Excel で直接開いても文字化けしない CSVファイルを Python3 で作成するスマートな方法) - akiyoko blog
  • 文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!|ハイクラス転職・求人情報サイト AMBI(アンビ)

    文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう! 文字コードには、どのような種類があり、それぞれどのような意味を持つのか、といった、文字コードの基的な概念、従来の文字コードを紹介し、現在のUnicodeの構成を概説し、プログラミングにおいて注意すべき箇所をいくつか取り上げます。 ソフトウェア開発に携わる方の多くは、何らかの形で文字コードに触れることがあるでしょう。文字や記号をコンピュータ上でデータとして扱うには、文字コードの知識が必要不可欠です。 稿では、書籍『プログラマのための文字コード技術入門』の著者である矢野啓介さんが、知っておきたい基礎知識を分かりやすく解説します。 文字コードとは? Unicode以前の文字コード Unicodeとその主な符号化形式 UTF-16 UTF-32 UTF-8 Webで文字コードを指定する仕組み

    文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!|ハイクラス転職・求人情報サイト AMBI(アンビ)
  • 新元号「令和」と文字コード(主にUnicode)の問題

    境 真良@iU/GLOCOM/IPA(あーりん推し/芸能人スキャンダルネタ要らない) @sakaima 「令和」ですが、「令」はUnicode「U+4EE4」、UTF-8だと「E4 BB A4」、シフトJISだと「97DF」、また「和」はUnicode「U+548C」、UTF-8で「E5 92 8C」、シフトJISだと「9861」です。とりあえずご参考まで。 #さてお仕事ですよ 2019-04-01 11:46:49

    新元号「令和」と文字コード(主にUnicode)の問題
  • vimの文字コード関連:set enc、:set fenc - YKMbPP

    utf8とutf-8どっちだっけ?とかよく忘れるのでメモ fencはfileencoding、encはencoding 文字コードを変更 (:wしないと変更が保存されない) :set fenc=utf-8 :set fenc=euc-jp :set fenc=iso-2022-jp :set fenc=cp932 ※cp932はshift-jisのこと 違う文字コードでファイルを開き直す(文字化けの時に) :e ++enc=utf-8 :e ++enc=euc-jp :e ++enc=iso-2022-jp :e ++enc=cp932 参考 http://www.kawaz.jp/pukiwiki/?vim#s91b6126

    vimの文字コード関連:set enc、:set fenc - YKMbPP
  • 「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記

    自分の知らないCJK Ideographのバリエーションがまだあったことに戦慄している pic.twitter.com/kUlyRLDDTM— moriyoshit (@moriyoshit) March 9, 2017 などというツイートをしたところ、思ったより反響があったのでまとめておく。 上記ではあいまいに「バリエーション」などと書いたが、Unicodeとそれを扱う環境においては、バリエーションと一口に言っても次のような状況がある。 意味論的に等価な異なる字形の集合 同じ字形で異なるコードポイントの集合 aは結構なじみ深いと思う。 a-1. 異なるコードポイントにそれぞれ異なる字形が割り当てられているもの 例: 「東」(U+6771) ⇔「东」(U+4E1C) 「斉」(U+6589) ⇔「齊」(U+9F4A) 「高」(U+9AD8) ⇔「髙」(U+9AD9) a-2. 同じコードポイ

    「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記
  • http://www.hidekik.com/cookbook/p2h.cgi?id=textmail

    pero_0104
    pero_0104 2016/10/06
    jcode()->mime_encodeによりメールアドレスとタイトルをエンコードします。これによってアドレスやタイトルに日本語が入っている場合でも受け取り側のメールソフトで日本語が表示できるようになります。
  • chr関数 - 数値をASCIIに変換 - Perl入門ゼミ

    Perl › 関数 › here chr関数を使用すると数値をASCII(アスキー)コードに対応する文字に変換することができます。第1引数にASCIIコードを指定するとそれに対応する文字が戻り値で返ります。これはord関数の逆の演算です。 my $char = chr $ascii_code; chr関数のサンプル chr関数を使って、数値をASCIIコード対応する文字に変換するサンプルです。 use strict; use warnings; # ASCII文字コードでは65,66,67はそれぞれ 'A','B','C'に対応する。 my $a_num = 65; my $b_num = 66; my $c_num = 67; print chr($a_num) . "\n"; print chr($b_num) . "\n"; print chr($c_num) . "\n"; Per

    chr関数 - 数値をASCIIに変換 - Perl入門ゼミ
  • VI エディタでファイルを開くと行末に ^M が表示される - eTuts+ Server Tutorial

    Windows で作成したファイルの改行コードは CR+LFUNIX 系の改行コードは、LFよって、^M 文字問題は、Windows の CR コードによるもので、Windows で作成したテキストファイルを vi で開くと、転送方式によっては、すべての行末に ^M が表示されるようになります。 Linux のファイルを Windows へ転送するとどうなる? 逆に、Linux 上で作成したファイルの場合、改行コードは、LF だけなので、このファイルを Windows 環境で開くと CR コードが存在しないため、全て 1行に見えます。 (テキストエディタによっては折り返し表示してくれたりしますが、改行されてるように見えてるだけで結果的には 1行になります)

    VI エディタでファイルを開くと行末に ^M が表示される - eTuts+ Server Tutorial
  • Vimで文字を改行コードに置換する方法 - このブログは証明できない。

    忙しいです。「貧乏暇なし」という諺がありますが、意味は「ワーキングプア」だと思います。はたらけど猶わが生活楽にならざり。まあ、働いてないんですけどね。ちなみに、「犬も歩けば棒に当たる」という諺がありますが、意味は「え!?あの人もTwitterやってるの!?」だと思います。 私、Vim使いです。そこまで使いこなしていないので、Vim使おうとしてる人です。テキストの処理をするときに、Rubyなどでスクリプトを書かなくても、Vimのコマンドでなんとかなったりします。便利ですね。そんなときに、改行コードを扱いたい場合があります。 改行コードを別の文字に置換する場合。 :s/\n/,/ と書けますね。ん?書けませんか?あなた、これまでの人生が正しかったと断言できますか? ところが、何かの文字を改行コードに置換するときは「\n」ではダメなんです。ダメなんですね。そこで、「^M」というコード?に置換して

  • Ctrl+MはCR(復帰)でCtrl+JはLF(改行)で、それぞれ ^M ^J と表記されるという事 - kanonji’s diary

    主にUNIXとかLinuxとかでの事だけど、よく ^M とか ^H という表記を見ます。 なんとなく分かってはいたけど、MacOSがUNIXということもあって、改めてちゃんと把握したいところです。 とりあえず改行コード Ctrl+M*1はCRでCtrl+J*2はLF。 lessとかviでテキストを開いたとき、行末に ^M とか表示されている場合は、lessやviが解釈できない改行コードで保存されたテキストデータかもしれません。 :set fileformat=改行コードのタイプvi ならこんなコマンドで改行コードを変更できます。*3 でも less は、調べた限りでは改行コードを指定したり出来ないようで、ちゃんと開くには一工夫要ります。 tr -d '\r' < file_you_want_to_change_line_format.txt | less //CRを消す。CRLFをLFに変

    Ctrl+MはCR(復帰)でCtrl+JはLF(改行)で、それぞれ ^M ^J と表記されるという事 - kanonji’s diary
  • FTPクライアント使い分け時に気をつけたい「文字コードと改行コード」 | 猫ITソリューションズ - 川越のホームページ・Web制作会社

    通常FTPクライアントを使い分ける事はないと思いますが、状況により止むを得ず、普段とは違うFTPクライアントを使う事もあるでしょう。日は「FTPクライアント使い分け時に気をつけたい「文字コードと改行コード」」についてです。 こんにちは。ITソリューションズ広報の齊藤メイ(♀)です。日は、「FTPクライアント使い分け時に気をつけたい「文字コードと改行コード」」についてです。 この記事では、そもそもFTPで接続するのは云々、という話はしません。しかしFTPクライアントだろうとSSHクライアントだろうと、気にした方がいい点について触れます。それは、 文字コードと改行コードについてです。 気にしないと何が起こるかは色々ありますが、今回はhtmlファイルをアップロードして、後日ダウンロードしたら、1行おきに改行されていたという事象について解説します。というか私が困っていた事なんですけど。 文字

    FTPクライアント使い分け時に気をつけたい「文字コードと改行コード」 | 猫ITソリューションズ - 川越のホームページ・Web制作会社
  • Vimの文字コード関連 - Qiita

    これはUTF-8で「あ」が3バイトであることを示している。 encodingは後で設定しても反映されないため、.vimrcに書く必要がある。 ファイル書き込み時の文字コード(fileencoding) fileencodingが設定されていると、バッファの内容がファイルに書き込まれるとき、 (すなわち:wしたとき)にencodingからfileencodingに文字コード変換が行われる。 fileencodingが設定されない場合は、encodingと同じになり、文字コード変換は行わない。 fileencodingの設定は、書き込み時にファイルに書き込まれる文字コードを設定するもので、 バッファに開かれている内容はencodingの設定で扱われることに注意。 読み込み時の文字コード(fileencodings)

    Vimの文字コード関連 - Qiita
  • Linux上でシェルスクリプトをSJISで実行する - カタカタブログ

    Linux上でシェルスクリプトをSJISを文字化けなく実行・表示するためには以下の点に注意する。※この注意点はSJISに限らず、他の文字コードであっても統一しておく必要がある。 ソースコードの文字コードをSJISにする LANG環境変数をSJISにする。 端末(Windowsの場合はTeraTerm等)の文字コードをSJISにする 上の3つ全て満たされてないSJISのシェルスクリプトは文字化けするだけでなく、下手をすると実行時エラーを引き起こす可能性がある。例えば"義"という文字はSJISだとバッククオート(`)となり、シェル実行時エラーとなるよう。 そこで、”義”という文字列をechoで標準出力するだけのシェルスクリプトを文字コードがUTF-8、SJISにしたものをそれぞれ用意して検証してみる。なお、今回後でlocaleを変更する都合上、全てrootユーザでコマンドを実行している。 LA

    Linux上でシェルスクリプトをSJISで実行する - カタカタブログ
  • 【iPhone】iOS14.2のSafariでパスワードが入力できない問題と対処について

    iOS14.2、iOS14.2.1以降、iPhoneのSafariでウェブサービスの会員登録する際に「パスワードが入力できない」「パスワードが1文字しか打てない」「特定の文字が入力できない」等の問題が多数報告されています。 Safariでパスワードが入力できない、反映されない不具合 iOS14.2以降のSafariで会員登録時などにパスワードが入力できない(反映されない)、特定の文字が入力できない等の不具合が報告されており、利用したいウェブサービスのアカウントが作成できないといった事例が多数報告されています。 またiOS14.2では、一部のウェブページでパスワード入力欄を表示するとフリーズする、キーボードが表示されないといった不具合も報告されており、同じ原因よってパスワードが入力できない(反映されない)といった不具合が生じている可能性もありそうです。 iOS14.2でパスワード欄をフリック

    【iPhone】iOS14.2のSafariでパスワードが入力できない問題と対処について
  • Rubyで文字コードを変換 ‘kconv’ | rakkyooの備忘録

    あまり頭を使わずに,文字コードを直したいときは,標準添付ライブラリの「kconv」を使っています. 詳しくは,この辺にかいてあるのですが, Rubyist Magazine – 標準添付ライブラリ紹介 【第 3 回】 Kconv/NKF/Iconv とっても便利です. 特に,エクセルで加工したファイルなどの場合は,「Shift_JIS」となっていて,ruby上では「UTF-8」の方が使い勝手が良かったりするので,kconvを多用しています. # _*_ coding: utf-8 _*_ require 'kconv' str_sjis = "文字列".tosjis str_utf8 = "文字列".toutf8 puts "#{str_sjis.encoding} => #{str_sjis}" puts "#{str_utf8.encoding} => #{str_utf8}" 出力と

  • Ruby/Railsで文字コードの変換(エンコード)とエンコーディングの確認方法のまとめ - Rails Webook

    Ruby/Railsで文字コードの変換(エンコード)とエンコーディングの確認方法をまとめました。 Ruby標準で、下記のような文字コードを変換、確認するライブラリがあるのですが、どれを使ったらわからないのでまとめてみました。 ちなみに、Ruby 2.0からはutf-8がデフォルトのコードです。 Rubyで文字コードの変換 String型のencodeメソッド => Encoding::UndefinedConversationErrorrが発生する、オプションで防げる KConvのto*やkconvメソッド => 基的には問題無いが、半角が全角になる(MIMEがデコードされる?) NKFのnkfメソッド => 基的には問題無い。半角も半角のままできる(MIMEも)。KConvは内部的にNKFを使っている。 Iconv (未調査) Uconv (未調査) => Ruby標準ではないっぽい

    Ruby/Railsで文字コードの変換(エンコード)とエンコーディングの確認方法のまとめ - Rails Webook