並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 200 件 / 395件

新着順 人気順

文字化けの検索結果161 - 200 件 / 395件

  • 平成30年2月(新元号発表前)に「令和」を言い当てた超人がTwitterに居た!そのからくりはズバリ「Unicode」

    シャポコ🌵 @shapoco 絵を描く、電気で遊ぶ、通知を無視する。 同じ名前で Misskey\.io と Bluesky にもいます。 お題箱 : https://t.co/TcgjTuG4wh shapoco.net

      平成30年2月(新元号発表前)に「令和」を言い当てた超人がTwitterに居た!そのからくりはズバリ「Unicode」
    • おっさんが使いがちなネコの絵文字、どの環境でもかわいいとは限らないんだぞ/「はてな匿名ダイアリー」の注意喚起記事がちょっと話題に【やじうまの杜】

        おっさんが使いがちなネコの絵文字、どの環境でもかわいいとは限らないんだぞ/「はてな匿名ダイアリー」の注意喚起記事がちょっと話題に【やじうまの杜】
      • Macで濁点とかが起こす文字化け問題について

        B! 24 0 0 0 Macの中でGNU screenなどを立ち上げると文字化けすることがありますが、 その辺の問題についてのメモ。 Macでの文字化け問題 問題の確認 Windowsでの文字化け問題 HomebrewでインストールするGNU screenの文字化け対策 Macでの文字化け問題 Macの中でGNU screenを立ち上げたらファイル名の表示などが文字化けしたりすることがあります。 殆どの場合は日本語ファイル名で濁点を使ってる場合で、文字コードの問題です。 ただ、単純にUTF-8かShift_JISか、とかそういったものではなく、濁点や半濁点の扱いの特殊さによります。 MacではFinderでもターミナル上でも基本的にUTF-8で文字を扱いますが、 UTF-8の中でもいくつか文字の取り扱いに対して違うものが存在します。 FinderではNFD(Normalization F

        • 文字ときどきRuby / Character and Ruby (NSEG)

          MySQL徹底入門 第4版 - ユーザー管理とか文字コードとか / MySQL Book 4 - User and Charset

            文字ときどきRuby / Character and Ruby (NSEG)
          • SJIS-macに変換したはずなのにSJIS-winになる - Qiita

            $utf8Str = "❶❷❸❹❺"; $sjisStr = mb_convert_encoding($utf8Str, 'SJIS-mac'); echo(mb_detect_encoding($sjisStr, ['UTF-8','SJIS-mac', 'SJIS-win', 'SJIS'])); // SJIS-win ← SJIS-macに変換したはずなのに、何故かSJIS-winと判定されてしまいます。 そもそもSJIS-macってなんだよって話ですが、単にMacJapaneseのエイリアスです。 従ってMacJapaneseと書いても同じく、正しく誤判定されます。 そしてコメント欄にThis is a bug in PHP's mbstring extension『mbstringエクステンションのバグじゃよ』という人が現れています。 間違ったコードを書いたときに自分のせいでは

              SJIS-macに変換したはずなのにSJIS-winになる - Qiita
            • Unicode変体仮名一覧

              Unicode(ユニコード)に登録されている変体仮名(へんたいがな)286文字(U+1B001〜U+1B11E)を、現代のひらがなごとにまとめ直し、ひらがなごとに字母を確認できるようにしました。 表の左列のリンクから、日本古典籍くずし字データセットに収録された実際の字形を確認できます。ただしすべての字母に対応する字形が収録されているわけではない点にご注意下さい。なお、変体仮名や字母の説明については、くずし字とは?をご覧下さい。くずし字の字形については、くずし字データベース検索(ひらがな(変体仮名)・カタカナ・漢字)やくずし字データセット 文字種(くずし字)一覧をご利用ください。

                Unicode変体仮名一覧
              • UTF-8のバリデーションとモノイドと半群

                この記事はUTF-8のバリデーションとオートマトンの続きです。 前回はUTF-8のバリデーションが8状態のオートマトン (DFA) で表現できることを見ました。状態と遷移を擬似コードで書けば次のようになるでしょう: -- 8つの状態 data State = START | TAILx1 | TAILx2 | TAILx3 | A | B | C | D -- 入力バイトに応じて次の状態を返す。次の状態が該当しなかったら Nothing を返す next :: Word8 -> State -> Maybe State +----+----+-----+----+ | a0 | a1 | ... | aN | 8ビット整数列 +----+----+-----+----+ | | | v v v +----+----+-----+----+ | m0 | m1 | ... | mN | モノ

                  UTF-8のバリデーションとモノイドと半群
                • 日本語で絵文字入力するための IME 追加辞書を公開しました - Qiita

                  概要 - Overview この辞書を Google日本語入力・ATOK・Microsoft IME などに導入することで、 GitHub, Slack, Qiita のようにコロン : をトリガーとして IME でも絵文字を入力することができるようになります。 「GitHub, Slack, Qiita 以外のアプリケーションでも GitHub, Slack, Qiita のように絵文字を入力したい」 という要望に応えるための IME 追加辞書です。 ちなみに GitHub や Qiita は英語で絵文字を探す必要がありますが、この辞書を利用することで GitHub や Qiita でも Slack のように日本語で絵文字を入力することができるようになります。 GitHub に MIT License で公開しており、現在は 8264 ペアの絵文字とその読みが収録されています。 👇辞書

                    日本語で絵文字入力するための IME 追加辞書を公開しました - Qiita
                  • Excel CSV形式ファイルにおける今どきUTF-8文字コード問題の傾向と対策

                    環境依存文字を含むデータをCSV形式でやりとりするには 人名や地名の中には、環境依存文字(異字体など)が含まれていることがある。環境依存文字を含むExcelのシートをCSV形式でやりとりしなければならない場合、文字コードにUTF-8を指定するとよい。なお画面の住所録は、「テストデータ・ジェネレータ」によって作成した架空のサンプル用のデータを記事用に修正したものである。 「Microsoft Excel(エクセル)」で作成した表を、CSV形式で保存し、別のアプリケーションに読み込ませることはないだろうか。また、取引先にデータを送る際に、XLSX形式ではなく、CSV形式が要求されることもあるだろう。逆にCSV形式で受け取ったデータをExcelで読み込んで処理したいというケースもあり得る。 このような場合、環境依存文字(機種依存文字)が含まれていると、CSV形式に変換する際に、正しく文字が出力さ

                      Excel CSV形式ファイルにおける今どきUTF-8文字コード問題の傾向と対策
                    • String meets Encoding

                      https://rubykaigi.org/2022/presentations/ima1zumi.html#day3

                        String meets Encoding
                      • Adobe-Japan1/README-JP.md at master · adobe-type-tools/Adobe-Japan1

                        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                          Adobe-Japan1/README-JP.md at master · adobe-type-tools/Adobe-Japan1
                        • 開発から 45 年、プログラミング言語 AWK に Unicode サポートが追加 | スラド デベロッパー

                          プログラミング言語 AWK が最初に開発された 1977 年から 45 年後の2022年、Brian Kernighan 氏により Unicode サポートが追加されたそうだ (README.unicode、 The Register の記事、 Ars Technica の記事、 Computerphile 動画)。 Kernighan 氏は AWK (Aho Weinberger Kernighan) の「K」の由来でもあるオリジナル開発者で、80 歳になる。GitHub の「The One True Awk」リポジトリに Unicode サポートがコミットされたのは 6 月 1 日だったが、先週 Kernighan 氏が YouTube の Computerphile に出演するまで注目されずにいたようだ。Kernighan 氏によれば、AWK が Unicode をサポートしていない

                          • シュトヘル達の名前を西夏文字 (Unicode) で書く

                            初稿: 2020-10-16 小松弘幸 (@komatsuh) 記事の内容 シュトヘルという漫画がとてもよいです 西夏文字をコンピューター上で扱う方法を紹介します 西夏文字の簡易辞書を作成します シュトヘルの登場人物を西夏文字で表現します ユルール 𘅝𘚻 (U+1815D U+186BB) - 祝福 (慶喜) ハラバル 𗱈𗰞 (U+17C48 U+17C1E) - 黒虎 シュトヘル 𘄅𗾢 (U+18105 U+17FA2) - 雀子 左から順に ユルール ハラバル シュトヘル はじめに この文書に登場する西夏文字を正しく表示するためには、おそらくフォントのインストールが必要です。下記の GitHub などからダウンロードとインストールができます。 Noto fonts: NotoSerifTangut (GitHub) シュトヘルと西夏文字 シュトヘルという漫画を読んでとても好

                              シュトヘル達の名前を西夏文字 (Unicode) で書く
                            • Unicode Utilities: Confusables

                              With this demo, you can supply an Input string and see the combinations that are confusable with it, using data collected by the Unicode consortium. You can also try different restrictions, using characters valid in different approaches to international domain names. For more info, see Data below.

                              • 「Unicode Emoji 14.0」リリース──敬礼する顔や妊娠する男性など

                                Emojipediaは、Googleは10月にはEmoji 14.0を実装すると予測している。近くリリース予定の「Android 12」では新しいEmojiが使えるかもしれない。 新たに加わった絵文字などの詳細についてはEmojipediaのブログを参照されたい。 関連記事 絵文字専門サイトのEmojipedia、携帯アプリ企業Zedgeが買収 世界絵文字デー提唱でも知られる絵文字サイトのEmojipediaを、携帯アプリ企業のZedgeが買収した。運営はこれまでと変わらず、「将来的に安定した成長が可能になった」と創業者のジェレミー・バージ氏は語る。 食べ物はよりおいしそうに Googleの絵文字はダークモードで星空にも変わる 7月17日は「世界絵文字デ-」ということで、Googleが絵文字の新デザインを発表しました。Gmailやチャットでは7月中に利用可能になる見込みです。Android

                                  「Unicode Emoji 14.0」リリース──敬礼する顔や妊娠する男性など
                                • 「竈門禰󠄀豆子」をLaTeXで

                                  「鬼滅の刃」のヒロイン「竈門禰󠄀豆子」(かまどねずこ)の「禰󠄀」は,「禰」(U+79B0)+異体字セレクタ(U+E0100 VARIATION SELECTOR-17)でできている(→ UTF-8のテーブル(MySQL5.6)に竈門禰󠄀豆子が格納できない問題を調べてみた)。これをLaTeXで出せるか。 使ったのは普通の TeX Live 2021 で,Mac 上でテストした。ドキュメントクラスは何でもいいが,platex・uplatex・lualatex のどれにも対応する jlreq にしてみた。 \documentclass{jlreq} \begin{document} 竈門禰󠄀豆子 \end{document} まず platex してみよう。 l.4 竈門禰^^f3^^a0^^84^^80 豆子 ? 異体字セレクタでエラーになってしまう。 uplatex では処理できた。

                                  • 第157回 MySQLのデフォルトcollationの注意点 | gihyo.jp

                                    MySQLではcharacter set(以後、charset)やcollationをグローバル、データベース、テーブルやカラムレベルで設定することができます。今回はMySQLのデフォルトcollationの注意点を紹介したいと思います。使用するMySQLのバージョンは8.0.26です。 charsetやcollationとはなにかについては説明はしません。よって、charsetやcollationについてご存知ない方は、先にマニュアル「第10章 文字セット、照合順序、Unicode」をご確認ください。 charsetやcollationの各レベルの設定方法 グローバル 以下のシステム変数を設定します。 character_set_server… サーバーのデフォルトのcharset collation_server… サーバーのデフォルトのcollation データベース CREATE

                                      第157回 MySQLのデフォルトcollationの注意点 | gihyo.jp
                                    • 「Thunderbird 115.2.3」がリリース ~新規プロファイルは縦3分割&カード表示が既定に/クラッシュや通知の文字化けなどの問題にも対処

                                        「Thunderbird 115.2.3」がリリース ~新規プロファイルは縦3分割&カード表示が既定に/クラッシュや通知の文字化けなどの問題にも対処
                                      • 山﨑の「﨑」とか、高橋の「高」の字がいわゆる"梯子高"の人とか

                                        カスタマーセンターでも人事でも役所の戸籍関係の人とか、世の中に同志は沢山潜んでると思うんですが。 山﨑の「﨑」とか、高橋の「高」の字がいわゆる"梯子高"の人とか、なんかちゃんとJISフォントに乗せるようにするか、「崎」と「高」に統一しちゃうか、どっちかにしてくれ!って思ったことありませんか。 どっちかにしてくれ!

                                          山﨑の「﨑」とか、高橋の「高」の字がいわゆる"梯子高"の人とか
                                        • ①や©などの環境依存文字はHTMLでは文字参照にする ―― そんなルールはもう不要!【SEO情報まとめ】 | 海外&国内SEO情報ウォッチ

                                          「HTMLでは、機種依存文字は文字参照(実体参照)にすること」そんなルールがまだ社内に残っていたら、見直すのがいいかもしれない。 今週は、SEOのトピックそのものズバりではないが、意外と見落としがちな、イマドキWeb制作のトピックをピックアップ。 ほかにも、「口コミはまず10個」「LPに動画を置くとCVRが下がる」などなど、あなたのSEOとサイト運営に役立つ情報を今週もまとめてお届けする。 10個の口コミを集めればローカル検索では順位アップする!?ランディングページに動画を置くとCVRが悪くなる!?関連性がなくなっている古いリンクはランキングには影響しない検索結果に出てきたサイトの素性がわかる機能をグーグルが導入グーグルのタイトルリンク書き換えはサイト品質とは無関係カニバリゼーションで順位が下がった ⇐ だいたい思い込み2022年11月のオフィスアワー: ECサイトのトップページが上位表示

                                            ①や©などの環境依存文字はHTMLでは文字参照にする ―― そんなルールはもう不要!【SEO情報まとめ】 | 海外&国内SEO情報ウォッチ
                                          • ASCII table and history (or, why does Ctrl+i insert a Tab in my terminal?)

                                            The binary representation has the most significant bit first (“big endian”). ASCII is 7-bit; because many have called encodings such as CP437, ISO-8859-1, CP-1252, and others “extended ASCII” some are under the misapprehension that ASCII is 8-bit (1 byte). To understand why Control+i inserts a Tab in your terminal you need to understand ASCII, and to understand ASCII you need know a bit about its

                                            • CA1965 – 新元号と文字コードの国際標準を巡って / 小林龍生

                                              新元号と文字コードの国際標準を巡って 一般社団法人文字情報技術促進協議会:小林龍生(こばやしたつお) 2019年は、平成最後の年として始まり、令和元年として暮れようとしている。本論では、新天皇即位に伴う平成から令和への改元に係わる国際符号化文字集合UCS(ISO/IEC 10646:Universal Coded Character Set)(1)とUCSに対応する民間標準規格ユニコード(Unicode Standard)(2)を巡る2つの話題について論じる。 1. 令和の合字について 活版で印刷された新聞や書籍を見ると、しばしば、1字分のスペースに、複数の文字を鋳込んだ活字を目にすることがある。いわゆる合字と呼ばれるもので、リガチャーとも呼ばれる。 ただし、欧文のリガチャーは、羊皮紙本の写本などで用いられていた複数のアルファベットの簡略筆写法の残滓としての意味合いが強いが、日本語活字の合

                                                CA1965 – 新元号と文字コードの国際標準を巡って / 小林龍生
                                              • 【Rust】文字列型のUTF-8検証の中身 - Qiita

                                                コード値:00000000_00000000_0xxxxxxx(1-7ビット) ⇒ UTF-8:0xxxxxxx(1バイト) コード値:00000000_00000yyy_yyxxxxxx(8-11ビット) ⇒ UTF-8:110yyyyy 10xxxxxx(2バイト) コード値:00000000_zzzzyyyy_yyxxxxxx(12-16ビット) ⇒ UTF-8:1110zzzz 10yyyyyy 10xxxxxx(3バイト) コード値:000wwwzz_zzzzyyyy_yyxxxxxx(17-21ビット) ⇒ UTF-8:11110www 10zzzzzz 10yyyyyy 10xxxxxx(4バイト) 特に重要な点は以下の2つである。 1バイト目(開始バイト)の先頭のビットパターンによって全体のバイト数を判定できる。 (0...:1バイト、110...:2バイト、1110...

                                                  【Rust】文字列型のUTF-8検証の中身 - Qiita
                                                • (メモ)同じ繁体字でも台湾と香港ではグリフが違う話 - 水底の血

                                                  (表ではフォントに源ノ角ゴシックを指定しているので、インストールしてない人はsource-han-sansからどうぞ。どのファイルか迷う人はSuperOTCを入れればOK。) 百聞は一見にしかず、次の表に適当に漢字を比較させてみたのでどうぞ。 国および地域別のUnicodeコードポイントとグリフの比較 地域 言語タグ U+9AA8 U+6B21 U+771F U+4E03 U+904D 台湾(繁体字) zh-Hant-TW 骨 次 真 七 遍 香港(繁体字) zh-Hant-HK 骨 次 真 七 遍 中国(簡体字) zh-Hans 骨 次 真 七 遍 日本(参考) ja 骨 次 真 七 遍 韓国(参考) ko 骨 次 真 七 遍 …とそれだけではあまりにも味気ないので、補足説明をほんのちょっと。 ふと簡体字と繁体字を言語コードで表すときに、zh-Hansとzh-Hantとしましょうというと

                                                    (メモ)同じ繁体字でも台湾と香港ではグリフが違う話 - 水底の血
                                                  • Unicode 13.0 で新しく収録された日本語の漢字|Colorless Green Ideas

                                                    2020年3月にリリースされた Unicode 13.0 では、「日本で最も画数が多い字」とも呼ばれる「たいと」という漢字と宮沢賢治の詩の中に出てくる「鏡」を4つ組み合わせた漢字が収録された。また、Unicode 13.0 における部首の例示フォント変更についても触れる。 はじめに Unicode は世界の様々な文字をコンピュータ上で統一的に扱うための国際規格である [1] 。Unicode には毎年のように新しい文字が追加されており、2020年3月にリリースされた Unicode 13.0 では 5,930字が追加されている [2] 。 Unicode 13.0 での漢字の追加 Unicode 13.0 で追加された文字の大半は漢字である。Unicode 13.0 では、漢字 [3] を追加するためにCJK統合漢字拡張G (CJK Unified Ideographs Extension

                                                      Unicode 13.0 で新しく収録された日本語の漢字|Colorless Green Ideas
                                                    • iOS 14.5とwatchOS 7.4配信開始 マスクのままロック解除やトラッキング許可など盛りだくさん

                                                      米Appleは4月26日(現地時間)、「iOS 14.5」をリリースした。同日「watchOS 7.4」もリリースし、Apple Watchを併用すればマスクを装着したままiPhoneをロック解除できる機能など、多数の新機能が追加された。 マスクをしたままのiPhoneロック解除 マスクしたままのiPhoneロック解除機能を使うには、まずiOSをアップデートした後、wathOSもアップデートする必要がある。この機能が使えるのは「iPhone X」以降のiPhoneと、「Apple Watch Series 3」以降のApple Watchだ。 iPhoneの「Face ID」の設定でApple Watchでのロック解除を有効にすると、Apple Watchを手に持ってロックを解除し、iPhoneのすぐ近くに置くと、iPhoneのロックが解除されたことを示す触覚フィードバックをAppleWa

                                                        iOS 14.5とwatchOS 7.4配信開始 マスクのままロック解除やトラッキング許可など盛りだくさん
                                                      • キャラ名に「ソ」があるとフリーズの不具合、直る Switch新作にアプデ 「ご迷惑をお掛けした」

                                                        ゲームメーカーのコンパイルハート(東京都豊島区)は4月19日、Nintendo Switch向け新作ゲーム「ドカポンキングダム コネクト」の修正パッチ(Ver.1.02)を配信した。キャラクターの名前に「ソ」の文字が含まれているとき、セーブ時に画面がフリーズする不具合を修正した。 ドカポンキングダム コネクトは13日発売。2007年に発売されたPlayStation 2向けゲーム「ドカポンキングダム」の移植作だ。「ソ」を巡る不具合が発売同日に見つかり、ユーザーへの注意喚起がなされていた。 例えば、キャラクター名に「ソーセージ」を入れた状態でデータをセーブすると、画面がフリーズし、進行不可能になっていたという。コンパイルハートは「この度はご迷惑をおかけ致しましたことを深くおわび申し上げます」としている。 関連記事 キャラ名に「ソ」があると画面がフリーズ Switchの新作ゲームにバグ 制作会

                                                          キャラ名に「ソ」があるとフリーズの不具合、直る Switch新作にアプデ 「ご迷惑をお掛けした」
                                                        • 【Excel】CSVファイルを開いたら文字化け発生!「Power Query」で文字コードを指定して取り込みましょう【いまさら聞けないExcelの使い方講座】

                                                            【Excel】CSVファイルを開いたら文字化け発生!「Power Query」で文字コードを指定して取り込みましょう【いまさら聞けないExcelの使い方講座】
                                                          • JavaScript Primer - 迷わないための入門書

                                                            文字列とUnicode 「文字列」の章で紹介したように、JavaScriptは文字コードとしてUnicodeを採用し、エンコード方式としてUTF-16を採用しています。 このUTF-16を採用しているのは、あくまでJavaScriptの内部で文字列を扱う際の文字コード(内部コード)です。 そのため、コードを書いたファイル自体の文字コード(外部コード)は、UTF-8のようにUTF-16以外の文字コードであっても問題ありません。 「文字列」の章では、これらの文字コードは意識していなかったように、内部的にどのような文字コードで扱っているかは意識せずに文字列処理ができます。 しかし、JavaScriptのStringオブジェクトにはこの文字コード(Unicode)に特化したAPIもあります。 また、絵文字を含む特定の文字を扱う際や「文字数」を数えるという場合には、内部コードであるUTF-16を意識

                                                              JavaScript Primer - 迷わないための入門書
                                                            • Python で文頭に記載する文字コードの「アレ」(なんちゃら UTF-8 みたいなやつ)の名称と仕様 - Qiita

                                                              「python 文頭に記載する アレ」とか「python 文頭 記述 文字コード アレ」の Qiita 記事をググっても出てこなかったので、自分のググラビリティ(備忘録)として。 TL; DR (今北産業) アレは英語で Magic comment と言います。 Python 3 の場合、ソースが UTF-8 の時は記載は不要です。(むしろ非推奨) Python 3 で使えるコーデック文字コードのエンコード一覧はこちらになります。 Standard Encodings | Codecs | Library | v3 @ docs.python.org 取りまとめ 英語で Magic comment と言います Magic comment の日本語表記について 英語の文献(PEP-263)には「magic comment」という記載がありました。 To define a source cod

                                                                Python で文頭に記載する文字コードの「アレ」(なんちゃら UTF-8 みたいなやつ)の名称と仕様 - Qiita
                                                              • [BOD供養寺] スクレイピングしてきたデータの文字コードがおかしかったので修正した - Qiita

                                                                Code for Japan Summit の人気企画に、「BADオープンデータ供養寺」というコンテンツがあります。 BADオープンデータ供養寺 【セッション概要】 世の中のBADオープンデータが二度とこの世を彷徨わないように、「供養(データクレンジング)」する方法を考える場です。 データの公開に携わる行政職員の方や、データを利活用するエンジニア・データサイエンティスト等の皆さまと、より使いやすく品質の高いオープンデータの公開と加工の仕組みを考えていくために建立されました。 前半はパネリストが、日頃の業務の中で、どのようなBADオープンデータにいかに対処してきたか、実例やクレンジング技術を紹介します。 後半では事前投稿されたBADオープンデータを紹介しながら、オーディエンスの皆さまと一緒に成仏させる方法を考えて行きたいと思います。 ちょうど最近、総務省が公開しているマイナンバーカードの交付

                                                                  [BOD供養寺] スクレイピングしてきたデータの文字コードがおかしかったので修正した - Qiita
                                                                • やっかいな漢字 – CJK部首補助/康煕部首 – ものかの

                                                                  DTP制作向けのテキスト整形の話です(楽しい文字沼)。 CJK部首補助や康煕部首の漢字は、とてもやっかいです。なにがやっかいかというと、見た目では通常の漢字と区別ができないことです。 文字コードが違うのにどうして見た目がこれほど同じなのかというと、フォントの同じグリフが表示されているからです。 クライアントから支給された文字原稿に、もしかするとこのやっかいな漢字が混入しているかもしれません。なぜかというと、PDFから文字をコピーすると、通常の漢字だったはずなのに、なぜかやっかいな漢字に変わってしまうことがあるからです。このごろは文字原稿の作成にPDFから文字をコピー&ペーストすることが普通に行われているので、やっかいな漢字の混入は日常茶飯事といってよいかもしれません。 クライアントからPDFを支給されたときも、DTP制作者がPDFから文字をコピー&ペーストして、気づかずにやっかいな漢字を混

                                                                    やっかいな漢字 – CJK部首補助/康煕部首 – ものかの
                                                                  • 【Excel】CSVファイルを開いたら文字化け! ちゃんと表示されないときの対処法【いまさら聞けないExcelの使い方講座】

                                                                      【Excel】CSVファイルを開いたら文字化け! ちゃんと表示されないときの対処法【いまさら聞けないExcelの使い方講座】
                                                                    • リアルタイム文字コード変換/解析ツール

                                                                      使い方 調査したい文字を入力してください。文字の種類によって色分けされ、文字コードとともに表示されます。

                                                                        リアルタイム文字コード変換/解析ツール
                                                                      • 【図解】【3分解説】UnicodeとUTF-8の違い!【今さら聞けない】 - Qiita

                                                                        UTF-16のことをUnicodeと記しているソフトウェア(Windowsのメモ帳など)もありますのでUnicodeとあったらそれはUTF-16を使って変換したものなのだな、というふうに理解してください。 そうなってしまっている理由はこちらで解説されていました。 これでUnicodeとUTF-8の違いはバッチリですね!おわり。 読んで分かりやすかったり少しでも何か学べたと思えたら いいね や コメント をもらえるとこれからの励みになります! もう少し時間がある方へ 手計算で文字をUTF-8での符号まで計算してみましょう。 理解が一気に深まります。手順は以下。 1. 文字のコードポイントをUnicodeから見つけてくる。 2. コードポイントをUTF-8の方式で変換してみる。 Omiitaの「お」をUTF-8による符号まで変換してみます。 文字「お」のコードポイントをUnicodeから見つけ

                                                                          【図解】【3分解説】UnicodeとUTF-8の違い!【今さら聞けない】 - Qiita
                                                                        • UAX31: Unicode Identifier の話

                                                                          今日はまた去年の作業が元ネタで、プログラミング言語の識別子に使える文字に関する話です。 レターか数字 「1文字目にはアルファベットか _、2文字目以降にはそれに加えて数字を使えます。」 30年くらい前にはこれが「プログラミング言語の識別子(変数名など)に使える文字列」の定義でした。 _ の部分はプログラミング言語次第ですが、「1文字目にアルファベット、2文字目以降に数字」の部分は結構いろんな言語でそうだったんじゃないかと思います。 まあ、昔のプログラミング言語は ASCII コードで書く物だったので、上記の条件は [a-zA-Z] とか [0-9] みたいな正規表現で書けたんですが。 Unicode の時代になると「アルファベットだけでいいのか」とか「アルファベットって何だ」という話になります。 レター まず、「アルファベット(alphabet)」というと母音と子音が分かれてる文字のことで

                                                                            UAX31: Unicode Identifier の話
                                                                          • Pythonでjson dumpsを使いこなそう!(encoding、foramt、datetime) | 侍エンジニアブログ

                                                                            みなさんこんにちは! JSONファイルは正しく扱えていますか?PythonでJSONを出力の際、文字化けしてしまったり、datetime型がうまく扱えずにエラーがでてしまったり、エンコード問題に悩まされたりしていませんか? 今日はそんな方たちのために、JSONのdumpsについて詳しく見ていきたいと思います! json dumpsとは さて、実際にdumps関数をのどのように使うのか見ていまえに、そもそもdumps関数がどんなものかということについて見ていきます。 dumps関数とはデータをJSON形式にエンコードすることのできる関数です。jsonライブラリでは、loads関数がデコード、dumps関数がエンコードとなっています。 エンコードとはデータを別の型に変換してくれることで、デコードとはエンコードされた型をもとに戻すことです。 loads関数や、そもそもJSONが何か怪しいという方

                                                                              Pythonでjson dumpsを使いこなそう!(encoding、foramt、datetime) | 侍エンジニアブログ
                                                                            • とほほの文字コード入門 - とほほのWWW入門

                                                                              「文字コード」とは、文字をコンピューターで表現する際にどのようなバイト表現にするかを定めるもので、下記の概念を持ちます。 符号化文字集合(CCS:Coded Caracter Set)、キャラクタセット とも呼びます。文字に番号を割り振ります。主な文字集合として JIS X 0208 や Unicode があります。これらの規約では、文字に「群・面・区・点」の番号を割り振ります。群は 0~127、面・区・点は 0~255 の数値をとります。すべて使用すると 128×256×256×256=2,147,483,648文字を表すことができますが、JIS X 0208 では1~94区×1~94点のみの 94×94=8,836文字、Unicode では 0~16面×0~255区×0~255点の 17×256×256=1,114,112文字の範囲で文字を定義しています。例えば文字の「あ」は、JIS

                                                                              • Windows 上の Python で UTF-8 をデフォルトにする - Qiita

                                                                                TL;DR: UTF-8をデフォルトで使いたい人は環境変数に PYTHONUTF8=1 を設定しよう Python は文字列が unicode なので、あちこちで「適切」なエンコーディングを選択する必要があります。残念ながら後方互換性やWindows固有の事情によりまだ ANSI Code Page (日本語なら cp932) がデフォルトで使われる場面があります。 ざっと Python と外の世界との入出力をあげてみます。 テキストファイルを読み書きする時のデフォルトのエンコーディング = ACP 標準入出力のエンコーディング 標準入出力がコンソールのとき = UTF-16 で WriteConsoleW 等を呼ぶ 標準入出力がコンソールでない時 = ACP 子プロセスとのPIPE = ACP 最近 chcp 65001 を使って UTF-8 を使う方法が広まっているように思います。これ

                                                                                  Windows 上の Python で UTF-8 をデフォルトにする - Qiita
                                                                                • Google で絵文字の数を検索するとサーバーエラーになる問題 | スラド IT

                                                                                  現在は再現しなくなっているが、Google でプラットフォームごとの絵文字の数を検索するとサーバーエラーになる問題が発生していたそうだ (Bleeping Computer の記事、 Hacker News の記事、 BetaNews の記事、 エラー画面の Archive.today アーカイブ)。 エラーの内容としては、通常は検索結果が表示される部分に「Server Error」として説明が表示されるものだ。説明部分では要求を処理中に内部のサーバーエラーが発生したようだとして謝罪し、エンジニアが通知を受けて解決に向けて作業しているとして、あとでやり直すよう求めている。 エラーが発生する検索語句は英文で「how many emojis on ios|apple|windows|lumia」といったもので、「how may emojis on macos|linux|ipados」では問題