並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 78件

新着順 人気順

文字コードの検索結果1 - 40 件 / 78件

  • 文字コード | 衆議院議員 河野太郎公式サイト

    2023.05.10 官報に使われる「官報文字」というものがあります。 そこには渡辺さんの「辺」の異体字が140文字も登録されています。 日本語の常用漢字には2136文字ありますが、そこには邉や邊などは入っていません。 そこでJISの第四水準までを含むJIS X 0213という標準を定め、スマホやパソコンではここまでを標準的に表示できるようにしています。 ところが我が国の戸籍で使ってもよいとされている文字はそれを遙かに超えていて、少なくとも55,270文字もあります。 全ての国民の氏名をコンピュータで扱えるようになることを目指して、戸籍統一文字や住基ネット用の統一文字を網羅した「文字情報基盤」を2011年に策定し、それにあわせたフォントを作成し、無償で提供しています。 この「文字情報基盤」(MJ)には、58,862文字が含まれています。 しかし、このMJを全庁的に採用している自治体は、川口

      文字コード | 衆議院議員 河野太郎公式サイト
    • 文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう! - エンジニアHub|Webエンジニアのキャリアを考える!

      ソフトウェア開発に携わる方の多くは、何らかの形で文字コードに触れることがあるでしょう。文字や記号をコンピュータ上でデータとして扱うには、文字コードの知識が必要不可欠です。 本稿では、書籍『プログラマのための文字コード技術入門』の著者である矢野啓介さんが、知っておきたい基礎知識を分かりやすく解説します。 文字コードとは? Unicode以前の文字コード Unicodeとその主な符号化形式 UTF-16 UTF-32 UTF-8 Webで文字コードを指定する仕組み HTML文書で文字コードを指定する HTTPのプロトコルで文字コードを指定する Unicodeによるプログラミング上の注意点 サロゲートペア 結合文字 正規化 書記素クラスタで文字数をカウント まとめ 関連規格 文字コードとは?

        文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう! - エンジニアHub|Webエンジニアのキャリアを考える!
      • 話題の「Telnet」電子公告、「平文やんけ」という指摘に応えて「over SSL」版を追加/文字コードも「UTF-8」に、ただし超長文の反論付き【やじうまの杜】

          話題の「Telnet」電子公告、「平文やんけ」という指摘に応えて「over SSL」版を追加/文字コードも「UTF-8」に、ただし超長文の反論付き【やじうまの杜】
        • 中国人を悩ませるレアな名字の文字コード問題

          印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 中国では、2023年8月1日に強制力のある国家標準規格「GB 18030-2022」(信息技術中文編碼字符集)が施行される。中国で「強制」という言葉が出ると「また締め付けが強化される」と反射的に考えてしまうかもしれないが、これは文字コードの標準規格を新たに導入するという話だ。珍しい名字などに使われ、既存の文字コードに未登録の漢字に対応しようというものになる。 中国の面積は日本の国土の約25倍で、約14億人の人口を擁している。一部の地域限定で使われている漢字や、少数民族の固有名詞でのみ用いられている漢字もある。文字コードに含まれない漢字を使っている人は約6000万人もいるそうだ。例えば、山東省青島市郊外にシュイユー村という地元ではまあまあ

            中国人を悩ませるレアな名字の文字コード問題
          • JavaScript における文字コードの初歩 - 30歳からのプログラミング

            この記事では、 JavaScript で文字コードを扱う際に知っておくべき概念である Code Point や Code Unit、サロゲートペア、といったものについて説明していく。 また、具体的にそれらの概念を使ってどのようにコードを書いていくのかについても扱う。 この記事に出てくるコードの動作確認は以下の環境で行った。 Deno 1.26.0 TypeScript 4.8.3 Code Point (符号位置) プログラムで文字を表現する方法は複数あるが、 JavaScript では Unicode という方法を採用している。 Unicode ではあらゆる文字に対して一意の値を割り振ることを目的としており、この値のことを Code Point (符号位置)という。 Code Point は 16 進数の非負整数で、文章中で表記するときは接頭辞としてU+をつける。 例えばAという文字の

              JavaScript における文字コードの初歩 - 30歳からのプログラミング
            • ChatGPTは文字コードをどのように解釈しているか Unicodeの「日本語認識」「括弧の抽出」「旧字体と新字体の変換」を実験してみた

              「YAPC(Yet Another Perl Conference)」は、Perlを軸としたITに関わるすべての人のためのカンファレンスです。ライトニングトークにはPR TIMES インターンのShun氏が登壇。ChatGPTと文字コードについて話します。 ChatGPTは文字コードをどのように解釈しているか 土屋俊介氏:こんにちは。先ほど、発表が4分だと知った土屋です。PR TIMESというところで、機械学習のインターンをしています。 (スライドを示して)昨今、ChatGPTというものがメチャメチャはやっていますよね。私は使っていく中で、(ChatGPTが)文字コードをどのように解釈しているかが気になりました。なぜそんなニッチな話が気になるのかというと、自然言語処理とWebに関わっている以上、文字コードに関するプログラムをよく書くんです。その関係で気になったので調べてみました。 (スライ

                ChatGPTは文字コードをどのように解釈しているか Unicodeの「日本語認識」「括弧の抽出」「旧字体と新字体の変換」を実験してみた
              • (プログラマのための) いまさら聞けない標準規格の話 第1回 文字コード概要編 | オブジェクトの広場

                プログラマがシステム開発において共通で必要となる、技術と業務の狭間の共通知識を解説します。連載第1回は文字コードの概要編です。 0. はじめに 業務システムを開発する場合、プログラミング言語、フレームワーク、ミドルウェア、業務知識など以外に、共通で必要となる知識があります。文字コード、国際化、日付・時刻の扱い、住所コード、郵便番号、電話番号などの各種コード、…。 本連載では、プログラマがシステム開発で必要となる、技術と業務の狭間の共通知識を解説して行きたいと思います。 連載第1回は文字コードの概要編です。コンピュータシステムにおいて、文字情報は文字コードを用いて処理されます。文字コードとは、各文字に対応付けられた数値 (符号) のことです。近年、新規に開発される業務システムでは Unicode が使われることが多いと思いますが、既存システムとの連携など他の文字コードが使用されることもまだま

                  (プログラマのための) いまさら聞けない標準規格の話 第1回 文字コード概要編 | オブジェクトの広場
                • キャラ名に「ソ」をいれるとバグる! 古参開発者「うっ……頭の中で何かが……」/「ドカポンキングダム コネクト」で起きたShift_JIS文字コードの「ダメ文字」問題って?【やじうまの杜】

                    キャラ名に「ソ」をいれるとバグる! 古参開発者「うっ……頭の中で何かが……」/「ドカポンキングダム コネクト」で起きたShift_JIS文字コードの「ダメ文字」問題って?【やじうまの杜】
                  • (プログラマのための)いまさら聞けない標準規格の話 第2回 文字コード実践編 | オブジェクトの広場

                    プログラマがシステム開発において共通で必要となる、技術と業務の狭間の共通知識を解説します。連載第2回は文字コードの実践編です。 0. 前回の復習と今回の概要 システム開発で必要となる標準規格の話、前回 は文字コードの概要について説明しました。ざっくりまとめるとこんな内容でした。 「符号化文字集合」で文字集合と符号位置を定義し、「符号化方式」でバイト表現に変換していること。 日本では、しばらく文字集合 JIS X 0208 を、ISO-2022-JP、EUC-JP、Shift_JIS の符号化方式で利用してきたこと。 近年は、世界中の文字が扱える Unicode が主流となっており、UTF-8、UTF-16 などの符号化方式があること。 常用漢字、人名用漢字に限っても、字体を正確に扱おうとすると、JIS X 0208 の範囲では不十分であり、JIS X 0213、Unicode、サロゲートペ

                      (プログラマのための)いまさら聞けない標準規格の話 第2回 文字コード実践編 | オブジェクトの広場
                    • オープンソースの老舗テキストエディター「サクラエディタ」v2.4.0.0 ~約2年ぶりのアップデート/BOMなしのUTF-8がデフォルトの文字コードに。不透明度を調整できるエディター壁紙も

                        オープンソースの老舗テキストエディター「サクラエディタ」v2.4.0.0 ~約2年ぶりのアップデート/BOMなしのUTF-8がデフォルトの文字コードに。不透明度を調整できるエディター壁紙も
                      • メモ帳の文字コード既定値がUTF-8に、Windows 10「May 2019 Update」

                        2019年5月21日(米国時間)から、Windows 10の大型アップデート「Windows 10 May 2019 Update(May 2019 Update)」の配信が順次始まった。主要な新機能や変更点を見ていこう。 May 2019 Updateでは、Linuxとの親和性をさらに高める機能が追加された。この他、メモ帳のデフォルト設定の文字コードがUTF-8となり、今まで以上にソフトウエア開発者に使いやすくなった。

                          メモ帳の文字コード既定値がUTF-8に、Windows 10「May 2019 Update」
                        • Windowsでちょっと文字コードを調べたいときの方法 (1/2)

                          Windows PowerShellを使えば、文字コードを簡単に調べることができる。パターンさえ覚えれば、プログラミングの知識は不要で、アプリを別途インストールする必要もない コンピュータを使っていると、文字コードを調べなければならないことがある。昔なら文字コードは8bitしかなかったので、ASCIIコード表からすぐだったが、現在は多数の言語の文字を収録したUnicode(ユニコード)が一般的なので、一覧表から調べることは難しい。 文字1つぐらいならインターネット検索でもなんとかなるが、2つ、3つとなると面倒だ。かといって、文字コードを調べるソフトウェアを探してインストールするのもまた面倒。こういうときには、Windowsの標準機能を使うといい。 Windowsには、「文字コード表」というプログラムもあるが、一覧から文字を探して、そのコードを表示することはできるが、文字そのものから直接コー

                            Windowsでちょっと文字コードを調べたいときの方法 (1/2)
                          • 絵文字の偉大な功績の1つは「文字コードを統一したこと」

                            数字を処理するコンピューター上で文字を扱うためには、文字コードと呼ばれるバイト表現が重要となります。かつては国や言語ごとにバラバラの文字コードを使っていましたが、記事作成時点ではUnicodeにほぼ統一されているといえます。そんなUnicodeへの統一には絵文字が大きな役割を果たしたと、ソフトウェア開発企業のIbexaでシニアデベロッパーアドボケイトを務めるJani Tarvainen氏が解説しています。 Emojis paved the way for UTF-8 everywhere https://developers.ibexa.co/blog/emojis-paved-the-way-for-utf-8-everywhere Tarvainen氏の母語であるフィンランド語には、アルファベットに「Ä」などのウムラウトや「Å」などのリングといった記号を伴うことがあります。これらの記号

                              絵文字の偉大な功績の1つは「文字コードを統一したこと」
                            • なぜ『プログラマのための文字コード技術入門』の改訂新版にはSKKと Emacsの話が入っていないのか - yanok.net

                              拙著『[改訂新版] プログラマのための文字コード技術入門』(技術評論社,2018)についての感想で,初版にAppendixとして入っていたSKKとEmacsによるJIS X 0213対応の話が無くなっていることを惜しんでくれているものがありました。 これは初版執筆時に著者(私だ)がEmacsとSKKを使ってEUC-JIS-2004のプレーンテキストとして原稿を書いていたことを紹介し,当時の一般的な日本語入力環境が抱えていた問題点をこれによって解消できることを説明したものです。 当時の日本語入力環境というのは,おおまかにいえばJIS X 0208の第1・第2水準漢字に制約されており,それ以外の文字は入力できないか,できたとしても単漢字変換や文字パレットのような使いにくい方式によるしかないというものでした。そういう状況を改善し,現代日本で使われている文字は第1・第2水準漢字に限らず,分け隔てな

                              • 文字コードの世界の第一歩 - KAKEHASHI Tech Blog

                                こんにちは、株式会社カケハシでおくすり連絡帳 Pocket Musubiの開発を担当している渡辺です。 今回は文字コードについての記事を書きました。 Pocket Musubiではお薬手帳用QRコードを読み込み、デコードした結果を利用します。ここでデコードするときにうまくいかないケースがあり、そこでの知見です。 文字コードについて 蛇足ですが、文字コードについて簡単におさらいします。 文字コードとは、文字をコンピューターで扱うために、文字ごと割り当てた数字のことです。 文字コードの対応表に基づいて、文字を数字に割り当てることを文字エンコードと言います。 文字コードの対応表には、ASCIIやUTF-8のような規格があります。 たとえば、アルファベットを扱うASCII文字だと'a' は97番、'b'は98番と割り当てられています。 ASCII 先ほども出てきた「ASCII」とは、文字コードの標

                                  文字コードの世界の第一歩 - KAKEHASHI Tech Blog
                                • みんな忘れてるけど「文字コードというものにはシフトJISとUTF-8などがある」ということを知ってるだけでも世間一般からすればIT専門家である

                                  嶋田大貴 @shimariso みんな忘れてるけど、「テキストファイルという種類のファイルがあって、その中で使われる文字コードというものにはシフトJISとUTF-8などがある」ということを知ってるだけでも世間一般からすればIT専門家ですよ。 2024-04-02 12:42:01

                                    みんな忘れてるけど「文字コードというものにはシフトJISとUTF-8などがある」ということを知ってるだけでも世間一般からすればIT専門家である
                                  • あなたの知らない(かもしれない)文字コードの世界 TypeScript版😊👍🏿パ👨‍👩‍👦🇦🇿🏴󠁧󠁢󠁥󠁮󠁧󠁿

                                    こんにちは!アルダグラムのKANNAの開発お手伝いをさせて頂いているoubakiouです。 本記事は株式会社アルダグラム Advent Calendar 2023 6日目の記事です。 この記事を読めば以下のTypeScript(JavaScript)のテストコードがなぜこけるのかが分かったような気持ちになります。また最後に「細かい理屈はいいからいけてる感じに動くlengthやtruncateがほしい!」という方向けの付録もついています。 it('surrogate pair', () => { // 2 expect('😊'.length).toEqual(1) }) it('variation selectors', () => { // 4 expect('👍🏿'.length).toEqual(1) }) it('combining character', () => { //

                                      あなたの知らない(かもしれない)文字コードの世界 TypeScript版😊👍🏿パ👨‍👩‍👦🇦🇿🏴󠁧󠁢󠁥󠁮󠁧󠁿
                                    • nkf の代替としての StreamRelay.jar (文字コード変換) - Qiita

                                      java.exe -Djava.security.policy=StreamRelay.policy -jar StreamRelay.jar ⇔ StreamRelay.bat InputStream/OutputStreamにReader/Writerを被せる事で、(文字コードを含む)文字列を扱うことができるので、入力の文字コードと出力の文字コードを異なるオプション指定をすれば、文字コード変換を行う事ができる オプション 使うオプションは、 - -LocalCharset - -RemoteCharset 通信方向ごとに個別に設定したい場合は↓ -LocalRequestCharset -LocalResponseCharset -RemoteRequestCharset -RemoteResponseCharset レスポンスだけ文字コード変換したい。という時に使える 文字コード変換

                                        nkf の代替としての StreamRelay.jar (文字コード変換) - Qiita
                                      • CSVの区切り文字変更や文字コード変換などを一括処理「CSVのお供:アテンダントCSV」/「Excel」で読み込んだ際に先頭の“0”が消えたり、日付と解釈されることを防ぐことも【レビュー】

                                          CSVの区切り文字変更や文字コード変換などを一括処理「CSVのお供:アテンダントCSV」/「Excel」で読み込んだ際に先頭の“0”が消えたり、日付と解釈されることを防ぐことも【レビュー】
                                        • Hal Seki on Twitter: "総務省のマイナンバーカード交付状況をデータ化していて、データの結合がうまくいかないなーと思ったら、なんと、同じ埼玉でも文字コードが違うという落とし穴が・・ 3月8日では \u2f5f が使われていて、それ以降では\u7389…… https://t.co/yzgf41Wl4w"

                                          総務省のマイナンバーカード交付状況をデータ化していて、データの結合がうまくいかないなーと思ったら、なんと、同じ埼玉でも文字コードが違うという落とし穴が・・ 3月8日では \u2f5f が使われていて、それ以降では\u7389…… https://t.co/yzgf41Wl4w

                                            Hal Seki on Twitter: "総務省のマイナンバーカード交付状況をデータ化していて、データの結合がうまくいかないなーと思ったら、なんと、同じ埼玉でも文字コードが違うという落とし穴が・・ 3月8日では \u2f5f が使われていて、それ以降では\u7389…… https://t.co/yzgf41Wl4w"
                                          • ChatGPTを使って、文字コードの理解と記述の負担を軽減できるのか 「日本語と認識しているUnicodeの範囲」「括弧の検出」「新字体への変換」を調査してみた

                                            「『生成AIを使ってこんなもの作ってみました』開発者LT大会」は、急速に発展しているChatGPTや生成AIといったAI技術を使って何かを作ってみた人たちがアイデアや成果を共有する、ログミーTech主催のイベントです。ここでPR TIMES社の土屋氏が登壇。「ChatGPTを使って文字コードを扱う負担を軽減できるか」という調査の内容と結果について紹介します。 Shun氏の自己紹介と、本セッションのアジェンダ Shun氏(以下、Shun):それでは、PR TIMES社の土屋が発表します。私の名前はShunといいます。PR TIMESに勤めていて、ソフトウェアエンジニアをやっています。 本日のアジェンダです。私の発表はどちらかというと、個人開発でChatGPTを使ったものを作って、それで実験をしてみたという内容になっております。 表題にもあるとおり、ChatGPTに文字コードのことを聞いてどん

                                              ChatGPTを使って、文字コードの理解と記述の負担を軽減できるのか 「日本語と認識しているUnicodeの範囲」「括弧の検出」「新字体への変換」を調査してみた
                                            • Excel CSV形式ファイルにおける今どきUTF-8文字コード問題の傾向と対策

                                              環境依存文字を含むデータをCSV形式でやりとりするには 人名や地名の中には、環境依存文字(異字体など)が含まれていることがある。環境依存文字を含むExcelのシートをCSV形式でやりとりしなければならない場合、文字コードにUTF-8を指定するとよい。なお画面の住所録は、「テストデータ・ジェネレータ」によって作成した架空のサンプル用のデータを記事用に修正したものである。 「Microsoft Excel(エクセル)」で作成した表を、CSV形式で保存し、別のアプリケーションに読み込ませることはないだろうか。また、取引先にデータを送る際に、XLSX形式ではなく、CSV形式が要求されることもあるだろう。逆にCSV形式で受け取ったデータをExcelで読み込んで処理したいというケースもあり得る。 このような場合、環境依存文字(機種依存文字)が含まれていると、CSV形式に変換する際に、正しく文字が出力さ

                                                Excel CSV形式ファイルにおける今どきUTF-8文字コード問題の傾向と対策
                                              • 【Windows 10/11】えっ、UTF-8じゃなくてShift-JISで? お手軽文字コード変換方法まとめ

                                                【Windows 10/11】えっ、UTF-8じゃなくてShift-JISで? お手軽文字コード変換方法まとめ:Tech TIPS Windows OSのコマンドプロンプト上でテキスト処理をする場合、基本的にはShift-JIS(シフトJIS)コードのテキストファイルしか扱えない。その他の文字コードのテキストを扱う場合は、Shift-JISに変換する必要がある。「メモ帳」アプリやnkfコマンドなどで文字コードを変換する方法を解説する。

                                                  【Windows 10/11】えっ、UTF-8じゃなくてShift-JISで? お手軽文字コード変換方法まとめ
                                                • CA1965 – 新元号と文字コードの国際標準を巡って / 小林龍生

                                                  新元号と文字コードの国際標準を巡って 一般社団法人文字情報技術促進協議会:小林龍生(こばやしたつお) 2019年は、平成最後の年として始まり、令和元年として暮れようとしている。本論では、新天皇即位に伴う平成から令和への改元に係わる国際符号化文字集合UCS(ISO/IEC 10646:Universal Coded Character Set)(1)とUCSに対応する民間標準規格ユニコード(Unicode Standard)(2)を巡る2つの話題について論じる。 1. 令和の合字について 活版で印刷された新聞や書籍を見ると、しばしば、1字分のスペースに、複数の文字を鋳込んだ活字を目にすることがある。いわゆる合字と呼ばれるもので、リガチャーとも呼ばれる。 ただし、欧文のリガチャーは、羊皮紙本の写本などで用いられていた複数のアルファベットの簡略筆写法の残滓としての意味合いが強いが、日本語活字の合

                                                    CA1965 – 新元号と文字コードの国際標準を巡って / 小林龍生
                                                  • モールス信号に文字コード、作曲まで…ステルス河野太郎チャレンジが極まってきた

                                                    DJラフ @nicole_sou 隠し文字で「河野太郎」って書いて引用RTされなくて、私のは見つからなかったって言ってる奴、たぶん無視されてるだけやぞ。 2019-10-08 12:41:30

                                                      モールス信号に文字コード、作曲まで…ステルス河野太郎チャレンジが極まってきた
                                                    • 【Excel】CSVファイルを開いたら文字化け発生!「Power Query」で文字コードを指定して取り込みましょう【いまさら聞けないExcelの使い方講座】

                                                        【Excel】CSVファイルを開いたら文字化け発生!「Power Query」で文字コードを指定して取り込みましょう【いまさら聞けないExcelの使い方講座】
                                                      • Python で文頭に記載する文字コードの「アレ」(なんちゃら UTF-8 みたいなやつ)の名称と仕様 - Qiita

                                                        「python 文頭に記載する アレ」とか「python 文頭 記述 文字コード アレ」の Qiita 記事をググっても出てこなかったので、自分のググラビリティ(備忘録)として。 TL; DR (今北産業) アレは英語で Magic comment と言います。 Python 3 の場合、ソースが UTF-8 の時は記載は不要です。(むしろ非推奨) Python 3 で使えるコーデック文字コードのエンコード一覧はこちらになります。 Standard Encodings | Codecs | Library | v3 @ docs.python.org 取りまとめ 英語で Magic comment と言います Magic comment の日本語表記について 英語の文献(PEP-263)には「magic comment」という記載がありました。 To define a source cod

                                                          Python で文頭に記載する文字コードの「アレ」(なんちゃら UTF-8 みたいなやつ)の名称と仕様 - Qiita
                                                        • [BOD供養寺] スクレイピングしてきたデータの文字コードがおかしかったので修正した - Qiita

                                                          Code for Japan Summit の人気企画に、「BADオープンデータ供養寺」というコンテンツがあります。 BADオープンデータ供養寺 【セッション概要】 世の中のBADオープンデータが二度とこの世を彷徨わないように、「供養(データクレンジング)」する方法を考える場です。 データの公開に携わる行政職員の方や、データを利活用するエンジニア・データサイエンティスト等の皆さまと、より使いやすく品質の高いオープンデータの公開と加工の仕組みを考えていくために建立されました。 前半はパネリストが、日頃の業務の中で、どのようなBADオープンデータにいかに対処してきたか、実例やクレンジング技術を紹介します。 後半では事前投稿されたBADオープンデータを紹介しながら、オーディエンスの皆さまと一緒に成仏させる方法を考えて行きたいと思います。 ちょうど最近、総務省が公開しているマイナンバーカードの交付

                                                            [BOD供養寺] スクレイピングしてきたデータの文字コードがおかしかったので修正した - Qiita
                                                          • 日本語を含む PowerShell スクリプトの文字コード - Qiita

                                                            (この記事では、Windows PowerShell(5.1 以前: powershell.exe)を PowerShell と書きます。PowerShell Core(6.0 以降: pwsh.exe)とは異なるので注意。) PowerShell スクリプトを UTF-8 で書いて PowerShell で動かそうと思ったら動かなかった。調べてみたら、VSCode と PowerShell でのファイルのエンコードの概要というページが参考になった。 PowerShell には文字コードの自動判別機能がない。また、実行時に文字コードを指定することもできない。ファイルに BOM(byte order mark: バイト順記号)があれば文字コードがわかるけれど、BOM がなければデフォルトの文字コードで読もうとする。デフォルトの文字コードは、日本語ロケールでは Shift-JIS。なので、BO

                                                              日本語を含む PowerShell スクリプトの文字コード - Qiita
                                                            • リアルタイム文字コード変換/解析ツール

                                                              使い方 調査したい文字を入力してください。文字の種類によって色分けされ、文字コードとともに表示されます。

                                                                リアルタイム文字コード変換/解析ツール
                                                              • Windows 10の文字コード(システムロケール)をUTF-8に変更する方法

                                                                メモ帳で作成したテキストファイルの文字コードは「UTF-8」になります。それに対しWindowsのシステムでは「Shift-JIS」が使われているため文字化けが起こるのです。 この記事ではWindowsのシステムで既定の文字コード(システムロケール)を「Shift-JIS」から「UTF-8」に変更する手順について解説します。 合わせて以下のページもご参考ください。

                                                                  Windows 10の文字コード(システムロケール)をUTF-8に変更する方法
                                                                • とほほの文字コード入門 - とほほのWWW入門

                                                                  「文字コード」とは、文字をコンピューターで表現する際にどのようなバイト表現にするかを定めるもので、下記の概念を持ちます。 符号化文字集合(CCS:Coded Caracter Set)、キャラクタセット とも呼びます。文字に番号を割り振ります。主な文字集合として JIS X 0208 や Unicode があります。これらの規約では、文字に「群・面・区・点」の番号を割り振ります。群は 0~127、面・区・点は 0~255 の数値をとります。すべて使用すると 128×256×256×256=2,147,483,648文字を表すことができますが、JIS X 0208 では1~94区×1~94点のみの 94×94=8,836文字、Unicode では 0~16面×0~255区×0~255点の 17×256×256=1,114,112文字の範囲で文字を定義しています。例えば文字の「あ」は、JIS

                                                                  • MySQL5.7と8.0における文字コード/照合順序の設定方法 - 雑記帳

                                                                    前置き ・パラメータ名がハイフン表記か、アンダースコア表記か常に意識しておく必要有 ・初めてMySQLを起動する前に設定すべき 後でも直せなくはないが、苦行 また、mysql/performance/sysスキーマをalter文で変更するの怖い(一部放置している…) 前提 ・MySQL5.7/8.0におけるmy.cnf(Linux)/パラメータグループ(AmazonRDS)での設定を考慮 ・文字コードはutf8mb4、照合順序はutf8mb4_general_ciに設定 ・データベースのことをスキーマ、MySQLサーバーのプロセス全体をサーバーと記述する 文字コード 1.文字コードとは ・みんな大好き文字コードのため割愛 ・MySQL5.7も8.0もutf8mb4が無難 (cp932で保管しないといけないシステムもあるであろうが…) 2.文字コードに関するパラメータ 2.1.charact

                                                                      MySQL5.7と8.0における文字コード/照合順序の設定方法 - 雑記帳
                                                                    • マイナー言語の学習者に知っておいてほしい,"フォントと文字コード" の基礎入門 【PCやスマホ・Twitterで,外国語が文字化けし,表示や入力ができない時に】 実践の事例: ミャオ語ポラード文字,古アディゲ文字,ビルマ文字 (演習問題付き)

                                                                      PCやスマホ上で,外国語を取り扱う際の「フォントと文字コード」の基礎知識を,入門用にわかりやすくレクチャーします。 具体的に表示できなくて困っている文字を,表示・入力できるようにするまでの手順や,思考の過程なども記します。 さいきん語学たん界隈がとてもにぎわってきて,「マイナー言語のアルファベットを使って,文字化けせずにツイートしたい,PC上で文字を打ちたい」などのニーズが急増してきました。 そういった悩みを自力で対処・解決できるようにするためのナレッジベースとして,本まとめを作成することに致しました。 あなたも,フォントや文字コードを使いこなして,まだ文字の表示・入力が普及していないようなマイナー言語をバリバリ学習しましょう!! \(^o^)/ なお,まとめの末尾に,復習用の「演習問題」が付属しています。

                                                                        マイナー言語の学習者に知っておいてほしい,"フォントと文字コード" の基礎入門 【PCやスマホ・Twitterで,外国語が文字化けし,表示や入力ができない時に】 実践の事例: ミャオ語ポラード文字,古アディゲ文字,ビルマ文字 (演習問題付き)
                                                                      • HTMLの絵文字 文字コード表 | GRAYCODE HTML&CSS

                                                                        HTMLで使用することのできる絵文字の文字コード一覧です。入力方法についても解説します。 この記事のポイント 絵文字は「数値文字参照」で入力する 数値文字参照は「10進数」と「16進数」の2種類の書き方から選ぶことができる 絵文字が記号として表示されてしまうときはCSSでfont-familyプロパティを指定する 絵文字の書き方 HTMLで「😀」「👍」のような絵文字を表示したい場合は、記号・特殊文字と同じように「数値文字参照」を使います。 iOSの絵文字 絵文字の入力で使用する「数値文字参照」はUnicodeで定められた16進数、または10進数の値を以下のフォーマットで指定して表示させます。 数値文字参照 (10進数)の書き方 10進数のフォーマットで絵文字のコードを書くときは「&#」と「;」で囲みます。 文字実体参照(10進数)の入力例 😀 // => 😀 &#12

                                                                          HTMLの絵文字 文字コード表 | GRAYCODE HTML&CSS
                                                                        • MySQLの日本語文字化け回避!文字コードを確認&変更する方法 - プロエンジニア

                                                                          前回記事:MySQLで新規にデータベースを作成・削除する方法では、MySQL Command Line Clientを使用し、データベースを作成&削除する方法をご紹介しました。今回は、MySQLの日本語項目が文字化けする場合の対策方法についてご紹介したいと思います。

                                                                            MySQLの日本語文字化け回避!文字コードを確認&変更する方法 - プロエンジニア
                                                                          • 黒いひし形にはてなマークが出る文字(�)はUTF-8変換時のときに変換後の対象がない置き換え文字 - コード日進月歩

                                                                            � という文字があるがクエスチョンマークだし、ググりにくいしはで、実際コレはなんなんだというメモ � とは ブラウザによっては見えない可能性があるので以下の画像のような文字 ※Specials (Unicode block) - Wikipedia) より引用 これは代替文字(REPLACEMENT CHARACTER)と呼ばれるもの。 REPLACEMENT CHARACTER UTF-8だと U+FFFD とされる文字であり、他の文字コードからUTF-8に置き換えたときに該当する文字がないときなどに使用される、らしい。 これらの変換はエディタや環境でよしなにやる部分なので、該当する文字があっても、表示時にない場合はコレに置き換えてしまうことがある様子。 関連リンク Specials (Unicode block) - Wikipedia) .NET での文字エンコード | Micros

                                                                              黒いひし形にはてなマークが出る文字(�)はUTF-8変換時のときに変換後の対象がない置き換え文字 - コード日進月歩
                                                                            • Rubyで文字コードを扱うコードを書くときに便利なメソッド集 - Qiita

                                                                              はじめに Ruby Advent Calendar 2020 の11日目の記事です。 昨日は、@universato さんの Ruby競プロTips(基本・罠・高速化108 2.7x2.7) でした。 最近文字コードに依存したコードを書く機会があり、 String の便利なメソッドをいろいろと知ったので紹介します。 動作確認環境 Ruby 2.7.2 UTF-8 前提情報 Ruby は他の多くの言語と異なり、 String オブジェクト自体がエンコーディング情報を持っています。 現在のスクリプトエンコーディングは疑似変数 __ENCODING__ で確認できます。 Unicodeでは人間が認識する自然な1文字と、Unicodeのデータ上の1文字が異なることがあります。人間が認識する自然な1文字は「書記素クラスタ(grapheme_cluster)」という単位でカウントされます。 特に断りが

                                                                                Rubyで文字コードを扱うコードを書くときに便利なメソッド集 - Qiita
                                                                              • 文字コード is なに? What is a character code?

                                                                                Okta Customer Identity Cloud (旧Auth0) の 採用に至った理由 〜モリサワの SaaS 戦略〜

                                                                                  文字コード is なに? What is a character code?
                                                                                • PowerShellの文字コードについて解説!文字化けで困らないための対処法 | テックマガジン from FEnetインフラ

                                                                                  PowerShellの文字コードとは? PowerShellはMicrosoftが開発したシェル機能です。シェルとはウィンドウでコマンドを入力して色々な処理ができる機能です。Windowsには以前からコマンドプロンプトと言うシェルがありますが、PowerShellはそれの機能強化版と言えます。 文字コードは文字を表現するルールです。文字にはそれぞれ番号がついていて、コンピュータの内部では、文字列は数値として処理されていますが、その番号の付け方のルールを文字コードと言います。 PowerShellを使うにあたり、文字コードをどう扱うかをこの記事で解説します。 US-ASCIIは文字コードの基本 PowerShellでの文字コードの扱いを解説する前に、まず文字コードについて知っておきましょう。たくさんある文字コードの中で、知っておくべきものは4つあります。まず1つめはUS-ASCIIです。 U

                                                                                    PowerShellの文字コードについて解説!文字化けで困らないための対処法 | テックマガジン from FEnetインフラ