並び順

ブックマーク数

期間指定

  • から
  • まで

361 - 400 件 / 417件

新着順 人気順

Unicodeの検索結果361 - 400 件 / 417件

  • Rubyだけで文字コード変換を実装する - Eggshell

    Ruby Advent Calendar 2021 - Qiita の5日目の記事です。 こんにちは。ima1zumiです。 私はRubyKaigi Takeout 2021 で Dive into Encoding というタイトルでオレオレ文字コードを作って文字コードを学ぶ話をしました。 その中で、C拡張のgemとして自作文字コードの Encoding::IROHA をRubyで使えるようにしました。 それがこちらです。 https://github.com/ima1zumi/encoding_iroha/ このgemを使うことで、みなさんのお手元でもEncoding::IROHAという文字コードが使えるようになります。 どう作るかとかそういった話はRubyKaigi Takeout 2021のアーカイブをご覧ください。 ですが思ったのです。C拡張のgemってビルド要るからめんどくさいで

      Rubyだけで文字コード変換を実装する - Eggshell
    • Go 1.17からの負のruneの扱い | フューチャー技術ブログ

      こんにちは、TIGの玉木です。Go 1.17連載の4記事目です。 この記事ではGo 1.17で更新があった負のruneの扱いについてです。更新自体は簡単なもので、この記事ではruneの説明から行います。 この記事を書いたきっかけGo 1.17のRelsease Notes1を眺めていたらいくつかの箇所で negative rune valuesという記述があり、runeってなんだ?と気になったことがきっかけです。 runeについてこちらのseihmdさんのQiita記事がとてもわかりやすかったです。詳細はそちらの記事に任せて、この記事では簡単な紹介に留めます。 コンピュータは文字を0と1のビットで表現します。例えば「”あ”, ”い”, “う”, “え”, “お”」の5種類の文字しかなければ、それぞれ「”000”, “001”, “010”, “011”, “100”」のように0と1で文字を

        Go 1.17からの負のruneの扱い | フューチャー技術ブログ
      • UnicodeとUTF-8と、GoのByte型とrune型についてのまとめ - たのしい駆動開発

        UTF-8,Unicode, Goのbyte, rune関係がよく分からなかったのでいろいろ調べて、自分なりに解釈ができたので、まとめてみようと思います。 まずは定義から行きましょう。 UTF-8: Unicodeで使える8ビット符号単位の文字符号化形式 Unicode: 文字集合(文字セット)が単一の大規模文字セット ようするに、UTF-8は、Unicodeを符号化(エンコード)するやつで、Unicodeはいろんな文字の集合です。 aとか"あ"とか"亜"とか、ほんといろいろな文字の集合。 そして、Unicodeの文字には、識別しやすいように数字が割り振られていて、その数字をコードポイント(Go言語でrune型に割り当てられる)といいます。実際にコードで違いを見てみましょう。 func main() { s := "あいうえお" b := []byte(s) for _, bi := ra

        • 厚生労働省の都道府県別陽性者のフォーマットががらっと変わってしまった - きしだのHatena

          こんな感じで都道府県別の感染者数を表示できるようにしてるわけですが、厚生労働省のフォーマットが変わってしまったのでまとめておく。 nowokay.hatenablog.com 新しいものはこれ https://www.mhlw.go.jp/content/10906000/000628667.pdf いままでのはこれ https://www.mhlw.go.jp/content/10906000/000627630.pdf いままでも連番が入るとか数値にカンマが入るとかちょこちょこ変更は入ってたのだけど、今回はデータの意味も結構かわってしまった。 重症者やPCR検査数も入ったので、データとしては よりよくなったわけではあるけど。 東京のデータも都の発表値と一致するようになって、改めて都のデータをとりにいく必要がなくなったのもいいですね。 ということで困ったところ 「不明」・・・いままでゼロ

            厚生労働省の都道府県別陽性者のフォーマットががらっと変わってしまった - きしだのHatena
          • 文字の表現力が増すおすすめの記号5選 |プレゼンデザイン

            文字の表現力を高めるうえで、ぜひ押さえておきたいのが記号です。記号なら図形など別の要素に頼らなくても、テキストだけでターゲットの視線を引きつけたり、情報の構造を柔軟に表すことができます。プレゼン資料作りで便利な記号を5つ紹介します。

              文字の表現力が増すおすすめの記号5選 |プレゼンデザイン
            • Go言語(golang)でShiftJISのファイルをutf-8に変換する | DevelopersIO

              データアナリティクス事業本部の森脇です。 Go言語で文字コードを変換するための方法について調べました。 使用するGo言語のバージョンは1.13.6です。 パッケージのインストール 文字コード変換を行うために、準標準パッケージであるgolang.org/x/textを使用します。 $ go mod init example.com/moriwaki/iconv go: creating new go.mod: module example.com/moriwaki/iconv $ go get -u golang.org/x/text go: finding golang.org/x/text v0.3.2 go: downloading golang.org/x/text v0.3.2 go: extracting golang.org/x/text v0.3.2 $ cat go.mod

                Go言語(golang)でShiftJISのファイルをutf-8に変換する | DevelopersIO
              • ロシアで使われるキリル文字が文字化けした時に使えるフローチャート

                ロシアで使われるキリル文字はアルファベットの一種ですが、英語で使われるラテン文字とは形が異なるため、ウェブ上では2バイト文字で使われることが多く、そのため文字コードの違いで文字化けが生じてしまうことがよくあります。以下のフローチャートを見れば、キリル文字がどんな感じに文字化けしてしまっているのかを判断することができます。 https://vault.pmpc.ru/vf/16011417/6a7b205721142511253e4d581.png 「кракозябры(ワニ)はどのように見えますか?」という質問からスタートし、どのような文字に変換されるかを確認します。ほとんどの文章が「╬╤╪」のような記号(赤枠)で表示された場合はKOI8-RをCP 866に修正すればOK。 文字と記号が混ざって出現する場合、記号に「п」と「я」の文字が含まれればUTF-8からKOI8-Rに、記号に混ざっ

                  ロシアで使われるキリル文字が文字化けした時に使えるフローチャート
                • ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)

                  ストリーム処理におけるApache Avroの活用について (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05) 株式会社NTTデータ 技術開発本部 関 堅吾(Apache Bigtopコミッタ, Apache Yetus PMC/コミッタ) https://oss.nttdata.com/techconf2019/Read less

                    ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
                  • Unicode のスペースは色々あるし、半角スペースと &nbsp は同じでもない - A Memorandum

                    はじめに Unicode の White_Space(Zs) カテゴリ Java における trim と strip はじめに 通常目にするスペースには、半角スペース と全角スペース   があるが、Unicode の定義上でスペースに分類されるものは(Unicodeのバージョンによっても異なるが)18種類存在する HTML で良く目にする文字実体参照の   は、このスペースでの改行を禁止(No-Break)するもので、半角スペースとは異なる Java の String.trim() でトリムされるスペースは、半角スペース U+0020 Java の String.strip() の場合は、ほとんどのスペースがトリムされるが、No-Break なスペースはトリムされない(つまり   なスペースはトリムされない) Unicode の White_Space(Zs) カテゴリ

                      Unicode のスペースは色々あるし、半角スペースと &nbsp は同じでもない - A Memorandum
                    • Unicode Utilities: Description and Index

                      Boundaries Breaks Demonstrates different boundaries within text. Enter the sample text. Pick the kind of boundaries, or hit Test. Regex Shows transformation of (Java) Regex pattern to support Unicode. Enter the regex pattern Change the sample text if desired. Click Show Modified Regex Pattern You'll then see the modified pattern. It will often be much larger, but any reasonable Regex engine will c

                      • Decoding UTF8 with Parallel Extract

                        Decoding UTF8 with Parallel Extract 23 Mar 2024 As a side-quest I recently decided to write a branchless utf8 decoder utilizing the pext or "parallel extract" instruction. It's compliant with rfc-3629, meaning that it doesn't just naively decode the code-point but also checks for overlong encoding, surrogate pairs and such. Compiled with gcc -O3 -march=x86-64-v3 the entire decoder results in just

                        • 文字コードの異なるフォームへのPOST(UTF8 to Shift_JIS)

                          文字コードの異なるページへのPOSTって悩ましいですよね。 具体的には、こちらのサイトがUTF-8で作られていて、相手先がShift_JISだったりする場合。 そもそも相手サイトにPOSTしなきゃいけない理由とは SPAMサイトじゃあるまいし、普通は自サイト以外へのPOSTってあんまり考えられないかも知れません。 でも、実際はあるんです。例えばECサイトが良い例。 「ご購入ありがとうございました。決済手続きは次の画面でお願いします。」 みたいなの。 いまどきそんなの古いよーという方もいらっしゃるかも知れませんが、きっとそれは大手の通販サイトを使用されていることが多いからでしょう。ショッピングモールにさえ出店しない、個人商店レベルのサイトではこんなのいっぱいあります。 中の人いわく、「個人経営のショップサイトでクレジットカード番号を入力するのは怖いというお客様がいらっしゃる」とか。なるほど、

                            文字コードの異なるフォームへのPOST(UTF8 to Shift_JIS)
                          • MySQL 8.0.24 の文字コードまわり - tmtms のメモ

                            2021/4/20 にリリースされた MySQL 8.0.24 について私が気になったものについて。 まあ文字コードまわりだけなんだけど。 utf8 を utf8mb3 として出力する Client applications and test suite plugins now report utf8mb3 rather than utf8 when writing character set names. (Bug #32164079, Bug #32164125) Important Note: When a utf8mb3 collation was specified in a CREATE TABLE statement, SHOW CREATE TABLE, DEFAULT CHARSET, the values of system variables containing c

                              MySQL 8.0.24 の文字コードまわり - tmtms のメモ
                            • TechCrunch

                              The company produces plant-based ingredients from raw microalgae biomass, generated from spirulina or chlorella, that it claims is more nutritious than meat. Swiggy plans to raise $1.25 billion in an initial public offering and has secured approval from its shareholders, the Indian food delivery and instant commerce startup disclosed in a filing to the loc

                                TechCrunch
                              • Pythonのchardetモジュールが、"testあ"という文字列(UTF-8)の文字コードを"Windows-1254"だと判定する

                                "testあ"のUTF-8表現は、74 65 73 74 e3 81 82 (1バイトデータの表記は全部16進、以下同様, python3風に書くとb'\x74\x65\x73\x74\xe3\x81\x82')で、chardetが判定するのは「文字列」ではなく、このバイト列です。 ちなみにこのバイト列をUTF-8, Shift_JIS, EUC-JP, ISO-8859-1, Code Page 437, Windows-1254で解釈すると、以下のようになります。 UTF-8 testあ (まぁ、当たり前) Shift_JIS (不正) EUC-JP (不正) ISO-8859-1 testã (81 82 は制御コードにあたるので見えないが不正ではない) CP437 testπüé Win1254 testã‚ (81は未定義なので本来は不正、chardetは未定義にあたるバイトが現

                                  Pythonのchardetモジュールが、"testあ"という文字列(UTF-8)の文字コードを"Windows-1254"だと判定する
                                • GoでBOMを考慮したio.Readerを扱う - Qiita

                                  GoでBOM付きのUTF-8ファイルを扱う必要があったので、その時に知ったテクニックを共有したいと思います。 具体的に言えば、Excelでファイル形式を「CSV UTF-8 (コンマ区切り) (.csv)」として保存した際のCSVファイルを扱った時の話です。 (Excelや少し前のメモ帳などでUTF-8としてファイルを保存すると、BOM付きのUTF-8ファイルになります。1) BOM(Byte Order Mark)とは BOM(Byte Order Mark)というのは、Unicode系の符号化方式(UTF-8やUTF-16など)の場合に、どの符号化方式であるかが分かるように先頭に付ける数バイトのデータのことです。 より詳しい説明についてはWikipediaのバイト順マークのページなどに譲ります。 このBOMというのはテキストデータの一部ではないので、プログラムで処理する時には、BOMと

                                    GoでBOMを考慮したio.Readerを扱う - Qiita
                                  • 絵文字の日本語読み辞書をUnicode 12.0対応に更新しました

                                    以前に公開した「Unicode絵文字の日本語読み/キーワード/分類辞書」ですが、Unicode 12.0が公開され絵文字も追加されたので、辞書を更新しました。 前回の記事:📙Unicode絵文字の日本語読み/キーワード/分類辞書📙 - Out-of-the-box 🔖 リリース Githubレポジトリの20190726リリースからダウンロードするか、現在masterブランチに含まれている各種ファイルを利用ください。 Release 20190726 · yagays/emoji-ja 前回からの変更点は以下の通りです。 - [update] Unicode 12.0の新しい絵文字を追加 - [update] Unicode 12.0で変更されたグループ名/サブグループ名の翻訳を更新 - [fix] サブグループ名において、スペース区切りをハイフンに変更 (e.g.動物 鳥類→動物-鳥

                                      絵文字の日本語読み辞書をUnicode 12.0対応に更新しました
                                    • 右から左に書かれる文章、前後関係でカタチが変わる文字。『FORSPOKEN』のアラビア語ローカライズで行われた9個の工夫【CEDEC2023】

                                      国内最大規模のゲーム業界カンファレンス「CEDEC2023」が、2023年8月23日(水)から8月25日(金)までの日程で開催されました。最終日となる8月25日には、スクウェア・エニックス プログラマー 中原 勇氏が登壇し、「FORSPOKENでのアラビア語対応について」と題した講演を行いました。 右から左に書かれる文章や、隣接する文字によっては表示が変わる字形など、数多くの課題に対応する具体的な手法が解説された本講演をレポートします。 TEXT / セレナーデ☆ゆうき EDIT / 神山 大輝

                                        右から左に書かれる文章、前後関係でカタチが変わる文字。『FORSPOKEN』のアラビア語ローカライズで行われた9個の工夫【CEDEC2023】
                                      • Appleのメールアプリで送信するメールをチェックして文字化けを防いでくれるプラグイン「LetterFix」が試験的にmacOS 11 Big Surに対応。

                                        Appleのメールアプリで送信するメールをチェックし文字化けを防いでくれるプラグイン「LetterFix」が試験的にmacOS 11 Big Surに対応しています。詳細は以下から。 LetterFixはmacOSのデフォルトのメーラーであるメールアプリ(Mail.app)で作成したメール中のUnicode文字のチェック&必要に応じて文字の置換を行うとともに、日本国内で一般にメールのやり取りに用いられているISO 2022-JPエンコーディングで送信に設定し文字化けを防止してくれるプラグインですが、このLetteFixが2020年秋にリリースされるmacOS 11 Big Surのメールアプリに試験的に対応しています。 /Users/(ユーザ名)/Library/Mail/Bundles/ #プラグインのインストールディレクトリ macOS 11 Big Surに対応しているのはLette

                                          Appleのメールアプリで送信するメールをチェックして文字化けを防いでくれるプラグイン「LetterFix」が試験的にmacOS 11 Big Surに対応。
                                        • 新しい絵文字「Unicode Emoji 13.0」決定 タピオカミルクティーやフォンデュなど62種

                                          文字コードの国際規格を管理する団体Unicode Consortiumは、新しい絵文字「Unicode Emoji 13.0」が最終決定したと発表しました。 タピオカやフォンデュが登場 ホッキョクグマ、タピオカミルクティー、フォンデュなど62種が決定。新しい絵文字は通常、9月~10月に携帯電話で使用できるようになるとのこと。 子どもを抱く人の絵文字には男性の姿も advertisement 関連記事 Android版ハンバーガー絵文字でチーズの位置がおかしい重大な問題が発覚 GoogleCEO「最優先で修正する」 iOS版でもレタスの位置がおかしい問題が確認されています。 Apple、不評だったベーグルの絵文字を修正 クリームチーズ入りに おいしそうになりました。 Twitter、ダイレクトメッセージで絵文字リアクションが可能に ハートや炎などでシンプルに意思を送信 絵文字は困り顔や泣き顔

                                            新しい絵文字「Unicode Emoji 13.0」決定 タピオカミルクティーやフォンデュなど62種
                                          • 【Python】encode・decodeメソッドで、文字列⇔文字コードをかんたん変換!(UTF-8・Shift_JIS)

                                            Python 【Python】encode・decodeメソッドで、文字列⇔文字コードをかんたん変換!(UTF-8・Shift_JIS) Pythonを使っていると、文字コードや文字列の変換が必要になることがありますよね。 でも、文字コードって何?どうやって変換すればいいの?と疑問に思ったことはありませんか? やり方はかんたんです。 「encode」メソッドと「decode」メソッドを使えば、あっという間に文字列と文字コードの変換ができるようになります! UTF-8、ASCII、Shift_JISといった代表的な文字コードの変換プログラムもまじえて解説しています。 実際にプログラムを動かすことで、どのように文字列と文字コードを変換するのか理解が深まると思います。ぜひ実際にコードを入力して動かしてみて下さいね。

                                              【Python】encode・decodeメソッドで、文字列⇔文字コードをかんたん変換!(UTF-8・Shift_JIS)
                                            • めくるめくEmojiの世界/emoji-world

                                              Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything

                                                めくるめくEmojiの世界/emoji-world
                                              • 文字コードとは?~UTF-8はパソコンの世界共通語~|データ分析用語を解説 - GiXo Ltd.

                                                本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1) Unicode、ASCIIコード、Shift-JIS、UTF-8、UTF-16の関係を理解する データ分析を行っていると、必ず出てくる専門用語で「文字コード」がありますが、それぞれの文字コードの概念は、曖昧になってはいませんか? これから説明する内容は、文字コードとは何かを代表的な文字コードの関係性から説明します。 UnicodeとUTF-16は別物 ~符号化文字集合と符号化形式について~ 若い情報処理系の技術者に対して、「代表的な文字コードって何?」と質問した時、返ってくる内容として「ASCIIコード、Shift-JIS、UTF-8、UTF-16、Unicode…」と答えるケースがあります。これは、厳密にいえば正しい答えではありません。 Unicodeは「符号化文字集合

                                                  文字コードとは?~UTF-8はパソコンの世界共通語~|データ分析用語を解説 - GiXo Ltd.
                                                • Intl.MessageFormat Introduction | ドクセル

                                                  Web Developer working on @kintone at @cybozu. Loves JavaScript and Curry! 🍛 Old slides: https://www.slideshare.net/teppeis/presentations

                                                    Intl.MessageFormat Introduction | ドクセル
                                                  • なんとかしてくれるゼロ幅スペース

                                                    今の Windows の IME は文字コード直打ちから F5 キーを押すことで任意の文字を入力できる機能を持っています。 いつからだろう。 Windows 10 が「新しい Micorsoft IME」になってからだとは思うんですが、気が付けばそんな機能が。 というか、逆に IME パッドはショートカットキーでは出せなくなった? (右クリック メニューからの選択では出せます。) 昨日の C# ライブ配信中で、「200B だけはよく使う」とおっしゃってる方が要らっしまして。 「ゼロ幅スペースって嫌がらせ以外の用途で使えるの?」、「あえとすさんって実用性ない黒魔術をよく使う人だっけ?」となって「どういう状況で使うんですか?」と聞いた結果が 「Twitter で ASP.NET をリンクにさせない技」 あっ… それは確かに使うわ… しかし、文字コード覚えて直打ちする手段に、 F5 なんていうわ

                                                      なんとかしてくれるゼロ幅スペース
                                                    • GitHub - unicode-org/cldr: The home of the Unicode Common Locale Data Repository

                                                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.

                                                        GitHub - unicode-org/cldr: The home of the Unicode Common Locale Data Repository
                                                      • Zalgo text - Wikipedia

                                                        A Zalgo-text effect applied to the words "ZALGO TEXT" Zalgo text, also known as cursed text due to the nature of its use, is digital text that has been modified with numerous combining characters, Unicode symbols used to add diacritics above or below letters, to appear frightening or glitchy. Named for a 2004 Internet creepypasta story that ascribes it to the influence of an eldritch deity, Zalgo

                                                          Zalgo text - Wikipedia
                                                        • [7zip]日本語版Windowsで圧縮されたzipファイルを文字化けせずに解凍する方法 - Qiita

                                                          やりたいこと Windows英語環境を使用している Windows日本語環境で圧縮されたzipファイルを回答すると、日本語ファイル名が文字化けする 文字化けしてしまったファイル名を修復するソフトもあるが、解凍時点で正しく解凍したい 会社支給PCの環境でありなるべく新しくソフトをインストールしたくない 日本同士でもWindowsーMac, Linuxでも同じ現象が起こる様子 Mac, Linuxでの解決方法は情報豊富 また、一部の情報では7zipが自動的にエンコードを判別してくれるとのこと しかし、私のWindows英語環境ではうまく機能せず 他にWindows英語環境でできる方法を探してみたものの、日本語情報がなかったので記事化 環境 Windows10 (英語環境) 7zipコマンドライン版(7-Zip Extra 19.00) 原因 日本語版Windowsでは圧縮時にShift-JIS

                                                            [7zip]日本語版Windowsで圧縮されたzipファイルを文字化けせずに解凍する方法 - Qiita
                                                          • MySQLの文字コード変更

                                                            MySQLを5.7から8へバージョンアップする過程で、文字コードを utf8mb4 に変更する必要が生じたため、方法をメモします。 現在の状況確認↓まずMySQLに接続して、現在の状況を確認します。 # MySQLへ接続 mysql -u root -p # 変更対象のDBを選択 mysql> use hogehoge; # 文字の設定を管理している環境変数を表示 mysql> show variables like "chara%!"(MISSING); # 出力結果 +--------------------------+----------------------------+ | Variable_name | Value | +--------------------------+----------------------------+ | character_set_clie

                                                              MySQLの文字コード変更
                                                            • CyberChef のオペレーションめも - setodaNote

                                                              2021-02-08 CyberChef について34個のユースケースをまとめた記事が紹介されていました。 ひとつひとつ試していて改めて CyberChef 面白いなぁと思った操作についていくつかメモしました。 処理の制御 Fork Merge Label Jump Conditional Jump バイナリ操作 Swap endianness Take bytes Disassemble x86 Remove null bytes To Hexdump From Hexdump Microsoft Script Decoder 圧縮・展開 Raw Inflate Gunzip Zlib Inflate Unzip URL操作 Extract URLs Extract Domains Defang URL 正規表現・文字列検索置換など Find / Replace Regular expr

                                                                CyberChef のオペレーションめも - setodaNote
                                                              • 旧CGIプログラム(SJIS)をUTF8へ変更する方法

                                                                すでに世の中、シフトJISから、UTF-8型式に文字コード体系が変化しています。 しかし、Perl/CGIのプログラムについては、その多くが「shift_jis」で稼働している状況です。ここで、最低限の移行・修正処理により、UTF-8型式へ移行・変換する対応を整理しました。 FileCode Checkerによる文字コード変換 上記のFileCode Checkerは、フリーソフトです。Win10版を導入しましょう。 フォルダ内ファイルを旧文字コード型式から、全てUTF8型式へ一括変換できます。 変換内容 文字コード:UTF8 改行コード:CRLF 元のファイルを置換(事前にバックアップを作成しておく) 変換手順 変換前のファイルについて、全てバックアップを作成しておきます。 FileCode Checkerのツールを起動 txt、cgi、datなど、旧コードの「shift_jis」で書か

                                                                  旧CGIプログラム(SJIS)をUTF8へ変更する方法
                                                                • C/C++で日本語を扱いたい - Qiita

                                                                  #include <stdio.h> #include <string.h> int main() { char str[] = "日本語サンプル"; int length = strlen(str); printf("1文字目: %c\n", str[0]); printf("長さ: %d\n", length); return 0; } このように、単なるchar型として扱うと日本語を上手く処理できない。まあ、日本語が2バイト以上で表現されているので当たり前といえば当たり前なんだけど。 そこで、C/C++で上手に日本語を処理するための方法を2通り紹介したい。 ワイド文字を使う ワイド文字は、16ビット固定長で表現される多言語文字体型のことである。 C言語では、wchar_t型を用いてワイド文字を扱うことができる。 しかし、ワイド文字を扱うには、ロケールの設定が必要である。日本語だけ扱い

                                                                    C/C++で日本語を扱いたい - Qiita
                                                                  • HarfBuzz Manual: HarfBuzz Manual

                                                                    HarfBuzz is a text shaping library. Using the HarfBuzz library allows programs to convert a sequence of Unicode input into properly formatted and positioned glyph output—for any writing system and language. The canonical source-code tree is available at github.com/harfbuzz/harfbuzz. See Downloading HarfBuzz for release tarballs. I. User's manual What is HarfBuzz? What is text shaping? Why do I nee

                                                                    • <4D6963726F736F667420506F776572506F696E74202D2032303139313131398DA182B382E795B782AF82C882A295B68E9A8352815B836882CC82CD82C882B557656294C52E70707478>

                                                                      Copyright (C) 2019 Iwata Corporation. All Rights Reserved. 2019年11月19日 l 水野 昭 今さら聞けない文字コードのはなし 1 Copyright (C) 2019 Iwata Corporation. All Rights Reserved. 本資料は2018年11月29日に東京ビッグサイトで開催された JANPS2018(新聞製作技術展・日本新聞協会主催)の会場内 セミナーで発表した資料をもとにしています。 本資料の無断転載・無断使用を禁止します。 2 Copyright (C) 2019 Iwata Corporation. All Rights Reserved. イワタの歴史 ・1920年(大正9) 岩田百蔵が創業。鉛活字の母型を製造。 ・1939年(昭和14) 大阪龍文堂の森川健市(のちの大阪支店長)が 新聞用扁

                                                                      • 「Unicode 13」リリース、新たな言語・文字・絵文字が追加され文字数は14万3800種類に | OSDN Magazine

                                                                        Unicode Consortiumは3月10日、文字コード規格の最新版「Unicode 13」の仕様公開を発表した。新たに5930種類の文字が加わり、合計の文字数は14万3859種類となった。 Unicode 13.0は2019年3月に登場したUnicode 12.0に続くものとなる。新たにイラクやジョージアで使われていた「Yezidi」やウズベキスタン、カザフスタン、トルクメニスタンなどの中央アジアで使われていた「Chorasmian」、モルディブで20世紀まで使われていた「Dives Akuru」、中国北部で使われていた「Khitan Small Script」といった言語・文字に対応したほか、これ以外にも複数の文字が追加されている。また、中国語・日本語・韓国語(CJK)統合漢字では「Extension G」に新たに4939文字が加わった。 このところ強化されている絵文字では、泣き笑

                                                                          「Unicode 13」リリース、新たな言語・文字・絵文字が追加され文字数は14万3800種類に | OSDN Magazine
                                                                        • コマンドラインで URL デコードする一例 - ようへいの日々精進XP

                                                                          この記事は YAMAP エンジニア Advent Calendar 2020 の九日目になる予定です。 qiita.com tl;dr URL エンコードされた文字列を、コマンドラインでシュッとデコードしたかったので調べたのでメモ。 URL エンコードされる文字列は以下の通り。 負けない事 投げ出さない事 逃げ出さない事 これを URL エンコードすると、以下のような文字列となる。 %E8%B2%A0%E3%81%91%E3%81%AA%E3%81%84%E4%BA%8B%0D%0A%E6%8A%95%E3%81%92%E5%87%BA%E3%81%95%E3%81%AA%E3%81%84%E4%BA%8B%0D%0A%E9%80%83%E3%81%92%E5%87%BA%E3%81%95%E3%81%AA%E3%81%84%E4%BA%8B 本記事で利用する環境は以下の通り。 root@

                                                                            コマンドラインで URL デコードする一例 - ようへいの日々精進XP
                                                                          • エンジニアHubにて「文字コード再入門─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!」公開 - yanok.net

                                                                            「エンジニアHub」にて記事を執筆しました。「文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!」として公開されています。 若手エンジニア向けのWebメディアとのことで、プログラミング上の注意点にフォーカスした内容になっています。コード例にはJava, Python, Rubyを用いています。 拙著をすでにお読みの方には復習となる内容ですが、まだの方はこの機会に是非お読みいただければと思います。記事の最後に拙著『[改訂新版]プログラマのための文字コード技術入門 (WEB+DB PRESS plusシリーズ)』の版元へのリンクも設定されていますので、興味を持たれた方には書籍の方もお読みいただければ幸いです。 当記事編集担当の方には「とても品質の高い記事」とのことで感謝のお言葉をいただきました。読者のお役に立つことを願っています。

                                                                            • Unicode 13.0.0

                                                                              Unicode® 13.0.0 2020 March 10 (Announcement) Version 13.0.0 has been superseded by the latest version of the Unicode Standard. This page summarizes the important changes for the Unicode Standard, Version 13.0.0. This version supersedes all previous versions of the Unicode Standard. A. Summary B. Technical Overview C. Stability Policy Update D. Textual Changes and Character Additions E. Conformance

                                                                              • 長い文字列作成ツール - instant tools

                                                                                折り返さない 概要 任意の内容で、指定された長さの文字列を作成します。 入力上限のテスト等で使用することを想定しています。 「Unicode範囲」には、Unicodeのコードポイント値をHex形式で入力して下さい。Unicodeのコードポイント値は、 こちら「Unicode文字一覧表」で調べられます。

                                                                                • String.prototype.trim() は何をトリムするのか?

                                                                                  @okunokentaro さんが似た内容で先にスクラップを投稿されており、本記事の執筆時期と内容が重なってしまいました。こちらでは ECMAScript に加え、Java での調査結果なども含まれています。併せてご参考ください! https://zenn.dev/okunokentaro/scraps/256c7d9a56ac69 (本記事の公開はご本人にも確認を取っております) String.prototype.trim() JavaScript でコードを書いていて、とある文字列の端から空白を削除したくなったらどうしますか? 多くの人は String.prototype.trim() を使うかと思います。 では、ここで削除される "空白" は何を指すか知っているでしょうか? 恥ずかしながら、私は正確には把握しておらず、「半角・全角スペースとか改行、タブあたりをいい感じに消してくれる良

                                                                                    String.prototype.trim() は何をトリムするのか?