並び順

ブックマーク数

期間指定

  • から
  • まで

241 - 280 件 / 420件

新着順 人気順

Unicodeの検索結果241 - 280 件 / 420件

  • メッセージやTwitterなどのアプリで表示されると、iOS 13.4.1やmacOS 10.15.4までのiPhone、Mac、Apple Watchがクラッシュしてしまう文字列が発見される。

    メッセージやTwitterなどのアプリで表示されると、iOS 13.4.1やmacOS 10.15.4までのiPhone、Mac、Apple Watchがクラッシュしてしまう文字列が発見されています。詳細は以下から。 9to5Macなどによると、現在Appleが正式にリリースしている最新のiOS 13.4.1やmacOS 10.15.4 Catalinaなどを搭載したiPhoneやiPad、Apple Watch、Macで、メッセージやTwitterアプリなどに表示させるだけで、システムがクラッシュする文字列(いわゆる「強いUnicode」)が発見され、拡散されているそうです。 The string of text, which we aren’t going to share here, includes the Italian flag emoji and characters in

      メッセージやTwitterなどのアプリで表示されると、iOS 13.4.1やmacOS 10.15.4までのiPhone、Mac、Apple Watchがクラッシュしてしまう文字列が発見される。
    • 世界共通言語になった 「絵文字」の未来、 初の女性委員長が語る

      The woman who will decide what emoji we get to use 世界共通言語になった 「絵文字」の未来、 初の女性委員長が語る 絵文字(emoji)は、テキストメッセージに微妙なニュアンスを追加する手法としてネットで多用されている。絵文字を標準化するユニコード・コンソーシアムの絵文字小委員会の委員長に就任したジェニファー・ダニエルが、自らの役割や絵文字の未来について語った。 by Tanya Basu2021.05.24 45 18 3 「絵文字(emoji)」は、今では人々の言語の一部となっている。よほど変わった人でない限り、メールやインスタグラムの投稿、ティックトック(TikTok)の動画に、表現力を高めるさまざまな小さな画像をちりばめていることだろう。例えば、予防接種を受けた時の血が少し滴る注射器💉 や、「ありがとう」の意味を込めた祈りの手🙏

        世界共通言語になった 「絵文字」の未来、 初の女性委員長が語る
      • 開発から 45 年、プログラミング言語 AWK に Unicode サポートが追加 | スラド デベロッパー

        プログラミング言語 AWK が最初に開発された 1977 年から 45 年後の2022年、Brian Kernighan 氏により Unicode サポートが追加されたそうだ (README.unicode、 The Register の記事、 Ars Technica の記事、 Computerphile 動画)。 Kernighan 氏は AWK (Aho Weinberger Kernighan) の「K」の由来でもあるオリジナル開発者で、80 歳になる。GitHub の「The One True Awk」リポジトリに Unicode サポートがコミットされたのは 6 月 1 日だったが、先週 Kernighan 氏が YouTube の Computerphile に出演するまで注目されずにいたようだ。Kernighan 氏によれば、AWK が Unicode をサポートしていない

        • シュトヘル達の名前を西夏文字 (Unicode) で書く

          初稿: 2020-10-16 小松弘幸 (@komatsuh) 記事の内容 シュトヘルという漫画がとてもよいです 西夏文字をコンピューター上で扱う方法を紹介します 西夏文字の簡易辞書を作成します シュトヘルの登場人物を西夏文字で表現します ユルール 𘅝𘚻 (U+1815D U+186BB) - 祝福 (慶喜) ハラバル 𗱈𗰞 (U+17C48 U+17C1E) - 黒虎 シュトヘル 𘄅𗾢 (U+18105 U+17FA2) - 雀子 左から順に ユルール ハラバル シュトヘル はじめに この文書に登場する西夏文字を正しく表示するためには、おそらくフォントのインストールが必要です。下記の GitHub などからダウンロードとインストールができます。 Noto fonts: NotoSerifTangut (GitHub) シュトヘルと西夏文字 シュトヘルという漫画を読んでとても好

            シュトヘル達の名前を西夏文字 (Unicode) で書く
          • UTF-8のバリデーションとオートマトン

            UTF-8は今日の文字エンコーディングの中で最も重要なものと言って差し支えないでしょう。UTF-8の仕様はこの辺で確認できます: Unicode 15.1.0 > 3.9 UTF-8 RFC 3629 - UTF-8, a transformation format of ISO 10646 この記事では、読者はすでにUTF-8にある程度の馴染みがあるものとして、UTF-8のバリデーションの細かいところを考えます。 UTF-8のバリデーションを行うには、以下のことを確かめなければなりません: 最初の1バイトが所定の範囲にあること:ASCII (0x00-0x7F) または0xC2以上。 後続のバイト(たち)が0x80-0xBFの範囲にあること。 長すぎないこと:U+007F以下の文字はちょうど1バイトで表現されていること、U+0080以上U+07FF以下の文字はちょうど2バイトで表現されて

              UTF-8のバリデーションとオートマトン
            • Unicodeバージョン 15.0リリース ―CJKの表意文字など4,489文字が追加 | gihyo.jp

              Unicode Consortiumは9月13日、Unicode標準のバージョン 15.0が利用可能になったことを発表した。バージョン15.0では4,489文字が追加され、合計で14万9,186文字になった。 追加文字には20個の新しい絵文字と 4,193個のCJK(中国語、日本語、韓国語)の表意文字とともに、2つの新しいスクリプトが追加され、合計161個のスクリプトが含まれる。 新しいスクリプトには以下のようなものがある。 ナグ・ムンダリ:インドで使われる言語であるムンダリを書くために使用される現代の文字 カンナダ語文字:インドでコンカニ語、アワディ語、ハビャカ語カンナダ語を書くために使用される文字 カクトビック数字:イヌイット語とユピック語の数を表示するために、アラスカ州カクトビックのイヌピアク語話者によって考案された文字 また、20の新しい絵文字にはヘアピック、マラカス、クラゲ、カン

                Unicodeバージョン 15.0リリース ―CJKの表意文字など4,489文字が追加 | gihyo.jp
              • Unicode Utilities: Confusables

                With this demo, you can supply an Input string and see the combinations that are confusable with it, using data collected by the Unicode consortium. You can also try different restrictions, using characters valid in different approaches to international domain names. For more info, see Data below.

                • RubyでISO国名コード2文字を絵文字の国旗に変換する(翻訳)|TechRacho by BPS株式会社

                  概要 原著者の許諾を得て翻訳・公開いたします。 英語記事: Convert a two character ISO country code to an emoji flag - Andy Croll 原文更新日: 2021/02/01 著者: Andy Croll regional indicator symbolやregional indicator characterは、仮訳の「地域指示記号」で統一しました。 また、一部のサンプルコードについては見やすさのためGistを使っています。 アプリケーションで、国名の参照をISO 3166-1 alpha-2標準の2文字のコードとしてインラインで保存することがよくあります。たとえば「GB」は英国、「US」は米国を表すという具合です。 しかし絵文字でやりたい人たちがいるならば受けて立ちましょう。 def emoji_flag(country_

                    RubyでISO国名コード2文字を絵文字の国旗に変換する(翻訳)|TechRacho by BPS株式会社
                  • 「Unicode Emoji 14.0」リリース──敬礼する顔や妊娠する男性など

                    Emojipediaは、Googleは10月にはEmoji 14.0を実装すると予測している。近くリリース予定の「Android 12」では新しいEmojiが使えるかもしれない。 新たに加わった絵文字などの詳細についてはEmojipediaのブログを参照されたい。 関連記事 絵文字専門サイトのEmojipedia、携帯アプリ企業Zedgeが買収 世界絵文字デー提唱でも知られる絵文字サイトのEmojipediaを、携帯アプリ企業のZedgeが買収した。運営はこれまでと変わらず、「将来的に安定した成長が可能になった」と創業者のジェレミー・バージ氏は語る。 食べ物はよりおいしそうに Googleの絵文字はダークモードで星空にも変わる 7月17日は「世界絵文字デ-」ということで、Googleが絵文字の新デザインを発表しました。Gmailやチャットでは7月中に利用可能になる見込みです。Android

                      「Unicode Emoji 14.0」リリース──敬礼する顔や妊娠する男性など
                    • 「竈門禰󠄀豆子」をLaTeXで

                      「鬼滅の刃」のヒロイン「竈門禰󠄀豆子」(かまどねずこ)の「禰󠄀」は,「禰」(U+79B0)+異体字セレクタ(U+E0100 VARIATION SELECTOR-17)でできている(→ UTF-8のテーブル(MySQL5.6)に竈門禰󠄀豆子が格納できない問題を調べてみた)。これをLaTeXで出せるか。 使ったのは普通の TeX Live 2021 で,Mac 上でテストした。ドキュメントクラスは何でもいいが,platex・uplatex・lualatex のどれにも対応する jlreq にしてみた。 \documentclass{jlreq} \begin{document} 竈門禰󠄀豆子 \end{document} まず platex してみよう。 l.4 竈門禰^^f3^^a0^^84^^80 豆子 ? 異体字セレクタでエラーになってしまう。 uplatex では処理できた。

                      • 第157回 MySQLのデフォルトcollationの注意点 | gihyo.jp

                        MySQLではcharacter set(以後、charset)やcollationをグローバル、データベース、テーブルやカラムレベルで設定することができます。今回はMySQLのデフォルトcollationの注意点を紹介したいと思います。使用するMySQLのバージョンは8.0.26です。 charsetやcollationとはなにかについては説明はしません。よって、charsetやcollationについてご存知ない方は、先にマニュアル「第10章 文字セット、照合順序、Unicode」をご確認ください。 charsetやcollationの各レベルの設定方法 グローバル 以下のシステム変数を設定します。 character_set_server… サーバーのデフォルトのcharset collation_server… サーバーのデフォルトのcollation データベース CREATE

                          第157回 MySQLのデフォルトcollationの注意点 | gihyo.jp
                        • 山﨑の「﨑」とか、高橋の「高」の字がいわゆる"梯子高"の人とか

                          カスタマーセンターでも人事でも役所の戸籍関係の人とか、世の中に同志は沢山潜んでると思うんですが。 山﨑の「﨑」とか、高橋の「高」の字がいわゆる"梯子高"の人とか、なんかちゃんとJISフォントに乗せるようにするか、「崎」と「高」に統一しちゃうか、どっちかにしてくれ!って思ったことありませんか。 どっちかにしてくれ!

                            山﨑の「﨑」とか、高橋の「高」の字がいわゆる"梯子高"の人とか
                          • ①や©などの環境依存文字はHTMLでは文字参照にする ―― そんなルールはもう不要!【SEO情報まとめ】 | 海外&国内SEO情報ウォッチ

                            「HTMLでは、機種依存文字は文字参照(実体参照)にすること」そんなルールがまだ社内に残っていたら、見直すのがいいかもしれない。 今週は、SEOのトピックそのものズバりではないが、意外と見落としがちな、イマドキWeb制作のトピックをピックアップ。 ほかにも、「口コミはまず10個」「LPに動画を置くとCVRが下がる」などなど、あなたのSEOとサイト運営に役立つ情報を今週もまとめてお届けする。 10個の口コミを集めればローカル検索では順位アップする!?ランディングページに動画を置くとCVRが悪くなる!?関連性がなくなっている古いリンクはランキングには影響しない検索結果に出てきたサイトの素性がわかる機能をグーグルが導入グーグルのタイトルリンク書き換えはサイト品質とは無関係カニバリゼーションで順位が下がった ⇐ だいたい思い込み2022年11月のオフィスアワー: ECサイトのトップページが上位表示

                              ①や©などの環境依存文字はHTMLでは文字参照にする ―― そんなルールはもう不要!【SEO情報まとめ】 | 海外&国内SEO情報ウォッチ
                            • Unicode characters you can not see

                              Invisible Unicode characters? In Unicode there are a lot of invisible characters: regular white-space characters (e.g. U+0020 SPACE), language specific fillers (e.g. U+3164 HANGUL FILLER of the Korean Hangual alphabet), or special characters (e.g. U+2800 BRAILLE PATTERN BLANK). While all of these have a specific meaning in their natural context, they can be used in various applications that don't

                              • getwisdom.io

                                This domain may be for sale!

                                  getwisdom.io
                                • Rubyでバイナリデータに対するrindex検索の挙動でハマったので調べたことメモ - すぎゃーんメモ

                                  自分の手元の環境でこんなことが起きた。 $ ruby -v ruby 3.1.2p20 (2022-04-12 revision 4491bb740a) [arm64-darwin21] $ irb irb(main):001:0> "\x01\x80\x00\x00".index("\x01") => 0 irb(main):002:0> "\x01\x80\x00\x00".rindex("\x01") => 1 \x01 は 0 番目にしかないのだから、 .index でも .rindex でも 0 が返ってくるはずではないの?? 先に結論 きっかけ String#rindex の謎挙動 もう少し深く追う Encodingと実行環境 つまり再現条件は Rooの問題 Rubyのバグではないの? 3.2 先に結論 バイナリデータを扱うときには必ずEncodingを ASCII-8BIT

                                    Rubyでバイナリデータに対するrindex検索の挙動でハマったので調べたことメモ - すぎゃーんメモ
                                  • The Absolute Minimum Every Software Developer Must Know About Unicode in 2023 (Still No Excuses!) @ tonsky.me

                                    If you combine this with the Unicode table, you’ll see that English is encoded with 1 byte, Cyrillic, Latin European languages, Hebrew and Arabic need 2, and Chinese, Japanese, Korean, other Asian languages, and Emoji need 3 or 4. A few important points here: First, UTF-8 is byte-compatible with ASCII. The code points 0..127, the former ASCII, are encoded with one byte, and it’s the same exact byt

                                      The Absolute Minimum Every Software Developer Must Know About Unicode in 2023 (Still No Excuses!) @ tonsky.me
                                    • Home

                                      Everyone in the world should be able to use their own language on phones and computers. Learn More about Unicode

                                        Home
                                      • ASCII table and history (or, why does Ctrl+i insert a Tab in my terminal?)

                                        The binary representation has the most significant bit first (“big endian”). ASCII is 7-bit; because many have called encodings such as CP437, ISO-8859-1, CP-1252, and others “extended ASCII” some are under the misapprehension that ASCII is 8-bit (1 byte). To understand why Control+i inserts a Tab in your terminal you need to understand ASCII, and to understand ASCII you need know a bit about its

                                        • 人間にUnicode正規化は難しい - エムスリーテックブログ

                                          【AI・機械学習チーム ブログリレー2日目】 AI・機械学習チームの池嶋 (@mski_iksm) です。 私達のチームでは、機械学習バッチの実行方法やインターンを含む新配属者のPC初期セットアップ手順など多くのドキュメントがGitLab上で管理されています。Gitでドキュメントを管理するのは、Wiki等と比較して更新時のピアレビューがしやすかったり、CIによる自動チェックがやりやすかったりなどのメリットから採用されています。 CIの自動チェックの1つとしてリンクチェッカーがあります。これは切れているリンクがないかを更新時にチェックするものです。 ある日、ファイルはあるように「見える」のに、なぜかリンクチェッカーのCIが落ちているという事象が発生しました。 タイトルでネタバレしているのですが、原因はUnicodeの正規化でした。 この記事では、何が起きていたのか?どのようなケースで起こりう

                                            人間にUnicode正規化は難しい - エムスリーテックブログ
                                          • MySQLの正規表現がGrapheme Clusterに対応していた - tmtms のメモ

                                            「竈門禰󠄀豆子」を MySQL に保存できるとかできないとかいう話題を見て、そう言えば MySQL の Grapheme Cluster 対応ってどうなってるんだっけ…と思ってググってみたら、MySQL 8.0.28 のリリースノートにこんな文を見つけた。 International Components for Unicode version 67 introduced a new implementation for \X (match a grapheme cluster), which requires locale data not currently included with MySQL. This means that, when using the version of ICU bundled with MySQL, a query using \X raises th

                                              MySQLの正規表現がGrapheme Clusterに対応していた - tmtms のメモ
                                            • CA1965 – 新元号と文字コードの国際標準を巡って / 小林龍生

                                              新元号と文字コードの国際標準を巡って 一般社団法人文字情報技術促進協議会:小林龍生(こばやしたつお) 2019年は、平成最後の年として始まり、令和元年として暮れようとしている。本論では、新天皇即位に伴う平成から令和への改元に係わる国際符号化文字集合UCS(ISO/IEC 10646:Universal Coded Character Set)(1)とUCSに対応する民間標準規格ユニコード(Unicode Standard)(2)を巡る2つの話題について論じる。 1. 令和の合字について 活版で印刷された新聞や書籍を見ると、しばしば、1字分のスペースに、複数の文字を鋳込んだ活字を目にすることがある。いわゆる合字と呼ばれるもので、リガチャーとも呼ばれる。 ただし、欧文のリガチャーは、羊皮紙本の写本などで用いられていた複数のアルファベットの簡略筆写法の残滓としての意味合いが強いが、日本語活字の合

                                                CA1965 – 新元号と文字コードの国際標準を巡って / 小林龍生
                                              • (メモ)同じ繁体字でも台湾と香港ではグリフが違う話 - 水底の血

                                                (表ではフォントに源ノ角ゴシックを指定しているので、インストールしてない人はsource-han-sansからどうぞ。どのファイルか迷う人はSuperOTCを入れればOK。) 百聞は一見にしかず、次の表に適当に漢字を比較させてみたのでどうぞ。 国および地域別のUnicodeコードポイントとグリフの比較 地域 言語タグ U+9AA8 U+6B21 U+771F U+4E03 U+904D 台湾(繁体字) zh-Hant-TW 骨 次 真 七 遍 香港(繁体字) zh-Hant-HK 骨 次 真 七 遍 中国(簡体字) zh-Hans 骨 次 真 七 遍 日本(参考) ja 骨 次 真 七 遍 韓国(参考) ko 骨 次 真 七 遍 …とそれだけではあまりにも味気ないので、補足説明をほんのちょっと。 ふと簡体字と繁体字を言語コードで表すときに、zh-Hansとzh-Hantとしましょうというと

                                                  (メモ)同じ繁体字でも台湾と香港ではグリフが違う話 - 水底の血
                                                • 【Rust】文字列型のUTF-8検証の中身 - Qiita

                                                  コード値:00000000_00000000_0xxxxxxx(1-7ビット) ⇒ UTF-8:0xxxxxxx(1バイト) コード値:00000000_00000yyy_yyxxxxxx(8-11ビット) ⇒ UTF-8:110yyyyy 10xxxxxx(2バイト) コード値:00000000_zzzzyyyy_yyxxxxxx(12-16ビット) ⇒ UTF-8:1110zzzz 10yyyyyy 10xxxxxx(3バイト) コード値:000wwwzz_zzzzyyyy_yyxxxxxx(17-21ビット) ⇒ UTF-8:11110www 10zzzzzz 10yyyyyy 10xxxxxx(4バイト) 特に重要な点は以下の2つである。 1バイト目(開始バイト)の先頭のビットパターンによって全体のバイト数を判定できる。 (0...:1バイト、110...:2バイト、1110...

                                                    【Rust】文字列型のUTF-8検証の中身 - Qiita
                                                  • Unicode 13.0 で新しく収録された日本語の漢字|Colorless Green Ideas

                                                    2020年3月にリリースされた Unicode 13.0 では、「日本で最も画数が多い字」とも呼ばれる「たいと」という漢字と宮沢賢治の詩の中に出てくる「鏡」を4つ組み合わせた漢字が収録された。また、Unicode 13.0 における部首の例示フォント変更についても触れる。 はじめに Unicode は世界の様々な文字をコンピュータ上で統一的に扱うための国際規格である [1] 。Unicode には毎年のように新しい文字が追加されており、2020年3月にリリースされた Unicode 13.0 では 5,930字が追加されている [2] 。 Unicode 13.0 での漢字の追加 Unicode 13.0 で追加された文字の大半は漢字である。Unicode 13.0 では、漢字 [3] を追加するためにCJK統合漢字拡張G (CJK Unified Ideographs Extension

                                                      Unicode 13.0 で新しく収録された日本語の漢字|Colorless Green Ideas
                                                    • iOS 14.5とwatchOS 7.4配信開始 マスクのままロック解除やトラッキング許可など盛りだくさん

                                                      米Appleは4月26日(現地時間)、「iOS 14.5」をリリースした。同日「watchOS 7.4」もリリースし、Apple Watchを併用すればマスクを装着したままiPhoneをロック解除できる機能など、多数の新機能が追加された。 マスクをしたままのiPhoneロック解除 マスクしたままのiPhoneロック解除機能を使うには、まずiOSをアップデートした後、wathOSもアップデートする必要がある。この機能が使えるのは「iPhone X」以降のiPhoneと、「Apple Watch Series 3」以降のApple Watchだ。 iPhoneの「Face ID」の設定でApple Watchでのロック解除を有効にすると、Apple Watchを手に持ってロックを解除し、iPhoneのすぐ近くに置くと、iPhoneのロックが解除されたことを示す触覚フィードバックをAppleWa

                                                        iOS 14.5とwatchOS 7.4配信開始 マスクのままロック解除やトラッキング許可など盛りだくさん
                                                      • キャラ名に「ソ」があるとフリーズの不具合、直る Switch新作にアプデ 「ご迷惑をお掛けした」

                                                        ゲームメーカーのコンパイルハート(東京都豊島区)は4月19日、Nintendo Switch向け新作ゲーム「ドカポンキングダム コネクト」の修正パッチ(Ver.1.02)を配信した。キャラクターの名前に「ソ」の文字が含まれているとき、セーブ時に画面がフリーズする不具合を修正した。 ドカポンキングダム コネクトは13日発売。2007年に発売されたPlayStation 2向けゲーム「ドカポンキングダム」の移植作だ。「ソ」を巡る不具合が発売同日に見つかり、ユーザーへの注意喚起がなされていた。 例えば、キャラクター名に「ソーセージ」を入れた状態でデータをセーブすると、画面がフリーズし、進行不可能になっていたという。コンパイルハートは「この度はご迷惑をおかけ致しましたことを深くおわび申し上げます」としている。 関連記事 キャラ名に「ソ」があると画面がフリーズ Switchの新作ゲームにバグ 制作会

                                                          キャラ名に「ソ」があるとフリーズの不具合、直る Switch新作にアプデ 「ご迷惑をお掛けした」
                                                        • How to encode categorical features for GBDT

                                                          エンジニアゼロの組織から内製開発の DX をどう実現したのか / How did we achieve DX in in-house development in an organization with zero engineers?

                                                            How to encode categorical features for GBDT
                                                          • JavaScript Primer - 迷わないための入門書

                                                            文字列とUnicode 「文字列」の章で紹介したように、JavaScriptは文字コードとしてUnicodeを採用し、エンコード方式としてUTF-16を採用しています。 このUTF-16を採用しているのは、あくまでJavaScriptの内部で文字列を扱う際の文字コード(内部コード)です。 そのため、コードを書いたファイル自体の文字コード(外部コード)は、UTF-8のようにUTF-16以外の文字コードであっても問題ありません。 「文字列」の章では、これらの文字コードは意識していなかったように、内部的にどのような文字コードで扱っているかは意識せずに文字列処理ができます。 しかし、JavaScriptのStringオブジェクトにはこの文字コード(Unicode)に特化したAPIもあります。 また、絵文字を含む特定の文字を扱う際や「文字数」を数えるという場合には、内部コードであるUTF-16を意識

                                                              JavaScript Primer - 迷わないための入門書
                                                            • Python で文頭に記載する文字コードの「アレ」(なんちゃら UTF-8 みたいなやつ)の名称と仕様 - Qiita

                                                              「python 文頭に記載する アレ」とか「python 文頭 記述 文字コード アレ」の Qiita 記事をググっても出てこなかったので、自分のググラビリティ(備忘録)として。 TL; DR (今北産業) アレは英語で Magic comment と言います。 Python 3 の場合、ソースが UTF-8 の時は記載は不要です。(むしろ非推奨) Python 3 で使えるコーデック文字コードのエンコード一覧はこちらになります。 Standard Encodings | Codecs | Library | v3 @ docs.python.org 取りまとめ 英語で Magic comment と言います Magic comment の日本語表記について 英語の文献(PEP-263)には「magic comment」という記載がありました。 To define a source cod

                                                                Python で文頭に記載する文字コードの「アレ」(なんちゃら UTF-8 みたいなやつ)の名称と仕様 - Qiita
                                                              • Unicode(ユニコード)とURLエンコード検索と変換サイト 0g0.org

                                                                記号や便利な文字等囲み文字、略文字、短縮文字、マーク、シンボル【™©🆗①㊿🅐㋐㋿㍻㍾㊩㍿🈀】単位の略文字・短縮文字【㎠㋌㏞㏗㏖㏒㎧㎢】数学・技術分野と関係する記号やシンボルと数字【∀∏∑−∓√∛∜∞∫∴∵≃】矢印【⇐⇑⇒⇓⇔⇕⇖⇗⇘⇙↰↱↲↳↴↵↶↷】色のある丸と四角【⚪⚫🔴🟧🟨🟩🟪🟫】トランプ【🂡🂢🂣🃜🃝🃞🂿🃏🃟】麻雀牌【🀄🀅🀆🀇🀈🀐🀑🀙🀚🀛】ドミノ牌【🀱🀲🀳🂑🂒🂓】罫線【┌─┬──┼─┐┗━╋━━━┻━┛═╬═】全角文字と半角文字【123!"#$%&¢£¬ ̄¦¥₩ァィゥェォアイウエオ】ブロック要素と幾何学模様【■░▞▚▣◯◍◈◶】便利な絵文字、記号、顔文字【☀☁☂🍘🍙🍚🥇🥈🥉⚡⚽⚾🙈🙉🙊】平仮名とカタカナ(全角・半角)【あいうえおアイウエオヤユヨヷヸヹヺ】かっこ(括弧)各種【【{❴⁽₍⦅⦆₎⁾❵}】】

                                                                • [Go] JSONを構造体にマッピングしつつ生データを保存するUnmarshalJSONの実装方法 - My External Storage

                                                                  GoではJSONを扱うときでもしっかり型定義に当てはめて利用するのが一般的だ。 しかし、外部から受け取ったJSONデータは型に当てはめつつ併せて生データも保存しておきたいときがある。 Defind Typeをうまく使うとシンプルなUnmarshalJSON(data []byte)メソッドを定義できる。 type Event struct { ID string `json:"id"` Type string `json:"type"` Payload Payload `json:"pyload"` // 構造体にマッピングする前のJSONを保存しておきたい Raw json.RawMessage `json:"-"` } TL;DR 外部から受け取るJSONは構造が不意に変わることを想定したいときがある UnmarshalJSON(data []byte)メソッドを使うと独自のJSONパ

                                                                    [Go] JSONを構造体にマッピングしつつ生データを保存するUnmarshalJSONの実装方法 - My External Storage
                                                                  • [BOD供養寺] スクレイピングしてきたデータの文字コードがおかしかったので修正した - Qiita

                                                                    Code for Japan Summit の人気企画に、「BADオープンデータ供養寺」というコンテンツがあります。 BADオープンデータ供養寺 【セッション概要】 世の中のBADオープンデータが二度とこの世を彷徨わないように、「供養(データクレンジング)」する方法を考える場です。 データの公開に携わる行政職員の方や、データを利活用するエンジニア・データサイエンティスト等の皆さまと、より使いやすく品質の高いオープンデータの公開と加工の仕組みを考えていくために建立されました。 前半はパネリストが、日頃の業務の中で、どのようなBADオープンデータにいかに対処してきたか、実例やクレンジング技術を紹介します。 後半では事前投稿されたBADオープンデータを紹介しながら、オーディエンスの皆さまと一緒に成仏させる方法を考えて行きたいと思います。 ちょうど最近、総務省が公開しているマイナンバーカードの交付

                                                                      [BOD供養寺] スクレイピングしてきたデータの文字コードがおかしかったので修正した - Qiita
                                                                    • やっかいな漢字 – CJK部首補助/康煕部首 – ものかの

                                                                      DTP制作向けのテキスト整形の話です(楽しい文字沼)。 CJK部首補助や康煕部首の漢字は、とてもやっかいです。なにがやっかいかというと、見た目では通常の漢字と区別ができないことです。 文字コードが違うのにどうして見た目がこれほど同じなのかというと、フォントの同じグリフが表示されているからです。 クライアントから支給された文字原稿に、もしかするとこのやっかいな漢字が混入しているかもしれません。なぜかというと、PDFから文字をコピーすると、通常の漢字だったはずなのに、なぜかやっかいな漢字に変わってしまうことがあるからです。このごろは文字原稿の作成にPDFから文字をコピー&ペーストすることが普通に行われているので、やっかいな漢字の混入は日常茶飯事といってよいかもしれません。 クライアントからPDFを支給されたときも、DTP制作者がPDFから文字をコピー&ペーストして、気づかずにやっかいな漢字を混

                                                                        やっかいな漢字 – CJK部首補助/康煕部首 – ものかの
                                                                      • 忍者やタピオカミルクティーなど新規絵文字117パターンがUnicode 13.0.0で追加される予定

                                                                        文字コードの業界標準であるUnicode 13.0.0が2020年3月10日にリリースされるにあたり、Unicodeの策定組織であるUnicode ConsortiumがUnicode 13.0.0から追加される予定の絵文字を先行公開しました。公開された117パターンの絵文字のうち、62パターンが新しいデザインの絵文字で、残り55パターンは既存の絵文字に性別や肌の色による差分を追加したものとなっています。 The Unicode Blog: Unicode Emoji 13.0 — Now final for 2020 http://blog.unicode.org/2020/01/unicode-emoji-130-now-final-for-2020.html 117 New Emojis In Final List For 2020 https://blog.emojipedia.o

                                                                          忍者やタピオカミルクティーなど新規絵文字117パターンがUnicode 13.0.0で追加される予定
                                                                        • 週刊Railsウォッチ(20190708-1/2前編)ActiveRecord::FixtureSetがめちゃ強くなってた、MacだとRubyが遅い理由、Puma 4登場ほか|TechRacho by BPS株式会社

                                                                          2019.07.08 週刊Railsウォッチ(20190708-1/2前編)ActiveRecord::FixtureSetがめちゃ強くなってた、MacだとRubyが遅い理由、Puma 4登場ほか こんにちは、hachi8833です。「👨‍🦲」という絵文字をSlackに貼ったらこんなふうにぶっ壊れたことで合字だということを知りました。 つっつきボイス:「Bald?」「人間の顔の絵文字にズラのコンポーネントをかぶせてたことが判明しました😆」「😆」 参考: 👨‍🦲 Man: Bald Emoji 参考: 🦲 Emoji Component Bald Emoji 「そうそう😆、Unicodeってこんなふうに複数の文字を組み合わせて合字が作れるんですよね☺️」「4人家族もパパとママと子ども2人を悪魔合体っぽく作ったりしてますね👨‍👩‍👧‍👦」「こういうのに長けたUnicod

                                                                            週刊Railsウォッチ(20190708-1/2前編)ActiveRecord::FixtureSetがめちゃ強くなってた、MacだとRubyが遅い理由、Puma 4登場ほか|TechRacho by BPS株式会社
                                                                          • リアルタイム文字コード変換/解析ツール

                                                                            使い方 調査したい文字を入力してください。文字の種類によって色分けされ、文字コードとともに表示されます。

                                                                              リアルタイム文字コード変換/解析ツール
                                                                            • Kotlin / Swift での Unicode の扱いまとめ (見た目上の文字数カウント, UTF-8, UTF-16, BOM, 正規化, 異体字セレクタ) - Qiita

                                                                              Kotlin / Swift での Unicode の扱いまとめ (見た目上の文字数カウント, UTF-8, UTF-16, BOM, 正規化, 異体字セレクタ)AndroidiOSKotlinUnicodeSwift Kotlin と Swift での見た目上の文字数カウント実装を中心に、Unicode について知っておくべき知識をまとめます。 また、モバイルアプリで入力文字数のカウントや入力文字数の上限をどのように扱うかは以下の別の記事にまとめました。 文字数カウント まずは、文字数カウントが難しい例として絵文字と異体字セレクタ表現の例を挙げます。詳しい説明はこの記事の後半を確認してください。 絵文字 🧑‍🦰 の文字数について確認します。🧑‍🦰 は以下の Unicode で構成されています。 文字 Code point UTF-8 表現 UTF-16 表現 Descriptio

                                                                                Kotlin / Swift での Unicode の扱いまとめ (見た目上の文字数カウント, UTF-8, UTF-16, BOM, 正規化, 異体字セレクタ) - Qiita
                                                                              • 【図解】【3分解説】UnicodeとUTF-8の違い!【今さら聞けない】 - Qiita

                                                                                UTF-16のことをUnicodeと記しているソフトウェア(Windowsのメモ帳など)もありますのでUnicodeとあったらそれはUTF-16を使って変換したものなのだな、というふうに理解してください。 そうなってしまっている理由はこちらで解説されていました。 これでUnicodeとUTF-8の違いはバッチリですね!おわり。 読んで分かりやすかったり少しでも何か学べたと思えたら いいね や コメント をもらえるとこれからの励みになります! もう少し時間がある方へ 手計算で文字をUTF-8での符号まで計算してみましょう。 理解が一気に深まります。手順は以下。 1. 文字のコードポイントをUnicodeから見つけてくる。 2. コードポイントをUTF-8の方式で変換してみる。 Omiitaの「お」をUTF-8による符号まで変換してみます。 文字「お」のコードポイントをUnicodeから見つけ

                                                                                  【図解】【3分解説】UnicodeとUTF-8の違い!【今さら聞けない】 - Qiita
                                                                                • ritsuka on Twitter: "鬼滅の刃に禰󠄀豆子というキャラがいるらしいけど、禰+異体字セレクタU+E0100を使わないと表現出来ない字なのか。 それでデフォルトではUTF-8は3バイトまでと決め打ちしてたMySQLとかそれを使うWordPressでトラブル起こすらしい"

                                                                                  鬼滅の刃に禰󠄀豆子というキャラがいるらしいけど、禰+異体字セレクタU+E0100を使わないと表現出来ない字なのか。 それでデフォルトではUTF-8は3バイトまでと決め打ちしてたMySQLとかそれを使うWordPressでトラブル起こすらしい

                                                                                    ritsuka on Twitter: "鬼滅の刃に禰󠄀豆子というキャラがいるらしいけど、禰+異体字セレクタU+E0100を使わないと表現出来ない字なのか。 それでデフォルトではUTF-8は3バイトまでと決め打ちしてたMySQLとかそれを使うWordPressでトラブル起こすらしい"