文字コードの業界標準であるUnicode 13.0.0が2020年3月10日にリリースされるにあたり、Unicodeの策定組織であるUnicode ConsortiumがUnicode 13.0.0から追加される予定の絵文字を先行公開しました。公開された117パターンの絵文字のうち、62パターンが新しいデザインの絵文字で、残り55パターンは既存の絵文字に性別や肌の色による差分を追加したものとなっています。 The Unicode Blog: Unicode Emoji 13.0 — Now final for 2020 http://blog.unicode.org/2020/01/unicode-emoji-130-now-final-for-2020.html 117 New Emojis In Final List For 2020 https://blog.emojipedia.o
The new emoji are listed in Emoji Recently Added v13.0, with sample images. These images are just samples: vendors for mobile phones, PCs, and web platforms will typically use different images. In particular, the Emoji Ordering v13.0 chart shows how the new emoji sort compared to the others, with new emoji marked with rounded-rectangles. The other Emoji Charts for Version 13.0. have been updated t
文字列とUnicode 「文字列」の章で紹介したように、JavaScriptは文字コードとしてUnicodeを採用し、エンコード方式としてUTF-16を採用しています。 このUTF-16を採用しているのは、あくまでJavaScriptの内部で文字列を扱う際の文字コード(内部コード)です。 そのため、コードを書いたファイル自体の文字コード(外部コード)は、UTF-8のようにUTF-16以外の文字コードであっても問題ありません。 「文字列」の章では、これらの文字コードは意識していなかったように、内部的にどのような文字コードで扱っているかは意識せずに文字列処理ができます。 しかし、JavaScriptのStringオブジェクトにはこの文字コード(Unicode)に特化したAPIもあります。 また、絵文字を含む特定の文字を扱う際や「文字数」を数えるという場合には、内部コードであるUTF-16を意識
朝日新聞デジタルが2020年1月14日から、記事内の英数字を半角に変更しています。これは実に読みやすい……! 長きにわたり全角英数字表記を貫いてきた朝日新聞デジタル。日時をはじめ、URLなども全角で記載していたことから、URLをコピー&ペーストしにくいといった不満の声や単純に読みづらいという声が定期的に上がっており、2014年10月12日には朝日新聞 国際報道部が公式Twitterにて「『全角、読みにくい』というご意見をいただいます。すみません。技術的なことがわかる人に対応可能か聞いてみます」とツイートすることもありました。 過去には朝日新聞 国際報道部が公式Twitterからこんなツイートも(朝日新聞 国際報道部が公式Twitter) 朝日新聞デジタル「特に全角表示にこだわっていたわけではない」 半角英数字表記になった理由について、ねとらぼ編集部は朝日新聞に問い合わせました。 半角英数字
XMLでリクエスト/レスポンスするAPIへアクセスする機会がありましたので、XmlSerializerの使い方を備忘録にしておきます。 XMLをシリアライズ/デシリアライズする まずはC#オブジェクト(ここではBook)とXML形式の文字列でシリアライズ/デシリアライズさせる方法です。 Bookクラス用のXmlSerializer(System.Xml.Serialization名前空間)を定義して、Serializeメソッドでシリアライズできます。 publicのフィールドまたはプロパティがXML要素になりますが、XmlRootAttribute、XmlElementAttributeで要素名を指定しています これらの属性が無い場合は、フィールド名・プロパティ名がそのまま要素名になります XMLの繰り返し構造を定義することもでき、その場合はXmlArrayAttributeで親要素名、X
書いたrakusai.icon クメール文字を徹底的に解説する split-graphemesとして実装した 国旗の絵文字に対応してほしいと同じ問題なのかなakix.icon 合字? ほぼ同じ問題だが、クメール文字のほうが難しいrakusai.icon これをコピペすると こうなる ខ្ញុំមិនអាចនីយាយភាសាខ្មែរបានទេ។ この化けたLigatureをコピーしてTextEdit.appにペーストすると、元の文字列になるshokai.icon むずい...rakusai.icon タイ語も似てる気がする。 ภาษาไทย วันนี้ฉันได้อ่านหนังสือมาดีแล้ว これも問題があるっぽいrakusai.icon フォントが合字を認識して勝手に連結表示している 例: Fira Codeというフォントをインストールすると演算子が合字になる リガチャ(合字
MacType が効いている MSYS2 の mintty は、雪だるまと令和合字の字送りの幅が半角扱いなことを除けば、概ね合格です。 サロゲートペアを扱えないのは、マルチバイトの文字コードを扱えない、シングルバイト圏のソフトウェアのような話です。 FontLinkレジストリの FontLink で欧文フォント等に和文フォント結び付けていると、意図しない形で FontLink と異なるフォントになることがあります。メモ帳で先ほど同様に試してみると、次のように。 どうやらコードポイントによって、FontLink のフォントでなく、システムの他のフォントで描画されてしまうようです。 ☃ U+2603 が Segoe UI Emoji𠮟 U+20B9F や 𠮷 U+20BB7 が 游明朝しかも、混入した 游明朝 の文字は、なぜか一回り大きな文字サイズです。標準の Segoe UI や Tah
CTF Advent Calendar 2019 - Adventarの25日目の記事です。 1つ前は@ptr-yudai氏の2019年のpwn問を全部解くチャレンジ【後半戦】 - CTFするぞでした。 はじめに 対象イベント 問題数 読み方、使い方 Cross-Site Scripting(XSS) SVGファイルを利用したCSPバイパス GoogleドメインのJSONPを利用したCSPバイパス サブリソース完全性(SRI)機能を利用した入力チェックバイパス Chrome拡張機能のパスワードマネージャーKeePassの悪用 HTML likeコメントを使用したコメントアウト jQuery.getJSONのJSONP機能を使用したスクリプト実行 DOM Clobberingによるコードハイジャック Service Workerを利用したスクリプト実行 XSS Auditor機能のバイパス
新元号と文字コードの国際標準を巡って 一般社団法人文字情報技術促進協議会:小林龍生(こばやしたつお) 2019年は、平成最後の年として始まり、令和元年として暮れようとしている。本論では、新天皇即位に伴う平成から令和への改元に係わる国際符号化文字集合UCS(ISO/IEC 10646:Universal Coded Character Set)(1)とUCSに対応する民間標準規格ユニコード(Unicode Standard)(2)を巡る2つの話題について論じる。 1. 令和の合字について 活版で印刷された新聞や書籍を見ると、しばしば、1字分のスペースに、複数の文字を鋳込んだ活字を目にすることがある。いわゆる合字と呼ばれるもので、リガチャーとも呼ばれる。 ただし、欧文のリガチャーは、羊皮紙本の写本などで用いられていた複数のアルファベットの簡略筆写法の残滓としての意味合いが強いが、日本語活字の合
はじめに この記事は闇の魔術に対する防衛術 Advent Calendar 2019の15日目の記事です。 ♰闇の絵文字♰ 絵文字というものはとても便利なもので、自らの感情を言葉ではなく1文字分の絵🖼で表現することができます。 しかし......🤔🤔🤔 文章を解析する時に邪魔😡 なんです。 どゆこと❓ Python🐍などを利用して文章解析をする場合、前処理という文章📝を使いやすい形に整える作業をする必要があります。 解析の際に文章中に絵文字があるとあの忌々しい🤢Errorが降臨してしまいます😈 以前擬似しゅうまい🍽のようなものを作った際にはこのエラーに大変悩まされました😱 世界🌎を滅ぼさんとする絵文字から身を守る術👊 この世界を破壊💣し滅ぼそうとする絵文字たちから身を守る術はひとつ☝️ "力"です👊👊👊 絵文字をちぎっては投げちぎっては投げを繰り返せるほど
未だ現役なPerl5.8 & MySQL4.0とどう戦うか? ライブドアブログが生んだカオスとレガシーからの脱却 Inside of Blog 15年熟成されたサービスの光と影、カオスとレガシーへの挑戦 #2/2 2019年11月20、21日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2019」が開催されました。1日目は「Engineering」をテーマに、LINEの技術の深堀りを、2日目は「Production」をテーマに、Web開発技術やUI/UX、プロジェクトマネジメントなど、より実践的な内容についてたくさんのプレゼンテーションが行われました。「Inside of Blog; 15年熟成されたサービスの光と影、カオスとレガシーへの挑戦」に登壇したのはLINE 開発Bチームの大森貴博氏。後半パートとなる今回は、現役で稼
対象者 UnicodeやUTF-16について、よくわかってない人 -> ここから "😀".split("")で文字化けする理由がわからない人 -> ここから [..."👨👩👧"].lengthが5になる理由がわからない人 -> ここから 文字コードについてもう一度 文字コードは以下の二つで構成されています 符号化文字集合: 文字と、その文字の位置を示す一意の番号の集合 文字符号化方式: 文字に振られた番号をバイト表現にエンコードする方法 符号化文字集合 符号化文字集合は、 文字 その文字の位置を示す一意の番号 この二つの組み合わせの集合のことを指します。 例えばASCIIでは 8bit(128通り) でラテン文字や英数字を表現しています。 しかしASCIIには日本語などの非英語圏の文字が収録されていません。 そのため、日本語を収録したShift-JISやアジア圏の文字を収録した
「送られてきたZIPファイルを解凍(展開)してみたところ、ファイル名が文字化けしてしまった」。そんなことが起こった原因と対策について。 Macで作成されたZIPファイルをWindowsで展開した際に発生する現象です。 目次 1. ZIPファイルを展開したら文字化けした2. 原因3. 対策3.1. 7-Zipのインストール4. Zipファイルを解凍する5. 参考 スポンサーリンク ZIPファイルを展開したら文字化けした 送られてきたZIPファイルをWindows 10標準のZIP展開機能で展開してみたところ、ファイル名が文字化けしてしまい読めない状態になってしまいました。 画数の多い漢字や記号などに化けてしまい(※縺、繧、繝などの糸へんが多く含まれるUTF-8→Shift_JISパターン)、英数字の部分以外読むことができません。 原因 この文字化けの原因(きっかけ)となったのは、そのZIPフ
ここも考慮すると 斎藤 と書くと 69.3% 正解で、 斉藤 と書くと 30.7% 正解になります。 また子供のころに 斎 が難しかったので 斉 と書いていたケースも考えると、この二つの差は少し縮まりまるかもしれません。 とりあえず確立論的には 斎 と書けば…なんとなく、あたるかも…しれない? (ちゃんと本人に確認とりましょう!!!) 斉 | 法務省 戸籍統一文字情報 詳細表示 の正字 斎 | 法務省 戸籍統一文字情報 詳細表示 の正字 人数情報 「斎藤」「斉藤」「齋藤」「齊藤」・・この差って何? | 東洋経済オンライン 拝啓 斎藤さん 先日エンジニアとしてサイトウさんが入社したときに「サイトウのサイってどう書きますか…? Unicodeで教えてください。」という、いつものあれが発生したのでそろそろサイトウについて理解してみようと思いました。 また以前に 『異体字の世界”ワタナベ”』| 漢
皆さんは /dev/urandom と呼ばれるUnixデバイスをご存知でしょうか. /dev/urandom は一言でいうと擬似乱数を出力する疑似デバイスで, catすると以下のようにランダムなバイト列を逐次的に出力してくれます. 出力するバイトの値域に特に制限は無いため, ターミナルに印字不可能な文字が表示されたりします. 良い具合にバイト列が揃うと漢字が流れてきたり, 異国の文字が流れてきたりと眺めているだけでも結構面白いです. 皆さんも是非お試し下さい. 私は絵文字が流れてきたのを見て大喜びしてました. ところでこの cat /dev/urandom ですが, iTerm2でひたすら動かしていると稀に印刷ダイアログが開くことがあります. 印刷するともれなく異国の文字たちがお出迎えしてくれます 実は cat /dev/urandom しなくても echo コマンドで簡単に再現できます.
「Windows 10ミニTips」は各回の作成時点で最新のWindows 10環境を使用しています。 UTF-8化は世界的な流れだがトラブルを招く可能性アリ Windows 10の日本語ロケール(日本語文字コード)は慣例的にShift_JISとなっていたが、時代の流れと共にUTF-8化が進んできた。例えばメモ帳で作成したテキストファイルのファイル形式は、すでにANSI(Shift_JIS)からBOMなしUTF-8に変更されている。 バージョン1903では、メモ帳で使用する既定の文字コードがUTF-8になった このUTF-8を、Windows全体に適用するオプション(日本語ロケール)はバージョン1803で加わった。下図に示した手順で日本語ロケールをShift_JISからUTF-8に変更できるが、気になるのはバージョン1803でも“ベータ”だった本機能が、現時点での最新となるバージョン190
日本語などのマルチバイト文字をPerlで適切に扱うにはEncodeモジュールを使用します。次の3つのことを覚えておけば多くの場合適切に日本語を扱うことができます。 外部から入力された文字列はEncodeモジュールのdecode関数でデコードする 外部へ出力する文字列はEncodeモジュールのencode関数でエンコードする ソースコードはUTF-8で保存しutf8プラグマを有効にする この解説での用語 この解説では外部から入力された文字列のことを「バイト文字列」と呼ぶことにします。Perlの内部表現に変換された文字列を「内部文字列」と呼ぶことにします。また「バイト文字列」が特定の文字コードで記述されている場合は「UTF-8バイト文字列」「Shift_JISバイト文字列」などと呼ぶことにします。 プログラミングで日本語を扱う場合にその文字列がバイト文字列であるのか内部文字列であるのかを明確に
B! 24 0 0 0 Macの中でGNU screenなどを立ち上げると文字化けすることがありますが、 その辺の問題についてのメモ。 Macでの文字化け問題 問題の確認 Windowsでの文字化け問題 HomebrewでインストールするGNU screenの文字化け対策 Macでの文字化け問題 Macの中でGNU screenを立ち上げたらファイル名の表示などが文字化けしたりすることがあります。 殆どの場合は日本語ファイル名で濁点を使ってる場合で、文字コードの問題です。 ただ、単純にUTF-8かShift_JISか、とかそういったものではなく、濁点や半濁点の扱いの特殊さによります。 MacではFinderでもターミナル上でも基本的にUTF-8で文字を扱いますが、 UTF-8の中でもいくつか文字の取り扱いに対して違うものが存在します。 FinderではNFD(Normalization F
MySQLを5.7から8へバージョンアップする過程で、文字コードを utf8mb4 に変更する必要が生じたため、方法をメモします。 現在の状況確認↓まずMySQLに接続して、現在の状況を確認します。 # MySQLへ接続 mysql -u root -p # 変更対象のDBを選択 mysql> use hogehoge; # 文字の設定を管理している環境変数を表示 mysql> show variables like "chara%!"(MISSING); # 出力結果 +--------------------------+----------------------------+ | Variable_name | Value | +--------------------------+----------------------------+ | character_set_clie
はじめに こんにちは!なたでです! 今回は文字コードの話、特に日本語についての話です。皆さん、第1水準、第2水準、拡張文字、Windows-31J(CP932)に入る文字は一体何かとか、自信を持って把握していますでしょうか。今回は、その辺のワードを一度整理して、まとめてみました。 基本用語 文字コード 文字コードには2つの意味がある。文字集合と符号化方式である。 文字集合 JIS X 0208など、文字の集合である。これをどのように記録するかは符号化方式による。 符号化方式 上記で規定した文字集合を符号化する方式の種類である。ISO-2022-JP、EUC-JP、Shift_JISなどがある。 コードセット 文字集合と符号化方式をまとめたもの。 常用漢字 学校で習う基本的な漢字。1923年に文字集合が生まれ、1981年の時点での常用漢字は1945文字である。 後程説明するが、この漢字が19
エジプト・ヒエログリフ Egyptian Hieroglyphsの文字一覧 - 1 Unicode U+13000~U+133FF(77825文字目~78848文字目)
powershellやcmdで見ると以下のように文字化けしてしまっていたのですが この記事のコメント欄で「gitでなくgit logで表示に使ってるlessの文字コードが違うのではないか」ということと、lessはLESSCHARSETという環境変数で文字コードを指定できるということを知ったのでシステムで環境変数を設定。 コマンドプロンプト・Powershellを再起動(VisualStudioから起動したcmdはVisual Studioごと再起動しないとダメだった)してもう一度git logを試すと (コンソールで環境変数を出力させて正しく反映されているか確認して) Powershellでもcmdでも日本語でgit logできるようになりました。 Register as a new user and use Qiita more conveniently You get articles
ARCHIVE THIS SECTION CONTAINS EMOJI DATA FROM PREVIOUS YEARS The Most Frequent Emoji — 2019 How does the Unicode Consortium choose which new emoji to add to the Unicode Standard? One important factor is data about how frequently current emoji are used. Patterns of usage help to inform decisions about future emoji. The Consortium has been working to assemble information about how frequently various
第2.0版 (自作)文字列変換関数を追加 はじめに C# では文字列型は System.String だけです。一方、Visual C++ では、C 言語との互換性、Win16 との互換性、Win32 との互換性、テンプレート等々の関連で文字列とみなされる型はいろいろあります。 文字列は Visual Studio 2003 までは SJIS が標準だったらしいですが、Visual Studio 2005 からは Unicode (ワイド文字列) が標準になったそうで、混乱に輪がかかっています。よって、古いソースを Visual Studio 2017 でビルドすると、エラーがずらりと表示されます。 ここでは、それらについてまとめてみました。 どんな「文字列」があるか? Visual C++ にはどんな「文字列」があるか、ざっくり見てみましょう。もしかしたら、もっとあるかもしれませんが、比
Custom software development Tailored software solutions and software augmentation services to meet unique business needs, drive operational efficiency, and stimulate business expansion Read more Development teams Dedicated development teams and professionals that work exclusively on your project and ensure top-notch tailored solutions Read more IT consulting Expert guidance on leveraging advanced
Text Rendering Hates You Rendering text, how hard could it be? As it turns out, incredibly hard! To my knowledge, literally no system renders text “perfectly”. It’s all best-effort, although some efforts are more important than others. I’ll be assuming you want to support arbitrary text provided by users with custom fonts, colors, and styles with line-wrapping and support for text-selection. Basic
初めまして、2019年8月にヤフーのデータプラットフォームチームのインターンシップに参加した山添です。今回はインターンで検証を行ったカラムナフォーマットにおけるエンコーディング方式について紹介します。本ブログでは、特に数値型のエンコーディング方式について、データ圧縮率への効用を確認します。 カラムナフォーマットとは 昨今のデータ社会では、ログデータや購買データ、位置情報データなどさまざまなデータがものすごいスピードで生み出されています。企業ではそのような大規模なデータを蓄えておく必要があります。 私たち学生の間で最も親しみのあるファイルフォーマットは、JSON や CSV などのテキストフォーマットだと思います。これらのフォーマットは、データ保存時にスキーマを必要としない、人間からの可視性が高いなどの利点がありますが、データの圧縮効率が低いことや、処理性能の低さなどのデメリットもあります。
皆さんは「垈」という漢字を見たことがあるでしょうか? 「ない」と答えた方、まあそれが普通だと思います。ご安心を。 「ある」と答えた方、あなたは漢字に相当詳しいか、あるいは山梨県民ではないでしょうか。 実はこの「垈」という字、山梨県にしか存在しない漢字なのです。 マンガをまとめて読む(スワイプで次に進む) 「垈」の秘密 関連記事 「訃報」「愛猫」「手風琴」って読める? 常用漢字表に掲載されている“難読漢字” ニュースなどでよく見る表現も、意外と分からん……。 「稟議=りんぎ」「洗浄=せんじょう」ではない? 現代人には分からない“漢字の本来の読み方” 学校のテストで書いたら、逆に減点されそう。 ディズニーランドを貸し切りにするのが異常に難しい「お金以外」の理由【漫画版】 ぐぬぬ……。 Suicaはなぜ「充電なし」でいつまでも使えるのか?【漫画版】 サイズ的に電池入ってなさそうだけど。 「大人」
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く