タグ

文字に関するmyrmecoleonのブックマーク (90)

  • ZawgyiとUnicode: ミャンマーの文字の電子化について - にせねこメモ

    まえがき ミャンマーでは公用語としてビルマ語が使われている。ビルマ語の表記にはビルマ文字を用いるのだが、このビルマ文字のインターネット上での使用は、混迷を極めていた。そしておそらく今もまだ…。なぜか? それは、Unicodeという文字コードの標準がありながら、Zawgyiというものが広く使われていたためである。なぜそのようなものが登場し、普及することとなったのか、この記事で解説する。 目次 まえがき 目次 凡例 この記事で使う名称について ビルマ語表記 コードポイント ラテン文字表記について Zawgyiの概説と歴史 Zawgyiとは Zawgyiのダウンロード Zawgyi誕生・普及の経緯 複雑なビルマ文字 ビルマ文字とUnicode 回避策としてのビルマ文字フォントの登場 Zawgyiの普及 Zawgyiの実装 実装の方針 文字の並べ替えをせず、左から右に書く 文字の形のバリエーション

    ZawgyiとUnicode: ミャンマーの文字の電子化について - にせねこメモ
    myrmecoleon
    myrmecoleon 2023/12/20
    勉強になる。日本の漢字や他の文字もUnicode収録ではそれぞれの苦労があったようなので、それぞれの言語にこういうのあるんだろうな。
  • 基本4情報での名寄せは難しい|MORIDaisuke

    先日は住所の件でお楽しみでしたね。 私も楽しくなってしょうもないツイートをしたところ、@masanorkさんから有用な情報をいただいてしまいました。 異体字に加えて外字も根深いですし、日付型に収まらない住基の生年月日とか、屋号を含んだ個人事業主の口座名義とか、外国人氏名における住民登録のアルファベットと口座名義のカタカナとの解離とか、旧姓併記の例外処理とか、文字列型に刻まれたバッドノウハウの塊ですね https://t.co/GOaytijfst — Masanori Kusunoki / 楠 正憲 (@masanork) June 6, 2023 このとき、私はごく簡単な「名寄せの難しさ」の社内研修資料を作っている最中だったのですが、この情報が大変参考になりました。 一方、私だけが得をしているのがなんとなくムズムズしてきたので、ここにアウトプットしてスッキリしようと思います。 なお、住所

    基本4情報での名寄せは難しい|MORIDaisuke
    myrmecoleon
    myrmecoleon 2023/06/19
    「カタカナよりも揺れる気満々です。」揺れる気満々好き
  • 中国人を悩ませるレアな名字の文字コード問題

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 中国では、2023年8月1日に強制力のある国家標準規格「GB 18030-2022」(信息技術中文編碼字符集)が施行される。中国で「強制」という言葉が出ると「また締め付けが強化される」と反射的に考えてしまうかもしれないが、これは文字コードの標準規格を新たに導入するという話だ。珍しい名字などに使われ、既存の文字コードに未登録の漢字に対応しようというものになる。 中国の面積は日の国土の約25倍で、約14億人の人口を擁している。一部の地域限定で使われている漢字や、少数民族の固有名詞でのみ用いられている漢字もある。文字コードに含まれない漢字を使っている人は約6000万人もいるそうだ。例えば、山東省青島市郊外にシュイユー村という地元ではまあまあ

    中国人を悩ませるレアな名字の文字コード問題
  • 文字コード | 衆議院議員 河野太郎公式サイト

    2023.05.10 官報に使われる「官報文字」というものがあります。 そこには渡辺さんの「辺」の異体字が140文字も登録されています。 日語の常用漢字には2136文字ありますが、そこには邉や邊などは入っていません。 そこでJISの第四水準までを含むJIS X 0213という標準を定め、スマホやパソコンではここまでを標準的に表示できるようにしています。 ところが我が国の戸籍で使ってもよいとされている文字はそれを遙かに超えていて、少なくとも55,270文字もあります。 全ての国民の氏名をコンピュータで扱えるようになることを目指して、戸籍統一文字や住基ネット用の統一文字を網羅した「文字情報基盤」を2011年に策定し、それにあわせたフォントを作成し、無償で提供しています。 この「文字情報基盤」(MJ)には、58,862文字が含まれています。 しかし、このMJを全庁的に採用している自治体は、川口

    文字コード | 衆議院議員 河野太郎公式サイト
  • 写真から筆跡を学習し、ペンで代筆するAI手書き「手書きくん」を正式リリース

    ​手書きDX事業を展開するエスパリアール合同会社(社:東京都渋谷区 代表社員:濵田純哉)は、AI手書き「手書きくん」を9月15日より法人向けサービスとしてリリース致します。 ■手書きくんとは? 写真で撮った手書き文字をAI学習させ、あなたの文字で代筆し、送付まで行うAI手書き営業マンです。 「手書きくん」は筆跡、筆圧、文字の大きさを学習し人間と同水準の手紙を作成可能です。(下記、参考動画)​ ■「手書きくん」のサービスの流れ ■自分の文字に自信が無い人でも安心 「手書きくん」はペン字師範の文字を学習済みなので、ペン字師範の文字で代筆可能です。 ■新しい手紙DX体験 ご利用シーン例 M&A仲介業者:新規営業のDMをペン字プロの文字で代筆し、お手紙をお届け。 不動産業界:お電話がつながらなかったお客様にお手紙を担当者の直筆でお届けすることでアポイントを獲得。 自治体:担当者の直筆文字を学習さ

    写真から筆跡を学習し、ペンで代筆するAI手書き「手書きくん」を正式リリース
  • 「カラスの漢字“烏”が“鳥”より一画少ないのは体が黒く目がどこにあるかわからないから」は誤り - 古代漢字学習ブログ @kanji_jigen

    「カラスの漢字“烏”が“鳥”より一画少ないのは体が黒く目がどこにあるかわからないから」という説があります。以下のように、現在販売されている漢和辞典にも掲載されています。 象形。からすの形にかたどる。からすはからだが黒く、目がどこにあるかわからないので、「鳥」の字の目にあたる部分の一画を省いた。借りて、感嘆詞、また、疑問詞に用いる。 ――『角川 新字源』改訂新版、角川書店2017年、p824 烏は鳥の目玉を表す部分である「-」を省いた形。 ――『漢字源』改訂第六版、学研2019年、p1152 しかし、この説は誤りです。 この説は金文の研究が盛んになるより以前に提唱されましたが、清代に金石学(金文研究)が発達したおかげで誤りであることがわかりました。すなわち、古文字学(古代の漢字を研究する学問分野)の世界では100年以上前に否定された説です。 漢和辞典に掲載されているいわゆる「漢字の成り立ち」

    「カラスの漢字“烏”が“鳥”より一画少ないのは体が黒く目がどこにあるかわからないから」は誤り - 古代漢字学習ブログ @kanji_jigen
  • ゆる言語学ラジオ#4の内容を訂正しようと思ったけども、その前に「部首」の誤解を解きたいと思いました~もうこの単語を学問の場で使わないでください~|nkay

    ゆる言語学ラジオ#4の内容を訂正しようと思ったけども、その前に「部首」の誤解を解きたいと思いました~もうこの単語を学問の場で使わないでください~ この記事のモチベーション最近以下の動画が話題(のよう)だ。正確にはこの動画の投稿集団が話題で、この動画はその中では比較的地味な方である。 悶・聞・関、部首が「門」なのはどれ? #4 https://www.youtube.com/watch?v=v2vY-H1FAHM ただ、しかし、この動画で語られることは、漢字に関する誤解に満ちている。正直、どこから突っ込んでいいのやらという感じで、語られる結論が間違っているとかではなく、おそらく話し手たちが根的に漢字・漢語と文字学(それは知識だけでなく研究伝統・研究史や方法論・考え方を含む)を誤解している。コメント欄も含めて目を覆いたくなる。 例えば、架空の人物が「“人”という字は人と人とが支え合ってるよう

    ゆる言語学ラジオ#4の内容を訂正しようと思ったけども、その前に「部首」の誤解を解きたいと思いました~もうこの単語を学問の場で使わないでください~|nkay
    myrmecoleon
    myrmecoleon 2021/05/25
    部首は学習上よく使用されているので一見必然的なカテゴリに見えるが、あくまで辞書で文字を探す上での便宜的なカテゴライズに過ぎないので、漢字の意味とは無関係という話。
  • ゲーム実況者へ

    先日Twitterで親が子供にYouTube見せるのをやめさせたというツイートがバズっていた。 小3の息子もYouTubeが好きだが、そこまでスマホやタブレットにかぶり付いているわけではないので、我が家では禁止しない予定。 ただ1つ気になるのが、息子が好きなゲーム実況者だ。 お父さんも見てよといわれその実況を見たが、ゲームに表示される台詞を読み上げる時に簡単な漢字を読み間違えたり、慣用句の使い方や言葉そのもの自体が間違えていたりと、いい大人の割に国語力が低めだった。 子供が沢山見ているんだから、その辺りは少し気をつけてほしいなと思いました。 追記 ゲームの世界で使われる難しい用語や漢字ではなく、例えば「求める」といった小中学生でも読めるような漢字です。 ブコメで無料で好きにやっているんだからとやかくいうなという指摘がありましたが、全くその通りです。でも有名な人は影響力があるので、ほんのちょ

    ゲーム実況者へ
    myrmecoleon
    myrmecoleon 2019/05/09
    普通の漢字をちゃんとすべて読める人は案外少ないので、プロでもないのならそこまで目くじらたてなくても、と思うな。
  • 中国の著名書家「顔真卿」の日本展が中国で炎上している理由

    王 青(おう・せい) 日中福祉プランニング代表。中国上海市出身。語学学習を経て大阪市立大学経済学部卒業。アジア太平洋トレードセンター(ATC)入社。大阪市、朝日新聞、ATCの3社で設立した福祉関係の常設展示場「高齢者総合生活提案館 ATCエイジレスセンター」に所属し、 広く“福祉”に関わる。2002年からフリー。「(日初のオンライン)日中介護ビジネス交流プラットフォーム」を主宰、開催中。 日中福祉プランニング http://jcwp.net/ News&Analysis 刻々と動く、国内外の経済動向・業界情報・政治や時事など、注目のテーマを徹底取材し、独自に分析。内外のネットワークを駆使し、「今」を伝えるニュース&解説コーナー。 バックナンバー一覧 1月16日~2月24日、東京国立博物館で特別展『顔真卿ー王羲之を超えた名筆』が開催されている。中国唐の書家、顔真卿(がんしんけい)の「祭姪文

    中国の著名書家「顔真卿」の日本展が中国で炎上している理由
    myrmecoleon
    myrmecoleon 2019/02/05
    炎上をタイトルにしつつ、現在は高評価と結ぶのは上手いなあ。見に行きたくなった。
  • Windowsのパス区切り文字は、なぜ逆スラッシュになったのか?

    MS-DOS 2.0のソースコードが公開された 9月末にMS-DOS 2.0のソースコード(https://github.com/Microsoft/MS-DOS/tree/master/v2.0)が公開された。ここでは、ソースコードを見ながら、Windowsのパス区切り文字が、なぜ「\」(英語表示では逆スラッシュ)になったのかを考えてみる。 ただ、MS-DOSは8086のアセンブラで記述されているため、コードを説明するのではなく、必要な定義部分などを使って解説することにする。 まずは簡単にMS-DOSという名称について説明しておく。IBMがIBM PC用のOSとしてマイクロソフトに開発を依頼したため、IBM PC用のものはPC-DOSという名称であり、MS-DOSはIBM以外のメーカー用に使われた。この時点では、PC-DOSとMS-DOSはほぼ同一のものとしてよい。ここでは、すべてMS-

    Windowsのパス区切り文字は、なぜ逆スラッシュになったのか?
  • 京極夏彦氏が一挙公開、ルビと禁則処理の法則 文字詰め、改行、記号などを整理して今のスタイルに行き着いた | JBpress (ジェイビープレス)

    2018年6月2日に東京・下北沢の書店「屋B&B」で「[京極夏彦×装丁夜話]京極夏彦の版面」というイベントが開催された。このイベントを企画したのは、装丁家の折原カズヒロさんと坂野公一さん。今回は、坂野さんがこれまでに何冊もの装丁を手掛けた作家京極夏彦さんを呼んで、版面(はんめん、はんづら)づくりの詳細を語ってもらった。 今回はその後編である。 前編はこちら http://jbpress.ismedia.jp/articles/-/53511 ルビを振る基準のマニュアルを作成 版面をパッと見たときに、ルビの存在はかなり大きなウェイトを占めていることがわかります。傍点よりも存在感があるわけで。難読漢字には比較的画数の多い漢字が多いです。画数の多い漢字の横にルビがあるかないかは、大きな問題になります。 さらに、ルビには位置の問題があります。肩付き、中付き、3字ルビ(1文字の漢字に3文字のルビが

    京極夏彦氏が一挙公開、ルビと禁則処理の法則 文字詰め、改行、記号などを整理して今のスタイルに行き着いた | JBpress (ジェイビープレス)
  • パソコンのキーボードは、なぜABC順・五十音順ではないのですか - ことばの疑問 - ことば研究館

    アルファベット編 まずアルファベットのキー配列について説明しましょう。パソコンのアルファベットのキー配列は、タイプライターという機械が元になっています。英文タイプライターを作ったのは、アメリカのChristopher Latham Sholesという人で、1870年の時点ではABC順を少し改良したキー配列だったと考えられます。前半のABCDEFGHIJKLMを左から右に、後半のNOPQRSTUVWXYZを右から左に並べて、そこからAEIOUYの母音を上の段に取りだしたのが、このキー配列です。この時点のタイプライターは、大文字と数字と4種類の記号が打てるものでした。キーの数は38個でした(図1参照)。 図1: 1870年9月時点のキー配列(推定) Sholesの後ろ盾だったJames Densmoreは、このタイプライターを、シカゴのEdward Payson Porterが経営する電信学校

    パソコンのキーボードは、なぜABC順・五十音順ではないのですか - ことばの疑問 - ことば研究館
    myrmecoleon
    myrmecoleon 2018/06/18
    場当たり的な改良の積み重ねがスタンダードになるという子どもに説明しづらい大人の事情。
  • Oculus Goで日本語変換が使える件

    Oculus Go発売以来、切望されていた内蔵ブラウザの日語変換が実現している。Oculus Goではリモコンでポイントすることでキーボードによる文字入力が可能だが、日語変換はサポートされていない。だが、「Oculus Go ブラウザ 日語変換ブックマークレット」を使うと、ブラウザで表示されているローマ字文字列をその場で日語に変換してくれる。 Oculus Go ブックマークレット 開発したのは9ballsyndromeさん。このブックマークレットは6月3日に公開されている。 Amazon Prime Videoなどで目的のタイトルを探そうとしても日本語入力ができないためできなかったり、SNSにローマ字や英語で投稿していたOculus Goユーザーには朗報だ。 検索フィールドの中の文字列全体が変換対象となり、既に日語が入力されている場合には上書きされる。一部だけを変換したい場合に

    Oculus Goで日本語変換が使える件
    myrmecoleon
    myrmecoleon 2018/06/13
    ほんとに枯れた技術のブックマークレットが活用されてる。
  • 絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama

    UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語

    絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama
    myrmecoleon
    myrmecoleon 2017/11/14
    絵文字すごい。世界中のプログラマさんおつかれさま。
  • 「カラス侵入禁止」警告文、なぜか効果 東大の研究施設:朝日新聞デジタル

    「カラス侵入禁止」。そう書いた紙をつるしたら、当に来なくなった――。岩手県大槌町にある東大の研究施設は春になると、カラスに「警告文」を出す。研究者が放つ奇策だ。今年で3年目、東大が連勝している。 4月中旬の午後、大槌湾に面した「東京大学大気海洋研究所国際沿岸海洋研究センター」の1階で、佐藤克文教授(動物行動学)がパイプや窓枠に紙をつるしていた。パイプ周りの断熱材はむしられてボロボロだ。「カラスが巣作りで持っていきました」。佐藤教授は苦笑いする。 センターは世界的な海洋研究の拠点として1973年に前身がオープンした。だが、震災の津波は3階建ての最上階まで到達した。その後、3階だけ仮修復したが、1、2階はがれきの撤去後、物置になった。 佐藤教授によると、カラスの被害が目立ち始めたのは15年春。むき出しになった1階天井のパイプの断熱材がむしり取られ、羽根やフンが落ちるようになった。 津波で周囲

    「カラス侵入禁止」警告文、なぜか効果 東大の研究施設:朝日新聞デジタル
    myrmecoleon
    myrmecoleon 2017/05/12
    警告文を見た周囲の人間がカラスに注意するので効果が出るという解釈、なるほど。
  • 「!?」と「?!」

    結局どっちが正しいんだよ。

    「!?」と「?!」
    myrmecoleon
    myrmecoleon 2017/05/04
    日本語の正書法としては!も?も正しくない。文芸の用法としてはそれぞれ意味が違う。/いろいろ見てると人によってそれぞれ読み取りが違うようなので、安易に使いづらい表現かも。
  • 『ギリシャ文字・キリル文字・ラテン文字』 - にせねこメモ

    サークル“ヒュアリニオス”として頒布した『ギリシャ文字・キリル文字・ラテン文字』(初出: コミックマーケット90)を公開します。文字の対応を見ながら、ギリシャ文字からキリル文字が作られた過程をラテン文字を絡めて説明している感じの漫画です。 サポートページ ダウンロード PDFファイルのダウンロードはこちらから: greek_latin_cyrillic.pdf (3.91MB) こちらもどうぞ 『ロシアの文字の歴史』 - にせねこメモ ロシア語で使われているキリル文字の歴史の話です。

    『ギリシャ文字・キリル文字・ラテン文字』 - にせねこメモ
  • 「ハートマーク」の描き方で年代がバレる? 世代別の特徴を紹介 - ライブドアニュース

    by ライブドアニュース編集部 ざっくり言うと 「ハートマーク」の描き方には、年代によって強い特徴があるという 20代はくぼみが浅めで細長く、30代はぷくっと丸みがあって切れ込みは深め 40代は全体的に丸みのある形で、2の線がちょんちょんと付け足されている 提供社の都合により、削除されました。 概要のみ掲載しております。 関連ニュース ランキング 総合 国内 政治 海外 経済 IT スポーツ 芸能 女子

    「ハートマーク」の描き方で年代がバレる? 世代別の特徴を紹介 - ライブドアニュース
    myrmecoleon
    myrmecoleon 2016/12/28
    ハートの書き方は中高生で決まって固定されるのね。
  • 作家さんが「コレ使えますか?」と聞いてきたナゾの記号の正体に驚きの声「そんな名前だったのか」「使い方は?」

    稀見理都@「エロマンガ表現史」発売中! @kimirito えええ〜〜今の編集さんはこれを知らないのかと、逆に衝撃(;゚∀゚)=3 ま、確かに使わないけどw https://t.co/SSIwnzNVxK 2016-09-26 23:44:18 リンク ニコニコ大百科 記号BA-90とは (キゴウビーエーキューゼロとは) [単語記事] - ニコニコ大百科 記号BA-90とは、顔である。 概要 別名 FULL MOON WITH FACE、顔付満月などの名前がある。 来は天文学・占星術で満月を示す記号である。 歴史 意外にもこの記号の歴史は...

    作家さんが「コレ使えますか?」と聞いてきたナゾの記号の正体に驚きの声「そんな名前だったのか」「使い方は?」
    myrmecoleon
    myrmecoleon 2016/09/28
    占星術記号なんだあれ。
  • 【関西の議論】刀剣女子、歴女…「くずし字」学習アプリと解読システム、開発者も仰天の意外な需要(1/3ページ)

    現代、日人でも江戸時代以前に書かれた「変体仮名」、「くずし字」を読める人は少ない。一説には、読める人が1万人を割ったともいわれている。文字とは、その国の文化歴史をひもとき、継承していくための大きな鍵、その読み手の喪失は大きな危機だ。そこで最近、スマートフォンを使ってゲーム感覚で学べるアプリやくずし字を解読するシステムが登場、話題となっている。それぞれ、あくまで学習の補助だったり、まだまだ精度に改善の余地があったりするが、専門家以外にも意外な需要があることが判明した…。(安田奈緒美) 解読するには「まず覚える」必要あり それでも大人気 平安時代から近世まで日で広く使われていた「変体仮名」。例えば、ひらがな「け」に対して「介」や「希」「気」「計」「遣」など複数の字母、パターンがある。さらにそれら漢字が「くずし字」となってしまうため、現代、戦国武将の書簡や浮世絵に書かれた文字を読みたくても、

    【関西の議論】刀剣女子、歴女…「くずし字」学習アプリと解読システム、開発者も仰天の意外な需要(1/3ページ)