並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 191件

新着順 人気順

異体字の検索結果1 - 40 件 / 191件

  • 「本醸造の醤油が当たり前になったのはここ20年ぐらい」と言っていいのは今から30年前 - 醤油手帖

    ※現在は修正が入りました! 迅速な対応に感謝します(2020/10/06追記) 醤油が大好きな人としては歴史改ざんなんてされてはたまらないという事例がありました。2020年9月30日に朝日新聞のサイトで公開されたこちらの記事です。 www.asahi.com 10月3日にはYahoo!に掲載されて、より多くの人が読むようになりました。そこで「本当なの?」と問い合わせがきてとんでもない記事に気がついた次第です。 news.yahoo.co.jp 一体何が問題なのか。 それは最初の章の以下の部分です。 戦時中に大豆の供給が逼迫(ひっぱく)して、その代替品としてカイコのさなぎ、しかも油を採取したあとの搾り粕(かす)から醬油(しょうゆ)が作られたことを知ったときは衝撃でした。さらにその後、アミノ酸液に味つけしただけの化学的な『アミノ酸醬油』が出回るようになり、醬油が本来の味を取り戻すには長い時間が

      「本醸造の醤油が当たり前になったのはここ20年ぐらい」と言っていいのは今から30年前 - 醤油手帖
    • 文字コード | 衆議院議員 河野太郎公式サイト

      2023.05.10 官報に使われる「官報文字」というものがあります。 そこには渡辺さんの「辺」の異体字が140文字も登録されています。 日本語の常用漢字には2136文字ありますが、そこには邉や邊などは入っていません。 そこでJISの第四水準までを含むJIS X 0213という標準を定め、スマホやパソコンではここまでを標準的に表示できるようにしています。 ところが我が国の戸籍で使ってもよいとされている文字はそれを遙かに超えていて、少なくとも55,270文字もあります。 全ての国民の氏名をコンピュータで扱えるようになることを目指して、戸籍統一文字や住基ネット用の統一文字を網羅した「文字情報基盤」を2011年に策定し、それにあわせたフォントを作成し、無償で提供しています。 この「文字情報基盤」(MJ)には、58,862文字が含まれています。 しかし、このMJを全庁的に採用している自治体は、川口

        文字コード | 衆議院議員 河野太郎公式サイト
      • 化学を「ばけがく」と読むみたいな言葉一覧・完全版

        科学と化学が、同じようなシーンで使うのに、どっちも「かがく」という読みであり、伝えにくい……こういうことって、よくありますよね。 でも、大丈夫。化学の方を「ばけがく」とわざと読む読み方があるんです! これは便利! こういう言葉って他にどんなのがあるのか気になったので、調べてみた。 「説明読み」と言われているらしい 化学と科学が紛らわしいので、化学の化をわざと訓読みして、ばけがくと読むみたいな言葉。ウィキペディアを調べると「説明読み」と呼ばれているらしい。(武部良明「二字漢字語の音訓読み分けについて」) 正しい読みかたではないけれど、紛らわしさをさけるため、わざと読みを変える。 すぐ思いつくのは、私立と市立の読み分け。私立を「わたくしりつ」、市立を「いちりつ」と読み替える例だろう。 テレビのニュースなどでは、なんの説明もなく「わたくしりつの学校で〜」というふうに普通に読み上げるので、もはやこ

          化学を「ばけがく」と読むみたいな言葉一覧・完全版
        • 絵文字を支える技術について|nona

          はじめにこちらはmhidakaが建立したAdvent Calendar Day.3となります。 こんにちは、はじめまして、のなと申します。mhidakaさんのTweetを見つけて、初めてAdvent Calendarなるものを書いています。なにかお作法間違っていたら大目に見てください、よろしくお願いします。 軽く自己紹介をさせていただくと、普段はGoogleでAndroidのTextまわりの開発を行っており、DroidKaigiやShibuya APKで発表させていただいたりしています。最近はほぼ絵文字の話しかしてないので、絵文字おじさんと思われてそうですが、普段の仕事は絵文字に限らず、Androidの文字表示の部分は大抵面倒をみています。 今回この機会をいただいたので、どんな内容を書こうか迷ったのですが、やはり皆が読んで面白い内容というと、絵文字になるのかなぁ、ということで性懲りもなく絵

            絵文字を支える技術について|nona
          • 基本4情報での名寄せは難しい|MORIDaisuke

            先日は住所の件でお楽しみでしたね。 私も楽しくなってしょうもないツイートをしたところ、@masanorkさんから有用な情報をいただいてしまいました。 異体字に加えて外字も根深いですし、日付型に収まらない住基の生年月日とか、屋号を含んだ個人事業主の口座名義とか、外国人氏名における住民登録のアルファベットと口座名義のカタカナとの解離とか、旧姓併記の例外処理とか、文字列型に刻まれたバッドノウハウの塊ですね https://t.co/GOaytijfst — Masanori Kusunoki / 楠 正憲 (@masanork) June 6, 2023 このとき、私はごく簡単な「名寄せの難しさ」の社内研修資料を作っている最中だったのですが、この情報が大変参考になりました。 一方、私だけが得をしているのがなんとなくムズムズしてきたので、ここにアウトプットしてスッキリしようと思います。 なお、住所

              基本4情報での名寄せは難しい|MORIDaisuke
            • 日本における「名寄せ」と「照合」の黒歴史

              健康保険証、銀行口座、年金記録――個人のマイナンバーに別人の情報がひも付けられるトラブルが後を絶たない。多くの事案に共通するのは、自治体や関係機関の職員が氏名や生年月日などを基にマイナンバーや住民データを照会した際に、誤って同姓同名の人の情報を引き出してひも付けてしまうというケースだ。 こうした情報のひも付けをする際、職員が住民データの照合や突合、本人確認に使うのが「氏名」「生年月日」「性別」「住所」、いわゆる基本4情報といわれるものだ。 だがこの4情報は、コンピューターによる自動処理とは絶望的に相性が悪い。例えば氏名は「邊」「邉」など旧字・異体字の揺らぎや外字の処理が煩雑なうえ、婚姻による改名もある。よくある氏名の場合、氏名も生年月日も同一というケースが頻発する。住所は時期によって変わるうえ、人によって書き方が「一丁目四番」から「1―4」まで一意ではない。 こうした曖昧な識別符号を代替す

                日本における「名寄せ」と「照合」の黒歴史
              • IPAが無償で提供している文字の検索システムがなかなかイケていると話題に/関連する文字をグラフで表示。異体字の一覧も可能【やじうまの杜】

                  IPAが無償で提供している文字の検索システムがなかなかイケていると話題に/関連する文字をグラフで表示。異体字の一覧も可能【やじうまの杜】
                • 『戸籍統一文字』の見たことない漢字はいったいなに?

                  法務省が、戸籍で取り扱う文字を整理した「戸籍統一文字」を検索できるウェブサイト「戸籍統一文字情報」で、漢字を検索すると、みたことのない漢字がゾロゾロでてきて、たいへんおもしろい。 当サイトでは、昨年動画で取り上げたうえに、記事化までしていじり倒してきた。 この、みたことのない漢字をいじっておもしろがるのは、それはそれでいいけれど、やはり「なんでこんな漢字があるのか」という、素朴な疑問も当然わく。 そこで、漢字に詳しいひとと一緒に、戸籍統一文字にある不思議な文字を一緒にみてもらうことにした。 「戸籍統一文字」とは? 日本語を話す日本人が普段使うとされている漢字は、常用漢字としてまとめられており、その数は現在2136文字ある。 そのほか、めったに見かけないけれど、読んだり書いたりできる漢字。読み方もわからないけれど、どこかで使われている漢字をあわせて、かなり多めに見積もっても、おそらく3000

                    『戸籍統一文字』の見たことない漢字はいったいなに?
                  • 海外の技術者が日本語の「文字化け」を本気で解説、日本人顔負けの日本通っぷりが披露される

                    by Whooym 文字が適切に表示されずに読めなくなってしまう「文字化け」は、海外の技術者の間でも「Mojibake」で通用するとのこと。そんな文字化けの種類について、東京で自然言語処理(NLP)の開発をしているポール・オリーリ・マッキャン氏が解説しました。 A Field Guide to Japanese Mojibake https://www.dampfkraft.com/mojibake-field-guide.html マッキャン氏によると、文字化けは作成した時と異なる文字コードで文書を開くことで発生するとのこと。文章が文字化けすると無意味な文字列になってしまうので読めませんが、どのような文字コードが使われたかによって異なるパターンが表れるので、慣れると使われている文字コードの種類を推測することができるそうです。 ◆UTF-8 UTF-8はインターネット上では最も一般的な文字

                      海外の技術者が日本語の「文字化け」を本気で解説、日本人顔負けの日本通っぷりが披露される
                    • 『釣りキチ三平』の矢口高雄先生の高すぎる画力はどこから来たのか「本当に異常に上手い」

                      リンク Wikipedia 矢口高雄 矢口 高雄(やぐち たかお、1939年10月28日 - 2020年11月20日)は、日本の漫画家・エッセイスト。株式会社矢口プロダクション代表取締役。本名:高橋 高雄(たかはし たかお 戸籍上は「高」が異体字(はしご髙)で髙橋 髙雄)。血液型A型。 自然の中での生活をテーマにした作品を描き、代表作の『釣りキチ三平』、『幻の怪蛇バチヘビ』で、釣りとツチノコブームを起こした。 秋田県雄勝郡西成瀬村(現:横手市)生まれ。町の中心部から20km離れた山村に生まれ、自然に囲まれて育つ。この子供時代の生活が、後に漫画 3 users 24

                        『釣りキチ三平』の矢口高雄先生の高すぎる画力はどこから来たのか「本当に異常に上手い」
                      • 口頭で名前を説明されるのが好き

                        特に電話口で、自分の名前を漢字でどう書くか説明する場面あるじゃん? 「増えるに田んぼで『ますだ』、利益の益、荒川の荒に男で『ますらお』です」みたいなやつ あれ聞くのが好きなんだよね 当たり前だけどみんな説明する口調が滑らかで、その名前で何十年とやってきた結果、最適化された定型句なんだな~という感があって良い 上の例のように一文字ずつ説明するのも親切だし、「近藤勇の『近藤』です」と有名人を引き合いに出すのも味わい深い 「はしごだか」「土の吉」みたいな異体字もたまらん ワタナベさんのナベの字なんかバリエーション凄いから説明がどんどんこなれていきそう 実務上は直接本人に記入してもらうのが楽なんだけど、たまに聞く機会があるとちょっとうれしい

                          口頭で名前を説明されるのが好き
                        • Windows と日本語のテキストについて - Windows Blog for Japan

                          すべての Microsoft 製品 Global Microsoft 365 Teams Copilot Windows Surface Xbox セール 法人向け サポート ソフトウェア Windows アプリ AI OneDrive Outlook Skype OneNote Microsoft Teams PC とデバイス Xbox を購入する アクセサリ VR & 複合現実 エンタメ Xbox Game Pass Ultimate Xbox Live Gold Xbox とゲーム PC ゲーム Windows ゲーム 映画とテレビ番組 法人向け Microsoft Cloud Microsoft Security Azure Dynamics 365 一般法人向け Microsoft 365 Microsoft Industry Microsoft Power Platform W

                            Windows と日本語のテキストについて - Windows Blog for Japan
                          • 端末の文字幅問題の傾向と対策 | IIJ Engineers Blog

                            電子メール、ネットワーク機器集中管理、異常検知、分散処理、クラウド基盤などのシステム開発に従事。古代Rubyist。 CLI や TUI なアプリケーションを使っていると、端末の画面が崩れてしまうことがよくあります。 たとえば、こんな TUI が、 環境によってはこんな感じで崩れます。 スクロールなどをしながらしばらく使っているとさらにどんどん崩れていきます。 こうなってしまった場合、とりあえず Ctrl-l で画面を再描画することで、大抵はなんとか読める程度にリセットできますので、ことあるごとに Ctrl-l を連打することになります。 ですが、どうしようもないケースもままあります。 例えば、私の場合は以下のようなシチュエーションで困ります。 w3m でテーブルなどを表示するとレンダリングが崩れる less でログの閲覧の際に表示されるべき文字が表示されず見落としが発生する Wander

                              端末の文字幅問題の傾向と対策 | IIJ Engineers Blog
                            • 「とにかく日本の住所のヤバさをもっと知るべきだと思います」に、住所正規化コンバータはどこまで応えられるのか、やってみた - ジャスミンソフト日記

                              note.com を読みました。私自身も日本の住所の扱いを何とかしないと業務アプリケーションの運用に支障が出ると感じ、2003年に「住所正規化コンバータ」というソフトウェアをリリースし、20年が経過しました。現在は国際航業株式会社様に取り扱っていただいています。 www.kkc.co.jp このブログにあるような指摘にどこまで応えられただろうかということで、社内で試してみました。利用したバージョンは最新の R7.2.0 で、住所マスタは2022年秋版と組み合わせました。その結果を公開します。 住居表示 丁目表記と地番表記の混在に対応しています。 浦安市舞浜2-1-1 郵便番号 都道府県 市区町村 町域 小字・丁目 番地・号 マッチレベル 2790031 千葉県 浦安市 舞浜 2 1-1 号レベル 浦安市舞浜2-11 郵便番号 都道府県 市区町村 町域 小字・丁目 番地・号 マッチレベル 2

                                「とにかく日本の住所のヤバさをもっと知るべきだと思います」に、住所正規化コンバータはどこまで応えられるのか、やってみた - ジャスミンソフト日記
                              • 「円」も「丁寧」も実は略字だった。漢字のプロに聞いた略字のあれこれ

                                変わった生き物や珍妙な風習など、気がついたら絶えてなくなってしまっていそうなものたちを愛す。アルコールより糖分が好き。 前の記事:天使が吹いてる長いラッパを吹きたい。できないから代わりにシャボン玉を吹く > 個人サイト 海底クラブ 「傘」という漢字の略字がほぼ絵 私が見つけたおもしろい略字というのがこれだ。 「傘」の略字。ほぼ絵じゃん。 京都市内のとある公共施設でこの「傘」を見つけて衝撃を受けたのである。「こんなんでいいのか!」と感動したのだ。 しかも帰ってから調べてみると、この「傘」は略字としてはそこそこメジャーな存在だというではないか。今まで知らずに生きてきたとは......。 きっと世の中にはまだまだ知らない略字があるにちがいない。そこで、私と編集部石川さんに前述の竹澤さん、さらにDPZで文字に関する企画といえばやはりこの人だろうというライター・西村さん(竹澤さんとつないでくれたのも

                                  「円」も「丁寧」も実は略字だった。漢字のプロに聞いた略字のあれこれ
                                • 中国からベトナムまで約1800キロを寝台列車を乗り継いで行った話

                                  旅情をあじわいたい。濃厚な旅情を、たっぷりあじわいたい。 旅情をあじわうためには、いったいどうすればよいのか? そう、寝台列車に乗って旅をすればよい。なぜなら寝台列車イコール旅情だから。 と、思い立ったので、中国の麗江という町から、ベトナムのダナンという町まで、約1800キロほどを、寝台列車を乗り継いで移動してきた。 日本の寝台列車がなければ外国に行けばいいじゃない 日本の寝台列車は軒並み廃止されつづけ、いまや「サンライズ瀬戸・出雲」ぐらいしか残ってない。 しかし、日本以外に目を向けると、まだまだ寝台列車が現役で走っている国はたくさんある。寝台列車に乗りたければ、いっそのこと、そっちに乗ってしまう……という手もあるのではないか。 そんなことを考え、今回、中国の麗江から昆明を経由し、中越国境の河口北、国境を超え、ベトナムのラオカイという町に入り、ラオカイからハノイ経由でダナンまでを、寝台列車

                                    中国からベトナムまで約1800キロを寝台列車を乗り継いで行った話
                                  • 「痴漢」になってしまった性依存症患者たちについて思うことなど徒然

                                    https://anond.hatelabo.jp/20220317162935 https://anond.hatelabo.jp/20220318013755 少し前に痴漢被害に遭ったよという話をした増田です。進捗と引き続き思うこと徒然を書きたいと思います。 ・事件後に被害者が辿る流れ(当日~その後) ・過去にあった痴漢加害者たちの様子と性依存症 大体この二点になるかと思う。 私が体験したことを通して知りうる限りの実情、痴漢加害者ってどんな感じなの?というあたりの話。 追記ここから 私感でいろいろ述べるのは危ないと指摘してくださった方、ありがとう。増田だからとつい気を抜きました。 あくまで私の体験とそれにまつわる感想の範囲に過ぎない、専門性は低い私感です。 詳しい見解はブコメ等でも指摘されている本や専門知識のある方に委ねるものとなるます。 ここでは専門家ではない一般人の受けた印象と、並

                                      「痴漢」になってしまった性依存症患者たちについて思うことなど徒然
                                    • 筑波大の授業DB代替ツールを作った学生、「未踏」のスーパークリエータに認定 オープンソースの組版処理システム開発で

                                      経済産業省は5月28日、2020年度のIT人材育成事業「未踏」で採択したクリエータ31人のうち、21人を「スーパークリエータ」に認定したと発表した。筑波大の授業データベース(DB)代替ツール「KdBもどき」を作成した和田優斗さん(18)も、その1人に選ばれた。 20年度のスーパークリエータでは最年少での選出となった和田さんは、オープンソースの日本語組版処理システム「Twight」を開発した。組版とは、印刷物を制作する際に、文字や図をページ上に配置する工程を指す。Twightでは、XML、CSS、JavaScriptの3言語を用いて、テキストベースで雑誌のようなレイアウトの作品を作成できる。高度なグラフィックス処理を実現しつつ、拡張性に優れ、雑誌だけでなく、ポスターや論文執筆など幅広い分野で応用できる点が特徴だという。 プロジェクトの担当者は「使い物になる、といったレベルではない」と絶賛。「

                                        筑波大の授業DB代替ツールを作った学生、「未踏」のスーパークリエータに認定 オープンソースの組版処理システム開発で
                                      • 最近の『なんかいい感じの邦画』はこういう字体のタイトル表記が多い?→“サブカルのチョロい化”なのでは?→様々な意見が集まる

                                        柴崎祐二 @shibasakiyuji 評論家/音楽ディレクター 単著『ポップミュージックはリバイバルをくりかえす 「再文脈化」の音楽受容史』(イースト・プレス)他、編著『シティポップとは何か』(河出書房新社) 他、連載「未来は懐かしい」(TURN)「その選曲が、映画をつくる」(NiEW)他 shibasaki1011@gmail.com 柴崎祐二 @shibasakiyuji 最近の「なんかいい感じの邦画」、こういう字体のタイトル表記多すぎじゃないですか? ここまで溢れかえっているのをみると、マーケティング対象たる「サブカル層」って、映画業界内でも完全にチョロい存在として考えられているのだろうなー、、、と。 pic.twitter.com/246YQJJ5wJ 2022-01-19 21:11:50

                                          最近の『なんかいい感じの邦画』はこういう字体のタイトル表記が多い?→“サブカルのチョロい化”なのでは?→様々な意見が集まる
                                        • IPAフォントライセンスを巡って | 一般社団法人 文字情報技術促進協議会

                                          先般、当協議会所属のフォント技術のエキスパートから、MJ明朝体フォントをWOFF化するサービスを提供しているサイトがある、MJ明朝体フォントの使用許諾契約に違反しているのではないか、との指摘があった。事務局長や対外窓口をお願いしている理事の方とも相談して、このサイトのオーナーに連絡を取り、MJ明朝体決め打ちのサービスについては、公開を差し控えていただいた。 ぼく的には、フォントをWOFF化するサービスの必要性もよく分かるし、協議会としても、WOFF化やサブセットフォントの提供など、協議会として直接行うか、協議会メンバーのフォントベンダー各社にビジネスとしてやっていただくかも含めて、具体的な方策を検討しているところだ。 ちょうどいい機会なので、MJ明朝体フォントの使用許諾契約書の成立の経緯と、ついでに、フォントの知的所有権を巡るず〜っと以前のぼくの経験を書き記しておきたい。 そう考えて、経緯

                                          • 仕事早っ!! オープンソースになったMORISAWA BIZ UDゴシックのプログラミング用合成フォント「UDEV Gothic」がリリース

                                            昨日当ブログで紹介した「MORISAWA BIZ UDゴシックとUD明朝がオープンソースになったぞ!!」のMORISAWA BIZ UDゴシックを使用したプログラミング用合成フォントが早くもリリースされたので、紹介します。 UDEV Gothic -GitHub 作者の方によると、昨日から衝動的に作成しはじめ、本日v0.0.2がリリースしたとのことです。v0.0.2では全角スペース可視化、異体字シーケンスに対応しており、今後は半角ゼロをスラッシュ付きにするなどが予定されています。 【追記: 2022/3/24】 リガチャに対応したv0.0.3がリリースされました。 ユニバーサルデザインなBIZ UDゴシックと、開発者向けフォント JetBrains Mono を合成したフォント『UDEV Gothic』 全角スペース可視化、異体字シーケンスに対応した v0.0.2 をリリースしました🎉h

                                              仕事早っ!! オープンソースになったMORISAWA BIZ UDゴシックのプログラミング用合成フォント「UDEV Gothic」がリリース
                                            • 最近「様」を「樣」の略字で書く子供がいるが、学校授業でどう採点すべき?→画数の違う旧字体にまつわる現代国語の悩み「どちらも正解」「教育的に不正解」

                                              矢野耕平 @campus_yano 昨晩、某校の国語科の先生よりメール相談。「様」を①でなく②で書く子どもたちが最近いるのだが、この採点の扱いをどうすべきと思うか? とのこと。聞けば、②で指導する小学校教員、塾講師もいるとか。わたしは○か×なら後者にしますが、皆様はどう思われますか? pic.twitter.com/0UXIBqmKBD 2023-12-08 14:14:39

                                                最近「様」を「樣」の略字で書く子供がいるが、学校授業でどう採点すべき?→画数の違う旧字体にまつわる現代国語の悩み「どちらも正解」「教育的に不正解」
                                              • ゼロから始める異体字の世界【レトロデザインのための近代日本語講座〈2〉】 - マチポンブログ

                                                今回は「異体字」についてお話しします。すこし専門的な部分もあるので、適宜不要な部分は読み飛ばすことをお勧めします。 こんな問題から始めてみましょう。世田谷区の区章とその説明文は以下のように書かれています。 外輪の円は区内の平和、中心は「世」の文字が三方に広がり、人びとの協力と区の発展を意味しています。(世田谷区の紋章、シンボル | 世田谷区ホームページより) 「中心は『世』の文字」とありますが、そうは見えません。なぜこのような形なのでしょうか。 前回の記事 本記事は連載形式で、前回の補足のような内容になっています。前回の記事もご参照ください。 shokaki.hatenablog.jp クリックで目次の表示/非表示 前回の記事 異体字とは 異体字の認識 異体字の使われ方 どこまでが同じ漢字か 誤字か異体字か 異体字はどうできるのか よく使う字は略字化する 画数の多い字は正確でなくても読める

                                                  ゼロから始める異体字の世界【レトロデザインのための近代日本語講座〈2〉】 - マチポンブログ
                                                • 『三体』三部作が完結したのでマシーナリーとも子と「三体面白かったよね会」をやりました

                                                  ※本記事はアフィリエイトプログラムによる収益を得ています みなさん、話題の超大作中国SF小説『三体』(劉慈欣)って読みました? 先日三部作の完結編である『三体III 死神永生』の日本語版が刊行されたんで、もう全部読んだ人や、タイトルくらいは知ってるって人もいるんじゃないでしょうか。いや~これがぶったまげた内容で、まさかあんなところから始まってこんなところにたどり着くとは……と驚嘆した次第。すごい話すぎて、読み終わった後しばらくボケ~ッとしちゃったもんね、もう。 劉慈欣『三体III 死神永生(上・下)』(Amazon.co.jpより) ということで今回は勝手に邦訳版完結を記念しつつ、同じく『三体』読者である殺人サイボーグVTuberのマシーナリーとも子に「『三体』ってぶっちゃけどうでした?」というのを聞いてみました。『三体』シリーズを読んだ人にはなんでこの人選なのかなんとなく分かると思うんで

                                                    『三体』三部作が完結したのでマシーナリーとも子と「三体面白かったよね会」をやりました
                                                  • 続『戸籍統一文字』の見たことない漢字、最終章

                                                    法務省のウェブサイト『戸籍統一文字情報』で検索して出てきた見たことのない漢字。これらはいったいなんなのか。 趣味で漢字字典を編纂しているという方に、いろいろと聞いてみた。前回記事「『戸籍統一文字』の見たことない漢字はいったいなに?」の、続きです。 話が長くなってしまったので、続きです 前回、趣味で漢字字典を編纂している竹澤さんに、見たことのない漢字の素性をいろいろと聞いた。 しかし、あまりのボリュームに、いったん区切りとしたが、残りの部分もぜひ読みたいというご意見をいくつか頂いたので、続編を公開することにしたい。 趣味で、漢字字典を製作中という竹澤さん(左上)、筆者・西村(右上)、デイリーポータルZ編集部・古賀さん(左下)、デイリーポータルZ編集部・林さん(右下)以降敬称略 本字、正字、略字、俗字、異体字、常用漢字、人名用漢字……とはいったいなに? 西村:ところで、戸籍統一文字を検索してい

                                                      続『戸籍統一文字』の見たことない漢字、最終章
                                                    • 住所正規化のデモ機能を作ったので、日本のヤバい住所を入力してみた

                                                      はじめに 数か月ほど前、住所の正規化が話題になりました。こちらの記事が特に有名ですね。 関連して、こちらの記事も話題になりました。 当時はほかにも色々な人が日本のヤバい住所の例をあげてくれて、とても楽しかったです。 実は弊社でもAddressianという住所正規化サービスを提供しています。初めて目にする変わった住所を見かけたら、とりあえず自社のAPIに投げてみて「おお、正規化できた」「すごい!」などといいながら遊んで働いています。 サービスは無料で利用できますが、今までは利用の手順が面倒でした。 ユーザー登録する APIキーを発行する 住所正規化APIを呼び出すプログラムを用意する(サンプルコードあり) プログラムを実行して住所を正規化する そこで、もっと気軽に住所正規化を試してもらえるように、ユーザー登録しなくても使えるデモ機能を作ってみました。 デモ機能の概要 住所正規化デモ画面 こち

                                                        住所正規化のデモ機能を作ったので、日本のヤバい住所を入力してみた
                                                      • (プログラマのための)いまさら聞けない標準規格の話 第2回 文字コード実践編 | オブジェクトの広場

                                                        プログラマがシステム開発において共通で必要となる、技術と業務の狭間の共通知識を解説します。連載第2回は文字コードの実践編です。 0. 前回の復習と今回の概要 システム開発で必要となる標準規格の話、前回 は文字コードの概要について説明しました。ざっくりまとめるとこんな内容でした。 「符号化文字集合」で文字集合と符号位置を定義し、「符号化方式」でバイト表現に変換していること。 日本では、しばらく文字集合 JIS X 0208 を、ISO-2022-JP、EUC-JP、Shift_JIS の符号化方式で利用してきたこと。 近年は、世界中の文字が扱える Unicode が主流となっており、UTF-8、UTF-16 などの符号化方式があること。 常用漢字、人名用漢字に限っても、字体を正確に扱おうとすると、JIS X 0208 の範囲では不十分であり、JIS X 0213、Unicode、サロゲートペ

                                                          (プログラマのための)いまさら聞けない標準規格の話 第2回 文字コード実践編 | オブジェクトの広場
                                                        • 文字数のカウントはどれが正解なのか?

                                                          A. ユースケース次第でどう実装すべきかは変わる。Intl.Segmenter が万能というわけでもない。 (クソ最悪な小バズをかましてしまったので、贖罪も兼ねて記事を書きました) 「文字数を数える」のは難しい 「文字数を数える」実装は意外と難しいです。というのも、アルファベットや数字だけなら str.length でも正しく数えられますが、絵文字や異体字などが入った文字列は見た目どおりに数えられません。

                                                            文字数のカウントはどれが正解なのか?
                                                          • 強力なグラフィック機能を備えた組版処理システムTwight|情報処理学会・学会誌「情報処理」

                                                            和田 優斗(わだ ゆうと) 組版とは,書籍やパンフレットなどを作る際,文字や図をページに配置する作業のことである.Microsoft Wordを使って文書を作る作業は組版であるし,研究論文を書く人ならLaTeXを使う人も多いだろう. 組版ソフトウェアには,大きく分けて2種類ある.文書のテキストに指示を埋め込んでいく文字ベースの組版処理システムと,画面上で組版結果を見ながらそれを操作していくWYSIWYGエディタである.前者にはTeXや(未踏OBの諏訪敬之氏の)SATySFiが,後者にはWordやAdobe Illustrator,InDesignがある. どちらにも利点がある.WYSIWYGはとっつきやすいが,文字ベースにも,文書から分けてスタイルを記述するゆえ再利用性が高かったり,文字ゆえ差分の把握やバージョン管理がしやすかったり,マクロ定義による拡張や自動処理が可能になる,といったさま

                                                              強力なグラフィック機能を備えた組版処理システムTwight|情報処理学会・学会誌「情報処理」
                                                            • 番外編|あなたの文字認識を拡張する。ドット世界の彫刻家たちー4社のドット書体を味わう。|造字沼ブックス/文字の本を発掘して読みとく

                                                              当連載では、漢字改良に挑んだひとりの人生をその著書を通じて書いてきたが、今回は文字自体に焦点をあてる。とりあげるのは前回に引き続きビットマップフォントだ。 前回の記事で明らかになったのは、次のような結論だ。 ビットマップフォントは何かを差し引くではなく、線を重ね合わせ、シェアすることでドットに複数の役割をもたせる。極限まで省略されているようで、実は何も省略していない。 世の中に明朝体と呼ばれる書体が複数ある。同じようにビットマップフォントもさまざまな企業からリリースされている。8ドットや9ドットのビットマップはギリギリまで削減されているように見えた。しかし、このギリギリのなかに取りうる選択肢がフォントの数だけ存在するのだろうか?それとも概ね同じ形に収斂されてゆくのだろうか? 収斂されてゆくのであれば、それが(9ドットの)究極の到達点であり興味深い。また大きな違いが生じるのであれば、簡略化の

                                                                番外編|あなたの文字認識を拡張する。ドット世界の彫刻家たちー4社のドット書体を味わう。|造字沼ブックス/文字の本を発掘して読みとく
                                                              • 明治の官僚・官職3万8000人をDB化し公開 鹿児島大学司法センターの研究者、25年がかりの大作 | 鹿児島のニュース | 南日本新聞

                                                                明治時代の公的機関職員や軍人ら3万8296人を網羅した「明治期官僚・官職データベース(以下DB)」が完成し、鹿児島大学司法政策教育研究センターが7月、提供を始めた。近代史研究に欠かせない名簿類を、在野の研究者が四半世紀かけてデータ化した労作。専門家は「調査の手間が大幅に減り、一般の人も使える」と高く評価する。 DBは1868(慶応4、明治元)~1911(明治44)年に発行された、国や県の職員名簿に当たる「官員録」「職員録」など5種の名簿を、表計算ソフトのエクセルで分類。電話帳のように名字で整理し、氏名や職名、出身地も載せた。 例えば文官の項で「大久保」を検索すると22人がヒット。その1人、大久保利通は1868年の議政官参与を皮切りに次々と要職に就いていた。暗殺された78年当時は内務卿、太政官(だじょうかん)参議、地租改正事務局総裁を兼務しており、存在の大きさがうかがえる。 作成したのはセン

                                                                  明治の官僚・官職3万8000人をDB化し公開 鹿児島大学司法センターの研究者、25年がかりの大作 | 鹿児島のニュース | 南日本新聞
                                                                • 「退職届を写経しました」→達筆ツイッタラー「私も写経しました」→本物の住職「読んでみました」 ネットの連鎖に「心が浄化される」「私も写経しちゃおう」

                                                                  会社への鬱憤を「退職届の写経」にしてみた投稿がTwitterで人気を博しています。さらに、この投稿を見て自ら写経を試みる人や、ガチ読経する本物の住職まで登場。インターネットに徳の高い連鎖が広がっています。 ちゃーきさん(@OochaaakyoO)が投稿した「退職届」の写経 最初に投稿したのは、Twitterユーザーのちゃーきさん(@OochaaakyoO)。「心が荒んでたので写経しました」と、毛筆で退職届を仕上げました。 退職届 無給残業休日出勤 疫病拡大売上減少 社長豪遊夏報酬無 上司延々独言耳痛 部下多文句責任感無 不始末後処理謝思無 精神身体共苦痛故 希望退職本日限 日々の不条理がにじむこの内容。ちゃーきさんの「誰か毛筆上手な方、清書してください」の声に応えて、Twitter上では達筆に写経する人が次々に現れました。 蒼喬さん(@sokyo1226)は「ちょっと強そうにするため」、書

                                                                    「退職届を写経しました」→達筆ツイッタラー「私も写経しました」→本物の住職「読んでみました」 ネットの連鎖に「心が浄化される」「私も写経しちゃおう」
                                                                  • この落書き、筆の運びがとても滑らかだし“田町”とか異体字使ってるしもしかして書の素養のあるヤンキーが書いたのでは…?

                                                                    ミサンザイ 同人誌 「天皇を旅する本」「天皇を旅する地図」ほか BOOTHはじめました @katsunomisanzai 天皇陵や大嘗祭斎田を探訪したり、天皇が登場するマンガを読みくらべて描かれ方を調べたり、ローカルな皇族伝説やご落胤伝説が残る場所を訪ねたり…天皇にまつわることを全方位的に探求。同人誌『天皇を旅する本』1〜3号とらのあなで委託販売中。BOOTHもはじめました。 misanzai.booth.pm ミサンザイ 同人誌 「天皇を旅する本」「天皇を旅する地図」ほか BOOTHはじめました @katsunomisanzai 治安がよくないねと妻がいってたのだけど、しかしこの落書き筆の運びがとてもなめらかだし「田町」とか異体字つかってるし、もしかしてかなり書の素養のあるヤンキーがかいたのでは… pic.twitter.com/m6Qa7XMpfK 2023-12-15 19:35:2

                                                                      この落書き、筆の運びがとても滑らかだし“田町”とか異体字使ってるしもしかして書の素養のあるヤンキーが書いたのでは…?
                                                                    • 表記揺れとは?15パターンのよくある表記揺れと、そのチェック方法 | 文賢マガジン

                                                                      この文章は文章作成アドバイスツール 「文賢(ブンケン)」でチェックし、作成しました。 文賢マガジン編集部の松尾です。 世の中には2種類の文章があります。 「表記揺れの少ない丁寧な文章」か「表記揺れの多い雑然とした文章」か。 表記揺れとは、同じ意味を表す言葉なのに、さまざまな表記が混在している状態を指します。 たとえば、表記揺れには「申し込み/申込み/申込」「Webサイト/WEBサイト/WEBサイト/ウェブサイト」といったパターンがあります。 表記揺れのある文章は、読み手に負荷をかけるだけでなく、文章が丁寧に書かれていない印象を与えてしまいます。 その結果、読み手の満足度が下がったり、ブランディングに影響が出てしまったりするのです。 今回は表記揺れとは何かを説明したあとで、表記揺れのよくあるパターンや、表記揺れを防ぐ方法について取り上げます。 また、ダウンロードしてすぐに使える「ひらがなで書

                                                                        表記揺れとは?15パターンのよくある表記揺れと、そのチェック方法 | 文賢マガジン
                                                                      • 「漢字の成り立ち」を語る際は、最も初期の字形を根拠にしなければならない――「丁・正・以・亡・家・安」の字源を例として|nkay

                                                                        「漢字の成り立ち」を語る際は、最も初期の字形を根拠にしなければならない――「丁・正・以・亡・家・安」の字源を例として こんにちは、みなさん。 近年、多くの場所で「漢字の成り立ち」が語られる場面に遭遇します。テレビ番組や新聞雑誌、書籍や漫画、インターネット上のサイト・ブログ・SNSなどなど。しかしそこで見聞きする「漢字の成り立ち」説というのは、科学的根拠に欠けた信用できない説であることが少なくありません。 多くの場合、語り手が実際には文字学の知識に欠けた者であることが、その直接の原因となっています。こうした語り手達の間で、不可信で不正確な説明が伝播されていきます。 説得力の低いものと聞いて、テレビのバラエティ番組で芸能人が話す説や、あらさまな広告収入目的のインターネットサイトの説、書店に並ぶ泡沫雑学本に掲載されている説などが思い浮かぶかもしれません。しかし驚くべきことに、残念ながら、漢和辞典

                                                                          「漢字の成り立ち」を語る際は、最も初期の字形を根拠にしなければならない――「丁・正・以・亡・家・安」の字源を例として|nkay
                                                                        • Unicodeの異体字セレクターを使ったステガノグラフィ:秘密の文字列をテキストにこっそり隠し込む方法 - Qiita

                                                                          Unicodeの異体字セレクター(variation selectors)を使い、ユニコード文字列内に隠し情報を埋め込む方法です。 異体字セレクターとは 異体字セレクターは、文字の字体を詳細に指定するモディファイアのようなもの 異体字セレクターは16種類のコードポイントがある(FE00~FE0F) 仕組みの概要 隠したい文字列(hidden)を文字単位にバラす (例: js → j, s) 文字ごとに16進数に変換する (例: j → 6A) その16進数をひと桁ずつ異体字セレクターのコードポイントにマッピングする (例: 6→FE06, A → FE0A) 異体字セレクターの配列をひとつの文字列にまとめなおす 最後にそれを埋め込み先の文字列(body)に混ぜ込んで隠す。 よくあるユニコードステガノグラフィーとの違い ゼロ幅文字を使ったステガノグラフィー 次のようなゼロ幅空白文字を用いたス

                                                                            Unicodeの異体字セレクターを使ったステガノグラフィ:秘密の文字列をテキストにこっそり隠し込む方法 - Qiita
                                                                          • 正字正かな遣いクラスタの用いる言葉がバーチャルすぎて半笑いになる。 本..

                                                                            正字正かな遣いクラスタの用いる言葉がバーチャルすぎて半笑いになる。 本人は格好つけている、あるいは意義があってそうしていると思っているのだろうが、例えるなら日本語の文法がおかしい人が一生懸命頑張ってるみたいに見える。 まずほとんどの彼らの用語には底本というか、基準がない。 正字正かなといっても A時代(明治と大正末だとだいぶ違う。昭和戦前が一番イメージしやすいだろう。江戸時代でも鎌倉時代でもいい)で異なるし、 B書かれる媒体(新聞なのか随筆なのか、個人の日記なのか)で異なる 今でもそうでしょう。 1999年頃の、ギリギリまだ怪しい雑誌に怪しいライターがひしめいていた時代のあの文章。思い出して欲しい。 ちょっとカタカナ混ぜたり、トカ? ゲーム批評のガップ獅子丸みたいな文章。今だいぶ雰囲気変わったでしょう。 逆にいうと、今風の? 切込隊長やよっぴ〜みたいな文章も、ネットで見られる時代の象徴的な

                                                                              正字正かな遣いクラスタの用いる言葉がバーチャルすぎて半笑いになる。 本..
                                                                            • 旧字体とは?【レトロデザインのための近代日本語講座〈1〉】 - マチポンブログ

                                                                              はじめに 私はレトロデザインが好きです。 しかし、仮名遣いが「美しゐ」となっていたりして、もったいない、と思うことがあります。(当時も歴史的仮名遣いが厳格に用いられていたわけではありませんが、「美しゐ」と書く人はいないでしょう。) そこで、レトロデザインのために近代(明治~昭和初期)の日本語についてここにまとめることにしました。 自分の勉強のためという意味もありますが、デザインの際の一助となれば幸いです。書いてみてから思いましたが、デザイン以外の時代考証にも有用かもしれませんし、単純に「旧字体」のことを知りたい人も読める記事になっています。 一気に書き上げるのは難しいと考え、少しずつ、連載のような形式で書き進めようと思います。 さて、最初のテーマの中心は「旧字体」です。 目次の表示/非表示 はじめに 旧字体とは 戦前の漢字の形は多様すぎる 活字の状況 現在の漢和辞典でも「旧字体」は一定では

                                                                                旧字体とは?【レトロデザインのための近代日本語講座〈1〉】 - マチポンブログ
                                                                              • 私の名前ってUnicodeでどう表すの?~異体字セレクタとの出会い~ - NRIネットコムBlog

                                                                                本記事は 【Advent Calendar 2023】 17日目の記事です。 🎄 16日目 ▶▶ 本記事 ▶▶ 18日目 🎅 こんにちは。 2年目の草野です。年末が近づいてきましたね。 今回はAdvent Calendarの執筆に参加ということで、2023年の業務の中で印象深かったUnicodeについて少しお話したいと思います。 そもそもUnicodeとは サロゲートペア文字 突然ですが…… 異体字セレクタとの出会い 異体字セレクタって? 全く同じ意味を持つ文字、異体字 異体字セレクタの誕生 具体例 結局私の名字はどう書くの? おわりに そもそもUnicodeとは みなさんご存じの通り、Unicodeは文字を表すための国際的な標準規格の1つです。 一般的には [U+91CE] のように、16進数で表記されます。 常用文字は [U+0000] ~ [U+FFFF] の16進数4文字=2バ

                                                                                  私の名前ってUnicodeでどう表すの?~異体字セレクタとの出会い~ - NRIネットコムBlog
                                                                                • Elasticsearchで日本語を同義語展開する

                                                                                  全文検索における同義語展開の必要性 全文検索では、基本的に文字列のマッチにより検索を行います。しかし我々が言葉を扱うときには、同じものを違う表現で指し示すことが多々あります。 例えば「独占禁止法」と呼ばれる法律があります。これは経済憲法とも言われる大変重要な法律なのですが、日本では「昭和二十二年法律第五十四号(私的独占の禁止及び公正取引の確保に関する法律)」という法律がそれに該当し、独占禁止法という名前にはなっていません。これを皆、「独占禁止法」や「独禁法」といった代替可能な別表現(同義語)で呼んでいるわけです。 同法律には法令用語で言うところの「題名」は付されておらず、頭書の名称は制定時の公布文から引用したいわゆる「件名」である。独占禁止法ないし独禁法と略称されることも多い。 もし「独禁法」で検索して当該法律がヒットしなければ、ユーザーとしては不満足でしょう。検索システムのクオリティを向

                                                                                    Elasticsearchで日本語を同義語展開する