[B! 技術][文字] mohnoのブックマーク

mohno id:mohno

技術と文字に関するmohnoのブックマーク (7)

絵文字を支える技術について｜nona
はじめにこちらはmhidakaが建立したAdvent Calendar Day.3となります。こんにちは、はじめまして、のなと申します。mhidakaさんのTweetを見つけて、初めてAdvent Calendarなるものを書いています。なにかお作法間違っていたら大目に見てください、よろしくお願いします。軽く自己紹介をさせていただくと、普段はGoogleでAndroidのTextまわりの開発を行っており、DroidKaigiやShibuya APKで発表させていただいたりしています。最近はほぼ絵文字の話しかしてないので、絵文字おじさんと思われてそうですが、普段の仕事は絵文字に限らず、Androidの文字表示の部分は大抵面倒をみています。今回この機会をいただいたので、どんな内容を書こうか迷ったのですが、やはり皆が読んで面白い内容というと、絵文字になるのかなぁ、ということで性懲りもなく絵
mohno 2023/12/03
うわ、すげぇ。/というか、こういうことを考えるのが嫌だから文字コードをちゃんと扱う仕事はしたくないんだよね（←オイ）/Unicode言っとけば済んだ時代が懐かしい（←そんな時代があったのかはさておき）（←オイ）

nona

絵文字

文字

文字コード

開発

技術

Android

スマートフォン

仕事
リンク
A new AI-powered speech translation system for Hokkien pioneers a new approach for a primarily oral language
Meta’s new AI-powered speech translation system for Hokkien pioneers a new approach for an unwritten language Until now, AI translation has mainly focused on written languages. Yet nearly half of the world’s 7,000+ living languages are primarily oral and do not have a standard or widely used writing system. This makes it impossible to build machine translation tools using standard techniques, whic
mohno 2022/10/25
逐次処理的に音声認識→翻訳→音声合成するシステムはあるよなあ、と思ったら、"Hokkien"というのが"unwritten language"で標準的な文法がない言語らしい。

facebook

人工知能

翻訳

音声認識

音声合成

通訳

台湾

文字

音声

技術
リンク
新元号改元の対応のプロセス – Japan New Era Name Support Blog
皆様こんにちは。前回の記事では新元号対応のために必要な検討事項、対応項目や課題などを発信していくことをお伝えしました。技術的な観点で文字コード、フォント、符号位置、照合順序などの説明や理解は欠かせないテーマですが、この blog をご覧になっている皆様が、まず知りたいことは・Microsoft の各製品、バージョンの新元号対応の予定・新元号対応の対象製品、バージョンが決定するのはいつか・対応はどのような方法で成されるのかといった具体的なマイルストーンではないでしょうか。日本マイクロソフト株式会社としても、その情報なくしては取るべき対策や意思決定ができない、という点は重々理解しており、日本政府、文字の専門家、国際標準化団体などと協業し対応に当たっていますが、IT において改元は極めて複雑な、非常に多くの検討事項、作業が必要なものになります。多くの方が誤解しているのですが、Era
mohno 2017/12/06
「IT において改元は極めて複雑な、非常に多くの検討事項、作業が必要」「その一例としまして、元号には 1 文字表示 (合字) が存在します。「明治」「㍾」「大正」「㍽」「昭和」「㍼」「平成」「㍻」といった具合」

Microsoft

TechNet

元号

天皇

開発

技術

文字

リテラシー
リンク
絵文字がある種のUnicodeバグを世界から一掃しつつある件について｜Rui Ueyama
UnicodeのUTF-16エンコーディングではほとんどの文字（コードポイント）は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語
mohno 2017/11/13
「固定長にしたければ、すごく無駄は多くなるけど1文字を常に4バイト」であらわせないものもあるしねぇ→ https://lets-emoji.com/emojilist/emojilist-26/ ←「1文字」とはナンなんだと。Unicode までで勘弁して、って感じ^_^;

note

Rui Ueyama

文字コード

開発

Unicode

文字

絵文字

技術
リンク
「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記
自分の知らないCJK Ideographのバリエーションがまだあったことに戦慄している pic.twitter.com/kUlyRLDDTM— moriyoshit (@moriyoshit) March 9, 2017 などというツイートをしたところ、思ったより反響があったのでまとめておく。上記ではあいまいに「バリエーション」などと書いたが、Unicodeとそれを扱う環境においては、バリエーションと一口に言っても次のような状況がある。意味論的に等価な異なる字形の集合同じ字形で異なるコードポイントの集合 aは結構なじみ深いと思う。 a-1. 異なるコードポイントにそれぞれ異なる字形が割り当てられているもの例: 「東」(U+6771) ⇔「东」(U+4E1C) 「斉」(U+6589) ⇔「齊」(U+9F4A) 「高」(U+9AD8) ⇔「髙」(U+9AD9) a-2. 同じコードポイ
mohno 2017/03/13
泣ける。

moriyoshi

文字

Unicode

開発

技術
リンク
JavaScript における文字コードと「文字数」の数え方 | blog.jxck.io
Intro textarea などに入力された文字数を、 JS で数えたい場合がある。ここで .length を数えるだけではダメな理由は、文字コードや JS の内部表現の話を理解する必要がある。多言語や絵文字対応なども踏まえた上で、どう処理するべきなのか。それ自体は枯れた話題ではあるが、近年 ECMAScript に追加された機能などを交えて解説する。なお、文字コードの仕組みを詳解すること自体が目的では無いため、 BOM, UCS-2, Endian, 歴史的経緯など、この手の話題につき物な話の一部は省くこととする。 1 文字とは何か Unicode は全ての文字に ID を振ることを目的としている。例えば 😭 (loudly crying face) なら 0x1F62D だ。 1 つの文字に 1 つの ID が割り当てられているのだから、文字の数を数える場合は、この ID
mohno 2017/03/03
Unicodeで文字の扱いが楽になったー、と思ったらサロゲートペアとか、どこのシフトJISだよ、と思ったなー。「👨‍👩‍👧‍👦…4 つの絵文字とそれを結合する制御文字」←Chrome だとまとめて表示される、すげぇ:-D

Jxck

文字

文字コード

Unicode

JavaScript

Java

開発

技術

絵文字

ネタ
リンク
MSがUNIXと違うことしようとした結果がこれ
「この計算結果をCSVファイルに出力する時に値段をファイル名に入れるってあるんですが、半角の¥マークはファイル名に入りませんよ」「設計書はハンコもらっちゃったのでなんとかお願い。」「全角なら大丈夫ですが」「設計書に半角って書いてあるし、変更したらこちらの瑕疵になるから、なんとかお願い」「…マイクロソフトに掛け合ってください…」
mohno 2015/03/12
ディレクトリ構造のなかったCP/Mがコマンドのオプション指定に（「-」でなく）「/」を使ったので、それを意識したMS-DOSがフォルダ区切りに“似た”文字の…/wikipedia見たらスラッシュを使い始めたのはMSだったようだ。

Microsoft

MS-DOS

CPM

文字

技術

ネタ

修正した
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx