並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 1892件

新着順 人気順

Unicodeの検索結果121 - 160 件 / 1892件

  • ChatGPTを使っていたら「視覴」という見慣れない言葉を吐き出したのだがAIが生み出した存在しない単語なのでは…?

    フガクラ @fugakura 怖ぇー、chat gpt使ってたら「視覴」という見慣れない言葉を吐き出したので検索したところ、ヒットするサイトがほとんど直近日付のAI出力された文章だった これっていわばAIのハルシネーションが生み出した存在しない単語なのでは…? pic.twitter.com/TVXWcNlVWh 2023-06-08 08:51:02

      ChatGPTを使っていたら「視覴」という見慣れない言葉を吐き出したのだがAIが生み出した存在しない単語なのでは…?
    • エンコーダーを支えるffmpeg活用 - DMM inside

      |DMM inside

        エンコーダーを支えるffmpeg活用 - DMM inside
      • Re: Goでcsvを操作するための基本的な知識

        はじめに Println で標準出力してみると以下のように表示されるかと思います。(SHIFT-JIS形式なのでmacでみると文字化けしていますがひとまず置いておきます) 日本では一般的に CSV ファイルは Shift_JIS でエンコードされている事が多いです。Go 言語は内部のエンコーディングが UTF-8 なので、Shift_JIS な CSV ファイルを読み込むと文字化けします。 そこで便利なのが エンコーディングの変換は golang.org/x/text/transform が便利です。このパッケージと、golang.org/x/text/encoding/japanese を使う事で、os.Open で開いたファイルがさも初めから UTF-8 であるかの様に扱う事ができます。 どんな風に扱うか japanese パッケージには japanese.ShiftJIS や jap

          Re: Goでcsvを操作するための基本的な知識
        • IT人材向け謎解きゲーム、paizaが無料公開 「縺薙s縺ォ縺。縺ッ」が意味するものは?

          同社は「IT業界で活躍するために必要な発想力・推理力・分析力に加えて、プログラミングに必要な頭の使い方を駆使する必要がある」と説明。「ITエンジニアやプログラミング学習者、Webデザイナー、Webディレクターなど幅広いIT人材に楽しんでほしい」としている。 今回のIT謎解きは第2弾。1作目を2022年夏に公開し、約19万ページビューを集めたことなどから、新作の公開に至ったという。 関連記事 2022年、平均年収が高かったプログラミング言語 2位「TypeScript」を上回ったのは? 「paiza」調べ 2022年、求人票上で平均年収が高かったプログラミング言語は何か。ITエンジニア向け転職プラットフォーム「paiza」を提供するpaiza(東京都港区)は12月20日、そんなランキングを発表した。 ITエンジニア「35歳定年説」に変化 転職市場で40歳以上の需要が上昇したワケ 少し前まで、

            IT人材向け謎解きゲーム、paizaが無料公開 「縺薙s縺ォ縺。縺ッ」が意味するものは?
          • コモンエイジ:文字を決めるのは誰?「ガラパゴスの元凶」戸籍70万字が阻むDX | 毎日新聞

            行政機関が管理する膨大な数の「文字」がデジタル改革を阻んでいる。字形がわずかに異なる文字も含め、戸籍だけで約70万字。岸田文雄政権は自治体の情報システムを効率化するため、約7万字に絞り込む計画だ。だが、人によっては名前の漢字が変わる可能性があり、慎重論もくすぶる。文字を決めるのは誰なのか――。 スマホに表示できない 「スマートフォンやパソコンで表示できない文字がある。魑魅魍魎(ちみもうりょう)とした世界だ」 デジタル庁幹部は、戸籍などで使われてきた文字の特異性をそう表現し、「自治体システムを複雑にし、ガラパゴス化させた元凶だ」と言い切った。 政府は、自治体ごとに仕様がばらばらな戸籍や住民基本台帳、国民年金など20業務の情報システムを2025年度末までに標準化する方針を掲げている。 人口減少で公務員の確保が難しくなる中、システムの効率的な運用で行政サービスの質を維持する目的だ。多すぎる文字を

              コモンエイジ:文字を決めるのは誰?「ガラパゴスの元凶」戸籍70万字が阻むDX | 毎日新聞
            • PHPでログファイルへの読み書きを通して任意コード実行をする方法 - knqyf263's blog

              以前少し話題になったLaravelのデバッグモード有効時の脆弱性であるCVE-2021-3129のPoCを読んでいたのですが、思ったより難しくて何でこんなことをしているんだろうと思ったら発見者による解説ブログがありました。読んでみたらバイパスのために思ったより色々していて普通に勉強になったのでメモを残しておきます。CTFerからすると常識な内容かもしれないので、何か間違いや補足があれば指摘をお願いします。 www.ambionics.io 前提知識1 前提知識2 本題 問題点 = によるエラー 日付のデコード ログファイル内の他エントリ バイパス方法 consumedの利用 iconvの利用 パディングの利用 UTF-16のための調整 NULLバイトの回避 最終形 まとめ 前提知識1 上の脆弱性を理解するためにはいくつかの前提知識を必要とするため最初にまとめておきます。 まず、PHPでは外

                PHPでログファイルへの読み書きを通して任意コード実行をする方法 - knqyf263's blog
              • Webブラウザ上で動作する帳票エンジンを作る話

                NGK2022S発表資料です https://ngk2022s.connpass.com/event/233520/ yagisan-reportsのWebサイト https://www.denkiyagi.jp/yagisan-reports/Read less

                  Webブラウザ上で動作する帳票エンジンを作る話
                • Python で Unicode 正規化 NFC/NFD の文字列を扱う - forest book

                  先日、ビジネスパーソン向けの Python 本を執筆したことを書きました。 t2y.hatenablog.jp 本稿では本書のことを「できるPy」と呼びます。 Amazon でいくつかカスタマーレビューもいただいて次のコメントをみつけました。 python3.7 対応ということで、pathlib を使ってる点が(古いpython は切り捨てる!的なところは)潔いと言えば潔いし、日本語のファイル名にも気を配っている記述はオライリーに期待するのは酷なところもある。でもこの本でもNFD問題は全くの記述無し。だめだろ、それじゃ。 Amazon CAPTCHA まさに仰る通りです。執筆時にそのことに気づかずご指摘いただいてありがとうございます。 ここでご指摘されている NFD 問題というのは、ファイル名のみに限った問題ではなく、Unicode の文字集合を扱ってエンコード/デコードするときに発生する

                    Python で Unicode 正規化 NFC/NFD の文字列を扱う - forest book
                  • Java 18正式リリース。デフォルトのCharsetが「UTF-8」に、シンプルWebサーバ搭載など新機能

                    Java 18正式リリース。デフォルトのCharsetが「UTF-8」に、シンプルWebサーバ搭載など新機能 Javaの新バージョン「Java 18」が正式にリリースされました。 Java 18 is now available! #Java18 #JDK18 #openjdk Download now: https://t.co/hTJU1ZzAWQ Release notes: https://t.co/Xdkj5TObNP API Javadoc: https://t.co/izFBPlYkd9 Features: https://t.co/3z0l5sXyDX pic.twitter.com/Ct1BvYmDYs — Java (@java) March 22, 2022 Javaは6カ月ごとに「フィーチャーリリース」と呼ばれるバージョンアップが行われ、そのなかの1つのバージョンが

                      Java 18正式リリース。デフォルトのCharsetが「UTF-8」に、シンプルWebサーバ搭載など新機能
                    • マイナンバーカード作成時に氏名の常用漢字「樹」が代替文字になる問題

                      重い腰を上げマイナンバーカードを作成しようと申請したところ、気になることが発生しました。 代替文字とはなんでしょうか。 署名用電子証明書は、コンピュータで使用されるものであるため、氏名、住所は、文字化けせずにコンピュータで表示されるものとする必要があります。このため署名用電子証明書で利用可能な文字は、JIS(日本工業規格)の漢字の規格の内、日常的に使用頻度の高い常用漢字と人名用漢字を含むJIS第一水準、第二水準(JISX0208)と補助漢字(JISX0212)の範囲としています。 住民基本台帳の氏名または住所が電子証明書に記載するコード取扱範囲外の場合は、コンピュータでの表示に類似の字形を指定し、代替文字として登録します。(公的個人認証サービスポータルサイトより) 平たく言えば、「パソコンで普通に打てない名前は置き換えるよ」という意味です。 名字が旧字体で変換しても出てこない人も多いでしょ

                        マイナンバーカード作成時に氏名の常用漢字「樹」が代替文字になる問題
                      • ファイルアップロードではNFC/NFD問題に気をつけろ!~MacファイルシステムにおけるUnicode正規化の闇~

                        NFCではそのまま「パ」として表されますが、NFDでは「ハ」(基底文字)と「゜」(結合文字)の組み合わせとしての「パ(UTF-8でe3 83 8f e3 82 9a)」(合成文字)で表されます。試しにNFDで正規化された「パ(e3 83 8f e3 82 9a)」を任意のテキストエリアに貼り付けて削除してみると、半濁音のみが取れて「ハ」のみになると思います。 このように文字列の正規化形式が異なる場合、単純な比較演算子での評価は困難であり、文字列によっては想定外の挙動を引き起こす可能性があります。 特にMacファイルシステムではNFDを正規化方式と採用しているため、NFC/NFD問題が度々引き起こされています。先日(2023年03月27日)リリースされた「macOS 13.3 Ventura (22E252)」では、ファイル名に濁音や半濁音が含まれるファイルがFinderから開けなくなる

                          ファイルアップロードではNFC/NFD問題に気をつけろ!~MacファイルシステムにおけるUnicode正規化の闇~
                        • trimやstripが全角スペースをトリミングしない理由で盛り上がったのでまとめてみた - Qiita

                          はじめに RubyのString#stripが全角スペースをトリミングしてくれないことにこの間初めて気づきました。 そこでフィヨルドブートキャンプのSlackで質問してみたところ、結構盛り上がったので記事にまとめます。 本編 自分で調べたこと まず自力で調査したことをまとめます。 Javaのtrimメソッド Javaのtrimのロジックは「\u0020(半角スペース)の文字コードより大きいか小さいか」が判断基準になっています。 ただ、それが他の言語の場合同様のロジックで実装されているのかまではわかりませんでした。 RubyのString#strip(Cのコード) 前後のオフセット値を算出してそれを利用して前後のスペースのトリミングを実現しています。 ただ、C力が圧倒的に足りないのでどういうロジックでそのオフセット値を算出しているかまではわかりませんでした。 追記 RubyのRuby実装、R

                            trimやstripが全角スペースをトリミングしない理由で盛り上がったのでまとめてみた - Qiita
                          • アプリの国際化の舞台裏

                            アプリの国際化は単に表示されるテキストの翻訳にとどまるものではありません。 このセッションでは、開発者とユーザーの双方の視点から、様々な地域で使われる iOS アプリの開発を通して得られた具体的な事例を踏まえ、アプリの国際化で必要となる技術的な知識、避けては通れない問題とその対策、そして今後のアプリ開発における課題について検討します。 自分のアプリを海外のユーザーにも使ってもらいたい。アプリを翻訳したのにあまり使ってもらえない。あるいは、海外のアプリで日本語が使えないのは何故なのか。海外のアプリの挙動がおかしいけれど何故そうなるのかわからない。そんな疑問を持った方を対象とします。 このセッションでは以下のトピックについて扱う予定です - Unicode についての知識と絵文字の貢献 - 日本語入力や複雑な文字の問題 - ユーザーインターフェイスとコンテンツの国際化 - 開発チームの国際化

                              アプリの国際化の舞台裏
                            • Unicode をレンダリングするときは言語情報を渡しましょう - blog.8-p.info

                              ソフトウェアの日本語文字が中華フォントに侵食されていて想像以上の危機らしい「違和感すごい」 というのが盛り上がっていた。 「想像以上」は主観的だけど、個人的にはちょっと煽りすぎのように思った。 前提: Han Unification はひっくりかえせない そもそも、UTF-8 がよく使われるようになって、絵文字もはいった UCS で、Han Unification しなくてもいいのでは、という話はある。 でもこれは後の祭りで、今更ひっくりかえすのは無理だと思うので、ここでは検討しません。 ユーザー側の言語情報を参照すれば、日本語のグリフは選べる ほとんどの OS には、このユーザーの言語はこれですよ、という情報があって、それでメニューやボタンの文字が日本語になる。日付の表示方法とかも、これを参照する。統合漢字でも日本語のグリフでレンダリングしたい、というのは、8割くらいはこれで解決するはな

                              • ろるくん ☪︎.° ໒꒱ on Twitter: "まったくもってどういう商品かわからなくて怖い https://t.co/qgPLknAZly"

                                まったくもってどういう商品かわからなくて怖い https://t.co/qgPLknAZly

                                  ろるくん ☪︎.° ໒꒱ on Twitter: "まったくもってどういう商品かわからなくて怖い https://t.co/qgPLknAZly"
                                • UTF-8 の文字列をできる限り Shift_JIS に変換したい - きりきりやま

                                  Shift_JIS の CSV で連携する外部サービスがあり、DB では UTF-8 でテキストを持っていたため文字コードを変換する必要が生じた。 ところが UTF-8 に存在する多くの文字は Shift_JIS に対応がないため変換することができない1。 そこで、事前に NFKC 形式で Unicode 正規化することで変換可能な文字を増やすことを試みた。 まずは Unicode 正規化の前提として、Unicode の正準等価と互換等価について説明する。 以降の U+16進数 という表記は Unicode のコードポイント (文字に ID のようなものが割り当てられている) を示す。 また、コードポイントに対応する文字の詳細は https://codepoints.net/ といったサイトで確認することができる。 正準等価 例として、ひらがなの「が」について考える。Unicode では「

                                    UTF-8 の文字列をできる限り Shift_JIS に変換したい - きりきりやま
                                  • What is black and white and read all over?

                                    Noto emoji, a new black and white emoji font with less color, may gain us more in the long run Posted by Jennifer Daniel, Creative Director - Emoji & Expression In 1999 — back when Snake 🐍 was the best thing about your phone 📱 — there were three phone carriers in Japan 🗾 . On these phones were tiny, beautiful pictures called emoji (meaning “picture” and “character” in Japanese 🥰). These 176 im

                                      What is black and white and read all over?
                                    • キャラ名に「ソ」をいれるとバグる! 古参開発者「うっ……頭の中で何かが……」/「ドカポンキングダム コネクト」で起きたShift_JIS文字コードの「ダメ文字」問題って?【やじうまの杜】

                                        キャラ名に「ソ」をいれるとバグる! 古参開発者「うっ……頭の中で何かが……」/「ドカポンキングダム コネクト」で起きたShift_JIS文字コードの「ダメ文字」問題って?【やじうまの杜】
                                      • (プログラマのための)いまさら聞けない標準規格の話 第2回 文字コード実践編 | オブジェクトの広場

                                        プログラマがシステム開発において共通で必要となる、技術と業務の狭間の共通知識を解説します。連載第2回は文字コードの実践編です。 0. 前回の復習と今回の概要 システム開発で必要となる標準規格の話、前回 は文字コードの概要について説明しました。ざっくりまとめるとこんな内容でした。 「符号化文字集合」で文字集合と符号位置を定義し、「符号化方式」でバイト表現に変換していること。 日本では、しばらく文字集合 JIS X 0208 を、ISO-2022-JP、EUC-JP、Shift_JIS の符号化方式で利用してきたこと。 近年は、世界中の文字が扱える Unicode が主流となっており、UTF-8、UTF-16 などの符号化方式があること。 常用漢字、人名用漢字に限っても、字体を正確に扱おうとすると、JIS X 0208 の範囲では不十分であり、JIS X 0213、Unicode、サロゲートペ

                                          (プログラマのための)いまさら聞けない標準規格の話 第2回 文字コード実践編 | オブジェクトの広場
                                        • ソースコードに脆弱性を潜ませられるUnicode悪用攻撃法「Trojan Source」を研究者が発表

                                          英ケンブリッジ大学コンピュータ研究所は11月1日(現地時間)、「Trojan Source:Invisible Vulnerabilities」(リンク先はPDF)という論文を公開した。Trojan Sourceは、「人間のコードレビュアーには見えないターゲットを絞った脆弱性を作成するためのクールな新トリック」という。 研究者のロス・アンダーソン氏は、「Unicodeの方向性オーバーライド文字を使って、コードを別のロジックのアナグラムとして表示するこの攻撃は、C、C++、C#、JavaScript、Java、Rust、Go、Pythonに対して機能することを確認しており、他のほとんどの言語に対しても機能すると思われる」と説明する。 「人間が見るのと異なるロジックをコンパイラに示せるように、ソースコードファイルのエンコーディングを操作する方法を発見した」。コメントや文字列に埋め込まれた制御文

                                            ソースコードに脆弱性を潜ませられるUnicode悪用攻撃法「Trojan Source」を研究者が発表
                                          • Windows 11、レジストリの非ASCII文字利用で動作不良に

                                              Windows 11、レジストリの非ASCII文字利用で動作不良に
                                            • MySQL 8.0のクライアントでMySQL 5.7のサーバーに接続するとcharsetが設定されないかもしれない - かみぽわーる

                                              mysql_options(mysql, MYSQL_SET_CHARSET_NAME, cs_name) だけして mysql_real_connect(mysql, ...) した後SHOW VARIABLESしてみたら接続のcharsetが設定済みの挙動をするんやけどmysql_real_connectからの一連のコード読んでもどこでそれが起きるのかわからん誰かたすけて🥲https://t.co/ZScoD3tIQ8— Ryuta Kamizono (@kamipo) February 20, 2021 MySQLのハンドシェイクパケットにcollation_idを1バイトだけ入れられるところがあって、charset name のデフォルトの collation_id を送っています。 クライアントとサーバーのバージョンが違うとデフォルトのcollation_idが違うことがあって

                                                MySQL 8.0のクライアントでMySQL 5.7のサーバーに接続するとcharsetが設定されないかもしれない - かみぽわーる
                                              • `<meta charset="UTF-8">` を書く必要性があるケースとデメリット

                                                HTML 文書内に <meta charset="UTF-8"> を書いていますか? 書いているとしたら、その必要性を問われた時に理由を説明できますか? 実は私も勘違いしていた部分があり[1]、改めてまとめてみました。 <meta> による文字エンコーディング指定の歴史 Content-Type ヘッダーと <meta> の関係性と優先度 <meta> が必要なケース <meta> で文字エンコーディングを指定するデメリット <meta> による文字エンコーディング指定の歴史 § まず基本的なおさらいをします。<meta charset="UTF-8"> は HTML5 で登場した新しい記法で、 HTML4 以前は <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> などという長くて覚えにくい書き方をしてい

                                                  `<meta charset="UTF-8">` を書く必要性があるケースとデメリット
                                                • 文字エンコーディングの検出方法

                                                  こんにちは、技術開発室の滝澤です。 最近(2021年春)、Go言語でメールパーサーを書く機会があり、備忘録的な意味でも知見をまとめておこうかなと思い、この記事を書きました。 メールパーサーを書いていて考慮しないといけないことの一つは、文字エンコーディング(charset)が正しく指定されていないメールがときどきあることです。 MIME(Multipurpose Internet Mail Extensions)関連のインターネット標準であるRFCが公開された1990年代や世間一般にインターネットメールが利用され始めた2000年代初期ならともかくとして、2021年にもなってまだその点を考慮しないといけないのはなかなかつらいことです。 そのようなメールを取り扱うときには、文字エンコーディングの検出を行う必要があります。本記事ではその文字エンコーディングの検出方法について書いてみました。 なお、

                                                  • Goで高速JSONライブラリを作るためにしたこと | メルカリエンジニアリング

                                                    他にもまだまだあると思いますが、自分が見たことがあるのは上記になります。 それぞれ見比べてみると、やはりエンコード・デコード両方に対応しているライブラリが人気があるようです。 この中で特に人気のある easyjson , gojay , json-iterator/go でベンチマークをとってみた結果、パフォーマンスの良い順に並べると次のようになりました。 gojay > json-iterator/go > easyjson > encoding/json 設計方針の違いがそのまま速度に現れているようにも見えますが、理論上最速にできるはずの easyjson が遅かったりと実装の良し悪しも影響しているようです。 一番遅いのは encoding/json です。そもそも encoding/json が遅いから新しい JSONライブラリを作ろうとしているはずなので、一番遅いのは仕方ないのです

                                                      Goで高速JSONライブラリを作るためにしたこと | メルカリエンジニアリング
                                                    • 急なレスポンスタイム悪化から、オープンソースプロジェクトにPull Requestを送るまで - 弥生開発者ブログ

                                                      こんにちは、Misoca開発チームの黒曜(@kokuyouwind)です。 最近はシャニマスのイベントシナリオ感想記事をnoteにまとめたりしています。 😨 急に本番のレスポンスタイムが悪化した話 Webエンジニアにとって、「本番障害」という4文字ほど見たくないものはないでしょう。 本番障害ほどではないにしても、「急なレスポンスタイム悪化」もあまり見たくない文字列ですね。まぁ、見たくなくても向こうからやってくるんですが… というわけで、今回は本番レスポンスが急に悪化したときの話です。いろいろ調べた結果、利用しているオープンソースプロジェクトが原因だったことがわかりPull Requestを送ったので、その流れをまとめてみたいと思います。 ❗️ レスポンスタイム悪化の検知 Misocaでは監視ツールとしてMackerelを、APMツールとしてSkylightを利用しています。 本番レスポン

                                                        急なレスポンスタイム悪化から、オープンソースプロジェクトにPull Requestを送るまで - 弥生開発者ブログ
                                                      • 僕は、なぜ絵文字の長さが、直感に反するのか理解したい...!! - Qiita

                                                        対象者 UnicodeやUTF-16について、よくわかってない人 -> ここから "😀".split("")で文字化けする理由がわからない人 -> ここから [..."👨‍👩‍👧"].lengthが5になる理由がわからない人 -> ここから 文字コードについてもう一度 文字コードは以下の二つで構成されています 符号化文字集合: 文字と、その文字の位置を示す一意の番号の集合 文字符号化方式: 文字に振られた番号をバイト表現にエンコードする方法 符号化文字集合 符号化文字集合は、 文字 その文字の位置を示す一意の番号 この二つの組み合わせの集合のことを指します。 例えばASCIIでは 8bit(128通り) でラテン文字や英数字を表現しています。 しかしASCIIには日本語などの非英語圏の文字が収録されていません。 そのため、日本語を収録したShift-JISやアジア圏の文字を収録した

                                                          僕は、なぜ絵文字の長さが、直感に反するのか理解したい...!! - Qiita
                                                        • Node.js Stream の初歩 - 30歳からのプログラミング

                                                          Node.js には Stream というインターフェイスが用意されており、これを使うことでデータをストリーミングできる。 Stream を使うことで、データの全てをメモリに保持するのではなく、少しずつ順番にデータを処理していくことが可能になる。 この記事では、Stream の基本的な使い方について説明していく。 WHATWG で定義している Stream はまた別の概念なので、注意する。この記事で扱っている Stream は、それとは別に以前から Node.js に実装されている Stream である。 以下の環境で動作確認している。 Node.js のバージョン 16.15.1 使っている npm ライブラリ @types/node@16.11.43 ts-node-dev@2.0.0 typescript@4.7.4 環境構築 まず最初に、手元で実際にコードを動かすための環境を構築す

                                                            Node.js Stream の初歩 - 30歳からのプログラミング
                                                          • 絵文字×絵文字=カオス? 「Emoji kitchen」がSNSで話題 X上では大喜利状態に

                                                            米Googleが提供する「Emoji kitchen」がSNSで話題だ。Emoji kitchenは2つの絵文字をミックスして新しい絵文字を生み出す機能。これまでAndroid向けキーボードアプリ「Gboard」で提供していたが、9月15日までにGoogle検索からも利用可能になり、X(元Twitter)ではカオスな絵文字を投稿するユーザーが相次いでいる。 Google検索版Emoji kitchenは「Emoji kitchen」と検索することで、PCとスマートフォンの両方で利用できる。選択できる絵文字は230種類以上あり、2つの絵文字を選ぶことで新しい絵文字を生成できる。 例えば「雨雲」と「にこやかな笑顔」を組み合わせると「にこやかな笑顔の雨雲」の絵文字を生成する。笑っている顔の代わりに「大声で泣いている顔」を組み合わせてやれば「大声で泣いている雨雲」ができるなど、ある程度パターン化さ

                                                              絵文字×絵文字=カオス? 「Emoji kitchen」がSNSで話題 X上では大喜利状態に
                                                            • Androidの「絵文字」がOS依存→対応アプリ更新で利用可能に、最新の絵文字もすぐにサポート

                                                                Androidの「絵文字」がOS依存→対応アプリ更新で利用可能に、最新の絵文字もすぐにサポート
                                                              • 文字数のカウントはどれが正解なのか?

                                                                A. ユースケース次第でどう実装すべきかは変わる。Intl.Segmenter が万能というわけでもない。 (クソ最悪な小バズをかましてしまったので、贖罪も兼ねて記事を書きました) 「文字数を数える」のは難しい 「文字数を数える」実装は意外と難しいです。というのも、アルファベットや数字だけなら str.length でも正しく数えられますが、絵文字や異体字などが入った文字列は見た目どおりに数えられません。

                                                                  文字数のカウントはどれが正解なのか?
                                                                • メモ帳の文字コード既定値がUTF-8に、Windows 10「May 2019 Update」

                                                                  2019年5月21日(米国時間)から、Windows 10の大型アップデート「Windows 10 May 2019 Update(May 2019 Update)」の配信が順次始まった。主要な新機能や変更点を見ていこう。 May 2019 Updateでは、Linuxとの親和性をさらに高める機能が追加された。この他、メモ帳のデフォルト設定の文字コードがUTF-8となり、今まで以上にソフトウエア開発者に使いやすくなった。

                                                                    メモ帳の文字コード既定値がUTF-8に、Windows 10「May 2019 Update」
                                                                  • UTF-8 の文字列をできる限り Shift_JIS に変換したい(実践編) | うなすけとあれこれ

                                                                    先日、きりきりやままさんがこのような記事を公開していました UTF-8 の文字列をできる限り Shift_JIS に変換したい - きりきりやま それでは実際にそのような文字列変換を行うにはどうすればよいのか、またコメントでiconvについて触れられていたので、この記事ではUnicodeにおけるNFKC正規化をどうやって行うのか試してみることにしました。 追記 GoとPythonとJavaScriptでの例を足しました。またいくつかのscriptにおいてブラウザ上で実行できるURLを添付しました。 (2020-08-17 16:22) “Go” に表記を統一しました。 (2020-08-17 17:00) Ruby 僕にとって文字列処理といえばRubyなので、まずは以下のようなscriptを書いてみました。 puts "\u304c" puts "String#encode('Shift_

                                                                      UTF-8 の文字列をできる限り Shift_JIS に変換したい(実践編) | うなすけとあれこれ
                                                                    • Windowsでちょっと文字コードを調べたいときの方法 (1/2)

                                                                      Windows PowerShellを使えば、文字コードを簡単に調べることができる。パターンさえ覚えれば、プログラミングの知識は不要で、アプリを別途インストールする必要もない コンピュータを使っていると、文字コードを調べなければならないことがある。昔なら文字コードは8bitしかなかったので、ASCIIコード表からすぐだったが、現在は多数の言語の文字を収録したUnicode(ユニコード)が一般的なので、一覧表から調べることは難しい。 文字1つぐらいならインターネット検索でもなんとかなるが、2つ、3つとなると面倒だ。かといって、文字コードを調べるソフトウェアを探してインストールするのもまた面倒。こういうときには、Windowsの標準機能を使うといい。 Windowsには、「文字コード表」というプログラムもあるが、一覧から文字を探して、そのコードを表示することはできるが、文字そのものから直接コー

                                                                        Windowsでちょっと文字コードを調べたいときの方法 (1/2)
                                                                      • 絵文字の偉大な功績の1つは「文字コードを統一したこと」

                                                                        数字を処理するコンピューター上で文字を扱うためには、文字コードと呼ばれるバイト表現が重要となります。かつては国や言語ごとにバラバラの文字コードを使っていましたが、記事作成時点ではUnicodeにほぼ統一されているといえます。そんなUnicodeへの統一には絵文字が大きな役割を果たしたと、ソフトウェア開発企業のIbexaでシニアデベロッパーアドボケイトを務めるJani Tarvainen氏が解説しています。 Emojis paved the way for UTF-8 everywhere https://developers.ibexa.co/blog/emojis-paved-the-way-for-utf-8-everywhere Tarvainen氏の母語であるフィンランド語には、アルファベットに「Ä」などのウムラウトや「Å」などのリングといった記号を伴うことがあります。これらの記号

                                                                          絵文字の偉大な功績の1つは「文字コードを統一したこと」
                                                                        • CSVファイルを読み込むときはBOM付きUTF-8に気をつける - Pepabo Tech Portal

                                                                          EC事業部エンジニアのharashoです。この記事はEC事業部ブログリレーの13日目の記事で、12日目は@ku00さんによるカラーミーショップの一機能をAngular Elementsで実装しましたでした。 タイトルがこの記事の結論になりますが、私が遭遇したCSVファイルの読み込み処理で起きた不具合と原因、対応方法について書きます。 CSVファイルの読み込み処理で起きた不具合 不具合の原因 BOMについて 対応方法: BOMを取り除く おわりに CSVファイルの読み込み処理で起きた不具合 私が開発に携わったカラーミーリピートの一括発送アプリには、注文に対する発送リストをCSVファイルから一括登録して、発送処理を行う機能があります。以下はその機能の簡単な流れと、CSVファイルのイメージです。

                                                                            CSVファイルを読み込むときはBOM付きUTF-8に気をつける - Pepabo Tech Portal
                                                                          • Perlで\p{Hiragana}とかが記号にマッチする問題 - Qiita

                                                                            みなさん、ワンライナーで日本語を簡単に処理したい場合、何を使うでしょうか。 ワンライナーで言語処理といえばPerlですよね[要出展]。 Perlでは、「ひらがな」「カタカナ」「漢字」といった文字にマッチする正規表現を簡単に書くことができます。 例えば、青春→鯖鰆みたいなやつという記事では、漢字にマッチさせるのに\p{Han}という正規表現を使っていました。 $ perl -Mutf8 -CSD -le 'print "漢" =~ m{\p{Han}} ? 1 : 0' 1 $ perl -Mutf8 -CSD -le 'print 1 if "あ" =~ m{\p{Han}} ? 1 : 0' 0 なんてこった。 "「"は明らかに漢字じゃないだろう? 調べてみると、perlunicodeに以下のような記述がありました。 Prior to Perl v5.26, the single for

                                                                              Perlで\p{Hiragana}とかが記号にマッチする問題 - Qiita
                                                                            • 画数の多い漢字、ビャンビャン麺の「ビャン」 vs 機械印字

                                                                              変なモノ好きで、比較文化にこだわる2人組(1号&2号)旅行ライターユニット。中国の面白可笑しいものばかりを集めて本にした「 中国の変-現代中国路上考現学 」(バジリコ刊)が発売中。 前の記事:インドでおもちゃのロボットを買う > 個人サイト 旅ライターユニット、ライスマウンテンのページ びゃん。 ビャンの字はアート ビャンビャン麺のビャンの字は57画(簡体字でも42画)だ。ビャンビャンで総画数は114画、さらに麺を加えると総画数130画になる。ラーメンをカタカナで書くと4文字なのに総画数は7画なので、18倍もの差になる。ものすごく多い。 当の中国人も驚愕するらしく、沢山のサイトが扱っている。中国人が漢字で驚くとは、インド人もびっくりみがある。 ビャンの字の由来は諸説あるが、だいたい一致しているのが、なんでも西安の近くの咸陽というところに、とある秀才が馬車で向かう際の情景なんだそうで、こんな

                                                                                画数の多い漢字、ビャンビャン麺の「ビャン」 vs 機械印字
                                                                              • Engadget | Technology News & Reviews

                                                                                Parrots in captivity seem to enjoy video-chatting with their friends on Messenger

                                                                                  Engadget | Technology News & Reviews
                                                                                • ページ内のテキストを読めなくするChrome拡張を作った - 詩と創作・思索のひろば

                                                                                  世はまさにハイパーメディア時代。何をするにも視覚的なキャッチがないとやっていけない時代です。ブラウザのスクリーンショットを撮ることも多いでしょう。しかしプライベートな内容もそこに映り込んでしまうこともありがち。かといって画像をいちいち加工するのも面倒……というわけで、DOM操作によってテキストを隠す拡張を作りました。 GitHub - motemen/webextension-obfuscate-texts 2022-07-20 追記: Chrome Web Store に出ました Obfuscate texts - Chrome ウェブストア Manifest V3 で作ったせいでほかのブラウザは未対応。 スクリーンキャスト Chrome extension: Obfuscate texts - YouTube ページ内の要素を選択し、「Obfuscate」することで▗​▝​▌​▏​▇​

                                                                                    ページ内のテキストを読めなくするChrome拡張を作った - 詩と創作・思索のひろば