並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 98件

新着順 人気順

正規化の検索結果1 - 40 件 / 98件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

正規化に関するエントリは98件あります。 住所地図unicode などが関連タグです。 人気エントリには 『経産省発の npm モジュール!住所や電話番号の正規化、ジオコーディングなどができる IMI コンポーネントツールを試した!』などがあります。
  • 経産省発の npm モジュール!住所や電話番号の正規化、ジオコーディングなどができる IMI コンポーネントツールを試した!

    経産省発の npm モジュール!住所や電話番号の正規化、ジオコーディングなどができる IMI コンポーネントツールを試した! Code for Japan の関さんが SNS でシェアしてて知ったのですが、経産省さんがなにやらオープンソースで住所や電話番号の正規化などなどをするツールを公開したとのこと。 https://info.gbiz.go.jp/tools/imi_tools/ 経産省が住所変換や法人種別名、電話番号の正規化に使えるIMIコンポーネントツールを公開しました。 ソースコードも公開。README にも使い方が丁寧に書かれていました。https://t.co/fPbV00EgZP 素晴らしい動き。こういう... #NewsPicks https://t.co/bew0qGKMFE — Hal Seki (@hal_sk) May 28, 2020 ぶっちゃけ当初はあまり期待

      経産省発の npm モジュール!住所や電話番号の正規化、ジオコーディングなどができる IMI コンポーネントツールを試した!
    • 日本の住所の正規化に本気で取り組んでみたら大変すぎて鼻血が出た。 - Qiita

      先日、弊社では Community Geocoder というサービスをリリースしました。 Community Geocoder 紹介記事 さて、このジオコーダーは、住所を正規化してそれを「大字町丁目コード」という12桁の数字に変換し、そのコードをファイル名として GitHub ページ上に大量においた JSON ファイルにアクセスして緯度経度を取得するということをやっています。 つまり、住所の正規化からコードに変換する部分がとても重要で、そもそも正規化に失敗してしまうとどうしようもないという仕様なんです。 さいわい先日経産省が公開した IMI コンポーネントツール である程度のことをやってくれるのですが(というかそうであることを期待したのですが)、いろいろ調べ始めると住所という仕組みはほんとに複雑で、Facebook で絡んでくださった @hfu さんいわくまさに「自然言語処理そのもの」であ

        日本の住所の正規化に本気で取り組んでみたら大変すぎて鼻血が出た。 - Qiita
      • 文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう! - エンジニアHub|Webエンジニアのキャリアを考える!

        ソフトウェア開発に携わる方の多くは、何らかの形で文字コードに触れることがあるでしょう。文字や記号をコンピュータ上でデータとして扱うには、文字コードの知識が必要不可欠です。 本稿では、書籍『プログラマのための文字コード技術入門』の著者である矢野啓介さんが、知っておきたい基礎知識を分かりやすく解説します。 文字コードとは? Unicode以前の文字コード Unicodeとその主な符号化形式 UTF-16 UTF-32 UTF-8 Webで文字コードを指定する仕組み HTML文書で文字コードを指定する HTTPのプロトコルで文字コードを指定する Unicodeによるプログラミング上の注意点 サロゲートペア 結合文字 正規化 書記素クラスタで文字数をカウント まとめ 関連規格 文字コードとは?

          文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう! - エンジニアHub|Webエンジニアのキャリアを考える!
        • 手取り14万円の劣悪な待遇…非正規化進む地方公務員、15年で1.5倍に「公共サービス持続困難に」:東京新聞 TOKYO Web

          地方公務員の非正規化が進んでいる。非正規公務員は15年で1.5倍に増加。4人に3人が女性という割合だ。当事者を中心に昨年設立した支援団体「公務非正規女性全国ネットワーク(通称・はむねっと)」は、自立できない賃金水準にあることなどの実態を明かし、このままでは「公共サービスが持続できなくなる」と警鐘を鳴らす。20日に都内で設立1周年の集会を開く。(畑間香織) 都内の放課後児童クラブで働く女性(48)は3月末で退職することを決めた。女性の給料は手取り月14万円、年収は200万円に満たない。単身のため、収入を増やせないかと、別の仕事を入れることも考えたが、児童の相手をしながら事務作業に追われる状況では体力的に難しく限界だった。女性は「現場を担うのは非正規やパート。行政がこの待遇で仕事をやれる人に甘えている」と憤る。

            手取り14万円の劣悪な待遇…非正規化進む地方公務員、15年で1.5倍に「公共サービス持続困難に」:東京新聞 TOKYO Web
          • 住所の正規化は沼である。

            杉原航太 @kota_sugihara 河野太郎がマイナンバーカードの住所照合についてデジタル音痴ぶりを如何なく発揮した件 河野大臣『問題は住所が「港区赤坂一丁目2の3」と書く人もいれば、「港区赤坂1-2-3」と書く人もいる…(中略)将来的にはAIの技術を使って表記揺れを判断することがあり得るかもしれない。』… twitter.com/i/web/status/1… pic.twitter.com/aF2jzwtBkN 2023-06-04 22:44:10

              住所の正規化は沼である。
            • 「とにかく日本の住所のヤバさをもっと知るべきだと思います」に、住所正規化コンバータはどこまで応えられるのか、やってみた - ジャスミンソフト日記

              note.com を読みました。私自身も日本の住所の扱いを何とかしないと業務アプリケーションの運用に支障が出ると感じ、2003年に「住所正規化コンバータ」というソフトウェアをリリースし、20年が経過しました。現在は国際航業株式会社様に取り扱っていただいています。 www.kkc.co.jp このブログにあるような指摘にどこまで応えられただろうかということで、社内で試してみました。利用したバージョンは最新の R7.2.0 で、住所マスタは2022年秋版と組み合わせました。その結果を公開します。 住居表示 丁目表記と地番表記の混在に対応しています。 浦安市舞浜2-1-1 郵便番号 都道府県 市区町村 町域 小字・丁目 番地・号 マッチレベル 2790031 千葉県 浦安市 舞浜 2 1-1 号レベル 浦安市舞浜2-11 郵便番号 都道府県 市区町村 町域 小字・丁目 番地・号 マッチレベル 2

                「とにかく日本の住所のヤバさをもっと知るべきだと思います」に、住所正規化コンバータはどこまで応えられるのか、やってみた - ジャスミンソフト日記
              • 異邦人 on Twitter: "第三次ベビーブームの担い手たり得た団塊ジュニア世代を、就職氷河期世代のまま捨て置いた上に、レントシーカー竹中平蔵の望み通りに労働者の非正規化を推し進め、民主党政権が導入した子ども手当てを「そっくり軍事費に回せ」と潰し、少子化問題を… https://t.co/9LeIMmWAUH"

                第三次ベビーブームの担い手たり得た団塊ジュニア世代を、就職氷河期世代のまま捨て置いた上に、レントシーカー竹中平蔵の望み通りに労働者の非正規化を推し進め、民主党政権が導入した子ども手当てを「そっくり軍事費に回せ」と潰し、少子化問題を… https://t.co/9LeIMmWAUH

                  異邦人 on Twitter: "第三次ベビーブームの担い手たり得た団塊ジュニア世代を、就職氷河期世代のまま捨て置いた上に、レントシーカー竹中平蔵の望み通りに労働者の非正規化を推し進め、民主党政権が導入した子ども手当てを「そっくり軍事費に回せ」と潰し、少子化問題を… https://t.co/9LeIMmWAUH"
                • 住所正規化のデモ機能を作ったので、日本のヤバい住所を入力してみた

                  はじめに 数か月ほど前、住所の正規化が話題になりました。こちらの記事が特に有名ですね。 関連して、こちらの記事も話題になりました。 当時はほかにも色々な人が日本のヤバい住所の例をあげてくれて、とても楽しかったです。 実は弊社でもAddressianという住所正規化サービスを提供しています。初めて目にする変わった住所を見かけたら、とりあえず自社のAPIに投げてみて「おお、正規化できた」「すごい!」などといいながら遊んで働いています。 サービスは無料で利用できますが、今までは利用の手順が面倒でした。 ユーザー登録する APIキーを発行する 住所正規化APIを呼び出すプログラムを用意する(サンプルコードあり) プログラムを実行して住所を正規化する そこで、もっと気軽に住所正規化を試してもらえるように、ユーザー登録しなくても使えるデモ機能を作ってみました。 デモ機能の概要 住所正規化デモ画面 こち

                    住所正規化のデモ機能を作ったので、日本のヤバい住所を入力してみた
                  • Python で Unicode 正規化 NFC/NFD の文字列を扱う - forest book

                    先日、ビジネスパーソン向けの Python 本を執筆したことを書きました。 t2y.hatenablog.jp 本稿では本書のことを「できるPy」と呼びます。 Amazon でいくつかカスタマーレビューもいただいて次のコメントをみつけました。 python3.7 対応ということで、pathlib を使ってる点が(古いpython は切り捨てる!的なところは)潔いと言えば潔いし、日本語のファイル名にも気を配っている記述はオライリーに期待するのは酷なところもある。でもこの本でもNFD問題は全くの記述無し。だめだろ、それじゃ。 Amazon CAPTCHA まさに仰る通りです。執筆時にそのことに気づかずご指摘いただいてありがとうございます。 ここでご指摘されている NFD 問題というのは、ファイル名のみに限った問題ではなく、Unicode の文字集合を扱ってエンコード/デコードするときに発生する

                      Python で Unicode 正規化 NFC/NFD の文字列を扱う - forest book
                    • ファイルアップロードではNFC/NFD問題に気をつけろ!~MacファイルシステムにおけるUnicode正規化の闇~

                      NFCではそのまま「パ」として表されますが、NFDでは「ハ」(基底文字)と「゜」(結合文字)の組み合わせとしての「パ(UTF-8でe3 83 8f e3 82 9a)」(合成文字)で表されます。試しにNFDで正規化された「パ(e3 83 8f e3 82 9a)」を任意のテキストエリアに貼り付けて削除してみると、半濁音のみが取れて「ハ」のみになると思います。 このように文字列の正規化形式が異なる場合、単純な比較演算子での評価は困難であり、文字列によっては想定外の挙動を引き起こす可能性があります。 特にMacファイルシステムではNFDを正規化方式と採用しているため、NFC/NFD問題が度々引き起こされています。先日(2023年03月27日)リリースされた「macOS 13.3 Ventura (22E252)」では、ファイル名に濁音や半濁音が含まれるファイルがFinderから開けなくなる

                        ファイルアップロードではNFC/NFD問題に気をつけろ!~MacファイルシステムにおけるUnicode正規化の闇~
                      • 「日本の住所のヤバさ」知れ渡る 正規化・名寄せ問題、Twitterトレンドに

                        「日本の住所のヤバさ」が6月7日朝にTwitterトレンドになっている。住所表記の正規化・名寄せがいかに難しいかを解説した、inuroさんのnote記事「とにかく日本の住所のヤバさをもっと知るべきだと思います」がバズっているためだ。 6月4日のテレビ番組で、マイナンバーカードに記載される住所をめぐり、河野太郎デジタル大臣が「将来的にはAIの技術を使って住所の表記揺れを判断することがあり得るかもしれない」と発言し、住所の正規化についてネットで議論になっていたことがきっかけだ。 記事は、「日本の住所システムがカオスで、その計算機的な処理がいかに困難か」を解説する内容だ。 まず、日本にはそもそも、新旧の2つの住所システム(A町1丁目3番2号/A町1234番地)が併存しており、例えば、「浦安市舞浜2」の住所が「舞浜2丁目」「舞浜2番地」の2系統あるケースを紹介。 さらに、まったく同じ住所表記が異な

                          「日本の住所のヤバさ」知れ渡る 正規化・名寄せ問題、Twitterトレンドに
                        • 住所の正規化を手直ししたライブラリが涙なしには読めないものだった「エンジニア泣かせの作業だ」

                          しのゆ🎀うぇぶえんじにゃぁ @shinoyu これ経由で元のコードよんだけどなかなかつらい実装になってて、ないちゃった github.com/IMI-Tool-Proje… 絶対これ以外あるでしょ....うわー twitter.com/yuya_presto/st… 2023-06-06 16:31:52 ypresto @yuya_presto 経済産業省・デジ庁が公開していたものの朽ちてしまっていた住所正規化ライブラリ、いろいろ手直しして動く状態にしました! 河野大臣が挙げていらした「東京都港区赤坂1丁目2の3」も正規化できます。 ブラウザ上でのお試しにも対応しました! imi-enrichment-address.vercel.app github.com/ypresto/imi-en… 2023-06-06 16:02:27 リンク GitHub imi-enrichment-a

                            住所の正規化を手直ししたライブラリが涙なしには読めないものだった「エンジニア泣かせの作業だ」
                          • 井上伸@雑誌KOKKO on Twitter: "安倍政権の6年間をグラフにすると、大企業・富裕層・自民党へ富を集中するのがアベノミクスの正体であることがわかります。その逆に、労働者には過労死・貯蓄ゼロ・非正規化・賃下げ・家計消費20万円マイナスが襲っています。更に消費税増税で「… https://t.co/jTGeznUvG8"

                            安倍政権の6年間をグラフにすると、大企業・富裕層・自民党へ富を集中するのがアベノミクスの正体であることがわかります。その逆に、労働者には過労死・貯蓄ゼロ・非正規化・賃下げ・家計消費20万円マイナスが襲っています。更に消費税増税で「… https://t.co/jTGeznUvG8

                              井上伸@雑誌KOKKO on Twitter: "安倍政権の6年間をグラフにすると、大企業・富裕層・自民党へ富を集中するのがアベノミクスの正体であることがわかります。その逆に、労働者には過労死・貯蓄ゼロ・非正規化・賃下げ・家計消費20万円マイナスが襲っています。更に消費税増税で「… https://t.co/jTGeznUvG8"
                            • 住所の“表記ゆれ”を正規化する自動変換サービス「クイック住所変換」提供開始~Geolonia【地図と位置情報】

                                住所の“表記ゆれ”を正規化する自動変換サービス「クイック住所変換」提供開始~Geolonia【地図と位置情報】
                              • 他部署から要請「すみませんがうちの課のデータベースに情報入力お願いします」→どう見ても正規化出来ないデータで絶望

                                ガシカ👨‍💻在庫金額ってなんぞよの件 @skill___up 他部署から要請 「すみませんがうちの課のデータベースに情報入力お願いします」 『とりあえずデータ見させて下さい』 ポチポチ (7000行位か まぁここを絞り込めば…) 💢😑💢 pic.twitter.com/dFAjqMbN0f 2024-03-15 10:47:21

                                  他部署から要請「すみませんがうちの課のデータベースに情報入力お願いします」→どう見ても正規化出来ないデータで絶望
                                • GitHub - geolonia/normalize-japanese-addresses: オープンソースの住所正規化ライブラリ。

                                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                    GitHub - geolonia/normalize-japanese-addresses: オープンソースの住所正規化ライブラリ。
                                  • テスラの自動運転システムは「主張よりもはるかに危険」なことが事故データを正規化することで明らかに

                                    バージニア大学で高度道路交通システムを研究するノア・グッド―ル氏が、2021年10月に「部分自動運転車の安全性統計を正規化する方法について」という論文を公開しました。この論文を基にテスラの自動運転車の事故データを正規化すると、「テスラの自動運転システムであるオートパイロットは同社が主張するよりもはるかに安全性が低いことがよくわかる」とジャーナリストのエドワード・ニデルマイヤー氏は主張しています。 View of A Methodology for Normalizing Safety Statistics of Partially Automated Vehicles (PDF)https://engrxiv.org/preprint/view/1973/3986 You know how I've been saying since 2016 that Tesla's compariso

                                      テスラの自動運転システムは「主張よりもはるかに危険」なことが事故データを正規化することで明らかに
                                    • 機械学習を用いたテキスト正規化手法の最新動向 高精度を実現する仕組み

                                      2019年9月19日「MACHINE LEARNING Meetup KANSAI #6」が開催されました。関西のIT企業が協力して開催している機械学習エンジニアのためのコミュニティイベント「MACHINE LEARNING Meetup KANSAI」。第6回となる今回は、LINE、オムロン、パナソニックシステムデザインの3社がプレゼンテーションを行いました。「機械学習を用いたテキスト正規化手法の動向」に登壇したLINE株式会社の朴炳宣氏は、LINEにおける音声合成技術の紹介と、近年のテキスト正規化手法の動向を解説しました。 機械学習を用いたテキスト正規化の今 朴炳宣氏(以下、朴):ただいま紹介いただきました、LINE株式会社の朴でございます。大勢の方の前でしゃべることはなかなかないので緊張していますが、よろしくお願いします。 まず自己紹介からですが、私、名前から察していただけるように、

                                        機械学習を用いたテキスト正規化手法の最新動向 高精度を実現する仕組み
                                      • “住所の表記揺れ”の正規化サービス登場 Excelファイルをアップするだけ

                                        位置情報に関連するクラウド事業を手掛けるGeolonia(東京都渋谷区)は8月16日、住所の表記揺れを正規化できるサービス「クイック住所変換」の提供を始めた。表記ゆれしているExcelデータをアップロードすると、住所を正規化し、緯度経度の情報を付与できる。利用料は1000件まで5000円だが、正規化だけなら半額になる。 クイック住所変換では、番地・号レベルまで住所の正規化が可能。テストデータで検証したところ、約98%の精度で正規化ができたという。デジタル庁のアドレスベースレジストリや法務省の登記所備付地図データ、国土交通省の位置参照情報などを参照し、正規化変換を行っているとしている。

                                          “住所の表記揺れ”の正規化サービス登場 Excelファイルをアップするだけ
                                        • WebAPIで住所の正規化処理、「住所クレンジングサービス」をインクリメントPが開始

                                            WebAPIで住所の正規化処理、「住所クレンジングサービス」をインクリメントPが開始 
                                          • 「文化も介護業界も医療業界も…」専門職の非正規化が引き起こす人材枯渇のメカニズムの恐ろしさ

                                            カロリング芋虫🐟 @Osayadon 専門職の非正規化は恐ろしい。昇給もせず継続雇用の保証もないので、いつも失業の不安にさらされるし、貯金もできない。その職に就くのに必要な資格や専門知識を得るのに払った教育費が全然ペイされないどころか下手すると借金が出来るので、目指す人はそのうちいなくなる。 2021-04-07 08:47:09 カロリング芋虫🐟 @Osayadon 専門職の人があまりに食えないからと足を洗ったり、有資格者を雇うと金がかかるから単純作業と見做して無資格で最低賃金でパートにしようとなっていく。そうすると文化教育関連の底がむちゃくちゃ下がると思うのだが。 2021-04-07 08:52:56

                                              「文化も介護業界も医療業界も…」専門職の非正規化が引き起こす人材枯渇のメカニズムの恐ろしさ
                                            • どのようにしてGoogleは重複URLを検出し正規化しているのか?

                                              [レベル: 上級] Google の Gary Illyes(ゲイリー・イリェーシュ)氏と John Mueller(ジョン・ミューラー)氏、Martin Splitt(マーティン・スプリット)氏の 3 人が『Search Off the Record』というタイトルで SEO をテーマにしたポッドキャストを配信しています。 エピソード 9 では、重複コンテンツの処理についてゲイリーが詳しく説明しました。 Google 検索の内部の動きに関心がある人にはとても興味深い内容です。 この記事で内容を完結にまとめます。 Google が重複を検出し正規化する仕組み 重複コンテンツの処理は次の 2 つのプロセスで成り立っています。 重複検出 正規化 それぞれを順に説明します。 重複検出 重複検出は、URL は異なるけれど中身が同一のページを識別するプロセスです。 同じあるいはほぼ同じとみなしたペー

                                                どのようにしてGoogleは重複URLを検出し正規化しているのか?
                                              • ミドルスキル労働者の非正規化と正社員のロースキル化 - hamachanブログ(EU労働法政策雑記帳)

                                                過去30年間に進行し、私も含めていろいろと議論されてきた労働力の非正規化の一つの解釈として、それまでは企業メンバーシップに包摂されていたミドルスキル労働者が非正規化していったというのがあるわけですが、その一つの例証のような記事が、noteに載っていました。「やま」さんという方の吐露です。 https://note.com/yama0117/n/n39d6666beb0b ○事務派遣時代 私は3年半ぐらい生産管理の事務派遣をしていた。 生産計画を立て日々の進捗を確認してやる仕事。 一品毎に仕様が違う部分があるので設計にフォローを入れて特殊品がある場合は先に購買に情報を流し、更には営業が入れた納期が本当かの確認を行い、生産進捗を行うというまあ後から分かったけどかなり大変な生産管理を経験した。 正社員と同じで担当ラインを持ち、そこを任されるという形。 はっきり言って正社員の方々より上手くやれてい

                                                  ミドルスキル労働者の非正規化と正社員のロースキル化 - hamachanブログ(EU労働法政策雑記帳)
                                                • 非正規化のすすむ図書館職場で専門性は保てるか

                                                  Online ISSN : 1884-7080 Print ISSN : 1342-3363 ISSN-L : 1342-3363

                                                  • ファイルシステムとS3でのユニコード正規化の関係を調べてみた2021 - MNTSQ Techブログ

                                                    こんにちは、MNTSQでSREとして勤務している中原といいます。 プライベートも含めて、技術記事は久しぶりな気がします。がんばります。 さて、さっそくですが、日本人にとって、あるいは、韓国の方や中国の方も含めて、コンピュータ上でそれぞれの国の言葉を扱おうとしたときに苦労するのが文字コードです。 かつては(あるいは今も)、Shift JIS、EUC-JPなど、OSや環境などによって使われる文字コードが異なり、相互の連携や、同じOSでも設定次第で大いに苦労したものでした(と聞いておりますし、個人でPCを楽しんでいたときには苦しんだりした記憶があります)。 そうこうしているうち、多くのOSで標準的な文字コードとしてUnicodeが採用されるようになりました。Windowsでは内部でUTF-16LEを採用しています。Linuxでは、UTF-8を標準とすることが多くなりました。 Unicodeに統一

                                                      ファイルシステムとS3でのユニコード正規化の関係を調べてみた2021 - MNTSQ Techブログ
                                                    • 日本の1人あたりGDPは「世界23位」…低賃金と非正規化の実態(幻冬舎ゴールドオンライン) - Yahoo!ニュース

                                                      減少を続ける、日本の1人あたりGDP。デフレで売上高が伸びず人件費を抑制することで、更なる悪循環が生まれています。ここでは、銀行での勤務経験をもつ、監査法人アヴァンティア・法人代表CEOの小笠原直氏が「1人あたりの生産性」と「給与」について解説していきます。 GDPに見られる…「日本経済の悪循環」の深刻な状況わが国の1人あたりGDPは、2020年におけるIMFの報告によると、世界23位、4万146ドルです。 私が銀行に入行したバブルの1990年においては、世界8位で、G7先進国ではトップでした。今や人口が約2.5倍のアメリカにGDP総額ということでなく、1人あたりGDPでもかなわない状況です。早晩、韓国にも追い抜かれるという試算もあります。 企業においては、1人あたり売上高がこれにあたります。「生産性」を示す指標ですが、巷間、相対的に低い、といわれているのは1人あたり売上高が伸び悩んでいる

                                                        日本の1人あたりGDPは「世界23位」…低賃金と非正規化の実態(幻冬舎ゴールドオンライン) - Yahoo!ニュース
                                                      • 人間にUnicode正規化は難しい - エムスリーテックブログ

                                                        【AI・機械学習チーム ブログリレー2日目】 AI・機械学習チームの池嶋 (@mski_iksm) です。 私達のチームでは、機械学習バッチの実行方法やインターンを含む新配属者のPC初期セットアップ手順など多くのドキュメントがGitLab上で管理されています。Gitでドキュメントを管理するのは、Wiki等と比較して更新時のピアレビューがしやすかったり、CIによる自動チェックがやりやすかったりなどのメリットから採用されています。 CIの自動チェックの1つとしてリンクチェッカーがあります。これは切れているリンクがないかを更新時にチェックするものです。 ある日、ファイルはあるように「見える」のに、なぜかリンクチェッカーのCIが落ちているという事象が発生しました。 タイトルでネタバレしているのですが、原因はUnicodeの正規化でした。 この記事では、何が起きていたのか?どのようなケースで起こりう

                                                          人間にUnicode正規化は難しい - エムスリーテックブログ
                                                        • RubyではなぜUCS正規化を採用していないのでしょうか?

                                                          回答: Java, JavaScript, Pythonなど、多くの言語でUnicodeを用いたUCS(Universal Character Set)方式を採用している理由は、推測ではありますが、 * Unicodeで十分と思った * UCS方式の問題にあまり遭遇したことがなかった * CSI方式は実装が複雑すぎて現実的ではないと思った とかではないでしょうか。これらの言語の設計者はみな欧米人で、だいたいASCIIかISO-8859でテキストが表現できてしまうので、マルチバイト文字の闇を覗き込む機会はほとんどなかったんですよね。 一方、私を含めて日本人(またはアジア人)たちは...

                                                            RubyではなぜUCS正規化を採用していないのでしょうか?
                                                          • 住所の正規化がいかに難しいかが話題になっているが個人的に一番ヤバいと思ったのは『新潟県新潟市北区東栄町』という地域が2つ存在すること

                                                            choo @choo_s 住所の正規化がいかに難しいかで盛り上がっていて、なんか嬉しい😊 住所関連の開発、個人的にもかなり長い時間をかけたのですが、一番ヤバいと思ったのは ・新潟県新潟市北区東栄町(とうえいちょう) ・新潟県新潟市北区東栄町(ひがしさかえまち) という2つの「異なる」地域が存在することです。 2023-06-06 14:49:36 choo @choo_s なお、この2つの地域は距離が少し離れているらしく、それぞれ別の郵便番号が振られています…! ただ、片方は住居地域、もう片方は競馬場の厩舎がある場所らしく「どこまで混同されて重大なミスにつながるかは未知数」(※)らしいですw ※Wikipedia:ja.wikipedia.org/wiki/%E5%8C%97…) pic.twitter.com/9rN8Fd0yav 2023-06-06 17:18:32

                                                              住所の正規化がいかに難しいかが話題になっているが個人的に一番ヤバいと思ったのは『新潟県新潟市北区東栄町』という地域が2つ存在すること
                                                            • ページネーションしたページをすべて1ページ目に正規化できるか?

                                                              [レベル: 上級] ページ分割している構成で、すべてのページを 1 ページ目に正規化することができます。 Google の推奨は自己参照の rel=”canonical” EC サイトのベストプラクティスを解説するドキュメントでページ分割について Google は次のように指示しています。 ページ分けされたページ列の最初のページを正規ページとして使用しないでください。代わりに、固有の正規 URL を各ページに付与してください。 2 ページ目、3 ページ目、4 ページ目……を 1 ページ目に正規化することを Google は勧めていません。 それぞれのページには、自分自身の URL を指定した自己参照の rel="canonical" を設置するように推奨しています。 こうすることで、ページ分割したすべてのページをインデックス対象にできます。 ユニークなコンテンツが各ページに十分にあれば、2

                                                                ページネーションしたページをすべて1ページ目に正規化できるか?
                                                              • 人が感じる音の大きさを正規化するとはどういうことか

                                                                ラウドネス・ノーマライゼーションを改めて考える ラウドネス測定法がITU-R BS.1770として定義されてから17年、日本には主としてTV放送運用規定 ARIB TR-B32として導入されてから9年経った2020年現在。また、近年は動画/音楽ストリーミングサービスにラウドネス・ノーマライゼーションが導入されたことで、ラウドネス・ノーマライゼーションに対する解説記事が増えてきました。 本投稿は下記ITmediaに掲載された「君は音圧戦争を生き抜けるか? 音楽ストリーミング時代のラウドネス・ウォー対策, 山崎潤一郎, 君は音圧戦争を生き抜けるか? 音楽ストリーミング時代のラウドネス・ウォー対策 (1/3) - ITmedia NEWS . 20200731閲覧」(以下本記事)に対するカウンター投稿です。 明確な誤り 本記事には明確な誤りがいくつか見受けられます。まずはそこを訂正します。 ラウ

                                                                  人が感じる音の大きさを正規化するとはどういうことか
                                                                • AWS Glue DataBrew の発表 – データのクリーニングと正規化を迅速にするビジュアルデータ準備ツール | Amazon Web Services

                                                                  Amazon Web Services ブログ AWS Glue DataBrew の発表 – データのクリーニングと正規化を迅速にするビジュアルデータ準備ツール 分析の実行、レポートの作成、あるいは機械学習の導入を始めるには、使用するデータがクリーンで適切な形式であることを確保する必要があります。このデータの準備ステップでは、データアナリストとデータサイエンティストに対し、カスタムコードの記述や、多くの手動操作が要求されます。そこではまず、データを見て、利用できそうな値を把握し、列同士の間に相関があるかどうかを確認するための簡単な可視化機能を構築する必要があります。その後、想定を外れた通常以外の値をチェックします。たとえば、200℉(93℃)を超えるような気温や、200mph(322 km/h)を超えるトラックの速度、そして欠落しているデータなどを洗い出します。多くのアルゴリズムでは、特

                                                                    AWS Glue DataBrew の発表 – データのクリーニングと正規化を迅速にするビジュアルデータ準備ツール | Amazon Web Services
                                                                  • 正規化画像不要!たった数枚の画像でDreamBoothのキャラ学習。ローカル(Windows)で実行する方法

                                                                      正規化画像不要!たった数枚の画像でDreamBoothのキャラ学習。ローカル(Windows)で実行する方法
                                                                    • [Firebase]Firestoreの設計の思考法(正規化/非正規化)

                                                                      なぜ書くのか? SIerでがっつりSQLServer(RDB)を使って開発をしていたため、 正規化思考が抜けずFirestore(NoSQL)のDB設計をするにあたってかなり苦労したので、 同じ苦労をしている方へFirestoreの設計を学習する入り口を書こうと思いました。 RDBとFirestoreの違い 個人的に一番苦しんだ違いは**テーブル結合(inner join, outer join)**ができなかったことです。 Twitterのフォロー一覧のような機能を作ることを例に見ていきます。 RDBの場合 ユーザーテーブル id name imageUrl profile_text

                                                                        [Firebase]Firestoreの設計の思考法(正規化/非正規化)
                                                                      • 【DB設計】現場で使う正規化崩しのパターン - Qiita

                                                                        本記事の目的 「テーブル設計、ほんとにこれがベストなのかな...?」 と思うことありますよね。シンプルなテーブル構造だと普通に正規化すれば問題なく運用できるんですが、ビジネスルールが複雑だったりするとあえて正規化を崩した設計を行うこともあります。ですが、「正規化を崩して何が嬉しいのか?」を論理的に考え、メリット・デメリットを考慮することによって、うまくトレードオフスライダーを調整することができるようになります。本記事では正規化も含めて、それぞれの正規化崩しがどのような目的のもと行われるのかを整理してみました。(なので、RAIDなどの物理設計は割愛します。) 正規化の功罪 そもそも、なぜ正規化崩しをやらないといけないのか?というと、、、 「正規化は、データ整合性を担保するためにパフォーマンスを犠牲にするから」です。 特に、多数の結合を必要とする検索のパフォーマンスがネックになることが多いです

                                                                          【DB設計】現場で使う正規化崩しのパターン - Qiita
                                                                        • PDFに文字化けを起こさせない対策法 もらったファイルは正規化で、作成ツールは対応済みを使え

                                                                          NTT Tech Conferenceは、NTTグループのエンジニアたちが一堂に会し、NTTグループ内外のエンジニアたちと技術交流を行うためのカンファレンスです。ここで、細田氏が「PDFのコピペが文字化けするのはなぜか?〜CID/GIDと原ノ味フォント〜」をテーマに話します。続いては、文字化けが起きたPDFの修正方法と、文字化けを起こさない対策方法について。前回はこちらから。 もらったPDFの文字化けを修正するには? 細田真道氏(以下、細田):文字化けを修正するにはどうすればいいかを説明します。誰かからもらったPDFが文字化けしていたとします。データ分析したいとか、検索したいときに困りますね。一番簡単なのは、正規化しちゃう。これはテキストを抽出してから、問題のブロックの文字を対応する通常の漢字に置き換えるように正規化すれば、データ分析ということならこれでできると思います。 あとはちょっと荒

                                                                            PDFに文字化けを起こさせない対策法 もらったファイルは正規化で、作成ツールは対応済みを使え
                                                                          • ハローワークは非正規化が進んだ代表的な職場 - ガネしゃん

                                                                            ガネしゃんです。いつも見て頂きありがとうございます。 3月3日の新聞記事に興味深い記事を目にしました。 仕事を探す人達の手助けをする国の機関ハローワーク(公共職業安定所)しかしそこに勤める相談員の多くが非正規の公務員。自らも不安定な身分なのに、人の就職相談に応じる矛盾。 就職相談する相談員も非正規で任期が1年。 職場では毎年1月頃非正規の職員が集められ、次年度の各職種の定員が発表になる。 2月ごろに面談があり、同月中に次年度の継続か否かが知らされる。 「自分と同じように働く事に悩む人を応援したい」Aさんは、そんな気持ちで採用され、正規の職員と同じ仕事をこなす。 相談員として採用された3年目の1月、自分が所属する若者向け相談員の定員が「マイナス1」と一覧に書かれていた。 「誰が減らされるのだろう」と思っていると、同僚から「大丈夫?」と声を掛けられ求人票を紹介された。 「あ、マイナス1は自分だ

                                                                              ハローワークは非正規化が進んだ代表的な職場 - ガネしゃん
                                                                            • Kotlin / Swift での Unicode の扱いまとめ (見た目上の文字数カウント, UTF-8, UTF-16, BOM, 正規化, 異体字セレクタ) - Qiita

                                                                              Kotlin / Swift での Unicode の扱いまとめ (見た目上の文字数カウント, UTF-8, UTF-16, BOM, 正規化, 異体字セレクタ)AndroidiOSKotlinUnicodeSwift Kotlin と Swift での見た目上の文字数カウント実装を中心に、Unicode について知っておくべき知識をまとめます。 また、モバイルアプリで入力文字数のカウントや入力文字数の上限をどのように扱うかは以下の別の記事にまとめました。 文字数カウント まずは、文字数カウントが難しい例として絵文字と異体字セレクタ表現の例を挙げます。詳しい説明はこの記事の後半を確認してください。 絵文字 🧑‍🦰 の文字数について確認します。🧑‍🦰 は以下の Unicode で構成されています。 文字 Code point UTF-8 表現 UTF-16 表現 Descriptio

                                                                                Kotlin / Swift での Unicode の扱いまとめ (見た目上の文字数カウント, UTF-8, UTF-16, BOM, 正規化, 異体字セレクタ) - Qiita
                                                                              • <Q&A>地方公務員の不安定な雇用の実態は? 進む非正規化、賃金引き下げ、雇い止めの不安:東京新聞 TOKYO Web

                                                                                地方公務員の非正規化が進み、雇用が不安定さを増しています。処遇の改善を目的にした「会計年度任用職員」への移行も、十分に機能しているとは言えません。どんな課題があるのでしょうか。(畑間香織) A 事務補助や保育士、給食調理員、教員、司書、婦人相談員、消費生活相談員、放課後児童支援員など幅広いです。資格や専門性、経験が求められる業務も多いのです。2005年の約46万人から20年は約69万人と、1.5倍に増えました。自治体の財政難を背景に同じ期間に1割減った正規からの「置き換え」が進んでいます。4人に3人は女性が占めている点も特徴で、大半が20年4月に会計年度任用職員に移行しています。

                                                                                  <Q&A>地方公務員の不安定な雇用の実態は? 進む非正規化、賃金引き下げ、雇い止めの不安:東京新聞 TOKYO Web
                                                                                • 商用サービス並みに高精度な住所正規化用のNodeモジュールを公開しました!

                                                                                  概ね以下のような感じになります。 町丁目レベルまでの数字は漢数字に変換します。 例: 24-2-2-3-3 => 二十四軒二条二丁目3-3 街区、地番レベルの数字は、アラビア数字に変換します。 例: 十四ーイ二十二 => 14-イ22 京都の通り名は削除します。 郡 が省略されている場合は補完します。 例: 和歌山県串本町 => 和歌山県東牟婁郡串本町 が、ケ、ヶ などの揺れを吸収し、国交省が公開する位置参照情報のデータと同じ文字になるように変換します。 旧字体は、新字体に変換します。 大字、字 は削除します。 街区、地番以降の文字列、たとえば建物名などは、そのまま返します。 京都の通り名を削除することには賛否両論あるかと思いますが、この正規化モジュールは住所の名寄せを目的としているため、そのような仕様になっています。 精度が気になる方は、以下にテストケースがありますので、そちらをご覧いた

                                                                                    商用サービス並みに高精度な住所正規化用のNodeモジュールを公開しました!

                                                                                  新着記事