並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 19 件 / 19件

新着順 人気順

正規化の検索結果1 - 19 件 / 19件

  • とにかく日本の住所のヤバさをもっと知るべきだと思います|inuro

    「住所の揺らぎ程度のことにAIを使いたいだとかデジタル音痴」だの「住所の正規化なんてExcelで2時間あれば作れそう」だの、たいへんフットワークの軽やかな言説の数々に、位置情報界隈のみならず住所の正規化や名寄せに少しでも関わったことのあるエンジニアが総立ちでマサカリを投げていたのも記憶に新しい今日この頃ですが(2023年6月6日)、この手の騒動は周期的に起こってる印象です。 ということはつまり いつまで経っても解消されない、解決が困難な課題である その困難さが界隈以外に共有されていない であるわけで、その都度Twitterにトリビアが投下されてはTLが賑わい華やかではありますが、そろそろ自分の整理としてもどれだけ日本の住所システムがカオスで、その計算機的な処理がいかに困難かをメモっておこうかと思いました。 なおこの件については既にQiitaにGeoloniaの宮内さんが鼻血の出そうな良エン

      とにかく日本の住所のヤバさをもっと知るべきだと思います|inuro
    • 経産省発の npm モジュール!住所や電話番号の正規化、ジオコーディングなどができる IMI コンポーネントツールを試した!

      経産省発の npm モジュール!住所や電話番号の正規化、ジオコーディングなどができる IMI コンポーネントツールを試した! Code for Japan の関さんが SNS でシェアしてて知ったのですが、経産省さんがなにやらオープンソースで住所や電話番号の正規化などなどをするツールを公開したとのこと。 https://info.gbiz.go.jp/tools/imi_tools/ 経産省が住所変換や法人種別名、電話番号の正規化に使えるIMIコンポーネントツールを公開しました。 ソースコードも公開。README にも使い方が丁寧に書かれていました。https://t.co/fPbV00EgZP 素晴らしい動き。こういう... #NewsPicks https://t.co/bew0qGKMFE — Hal Seki (@hal_sk) May 28, 2020 ぶっちゃけ当初はあまり期待

        経産省発の npm モジュール!住所や電話番号の正規化、ジオコーディングなどができる IMI コンポーネントツールを試した!
      • 日本の住所の正規化に本気で取り組んでみたら大変すぎて鼻血が出た。 - Qiita

        先日、弊社では Community Geocoder というサービスをリリースしました。 Community Geocoder 紹介記事 さて、このジオコーダーは、住所を正規化してそれを「大字町丁目コード」という12桁の数字に変換し、そのコードをファイル名として GitHub ページ上に大量においた JSON ファイルにアクセスして緯度経度を取得するということをやっています。 つまり、住所の正規化からコードに変換する部分がとても重要で、そもそも正規化に失敗してしまうとどうしようもないという仕様なんです。 さいわい先日経産省が公開した IMI コンポーネントツール である程度のことをやってくれるのですが(というかそうであることを期待したのですが)、いろいろ調べ始めると住所という仕組みはほんとに複雑で、Facebook で絡んでくださった @hfu さんいわくまさに「自然言語処理そのもの」であ

          日本の住所の正規化に本気で取り組んでみたら大変すぎて鼻血が出た。 - Qiita
        • 文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!|ハイクラス転職・求人情報サイト AMBI(アンビ)

          文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう! 文字コードには、どのような種類があり、それぞれどのような意味を持つのか、といった、文字コードの基本的な概念、従来の文字コードを紹介し、現在のUnicodeの構成を概説し、プログラミングにおいて注意すべき箇所をいくつか取り上げます。 ソフトウェア開発に携わる方の多くは、何らかの形で文字コードに触れることがあるでしょう。文字や記号をコンピュータ上でデータとして扱うには、文字コードの知識が必要不可欠です。 本稿では、書籍『プログラマのための文字コード技術入門』の著者である矢野啓介さんが、知っておきたい基礎知識を分かりやすく解説します。 文字コードとは? Unicode以前の文字コード Unicodeとその主な符号化形式 UTF-16 UTF-32 UTF-8 Webで文字コードを指定する仕組み

            文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!|ハイクラス転職・求人情報サイト AMBI(アンビ)
          • 住所の正規化は沼である。

            杉原航太 @kota_sugihara 河野太郎がマイナンバーカードの住所照合についてデジタル音痴ぶりを如何なく発揮した件 河野大臣『問題は住所が「港区赤坂一丁目2の3」と書く人もいれば、「港区赤坂1-2-3」と書く人もいる…(中略)将来的にはAIの技術を使って表記揺れを判断することがあり得るかもしれない。』… twitter.com/i/web/status/1… pic.twitter.com/aF2jzwtBkN 2023-06-04 22:44:10

              住所の正規化は沼である。
            • 「とにかく日本の住所のヤバさをもっと知るべきだと思います」に、住所正規化コンバータはどこまで応えられるのか、やってみた - ジャスミンソフト日記

              note.com を読みました。私自身も日本の住所の扱いを何とかしないと業務アプリケーションの運用に支障が出ると感じ、2003年に「住所正規化コンバータ」というソフトウェアをリリースし、20年が経過しました。現在は国際航業株式会社様に取り扱っていただいています。 www.kkc.co.jp このブログにあるような指摘にどこまで応えられただろうかということで、社内で試してみました。利用したバージョンは最新の R7.2.0 で、住所マスタは2022年秋版と組み合わせました。その結果を公開します。 住居表示 丁目表記と地番表記の混在に対応しています。 浦安市舞浜2-1-1 郵便番号 都道府県 市区町村 町域 小字・丁目 番地・号 マッチレベル 2790031 千葉県 浦安市 舞浜 2 1-1 号レベル 浦安市舞浜2-11 郵便番号 都道府県 市区町村 町域 小字・丁目 番地・号 マッチレベル 2

                「とにかく日本の住所のヤバさをもっと知るべきだと思います」に、住所正規化コンバータはどこまで応えられるのか、やってみた - ジャスミンソフト日記
              • 【入門】データベース設計まとめ - Qiita

                はじめに 今回はデータベース設計について学び直したので内容をまとめていきます。 自分は2021年に新卒でWeb系の開発会社にフロントエンジニアとして入社し2022年で2年目になります。 実務ではNext.js×TypeScriptを利用したフロントの開発をメインで行っています。 直近の開発案件でRailsを使ったサーバーサイドの開発を担当することになり、DB設計を触ったのですが体系的な理解をしていなかったので苦戦をしました。 実装はできたものの、データベース設計を「なんとなくの理解」で終わらせないように、体系的に学び直しました。 データベース設計の学習に関しては下記の書籍を参考に進めました。 スッキリわかるSQL入門 達人に学ぶDB設計 徹底指南書 対象者 データベース設計について基礎から学びたい人 何となくデータベースの設計をしている人 正規化について学びたい人 データベースとDBMS

                  【入門】データベース設計まとめ - Qiita
                • 住所正規化のデモ機能を作ったので、日本のヤバい住所を入力してみた

                  はじめに 数か月ほど前、住所の正規化が話題になりました。こちらの記事が特に有名ですね。 関連して、こちらの記事も話題になりました。 当時はほかにも色々な人が日本のヤバい住所の例をあげてくれて、とても楽しかったです。 実は弊社でもAddressianという住所正規化サービスを提供しています。初めて目にする変わった住所を見かけたら、とりあえず自社のAPIに投げてみて「おお、正規化できた」「すごい!」などといいながら遊んで働いています。 サービスは無料で利用できますが、今までは利用の手順が面倒でした。 ユーザー登録する APIキーを発行する 住所正規化APIを呼び出すプログラムを用意する(サンプルコードあり) プログラムを実行して住所を正規化する そこで、もっと気軽に住所正規化を試してもらえるように、ユーザー登録しなくても使えるデモ機能を作ってみました。 デモ機能の概要 住所正規化デモ画面 こち

                    住所正規化のデモ機能を作ったので、日本のヤバい住所を入力してみた
                  • Python で Unicode 正規化 NFC/NFD の文字列を扱う - forest book

                    先日、ビジネスパーソン向けの Python 本を執筆したことを書きました。 t2y.hatenablog.jp 本稿では本書のことを「できるPy」と呼びます。 Amazon でいくつかカスタマーレビューもいただいて次のコメントをみつけました。 python3.7 対応ということで、pathlib を使ってる点が(古いpython は切り捨てる!的なところは)潔いと言えば潔いし、日本語のファイル名にも気を配っている記述はオライリーに期待するのは酷なところもある。でもこの本でもNFD問題は全くの記述無し。だめだろ、それじゃ。 Amazon CAPTCHA まさに仰る通りです。執筆時にそのことに気づかずご指摘いただいてありがとうございます。 ここでご指摘されている NFD 問題というのは、ファイル名のみに限った問題ではなく、Unicode の文字集合を扱ってエンコード/デコードするときに発生する

                      Python で Unicode 正規化 NFC/NFD の文字列を扱う - forest book
                    • IMI 情報共有基盤 コンポーネントツール

                      URLが「https://」で始まるサイトは、セキュリティ確保のためSSL(Secure Sockets Layer)技術を利用しています。当サイトを利用の際には、SSL技術対応のブラウザをご利用ください。

                      • 「日本の住所のヤバさ」知れ渡る 正規化・名寄せ問題、Twitterトレンドに

                        「日本の住所のヤバさ」が6月7日朝にTwitterトレンドになっている。住所表記の正規化・名寄せがいかに難しいかを解説した、inuroさんのnote記事「とにかく日本の住所のヤバさをもっと知るべきだと思います」がバズっているためだ。 6月4日のテレビ番組で、マイナンバーカードに記載される住所をめぐり、河野太郎デジタル大臣が「将来的にはAIの技術を使って住所の表記揺れを判断することがあり得るかもしれない」と発言し、住所の正規化についてネットで議論になっていたことがきっかけだ。 記事は、「日本の住所システムがカオスで、その計算機的な処理がいかに困難か」を解説する内容だ。 まず、日本にはそもそも、新旧の2つの住所システム(A町1丁目3番2号/A町1234番地)が併存しており、例えば、「浦安市舞浜2」の住所が「舞浜2丁目」「舞浜2番地」の2系統あるケースを紹介。 さらに、まったく同じ住所表記が異な

                          「日本の住所のヤバさ」知れ渡る 正規化・名寄せ問題、Twitterトレンドに
                        • 10万冊近いマンガのタイトルから巻数を取得する関数、巻数関数を作ったら思ったよりかなり大変だった話 - Qiita

                          マンガのタイトルから巻数を取得したい 自作サービスでマンガのタイトルから巻数を取りたくなった。マンガのタイトルで、巻数は何処に書いてあるか?例えば集英社の「HUNTER×HUNTER 1」。見ての通り最後に1と書いてある。つまりタイトルの最後に書かれている数字を取得すれば巻数が取れそうだ。ただし、出版社によってルールは若干違い、小学館は「名探偵コナン 1」、講談社は「はじめの一歩(1)」、秋田書店は「ドカベン 第1巻」だ。 区切り文字の後の文字列から数字を抜き取ったものが巻数 ただ、巻数は何文字か分からない。それよりもタイトルと巻数の間に、空白や括弧のような区切り文字がある。出版社に合わせて、タイトルと巻数の区切り文字の後の文字列を取得すると、集英社と小学館は「1」、講談社は「1)」、秋田書店は「第1巻」という文字列が取れる。この文字列から正規表現などで数字だけを抜き取るようにすると無事タ

                            10万冊近いマンガのタイトルから巻数を取得する関数、巻数関数を作ったら思ったよりかなり大変だった話 - Qiita
                          • WebAPIで住所の正規化処理、「住所クレンジングサービス」をインクリメントPが開始

                              WebAPIで住所の正規化処理、「住所クレンジングサービス」をインクリメントPが開始 
                            • 住所検索開発者が教える、知っておきたい日本の住所の話(第1回)|NAVITIME_Tech

                              こんにちは、見習いスパルタ人1号です。ナビタイムジャパンでPOI検索基盤を担当しています。得意な検索は住所検索、好きな検索は駅検索です。 経済産業省が IMI 情報共有基盤 コンポーネントツール を公開して大きな話題となっていますね。その中でも、住所の正規化については多くの方が興味を持っておられるようです。 ナビタイムジャパンではサービスの一環として住所検索を提供していますが、今回は「計算機で住所を扱うエンジニアに知っておいてほしい住所の基礎知識」についてお話したいと思います。正規化の話よりは、仕様レベルでの間違いを防ぐための一助となれば幸いです。 君は住所をどれだけ知っているか? 読者の皆様は、日本の住所についてどれだけのパターンがあるかご存知でしょうか? 運送業などの住所に強く関連する仕事をしていないのであれば、実家や自宅、会社の住所くらいしかパターンが分からない方も多いのではないでし

                                住所検索開発者が教える、知っておきたい日本の住所の話(第1回)|NAVITIME_Tech
                              • GitHub - jeresig/node-romaji-name: Normalize and fix common issues with Romaji-based Japanese names.

                                This is a utility primarily designed for consuming, parsing, and correcting Japanese names written in rōmaji using proper Hepburn romanization form. Beyond fixing common problems with Japanese names written with rōmaji, it's also able to do a number of amazing things: It's able to figure out which part of the name is the surname and which is the given name and correct the order, if need be (using

                                  GitHub - jeresig/node-romaji-name: Normalize and fix common issues with Romaji-based Japanese names.
                                • 【DB設計】現場で使う正規化崩しのパターン - Qiita

                                  本記事の目的 「テーブル設計、ほんとにこれがベストなのかな...?」 と思うことありますよね。シンプルなテーブル構造だと普通に正規化すれば問題なく運用できるんですが、ビジネスルールが複雑だったりするとあえて正規化を崩した設計を行うこともあります。ですが、「正規化を崩して何が嬉しいのか?」を論理的に考え、メリット・デメリットを考慮することによって、うまくトレードオフスライダーを調整することができるようになります。本記事では正規化も含めて、それぞれの正規化崩しがどのような目的のもと行われるのかを整理してみました。(なので、RAIDなどの物理設計は割愛します。) 正規化の功罪 そもそも、なぜ正規化崩しをやらないといけないのか?というと、、、 「正規化は、データ整合性を担保するためにパフォーマンスを犠牲にするから」です。 特に、多数の結合を必要とする検索のパフォーマンスがネックになることが多いです

                                    【DB設計】現場で使う正規化崩しのパターン - Qiita
                                  • データベースの正規化(第1〜第3正規形) - Wiz テックブログ

                                    こんにちは!バックエンドエンジニアの小室です。 先日、4月から入社予定の方に向け「データベース設計」について研修を行いました。 その中でもメイントピックであった「正規化」について改めてまとめてみました。 さっそくですが、データベースにおける正規化とは、 データベースで保持するデータの冗長性を排除し、 一貫性と効率性を確保するためのデータ形式へ変換することを指します。 一般的に第3正規形までで十分とされているため第3正規形までを取り上げます。 第1正規形 テーブルの行と列が交わる1つマスを「セル」と呼ぶことにします。 第1正規形の定義は「1つのセルには1つの値しか含まれない」です。 社員テーブル このように1つのセルに1つの値が含まれているとき、この値を「スカラ値」と言います。 社員テーブル(非正規形) 上のようなテーブルがあった場合、1人の社員は複数の子を養っているので、このように表現した

                                      データベースの正規化(第1〜第3正規形) - Wiz テックブログ
                                    • 【DB】第一正規形~第五正規形までを図解 | bbh

                                      正規化について 正規化とは、外部スキーマで定義したデータをDB上で効率的に管理するために整理、分割をする作業のことを指します。 この正規化には、第一正規化~第五正規化とボイスコッド正規化が存在します。 ただし、一般的に使われるのは、第一正規化~第三正規化までのことが多いです。 では、第一正規化から順番に見ていきます。 第一正規化 第一正規化は、一つのカラムに一つの値のみを持っている状態にすることを指します。 例えば、以下のようなテーブルが存在するとしましょう。 このテーブルは、注文に対して複数の商品が紐づいています。 これは概念的には間違っているようには見えません。 実際に注文には複数の商品が紐づくことがあります。 この構造の問題は、それをデータベースで表現することができない点です。 データベースでは、一つの値を配列にしたり、入れ子構造にしたりすることができません。 もし、データベースでこ

                                      • エンジニアHubにて「文字コード再入門─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!」公開 - yanok.net

                                        「エンジニアHub」にて記事を執筆しました。「文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!」として公開されています。 若手エンジニア向けのWebメディアとのことで、プログラミング上の注意点にフォーカスした内容になっています。コード例にはJava, Python, Rubyを用いています。 拙著をすでにお読みの方には復習となる内容ですが、まだの方はこの機会に是非お読みいただければと思います。記事の最後に拙著『[改訂新版]プログラマのための文字コード技術入門 (WEB+DB PRESS plusシリーズ)』の版元へのリンクも設定されていますので、興味を持たれた方には書籍の方もお読みいただければ幸いです。 当記事編集担当の方には「とても品質の高い記事」とのことで感謝のお言葉をいただきました。読者のお役に立つことを願っています。

                                        1