並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 6 件 / 6件

新着順 人気順

名寄せの検索結果1 - 6 件 / 6件

  • とにかく日本の住所のヤバさをもっと知るべきだと思います|inuro

    「住所の揺らぎ程度のことにAIを使いたいだとかデジタル音痴」だの「住所の正規化なんてExcelで2時間あれば作れそう」だの、たいへんフットワークの軽やかな言説の数々に、位置情報界隈のみならず住所の正規化や名寄せに少しでも関わったことのあるエンジニアが総立ちでマサカリを投げていたのも記憶に新しい今日この頃ですが(2023年6月6日)、この手の騒動は周期的に起こってる印象です。 ということはつまり いつまで経っても解消されない、解決が困難な課題である その困難さが界隈以外に共有されていない であるわけで、その都度Twitterにトリビアが投下されてはTLが賑わい華やかではありますが、そろそろ自分の整理としてもどれだけ日本の住所システムがカオスで、その計算機的な処理がいかに困難かをメモっておこうかと思いました。 なおこの件については既にQiitaにGeoloniaの宮内さんが鼻血の出そうな良エン

      とにかく日本の住所のヤバさをもっと知るべきだと思います|inuro
    • 日本の住所の正規化に本気で取り組んでみたら大変すぎて鼻血が出た。 - Qiita

      先日、弊社では Community Geocoder というサービスをリリースしました。 Community Geocoder 紹介記事 さて、このジオコーダーは、住所を正規化してそれを「大字町丁目コード」という12桁の数字に変換し、そのコードをファイル名として GitHub ページ上に大量においた JSON ファイルにアクセスして緯度経度を取得するということをやっています。 つまり、住所の正規化からコードに変換する部分がとても重要で、そもそも正規化に失敗してしまうとどうしようもないという仕様なんです。 さいわい先日経産省が公開した IMI コンポーネントツール である程度のことをやってくれるのですが(というかそうであることを期待したのですが)、いろいろ調べ始めると住所という仕組みはほんとに複雑で、Facebook で絡んでくださった @hfu さんいわくまさに「自然言語処理そのもの」であ

        日本の住所の正規化に本気で取り組んでみたら大変すぎて鼻血が出た。 - Qiita
      • 実質収支全国マップ ふるさと納税のリアル

        好きな自治体に寄付をする「ふるさと納税」。都市部の住民が肉や果物など地方の魅力的な返礼品を求め、寄付金額は拡大しています。一方、税金を奪われる都市部の自治体は不満を募らせています。返礼品の調達などに多額の公費を投じることには批判の声もあります。 今回、寄付の流出入に加え、調達などの経費や、国の地方交付税による補塡も考慮に入れ、最終的な実入りをさす「ふるさと納税実質収支額」を市区町村別に算出しました。 2022年度の黒字首位は宮崎県都城市、赤字額がもっとも多かったのは川崎市でした。 あなたの街を調べてみましょう。 データと実質収支額について総務省が毎年公表する「ふるさと納税に関する現況調査」から2015〜22年度の寄付受入額と経費、住民税控除額を取り出し、全国1741市区町村の実質収支額を算出しました。 国の地方交付税によってふるさと納税による減収額の75%が補塡されることも考慮に入れました

          実質収支全国マップ ふるさと納税のリアル
        • note執筆者のIPアドレスが漏洩 接続元IPアドレスが一致しても同一人物とは限らないが(楠正憲) - エキスパート - Yahoo!ニュース

          利用者が記事を配信・販売できるサービスnoteで8月14日、執筆者のIPアドレスを確認できてしまう不具合が見つかり、運営元は謝罪し同日中に修正しました。同社は「一般的なIPアドレスから、個人情報を特定することはできません」としていますが、ネットでは有名人のIPアドレスと一致する5ちゃんねる投稿が検索されるなど騒ぎは続いています。IPアドレスから個人を特定されたり、他の投稿との名寄せが行われるリスクはどの程度あるのでしょうか。 IPアドレスとはインターネットで通信を行う際に必要な差出人・宛先を示す住所のことです。現在IPv4、IPv6という2つの世代の技術が利用されており、note社のサービスはIPv4のみを利用しています。インターネットのIPv4アドレスは2011年に枯渇し、その後も利用者が増え続けたISPではCGNAT等の技術を用いることで数百人の利用者が同じIPアドレスを共用しています

            note執筆者のIPアドレスが漏洩 接続元IPアドレスが一致しても同一人物とは限らないが(楠正憲) - エキスパート - Yahoo!ニュース
          • 基本4情報での名寄せは難しい|MORIDaisuke

            先日は住所の件でお楽しみでしたね。 私も楽しくなってしょうもないツイートをしたところ、@masanorkさんから有用な情報をいただいてしまいました。 異体字に加えて外字も根深いですし、日付型に収まらない住基の生年月日とか、屋号を含んだ個人事業主の口座名義とか、外国人氏名における住民登録のアルファベットと口座名義のカタカナとの解離とか、旧姓併記の例外処理とか、文字列型に刻まれたバッドノウハウの塊ですね https://t.co/GOaytijfst — Masanori Kusunoki / 楠 正憲 (@masanork) June 6, 2023 このとき、私はごく簡単な「名寄せの難しさ」の社内研修資料を作っている最中だったのですが、この情報が大変参考になりました。 一方、私だけが得をしているのがなんとなくムズムズしてきたので、ここにアウトプットしてスッキリしようと思います。 なお、住所

              基本4情報での名寄せは難しい|MORIDaisuke
            • 日本における「名寄せ」と「照合」の黒歴史

              健康保険証、銀行口座、年金記録――個人のマイナンバーに別人の情報がひも付けられるトラブルが後を絶たない。多くの事案に共通するのは、自治体や関係機関の職員が氏名や生年月日などを基にマイナンバーや住民データを照会した際に、誤って同姓同名の人の情報を引き出してひも付けてしまうというケースだ。 こうした情報のひも付けをする際、職員が住民データの照合や突合、本人確認に使うのが「氏名」「生年月日」「性別」「住所」、いわゆる基本4情報といわれるものだ。 だがこの4情報は、コンピューターによる自動処理とは絶望的に相性が悪い。例えば氏名は「邊」「邉」など旧字・異体字の揺らぎや外字の処理が煩雑なうえ、婚姻による改名もある。よくある氏名の場合、氏名も生年月日も同一というケースが頻発する。住所は時期によって変わるうえ、人によって書き方が「一丁目四番」から「1―4」まで一意ではない。 こうした曖昧な識別符号を代替す

                日本における「名寄せ」と「照合」の黒歴史
              1