並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 16 件 / 16件

新着順 人気順

名寄せの検索結果1 - 16 件 / 16件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

名寄せに関するエントリは16件あります。 行政自然言語処理日本 などが関連タグです。 人気エントリには 『基本4情報での名寄せは難しい|MORIDaisuke』などがあります。
  • 基本4情報での名寄せは難しい|MORIDaisuke

    先日は住所の件でお楽しみでしたね。 私も楽しくなってしょうもないツイートをしたところ、@masanorkさんから有用な情報をいただいてしまいました。 異体字に加えて外字も根深いですし、日付型に収まらない住基の生年月日とか、屋号を含んだ個人事業主の口座名義とか、外国人氏名における住民登録のアルファベットと口座名義のカタカナとの解離とか、旧姓併記の例外処理とか、文字列型に刻まれたバッドノウハウの塊ですね https://t.co/GOaytijfst — Masanori Kusunoki / 楠 正憲 (@masanork) June 6, 2023 このとき、私はごく簡単な「名寄せの難しさ」の社内研修資料を作っている最中だったのですが、この情報が大変参考になりました。 一方、私だけが得をしているのがなんとなくムズムズしてきたので、ここにアウトプットしてスッキリしようと思います。 なお、住所

      基本4情報での名寄せは難しい|MORIDaisuke
    • 日本における「名寄せ」と「照合」の黒歴史

      健康保険証、銀行口座、年金記録――個人のマイナンバーに別人の情報がひも付けられるトラブルが後を絶たない。多くの事案に共通するのは、自治体や関係機関の職員が氏名や生年月日などを基にマイナンバーや住民データを照会した際に、誤って同姓同名の人の情報を引き出してひも付けてしまうというケースだ。 こうした情報のひも付けをする際、職員が住民データの照合や突合、本人確認に使うのが「氏名」「生年月日」「性別」「住所」、いわゆる基本4情報といわれるものだ。 だがこの4情報は、コンピューターによる自動処理とは絶望的に相性が悪い。例えば氏名は「邊」「邉」など旧字・異体字の揺らぎや外字の処理が煩雑なうえ、婚姻による改名もある。よくある氏名の場合、氏名も生年月日も同一というケースが頻発する。住所は時期によって変わるうえ、人によって書き方が「一丁目四番」から「1―4」まで一意ではない。 こうした曖昧な識別符号を代替す

        日本における「名寄せ」と「照合」の黒歴史
      • 「日本の住所のヤバさ」知れ渡る 正規化・名寄せ問題、Twitterトレンドに

        「日本の住所のヤバさ」が6月7日朝にTwitterトレンドになっている。住所表記の正規化・名寄せがいかに難しいかを解説した、inuroさんのnote記事「とにかく日本の住所のヤバさをもっと知るべきだと思います」がバズっているためだ。 6月4日のテレビ番組で、マイナンバーカードに記載される住所をめぐり、河野太郎デジタル大臣が「将来的にはAIの技術を使って住所の表記揺れを判断することがあり得るかもしれない」と発言し、住所の正規化についてネットで議論になっていたことがきっかけだ。 記事は、「日本の住所システムがカオスで、その計算機的な処理がいかに困難か」を解説する内容だ。 まず、日本にはそもそも、新旧の2つの住所システム(A町1丁目3番2号/A町1234番地)が併存しており、例えば、「浦安市舞浜2」の住所が「舞浜2丁目」「舞浜2番地」の2系統あるケースを紹介。 さらに、まったく同じ住所表記が異な

          「日本の住所のヤバさ」知れ渡る 正規化・名寄せ問題、Twitterトレンドに
        • Wikipediaを元にした日本語の名寄せデータセットを作成しました - Sansan Tech Blog

          こんにちは、DSOC 研究開発部の奥田です。以前の私のブログ記事ではコーギーの動画を見ていると書きましたが、とうとうコーギーを家族として迎え入れ、現在生後6ヶ月の子犬と暮らしております。 さて私たちDSOCでは、SansanやEightの価値を高めるために様々な自然言語処理のタスクに取り組んでおります。例えばニュース記事からの固有表現抽出では、私たちのサービスに特化した固有表現を対象に研究開発しています。その他にも様々あるなかで、特に重要かつ困難とされているものの一つに「名寄せ」というタスクがあります。AIや人工知能と呼ばれるものが発達した現代においても、人間には当たり前にできるタスクが機械には難しいことがまだまだ存在します。 今回は、その「名寄せ」というタスクにおける日本語でのデータセットを作成してみました。これをきっかけに、日本語での名寄せというタスクの研究が進み分野が活性化することを

            Wikipediaを元にした日本語の名寄せデータセットを作成しました - Sansan Tech Blog
          • 住所の名寄せの問題で「住所なんてやめて緯度経度で管理しようぜ」という人がいるけど地震で数メートル範囲でズレるのでそれはそれで大変そうという話

            金太ωまひえもん🦥 @mahiemonu 東日本大震災は5m でした。僕も断層のずれのことを覚えていたのでいささかオーバーに書きすぎました、すみません:『牡鹿半島周辺で、水平方向で5mを超える地殻変動が観測されました』: 国土地理院 特集・平成23年(2011年)東北地方太平洋沖地震から10年 gsi.go.jp/kanshi/h23touh… 2023-06-07 19:29:22

              住所の名寄せの問題で「住所なんてやめて緯度経度で管理しようぜ」という人がいるけど地震で数メートル範囲でズレるのでそれはそれで大変そうという話
            • 【独自】キックバック中止を高木事務総長が今年議員に伝達 パーティー券購入者の「名寄せ厳格化」も 安倍派内で方針変更か | TBS NEWS DIG

              自民党の派閥の政治資金パーティーをめぐり、安倍派などの事務所が家宅捜索を受けた事件で、安倍派の高木毅事務総長が今年5月のパーティー前、キックバックを中止することを派閥に所属する一部の議員に直接伝えて…

                【独自】キックバック中止を高木事務総長が今年議員に伝達 パーティー券購入者の「名寄せ厳格化」も 安倍派内で方針変更か | TBS NEWS DIG
              • BERTとベクトル検索を用いたYahoo!ショッピングの製品名寄せ作業の効率化検証

                ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。CTO直下のR&D組織であるテックラボにて、コマース領域向けの研究開発に取り組んでいる脇山です。 本記事ではベクトル検索を製品への紐付け(いわゆる名寄せ)業務に利用した事例を紹介します。 商品を製品マスタに紐付けする みなさんはYahoo!ショッピングで商品を探したことがあるでしょうか? Yahoo!ショッピングにはいろんなストアが商品を出品しているため、同じ商品を異なるストアが販売しています。そのため、「コカ・コーラ 500ml 48本」といったクエリで検索すると、検索結果に異なるストアが出品した「コカ・コーラ 500ml 48本」の商品が複数並ぶことがあります。商品を購入する際は、同じ商品でも商品価格や送料などがス

                  BERTとベクトル検索を用いたYahoo!ショッピングの製品名寄せ作業の効率化検証
                • 日本における「名寄せ」と「照合」の黒歴史

                  健康保険証、銀行口座、年金記録――個人のマイナンバーに別人の情報がひも付けられるトラブルが後を絶たない。多くの事案に共通するのは、自治体や関係機関の職員が氏名や生年月日などを基にマイナンバーや住民データを照会した際に、誤って同姓同名の人の情報を引き出してひも付けてしまうというケースだ。

                    日本における「名寄せ」と「照合」の黒歴史
                  • 名寄せの仕組み - astamuse Lab

                    この記事は 自然言語処理 Advent Calendar 2020 の25日目の記事です。 こんにちは、rinoguchi です。今年の4月に こちらの記事 を書いて以来、半年ぶりの投稿になります。 当社では、特許・研究課題・論文など多くの知的財産データを保持しています。これらのデータを活用するには、データに含まれる同一組織・同一人物に対して同一IDを付与してデータをグルーピングすることが必要であり、この作業のことを名寄せと呼んでいます。 今回はこの名寄せの仕組みについて紹介したいと思います。 大まかな処理フロー 当社では名寄せ処理を、まずそれぞれのデータソース(例えば特許や論文など)の中で実行し、次に異なるデータソース間で実行することで、最終的に組織ID・人物IDに対して特許・研究課題・論文などを紐づけたデータを生成しています。 とはいえ、データソース内名寄せもデータソース間名寄せも仕組

                      名寄せの仕組み - astamuse Lab
                    • レコード間の名寄せ(Entity Recognition/Deduplication)を省力化・自動化できるかもしれない入門~ - Qiita

                      レコード間の名寄せ(Entity Recognition/Deduplication)を省力化・自動化できるかもしれない入門~自然言語処理機械学習名寄せデータクレンジング Introduction 皆様、"Enitity Matching""Deduplication"したことありますか? おそらく多くのエンジニアの方は、 なんじゃいって感じになるかと思います。 しかし簡単に言えば、テーブル内・テーブル間のレコードの名寄せです。 多くの人が経験したことがあるでしょう。 一言に言うと、表記ゆれとかあっても"fuzzyにjoin/distinct"する事です。 SQLのJOINで扱えるレベルなら、簡単です。 しかし表記ゆれや誤りを考慮に入れた途端、厄介になります。 今回はそんな名寄せについて自動化・省力化するために、 まずその概要をまとめました。 Notice 概要です。各論は個別記事を追加

                        レコード間の名寄せ(Entity Recognition/Deduplication)を省力化・自動化できるかもしれない入門~ - Qiita
                      • 人力の名寄せを機械学習のエッセンスを加えて自動化する - LCL Engineers' Blog

                        Androidアプリ兼バックエンドエンジニアの高橋です。 弊社のサービス「バス比較なび」では、たくさんのバス会社さんから頂いた高速バスデータを掲載していますが、バス会社さん間での「データの揺れ」が課題の一つとしてあります。 例えば、バスの「停車地」には以下のような表記揺れがあります。 A社 : JR東京駅八重洲南口 鍛冶橋駐車場 B社 : 八重洲口鍛冶橋駐車場<東京駅 八重洲南口> C社 : 東京駅八重洲南口 この状態では、停車地をGoogle Mapにマッピングしようとしても、難しいですよね。 実は、弊社ではこれまで手作業によってこういった名称を「名寄せ」しています。 上記の例でいうと、JR東京駅 八重洲南口 鍛冶橋駐車場 が名寄せ後の名称です。 データが蓄積されている現在では手作業でもある程度はカバーできますが、休日や長期連休などに対応できないので、現在停車地の名寄せ自動化に挑戦してい

                          人力の名寄せを機械学習のエッセンスを加えて自動化する - LCL Engineers' Blog
                        • 名寄せ(entity recognition, deduplication) で使える特徴量 - Qiita

                          レコードやオブジェクトを教師あり学習・教師なし学習や検索エンジンで 名寄せ(Entity Recognition・Deduplication)するときに、それぞれのフィールドから特徴量を抜き出す必要があります。 意外とまとまって言及しているリファレンスは少ないので、 特に文字列のフィールドでよく使われる特徴量を上げてみました。 データベースのブロッキングに使われるものも含まれます。 特徴量の種類 分類は独自の基準に基づきます。 Token 固有表現 音素 分散表現/次元圧縮 検索スコア 距離・擬似距離 (レコードのペアの場合) 各特徴量の概要 1. Token 文字列から、さらに小さい構成単位を抽出します。 ただし、次元が大きいsparse matrixになるため、機械学習やクラスタリングで用いるには次元に対して大量のデータが必要か、工夫が必要です。 character ngram ご存じ

                            名寄せ(entity recognition, deduplication) で使える特徴量 - Qiita
                          • マイナンバー問題も繰り返す、「名寄せ」と「照合」の黒歴史 - 日本経済新聞

                            健康保険証、銀行口座、年金記録――個人のマイナンバーに別人の情報がひも付けられるトラブルが後を絶たない。多くの事案に共通するのは、自治体や関係機関の職員が氏名や生年月日などを基にマイナンバーや住民データを照会した際に、誤って同姓同名の人の情報を引き出してひも付けてしまうというケースだ。こうした情報のひも付けをする際、職員が住民データの照合や突合、本人確認に使うのが「氏名」「生年月日」「性別」「

                              マイナンバー問題も繰り返す、「名寄せ」と「照合」の黒歴史 - 日本経済新聞
                            • 第2回:「名寄せの奥深い世界」へようこそ

                              印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 名寄せとは 「名寄せ」というものを、読者の皆さんも一度はお聞きになったことがあるはずだ。聞いたことがなくても、例えば、町内会なり同窓会なりで名簿を複数持ってきて突き合わせれば、それが名寄せである。クラブ活動で入部届けをもらって、実在の人物かどうか確認するのも名寄せである。 名寄せが国民的に有名になったのは、国民年金における名寄せの一件だ。 「年金の支給が漏れているかもしれません、別人に年金を払っているかもしれません」という人が何百万人も出てきたという事件である。住民基本台帳や名寄せが悪者のようにも見えるが、それは発覚のキッカケに過ぎない。名寄せをしなければ埋もれたままだったはずだ。 「最初から人を確認しておけばよかった」と言いたくなるが

                                第2回:「名寄せの奥深い世界」へようこそ
                              • Hiromitsu Takagi @HiromitsuTakagi これのこと?どういう合法スキーム?今まさに医療データ二次利用の合法化に向け規制改革が進行中なのに、なぜもうできてる?「お客様」=組合・自治体だろうけど組合・自治体が「二次利用許諾」するのどういう状況?名寄せ?委託でないぞ。違法になるのは組合・自治体だが。 https://youtube.com/watch?v=66JYhie7gs4

                                • タグの名寄せ方針を決定しました - Qiita Blog

                                  こんにちは、Qiita運営です。 今日はタグの名寄せ方針についてお知らせいたします。 Qiitaでは、記事などにつけるタグを名寄せすることがあります。 しかし、その名寄せをする際の明確な方針が無かったため、今回決定し、公開いたしました。 タグの名寄せ 前提: タグの名寄せとはC , C言語 のようにタグが複数に分かれているものを C 等に統一して記事に紐付け直すことを名寄せと呼んでいます。 名寄せをすることで、タグで検索した時に見つけやすく、書き手としても見つけてもらいやすくなります。 方針を決めた背景タグの名寄せは、過去にQiita Discussionsで何度かリクエストをいただいていました。 Qiitaにはタグの名寄せの明確な方針がなかったため、どのタグをどのタグに名寄せをするのかの判断に毎回悩んでおりました。 タグの名寄せについては、運営が意図的に寄せることを避け、ユーザーの皆様の

                                    タグの名寄せ方針を決定しました - Qiita Blog
                                  1

                                  新着記事