並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 263件

新着順 人気順

名寄せの検索結果1 - 40 件 / 263件

  • とにかく日本の住所のヤバさをもっと知るべきだと思います|inuro

    「住所の揺らぎ程度のことにAIを使いたいだとかデジタル音痴」だの「住所の正規化なんてExcelで2時間あれば作れそう」だの、たいへんフットワークの軽やかな言説の数々に、位置情報界隈のみならず住所の正規化や名寄せに少しでも関わったことのあるエンジニアが総立ちでマサカリを投げていたのも記憶に新しい今日この頃ですが(2023年6月6日)、この手の騒動は周期的に起こってる印象です。 ということはつまり いつまで経っても解消されない、解決が困難な課題である その困難さが界隈以外に共有されていない であるわけで、その都度Twitterにトリビアが投下されてはTLが賑わい華やかではありますが、そろそろ自分の整理としてもどれだけ日本の住所システムがカオスで、その計算機的な処理がいかに困難かをメモっておこうかと思いました。 なおこの件については既にQiitaにGeoloniaの宮内さんが鼻血の出そうな良エン

      とにかく日本の住所のヤバさをもっと知るべきだと思います|inuro
    • 日本の住所の正規化に本気で取り組んでみたら大変すぎて鼻血が出た。 - Qiita

      先日、弊社では Community Geocoder というサービスをリリースしました。 Community Geocoder 紹介記事 さて、このジオコーダーは、住所を正規化してそれを「大字町丁目コード」という12桁の数字に変換し、そのコードをファイル名として GitHub ページ上に大量においた JSON ファイルにアクセスして緯度経度を取得するということをやっています。 つまり、住所の正規化からコードに変換する部分がとても重要で、そもそも正規化に失敗してしまうとどうしようもないという仕様なんです。 さいわい先日経産省が公開した IMI コンポーネントツール である程度のことをやってくれるのですが(というかそうであることを期待したのですが)、いろいろ調べ始めると住所という仕組みはほんとに複雑で、Facebook で絡んでくださった @hfu さんいわくまさに「自然言語処理そのもの」であ

        日本の住所の正規化に本気で取り組んでみたら大変すぎて鼻血が出た。 - Qiita
      • 実質収支全国マップ ふるさと納税のリアル

        好きな自治体に寄付をする「ふるさと納税」。都市部の住民が肉や果物など地方の魅力的な返礼品を求め、寄付金額は拡大しています。一方、税金を奪われる都市部の自治体は不満を募らせています。返礼品の調達などに多額の公費を投じることには批判の声もあります。 今回、寄付の流出入に加え、調達などの経費や、国の地方交付税による補塡も考慮に入れ、最終的な実入りをさす「ふるさと納税実質収支額」を市区町村別に算出しました。 2022年度の黒字首位は宮崎県都城市、赤字額がもっとも多かったのは川崎市でした。 あなたの街を調べてみましょう。 データと実質収支額について総務省が毎年公表する「ふるさと納税に関する現況調査」から2015〜22年度の寄付受入額と経費、住民税控除額を取り出し、全国1741市区町村の実質収支額を算出しました。 国の地方交付税によってふるさと納税による減収額の75%が補塡されることも考慮に入れました

          実質収支全国マップ ふるさと納税のリアル
        • note執筆者のIPアドレスが漏洩 接続元IPアドレスが一致しても同一人物とは限らないが(楠正憲) - エキスパート - Yahoo!ニュース

          利用者が記事を配信・販売できるサービスnoteで8月14日、執筆者のIPアドレスを確認できてしまう不具合が見つかり、運営元は謝罪し同日中に修正しました。同社は「一般的なIPアドレスから、個人情報を特定することはできません」としていますが、ネットでは有名人のIPアドレスと一致する5ちゃんねる投稿が検索されるなど騒ぎは続いています。IPアドレスから個人を特定されたり、他の投稿との名寄せが行われるリスクはどの程度あるのでしょうか。 IPアドレスとはインターネットで通信を行う際に必要な差出人・宛先を示す住所のことです。現在IPv4、IPv6という2つの世代の技術が利用されており、note社のサービスはIPv4のみを利用しています。インターネットのIPv4アドレスは2011年に枯渇し、その後も利用者が増え続けたISPではCGNAT等の技術を用いることで数百人の利用者が同じIPアドレスを共用しています

            note執筆者のIPアドレスが漏洩 接続元IPアドレスが一致しても同一人物とは限らないが(楠正憲) - エキスパート - Yahoo!ニュース
          • 基本4情報での名寄せは難しい|MORIDaisuke

            先日は住所の件でお楽しみでしたね。 私も楽しくなってしょうもないツイートをしたところ、@masanorkさんから有用な情報をいただいてしまいました。 異体字に加えて外字も根深いですし、日付型に収まらない住基の生年月日とか、屋号を含んだ個人事業主の口座名義とか、外国人氏名における住民登録のアルファベットと口座名義のカタカナとの解離とか、旧姓併記の例外処理とか、文字列型に刻まれたバッドノウハウの塊ですね https://t.co/GOaytijfst — Masanori Kusunoki / 楠 正憲 (@masanork) June 6, 2023 このとき、私はごく簡単な「名寄せの難しさ」の社内研修資料を作っている最中だったのですが、この情報が大変参考になりました。 一方、私だけが得をしているのがなんとなくムズムズしてきたので、ここにアウトプットしてスッキリしようと思います。 なお、住所

              基本4情報での名寄せは難しい|MORIDaisuke
            • 日本における「名寄せ」と「照合」の黒歴史

              健康保険証、銀行口座、年金記録――個人のマイナンバーに別人の情報がひも付けられるトラブルが後を絶たない。多くの事案に共通するのは、自治体や関係機関の職員が氏名や生年月日などを基にマイナンバーや住民データを照会した際に、誤って同姓同名の人の情報を引き出してひも付けてしまうというケースだ。 こうした情報のひも付けをする際、職員が住民データの照合や突合、本人確認に使うのが「氏名」「生年月日」「性別」「住所」、いわゆる基本4情報といわれるものだ。 だがこの4情報は、コンピューターによる自動処理とは絶望的に相性が悪い。例えば氏名は「邊」「邉」など旧字・異体字の揺らぎや外字の処理が煩雑なうえ、婚姻による改名もある。よくある氏名の場合、氏名も生年月日も同一というケースが頻発する。住所は時期によって変わるうえ、人によって書き方が「一丁目四番」から「1―4」まで一意ではない。 こうした曖昧な識別符号を代替す

                日本における「名寄せ」と「照合」の黒歴史
              • kindleの本が全部消えた話(2) 弁護士に依頼して裁判するのは辛そう編 - 覚書

                2022/5/27編集 - 後述のアカウント統合後にamazon.comのアカウント削除によってkindle本が全部消えるのは仕様である旨、追記 2022/6/1 変更 - 「サポートの指示によってamazon.comのアカウントを消した」のではなく「使用していないamazon.comのアカウントを閉鎖してもいいのか」という趣旨の質問を私がしたのに対して「そうですね」と回答されたということがわかったので、訂正。 変更前の記述には取り消し線を引いて、編集後の記述は強調表示しました。 NOTE: 上記変更点にもあるように、「サポートの指示によってamazon.comのアカウントを消した」という私の認識は誤っていたことがわかりました。これについてはamazon.co.jpのかたがたにメールで謝罪いたしました。 以下記事の続きです。 satoru-takeuchi.hatenablog.com 問

                  kindleの本が全部消えた話(2) 弁護士に依頼して裁判するのは辛そう編 - 覚書
                • NTTビジネスソリューションズ元派遣社員による顧客情報の不正な持ち出しについてまとめてみた - piyolog

                  2023年10月17日、NTTビジネスソリューションズは同社の元派遣社員が顧客情報の不正な持ち出しを行っていたと公表しました。持ち出された顧客情報はコールセンターのシステムに保存されていたもので、元派遣社員は2013年より不正な行為を及んでいたとみられています。ここでは関連する情報をまとめます。 10年近く前から顧客情報を不正に持ち出し 不正な行為を行っていたのはNTTビジネスソリューションズに2008年6月より派遣されていた元派遣社員(公表時点で派遣会社から退職済)で、コールセンターシステムの運用保守管理を担当していた。10年間で100回以上にわたって不正な取得行為を行っていた。*1 NTTビジネスソリューションズはNTTマーケティングアクトProCXが利用していたコールセンターシステムのシステム運用を行っており、元派遣社員によって不正に持ち出されていた情報はNTTマーケティングアクトP

                    NTTビジネスソリューションズ元派遣社員による顧客情報の不正な持ち出しについてまとめてみた - piyolog
                  • 税負担の軽減特典は自ら能動的に動かないと享受できない(追々記あり

                    年が明けたので2023年分の確定申告の準備を始めた。申告期間までは、まだ1ヶ月強あるけど、毎年、年末年始休みの時間があるときに8割くらいまで終わらせている。毎回、確定申告の計算を自分でやっていて感じるのは、税負担の軽減特典は自ら能動的に動かないと享受できないということだ。 事例1: 海外ETFの分配金にかかわる二重課税 海外ETFを保有していると分配金が支払われることがある。この場合、現地国と日本で源泉徴収が二重に行われる。現地で10%、日本で20%が引かれるので、証券会社の口座に入金する手取額は分配金額面の72%(=90%*80%)となる。この二重課税は、確定申告をして「外国税額控除」という仕組を使えば対処可能だ。本来、日本居住者として負担すべき税金は20%(ETFの分配金の場合)なので、それを超える8%分は還付してもらえる(正確には、確定申告で追加納付すべき金額と相殺できる)。分配金の

                      税負担の軽減特典は自ら能動的に動かないと享受できない(追々記あり
                    • マイナンバーカードには「婚姻届を出したら運転免許もパスポートも更新申請されて補助や免除の一覧が自動的に出てくる」みたいな役割を期待している

                      タマゴケ @s5ml マイナンバーカード 「目指すべきはコンビニで住民票が出せる」みたいな世界ではなく、「婚姻届出したら運転免許もパスポートも更新申請されて、そのタイミングで受けられる補助・免除が国・都道府県・市区町村全部一覧化できる」みたいな世界だぞ。 コンビニ住民票なり保険証なりで喜んでちゃだめだぞ 2022-10-10 16:07:22 タマゴケ @s5ml マイナンバー法の一丁目一番地は行政の名寄せです。マイナカードではありません。 >この法律は、行政機関、地方公共団体(略)が、個人番号(略)を活用し(略)他の行政事務を処理する者との間における迅速な情報の授受を行うことができるようにする(略) elaws.e-gov.go.jp/document?lawid… pic.twitter.com/t1haRsIgAB 2022-10-10 20:11:45

                        マイナンバーカードには「婚姻届を出したら運転免許もパスポートも更新申請されて補助や免除の一覧が自動的に出てくる」みたいな役割を期待している
                      • CCC、Tポイントデータをオープン化 - 7000万人の会員データが利用可能に

                        CCCマーケティングとトレジャーデータは7月28日、CDP(Customer Data Platform)領域において業務提携を行い、同意取得済のT会員データ(Tポイントデータ)を、生活者のライフスタイルを基点とした情報プラットフォーム「CDP for LIFESTYLE Insights」として8月から提供を開始すると発表した。 2022年3月現在、名寄せをし重複を排除したT会員数は7025万人で、週間の利用者は2469万人、月間利用者は4175万人だという。この会員により、年間35億件以上の購買トランザクション、15万店舗のネットワークで扱われる60億種類の商品データ、数千項目からなる顧客DNAのペルソナデータ、 オフライン・オンライン上の移動・行動データやメディア接触データ、またCCCマーケティンググループオリジナルのエンハンスデータなとが得られ、データベースに蓄えられている。 20

                          CCC、Tポイントデータをオープン化 - 7000万人の会員データが利用可能に
                        • 実録パフォーマンス改善 - 高速化のためアーキテクチャやアルゴリズム選択から見直すSansanの事例 - エンジニアHub|Webエンジニアのキャリアを考える!

                          実録パフォーマンス改善 - 高速化のためアーキテクチャやアルゴリズム選択から見直すSansanの事例 インフラの特性をふまえ、ミドルウェアの挙動を理解し、プロファイリングによってボトルネックを把握し、要求に合ったアーキテクチャを選択する。そういった工夫を重ねることでアプリケーションのパフォーマンスを改善する事例を、Sansanの千田智己さんに聞きました。 アプリケーションの設計・実装方法を変えることで、性能が格段に向上するケースは数多くあります。有名IT企業のエンジニアは、どのような方針のもとでアーキテクチャあるいはアルゴリズム選択などでパフォーマンスを改善しているのでしょうか? 法人向けクラウド名刺管理サービス「Sansan」や個人向け名刺アプリ「Eight」を提供するSansan株式会社の千田智己さんに、これまで取り組んできた事例と、そのノウハウを教えていただきました。 千田 智己(せ

                            実録パフォーマンス改善 - 高速化のためアーキテクチャやアルゴリズム選択から見直すSansanの事例 - エンジニアHub|Webエンジニアのキャリアを考える!
                          • 不動産相続の手続きと相続税を徹底解説!土地や家の名義変更、かかる費用、節税方法、トラブル防止のコツも - 【SUUMO】住まいの売却ガイド

                            いつかは直面する相続。突然のことで呆然としている間にも、相続税の申告期限はやってきます。 そこで、親が元気なうちにこそ、不動産(家・土地など)の相続の手続きの流れや相続税の計算方法、節税や複数の人で相続する場合のノウハウを知っておきましょう。 不動産相続に詳しい税理士・行政書士の清野直美さんと、弁護士の蒲原茂明さんに話を聞きました。 記事の目次 1. 家や土地などの不動産を相続する手続きとダンドリ 2. STEP1 相続人や相続財産を確認 3. STEP2 遺産分割協議で、遺産の分け方を決める 4. STEP3 相続財産の名義変更 5. STEP4 法務局で登記を申請する 6. STEP5 相続税の申告・納付をする 7. 相続人が複数いる場合、不動産はどう相続するか。 8. 家の相続トラブルを防ぐために、生前にできることはあるのか 9. 家の相続をしたくない場合はどうすればいい? 10.

                              不動産相続の手続きと相続税を徹底解説!土地や家の名義変更、かかる費用、節税方法、トラブル防止のコツも - 【SUUMO】住まいの売却ガイド
                            • みずほ銀行が振込手数料を大幅値上げ…三菱UFJ銀行は口座管理手数料を導入か?

                              「gettyimages」より 2020年は銀行預金者受難の年となりそうだ。まず近いところでは、3月からみずほ銀行が振込手数料を改定すると発表している。ATMで現金またはキャッシュカードを使って自行の同一店および本支店に振り込みを行う際の手数料が値上げになるのだ。値上げ幅は110円。 それを聞くと、ずいぶん無茶な……という気がするが、さにあらず。3大メガバンクのうち、ほかの2行を同一条件で比べてみると、実はこれまでみずほが安かったのだとわかる。ATMで現金を使っての振込手数料は、3月の段階でやっと横並びになるだけなのだ。 しかし、見過ごせない値上げも実はある。ATMでキャッシュカードを使って振り込む場合がそれだ。みずほの同一店へ振り込む場合の手数料は、改定前は無料だったのが、いきなり220円もかかることになる。同じ条件で見れば、三菱UFJ銀行や三井住友銀行は、同一支店は無料、本支店へは11

                                みずほ銀行が振込手数料を大幅値上げ…三菱UFJ銀行は口座管理手数料を導入か?
                              • 公開されている日本の企業名辞書の紹介 - MNTSQ Techブログ

                                特許・契約書・有価証券報告書・企業関連ニュースなど、実応用上の自然言語処理では、会社名を認識したいという場面に非常に多く出くわす。 会社名らしい文字列をテキストから抽出することは、形態素解析器の辞書を用いたり固有表現抽出モデルを学習することである程度実現される一方で、抽出した会社名をレコード化して分析などに用いる際には、いわゆる名寄せの問題が発生する。 自然言語処理における名寄せに似た問題は、エンティティリンキングや共参照解析といったアプローチで探求されており、実応用上は前者のアプローチが採られることが多い印象がある。*1 名寄せタスクをエンティティリンキング的に解くためには、帰着先の知識ベース・辞書が予め存在していることが必要だが、研究の文脈では知識ベースとしてWikipediaが採用されることが多い。 Wikipediaを用いる利点は多くあり、様々なエンティティ種に対してそこそこのカバ

                                  公開されている日本の企業名辞書の紹介 - MNTSQ Techブログ
                                • 「マイナ保険証が義務化なら閉院するしか…」高齢医師の声も 日弁連の集会で医師団体が訴え - 弁護士ドットコムニュース

                                  日本弁護士連合会(日弁連)は11月21日、マイナンバーカードと健康保険証を一体化した「マイナ保険証」義務化に反対する院内集会を衆院第一議員会館(東京)で開いた。 2024年秋で健康保険証を廃止し、マイナンバーカードと一体化する政府の方針に対し「本人申請に基づきカードを交付、発行するという任意取得の原則に反する」と見直しを求めた。(ライター・国分瑠衣子) ●カードの本人確認情報「戸籍上の性と性自認が異なる人に精神的な苦痛を与える」 日弁連はマイナ保険証の事実上の強制となると、会長名で反対声明を出している。院内集会では水永誠二・日弁連情報問題対策委員会副委員長が、マイナカードとマイナ保険証の問題点について次のように説明した。 マイナカードは券面に12桁の個人番号が記載されている。日弁連はこの記載で個人識別番号を知られ、名寄せやデータマッチング(プロファイリング)される危険性があると指摘している

                                    「マイナ保険証が義務化なら閉院するしか…」高齢医師の声も 日弁連の集会で医師団体が訴え - 弁護士ドットコムニュース
                                  • Appleにマイナンバー搭載を要請しつつ安全性を下げる規制強要の矛盾

                                    2022年12月15日、日本を訪れたAppleのティム・クックCEOが岸田文雄首相と会談した。この時、首相はiPhoneへのマイナンバーカード機能搭載の協力を要請し、クックCEOは「取り組みたい」と前向きに回答すると同時に、日本政府に利用者のプライバシーやセキュリティ保護が損なわれる規制の再考を頼んだという。 Appleにマイナンバーカード搭載を要求しつつ安全性下げる規制を強要 賛否あるマイナンバーカードではあるが、最近では前橋市で交通ICカードとマイナンバーを連携させて交通費の市民割引を受けられる実証実験が始まるなど、同カードがあるからこそ提供可能な公共性と利便性の高いサービスの実例を少しずつ増やしている。 カード普及に反対する人たちも、不安なのは自分たちの個人情報が悪用されずキッチリと守られるかという部分であって、自治体で受けるサービスの円滑化や、給付金などの支払い期間の短縮に異を唱え

                                      Appleにマイナンバー搭載を要請しつつ安全性を下げる規制強要の矛盾
                                    • 検索基盤チームのElasticsearch×Sudachi移行戦略と実践 - エムスリーテックブログ

                                      エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。最近、AI・機械学習チーム配下の検索基盤チームでElasticsearchのAnalyzerをKuromojiからSudachiに移行しました。今回はSudachi移行の背景と、Sudachiの概要、実際に移行するにあたってのプロセスや注意事項をお話しします。 対象読者 なぜSudahchiに移行したのか 検索基盤チームが抱えていた検索の課題 Sudachiとは Sudachiへの移行戦略と実践 今使っているKuromojiユーザー辞書をSudachiユーザー辞書に移行する 今使っているシノニム辞書からSudachi正規化機能でまかなえるものを削除する 平仮名/カタカナの正規化辞書を作る 移行時のSudachi切り替え戦略 移行後の影響の事前確認 Sudachi移行時のハ

                                        検索基盤チームのElasticsearch×Sudachi移行戦略と実践 - エムスリーテックブログ
                                      • 「日本の住所のヤバさ」知れ渡る 正規化・名寄せ問題、Twitterトレンドに

                                        「日本の住所のヤバさ」が6月7日朝にTwitterトレンドになっている。住所表記の正規化・名寄せがいかに難しいかを解説した、inuroさんのnote記事「とにかく日本の住所のヤバさをもっと知るべきだと思います」がバズっているためだ。 6月4日のテレビ番組で、マイナンバーカードに記載される住所をめぐり、河野太郎デジタル大臣が「将来的にはAIの技術を使って住所の表記揺れを判断することがあり得るかもしれない」と発言し、住所の正規化についてネットで議論になっていたことがきっかけだ。 記事は、「日本の住所システムがカオスで、その計算機的な処理がいかに困難か」を解説する内容だ。 まず、日本にはそもそも、新旧の2つの住所システム(A町1丁目3番2号/A町1234番地)が併存しており、例えば、「浦安市舞浜2」の住所が「舞浜2丁目」「舞浜2番地」の2系統あるケースを紹介。 さらに、まったく同じ住所表記が異な

                                          「日本の住所のヤバさ」知れ渡る 正規化・名寄せ問題、Twitterトレンドに
                                        • モノリシックな大規模アプリを運用する技術-サービスを“分割しない”メリットをSansanの実例に学ぶ - エンジニアHub|Webエンジニアのキャリアを考える!

                                          モノリシックな大規模アプリを運用する技術-サービスを“分割しない”メリットをSansanの実例に学ぶ モノリシックにアーキテクチャを構築するメリットとは?近年、マイクロサービスアーキテクチャが注目を集めていますが、Sansanは大規模なアプリケーションに成長したいまも、モノリシックな構造を維持しています。ドメインコンテキストの共有のしやすさ、チームビルドのしやすさなど、モノリシックな構造だからこそ得られるメリットを聞きました。 モノリシックである利点 - ドメインコンテキストが共有しやすい Backlogを一本化し、モノリシックなシステムを運用しやすく 技術的負債の解消 ~事業フェーズに適した技術を選定する~ 技術的負債の解消 ~リプレース可能な部分は積極的にエコシステムを活用~ 技術的な改善をビジネスの改善に結びつける 近年、複数の小さなサービスをAPIによって連携させるマイクロサービス

                                            モノリシックな大規模アプリを運用する技術-サービスを“分割しない”メリットをSansanの実例に学ぶ - エンジニアHub|Webエンジニアのキャリアを考える!
                                          • 個人情報が渡らない匿名実在認証システムがほしい

                                            マイナポータルハッカソンなるものをデジ庁がやるらしいのだが、それを見ていて思ったやつを一つ。 https://www.digital.go.jp/policies/myna_portal/hackathon/ 個人情報を相手に渡さない個人認証システム、匿名実在認証システム、みたいなの誰か作ってくれないか。 個人情報扱わないOAuthみたいな感じで手軽に使える奴を。 概要アカウントを作るときにマイナポータルでマイナカード認証させるマイナポータルで認証すると、マイナポータル側では任意の一意のトークンを発行する。 このトークンは以下のような性質を持つ。 マイナポータルが発行したことは保証される認証するサービス相手ごとに全く違うトークンになる。故にサービスを跨いでの名寄せはできない。認証が破棄されるまで、同じ人が同じサービス向けに発行すると毎回同じトークンになる 非可逆的で、一方的。トークンから元

                                              個人情報が渡らない匿名実在認証システムがほしい
                                            • HER-SYS戦記−新型コロナウイルス感染症対策におけるシステム− | COVID-19有識者会議

                                              注:この記事は、有識者個人の意見です。COVID-19有識者会議の見解ではないことに留意ください。 HER-SYSは行政機関と自治体、医療機関、そして感染者自身が共同利用するシステムであり、感染者にかかる要配慮個人情報を大量に扱うシステムである。このような特徴を持つシステムがゼロトラストネットワークモデル上に構築されたのは、日本では最初の事例であろう。港区は2020年5月1日にHER-SYS先行利用自治体に応募し、5月15日にはNESIDからのデータ移行を受けて、試行を開始した。保健所で最初の日に教えられた、感染症法における人権擁護と信頼関係。HIV等の検査はすべて匿名で受けられ、個人を特定できる情報は取り扱わない。要配慮個人情報を集めるシステムであればこそ、丁寧に個人情報保護と情報セキュリティの内部監査をしよう、そう考え始めていた2020年7月最初の週末に事件は起こった。港区では、情報安

                                              • ヤバいと話題の“日本の住所表記” 何がそんなに大変? ゼンリンに聞いた

                                                日本の住所表記の正規化・名寄せがTwitter上で話題になっている。きっかけとなったのは河野太郎デジタル大臣がテレビ番組で発した「AIを使って表記揺れを判断することがあり得るかもしれない」という言葉。これに対し、ネット上ではさまざまな議論が巻き起こっている。 Twitter上では「住所の揺らぎ程度のことでAIは不要」という意見が見られた。これに対して、ITエンジニアなどからは「住所の表記揺れはすぐ解決できる問題ではない」などと反論の声が上がり、「日本住所のヤバさをもっと知ってほしい」と訴えるユーザーも多数見られた。 そんな中、地図や地図データベースを手掛けるゼンリンもこの話題に反応。そこで住所の表記揺れを直すのがどのくらい難しいのか、またどうすれば解決できるのか。ゼンリンに話を聞いた。 表記ゆれの“ワナ”はいくらでも そもそも住所の表記揺れとは「誤字ではないが、同じ意味、同じ読み方であるに

                                                  ヤバいと話題の“日本の住所表記” 何がそんなに大変? ゼンリンに聞いた
                                                • 5年間やってわかった、BtoBマーケターがやるべき仕事の全体感|富家 翔平(Shohei Fuke)

                                                  富家(ふけ)と申します。 いつもお世話になっているみなさん、ありがとうございます。 BtoBマーケティングに関わる仕事をさせていただくようになって、2023年で6年目を迎えました。たくさんの人に支えられて、なんとかここまでやってこれました。 3人でスタートしたマーケティングチームが、5人…10人…30人…と人数が増え、やがて部となり、メンバーを持たせもらうようになりました。私個人としても1つのサービスのマーケティング担当者からスタートし、事業全体、全社マーケ…と、マーケターとして少しずつ見させてもらう範囲も広がってきました。 まだまだまだまだ……諸先輩方には遠く及ばない未熟者ですが、すべてが手探りだったあの頃から今をふりかえって、これまでの経験や学んできたことをnoteにまとめてお伝えしたい!少しでもみなさんの仕事につながるひらめきのヒントになれば…とキーボードをたたき始めました。 という

                                                    5年間やってわかった、BtoBマーケターがやるべき仕事の全体感|富家 翔平(Shohei Fuke)
                                                  • 地下アイドル間の関連性をネットワークとして分析したり楽曲派を可視化したりしてみた話 - 蛇ノ目の記

                                                    地下アイドルアドベントカレンダー 12/16の記事です。メリークリスマス。 12/16の記事です。 12/16の( adventar.org 前回の更新から8ヶ月以上が経ってしまった。更新をサボっている間に名古屋に行ったり、大阪に行ったり、福島に行ったり、名古屋に行ったり、大阪に行ったり、名古屋に行ったり、名古屋に行ったり、大阪に行ったり、名古屋に行ったりしていた。さて今年は何回名古屋に遠征したでしょうか。名古屋は近所わかる。 アイドル現場まとめは、"その月に行った現場のまとめ"に留めないと持続可能性が低いと痛感。感想などを細かく書いていくとコストが大きくなりすぎてしまう。来年からはもっと簡素にまとめたい。 それでは本題始まります。 概要 Spotify Web APIを用いて「関連アーティスト(アプリ上では"ファンの間で人気"と表示される)」を取得し、地下アイドルの関連アーティストネット

                                                      地下アイドル間の関連性をネットワークとして分析したり楽曲派を可視化したりしてみた話 - 蛇ノ目の記
                                                    • Wikipediaを元にした日本語の名寄せデータセットを作成しました - Sansan Tech Blog

                                                      こんにちは、DSOC 研究開発部の奥田です。以前の私のブログ記事ではコーギーの動画を見ていると書きましたが、とうとうコーギーを家族として迎え入れ、現在生後6ヶ月の子犬と暮らしております。 さて私たちDSOCでは、SansanやEightの価値を高めるために様々な自然言語処理のタスクに取り組んでおります。例えばニュース記事からの固有表現抽出では、私たちのサービスに特化した固有表現を対象に研究開発しています。その他にも様々あるなかで、特に重要かつ困難とされているものの一つに「名寄せ」というタスクがあります。AIや人工知能と呼ばれるものが発達した現代においても、人間には当たり前にできるタスクが機械には難しいことがまだまだ存在します。 今回は、その「名寄せ」というタスクにおける日本語でのデータセットを作成してみました。これをきっかけに、日本語での名寄せというタスクの研究が進み分野が活性化することを

                                                        Wikipediaを元にした日本語の名寄せデータセットを作成しました - Sansan Tech Blog
                                                      • 第3回 見たことも、聞いたこともない本を見つけるワザ――件名の本当の使い方 | 皓星社(こうせいしゃ) 図書出版とデータベース

                                                        小林昌樹(図書館情報学研究者) ■「未知文献」を見つける方法がある 見たことも、聞いたこともない本を見つけるなんてことはできるだろうか? そんなことはできないからこそ、本好きは毎日、本屋へ寄ったり、図書館の中をぶらついたりするのではなかったか。学者だって見たことも聞いたこともない本を見つけることはできない。 しかし、あるのだ、そんなワザが――そんなバカなと思うだろうけれど、本当である。というか、アメリカの司書は誰でもこれができる。できるからこそ、司書はアメリカで、学者に準ずる専門家として認知されたのだ。 ○本の中身をコトバに 見たことも、聞いたこともない本とはどんな本だろう。それは、見たことも、聞いたこともないけれど、自分が欲しい、読みたい本のことだろう(図書館学では「未知文献」と呼んだもの)。では自分が読みたいとは何か? こういった感じの本、こういったことがらについての本ということになる

                                                          第3回 見たことも、聞いたこともない本を見つけるワザ――件名の本当の使い方 | 皓星社(こうせいしゃ) 図書出版とデータベース
                                                        • BI/ダッシュボード導入を成功に導くための5つのポイント - Qiita

                                                          ビジネスの現状を把握し、さらにモニターし続けるためにダッシュボードなどを使ったBI(ビジネス・インテリジェンス)の仕組みを社内に導入したものの、社内ではあまり活用されていない、またはプロジェクトが途中で終わってしまったといった話をよく聞きます。 そこで、こちらの記事ではBI導入やダッシュボード作成プロジェクトを進めるときにぶつかることの多い問題、さらには、そうした問題を乗り越えてプロジェクトを成功に導くための5つのポイントを紹介します。 1. データの加工 ダッシュボードの作成プロジェクトに関わるタスクを考えると、真っ先に思い浮かぶのは、ダッシュボードに、どのようなチャートを入れるのかや、そのレイアウトをどうするかといったことです。 しかし、ダッシュボードの作成に関わるタスクを紐解くと、ほとんどの業務はダッシュボードに入れるチャートの作成にかかる時間ということになります。また、チャートの作

                                                            BI/ダッシュボード導入を成功に導くための5つのポイント - Qiita
                                                          • 名前のヨミガナというパンドラの箱が開きかかっている|たまにメモする人

                                                            氏名のヨミガナが話題になっています。漢字氏名問題が解決し、パンドラの箱と言われていた氏名のヨミガナについての検討が始まっています。ヨミガナ問題は、漢字6万文字に対してヨミガナは50文字しかないのに非常に難しい問題として氏名問題に関わる人に語り継がれてきました。 なぜなら、氏名のヨミガナは、普段の生活で普通に使われるのに、戸籍にも住民票にも載っていない法的根拠のない本人による名のりに近いものだからです。 フリガナって言えよ!皆さん、フリガナって一般にいいますよね。これは漢字の上に振ることが多いので「フリガナ」と一般に呼ばれています。名簿で漢字の横に書かれることもありますし、正確にはヨミガナといいます。また、ヨミガナには、「ヨミガナ」、「よみがな」「読みがな」「読み仮名」等のいろんな表現がありますが、「ヨミガナ」が多い気がします。これは外国人氏名も書く場合があるので、自然とそうなっているのでは

                                                              名前のヨミガナというパンドラの箱が開きかかっている|たまにメモする人
                                                            • Sign in with Apple の特徴分析 (1) - OAuth.jp

                                                              前記事 で書いたように、ここ数日 Sign in with Apple 用の RubyGem 作りながら、Sign in with Apple の特徴というか、他の IdP との違いみたいなところいろいろ調査したので、現時点での Sign in with Apple に対する雑感をまとめておきます。 Client ID と Team ID および App ID との関係 個人として Apple Developer Account 使ったことしかないんで、会社として Developer 登録してる時の Team の扱いとかよくわかってないんですが、Apple Developer Account 登録すると Team ID ってのが割り振られます。個人だと 1 Developer Account に 1 Team ID。 この1つの Team ID の下に、複数の子 App ID が登録可能で

                                                              • 河村たかしと高須克弥の「点と線」(1) 「知りすぎた男」佐橋雅元さんのこと - illegal function call in 1980s

                                                                公開当時の古い論考です。論考プロセス自体をそのままの形で残すことに意味があると考え、そのままの形で再公開します(2021/4/27)。 河村たかしと高須克弥の「点と線」第1回ご報告です。 名古屋市公報、平成22年8月27日に、22hongou873.pdfというファイルがあります(自己解凍形式です)。ここに「名古屋市議会解散請求代表者証明書の交付について」(名古屋市選挙管理委員会告示第9号)というのがあります。 愛知県公報、令和2年8月25日に、132-1.pdfというファイルがあります。ここに「第132別号1 愛知県知事解職請求代表者証明書の交付」(愛知県選挙管理委員会告示第23号「愛知県知事大村秀章解職請求代表者証明書を交付」云々)というのがあります。 簡易な名寄せを行いました。 結果、この2つの公報に共通するお名前として「藤澤豊治」さん、ならびに「佐橋雅元」さん、という方がいらっしゃ

                                                                  河村たかしと高須克弥の「点と線」(1) 「知りすぎた男」佐橋雅元さんのこと - illegal function call in 1980s
                                                                • 勤怠打刻をmacアドレス検知方式に変えた話 - Qiita

                                                                  概要 今働いている会社では勤怠管理システムに自社開発製のrailsアプリケーションを使っています。 出入り口にfelicaにて打刻可能なPC端末を置いているので社員はそれにカードを出退勤の時間にピッとやります。 そこで取得した出退勤データを定期的に勤怠管理システムへ投げてるわけですが、打刻可能なPC端末が壊れました( ´ ▽ ` ) 一応ブラウザからなら勤怠管理システムから打刻できますが、さすがにめんどくさいし、不満がめちゃ出たので何かしら対策が必要ということで、別の方法を提案。 ローカルネットワークのMacアドレス検知する。 社内にある何かしらの端末で下記で作成したシェルをバッチで実行し、同一ローカルネットワークのmacアドレスと最初の接続時刻と最終接続時刻をCSVに書き込んでいきます。 attendance_list$DATE.csv ・・・ 出力結果を保存するCSV member_l

                                                                    勤怠打刻をmacアドレス検知方式に変えた話 - Qiita
                                                                  • 富士通、化学構造式で検索できる特許検索サービス発売 「5日かかった検索業務を1日で」

                                                                    富士通は9月8日、化学や金属、電気分野などの特許を検索できるサービス「FUJITSU Digital Laboratory Platform SCIDOCSS」の提供を、化学メーカーなど向けに始めた。数十行の文章や化学構造式でも検索でき、AIが名寄せ処理などをしつつ、関連度順に検索結果を表示する。実証実験では、従来5日かかった文書の検索業務が1日に短縮できたという。 化学メーカーなどが新材料開発時にアイデア発掘のために行っている、特許関連の文書検索を効率化するサービス。 同社の自然言語処理技術と、関連性を基に化学知識を連結したグラフ構造で管理するデータベースを活用した。キーワードで検索する際、AIが化合物の名称や通称の違いを名寄せしつつ、関連性が高く、重要度の高い情報から順に検索結果として表示する。 数十行の文章検索や、複数の名称がある化合物の検索にも対応した。キーワード検索と化学構造式で

                                                                      富士通、化学構造式で検索できる特許検索サービス発売 「5日かかった検索業務を1日で」
                                                                    • TIS、自然言語処理で企業名認識を行うための辞書「JCLdic」を無償公開

                                                                      TIS、自然言語処理で企業名認識を行うための辞書「JCLdic」を無償公開企業名のカバレッジ範囲が高い辞書で、自然言語処理など多様なシーンでの活用を目指す TISインテックグループのTIS株式会社(本社:東京都新宿区、代表取締役会長兼社長:桑野 徹、以下:TIS)は、自然言語処理で企業名認識を行うための辞書「JCLdic」(日本会社名辞書)を無償公開し、辞書を生成するコードをオープンソースソフトウェア(OSS)として公開することを発表します。 ・「JCLdic」公開ページ:https://github.com/chakki-works/Japanese-Company-Lexicon (利用は上記のページからダウンロード) 「JCLdic」は800万以上の企業名を収録している企業名辞書です。国税庁が公開している法人情報(2019年12月27日まで)の商号に対して、別名生成手法を適用してTI

                                                                        TIS、自然言語処理で企業名認識を行うための辞書「JCLdic」を無償公開
                                                                      • 【エンジニア向け】医療データの種別を超解説 Vol.1 〜保険者データ編〜 - JMDC TECH BLOG

                                                                        データウェアハウス開発部の杉山です。 医療ビッグデータ事業を展開するJMDCでは、様々な医療データを取り扱い、価値創出へとつなげています。医療データと言っても、その種類や役割は実に幅広く、多岐にわたっています。 私たちはどんな医療データを扱っているのか。今回はその中でもJMDCのデータ事業の代名詞とも言える「保険者データ(レセプトデータ等)」に焦点を当てて、分かりやすく解説していきたいと思います。 プロフィール 杉山 岳史(すぎやま たけふみ) 株式会社JMDC データウェアハウス開発部 保険者基盤グループ マネージャー(執筆当時) 新卒で入社した情報システム会社で、SI事業を一通り経験。2018年8月にJMDCに転職し、データウェアハウス開発部に配属後、レセプト取り込みシステムを担当。現在は保険者基盤グループのマネージャーとして、保険者データ基盤の構築・管理を担当。 事業の原点は、紙レセ

                                                                          【エンジニア向け】医療データの種別を超解説 Vol.1 〜保険者データ編〜 - JMDC TECH BLOG
                                                                        • マルチステークホルダー時代の障害対応フロー - BASEプロダクトチームブログ

                                                                          こんにちは!BASE株式会社 上級執行役員の藤川です。今年からTech DepartmentというBASE社の開発の成功や情報システム、セキュリティ等に責任を持つチームを運営しています。 システム障害はWebサービスを自社運用する企業にとって最重要な問題であり、サービス改善のきっかけになることも多々あります。ただ単に目の前の問題を場当たり的に解決するだけでなく、再現性を減らすために体制やシステム投資の見直しなどにもつながるきっかけになるものなので、そこで起きている本質的、潜在的な課題を見つけ出すことも障害対応の重要なミッションです。 また事件は現場で起きているわけで、障害要因となるものは、何もバグやシステム設定の不足や不備などに基づくものだけではありません。インターネットの世界が日常的に変化しているので、外乱としての障害要因も多々存在し、これらの問題と常に戦っています。 そういう不確実な状

                                                                            マルチステークホルダー時代の障害対応フロー - BASEプロダクトチームブログ
                                                                          • がんばらないDBaaSの作り方 - KADOKAWA Connected Engineering Blog

                                                                            はじめに はじめまして、KCS部のmaruです。KCS部では、部長といくつかのサービスのオーナーをやっています。 KCS部は、KADOKAWAグループ向けプライベートクラウド(以下KCS)を提供しており、私がオーナーをしているサービスにはDataBase as a Service(以下DBaaS)があります。 主な利用者は株式会社ドワンゴがサービスを提供している『niconico』です。 今回はKCSが提供しているDBaaSについて、いかに頑張らないで運用できるようにしているかについて投稿します。 規模で見るKCS DBaaS KCSが現在提供しているDBaaSは下記の3つです。 KCS RDB基盤 for MySQL バージョン:MySQL 5.7系 MySQL数(概算):450 masterの総データ量(概算):3TB KCS Cache基盤 for Redis*1 バージョン:Red

                                                                              がんばらないDBaaSの作り方 - KADOKAWA Connected Engineering Blog
                                                                            • 全社横断データ基盤へdbt導入を進めている話 - Sansan Tech Blog

                                                                              こんにちは。研究開発部 Architectグループの中村です。 本記事は Sansan Advent Calendar 2023 の16日目の記事です。 今回は、私達のチームで開発&運用している全社横断データ分析基盤のデータレイヤの再設計、及びdbtの導入を進めているという事例について紹介します。 既存のデータ基盤に対して、dbtの導入を検討されている方の参考になれば幸いです。 (本稿ではdbtとはについては触れませんので、ご了承ください) TL;DR 歴史的経緯 全社横断データ基盤が生まれる前 全社横断データ基盤 立ち上げ期 課題 立ち上げ期に作られたデータマートがカオスに・・・ 課題の解決に向けて データレイヤの再設計 Transformツールの選定 dbtへの移行戦略 その他dbt移行におけるTips チームでの開発の標準化 Cosmosの導入検証 データカタログのホスティング まと

                                                                                全社横断データ基盤へdbt導入を進めている話 - Sansan Tech Blog
                                                                              • プライバシーフリーク、就活サイト「内定辞退予測」で揺れる“個人スコア社会”到来の法的問題に斬り込む!――プライバシーフリーク・カフェ(PFC)前編 #イベントレポート #完全版

                                                                                2019年9月9日(月)に一橋講堂で一般財団法人情報法制研究所主催の「第2回JILIS情報法セミナー in 東京」が開催された。 学生の就職活動(就活)を支援する大手企業が、行動履歴などを人工知能(AI)で分析し、5段階にスコア化した「内定辞退予測」を一部本人に無断で企業に販売していたことが広く報道され、社会的に問題となった他、行動履歴などを分析し販売する「信用スコア」を問題視する声も聞かれていた。 本稿は、本セミナーの冒頭で行われた4人の有識者による討論(プライバシーフリーク・カフェ)の模様をお伝えする。 内定辞退予測スコア 山本一郎(以降、山本) われわれは「プライバシーフリーク・カフェ(PFC)」という名称で5年にわたって活動しております。情報法と社会についてのいろいろなお話を、主に新潟大学の鈴木正朝先生、高木浩光先生、そして板倉陽一郎先生と私山本一郎の4人でやらせていただいているも

                                                                                  プライバシーフリーク、就活サイト「内定辞退予測」で揺れる“個人スコア社会”到来の法的問題に斬り込む!――プライバシーフリーク・カフェ(PFC)前編 #イベントレポート #完全版
                                                                                • はてなブックマーク3万件にみる技術トレンド2020年まとめ - Qiita

                                                                                  tl;dr 2020年1年間のはてなブックマークの人気エントリー3万件をもとに技術トレンドを分析。 その結論とPythonでグラフ化した手順を書き記します。 ※ご指摘がありましたが、技術トレンドというよりitニューストレンドと言った方が正しいかもしれません。踏まえてお読みください。 前置き 手元に2020年の1年間ではてなブックマークの技術カテゴリーにおいて人気エントリーに一度でも乗ったことのある記事のタイトルデータが3万件ほどあったため、形態素解析を行い単語の出現頻度順に並べてみました。欠損の割合としては多くても1割程度、つまり少なくとも9割程度のデータは揃っているはずなので精度はかなり高いと思います。 (※はてなブックマークはNewsPicksみたくインターネット上の記事をブックマーク・コメントでき、より多くブックマークされた記事が人気エントリーとしてピックアップされるサービスです。w

                                                                                    はてなブックマーク3万件にみる技術トレンド2020年まとめ - Qiita