並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 27 件 / 27件

新着順 人気順

正規化の検索結果1 - 27 件 / 27件

  • とにかく日本の住所のヤバさをもっと知るべきだと思います|inuro

    「住所の揺らぎ程度のことにAIを使いたいだとかデジタル音痴」だの「住所の正規化なんてExcelで2時間あれば作れそう」だの、たいへんフットワークの軽やかな言説の数々に、位置情報界隈のみならず住所の正規化や名寄せに少しでも関わったことのあるエンジニアが総立ちでマサカリを投げていたのも記憶に新しい今日この頃ですが(2023年6月6日)、この手の騒動は周期的に起こってる印象です。 ということはつまり いつまで経っても解消されない、解決が困難な課題である その困難さが界隈以外に共有されていない であるわけで、その都度Twitterにトリビアが投下されてはTLが賑わい華やかではありますが、そろそろ自分の整理としてもどれだけ日本の住所システムがカオスで、その計算機的な処理がいかに困難かをメモっておこうかと思いました。 なおこの件については既にQiitaにGeoloniaの宮内さんが鼻血の出そうな良エン

      とにかく日本の住所のヤバさをもっと知るべきだと思います|inuro
    • 経産省発の npm モジュール!住所や電話番号の正規化、ジオコーディングなどができる IMI コンポーネントツールを試した!

      経産省発の npm モジュール!住所や電話番号の正規化、ジオコーディングなどができる IMI コンポーネントツールを試した! Code for Japan の関さんが SNS でシェアしてて知ったのですが、経産省さんがなにやらオープンソースで住所や電話番号の正規化などなどをするツールを公開したとのこと。 https://info.gbiz.go.jp/tools/imi_tools/ 経産省が住所変換や法人種別名、電話番号の正規化に使えるIMIコンポーネントツールを公開しました。 ソースコードも公開。README にも使い方が丁寧に書かれていました。https://t.co/fPbV00EgZP 素晴らしい動き。こういう... #NewsPicks https://t.co/bew0qGKMFE — Hal Seki (@hal_sk) May 28, 2020 ぶっちゃけ当初はあまり期待

        経産省発の npm モジュール!住所や電話番号の正規化、ジオコーディングなどができる IMI コンポーネントツールを試した!
      • 日本の住所の正規化に本気で取り組んでみたら大変すぎて鼻血が出た。 - Qiita

        先日、弊社では Community Geocoder というサービスをリリースしました。 Community Geocoder 紹介記事 さて、このジオコーダーは、住所を正規化してそれを「大字町丁目コード」という12桁の数字に変換し、そのコードをファイル名として GitHub ページ上に大量においた JSON ファイルにアクセスして緯度経度を取得するということをやっています。 つまり、住所の正規化からコードに変換する部分がとても重要で、そもそも正規化に失敗してしまうとどうしようもないという仕様なんです。 さいわい先日経産省が公開した IMI コンポーネントツール である程度のことをやってくれるのですが(というかそうであることを期待したのですが)、いろいろ調べ始めると住所という仕組みはほんとに複雑で、Facebook で絡んでくださった @hfu さんいわくまさに「自然言語処理そのもの」であ

          日本の住所の正規化に本気で取り組んでみたら大変すぎて鼻血が出た。 - Qiita
        • 文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!|ハイクラス転職・求人情報サイト AMBI(アンビ)

          文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう! 文字コードには、どのような種類があり、それぞれどのような意味を持つのか、といった、文字コードの基本的な概念、従来の文字コードを紹介し、現在のUnicodeの構成を概説し、プログラミングにおいて注意すべき箇所をいくつか取り上げます。 ソフトウェア開発に携わる方の多くは、何らかの形で文字コードに触れることがあるでしょう。文字や記号をコンピュータ上でデータとして扱うには、文字コードの知識が必要不可欠です。 本稿では、書籍『プログラマのための文字コード技術入門』の著者である矢野啓介さんが、知っておきたい基礎知識を分かりやすく解説します。 文字コードとは? Unicode以前の文字コード Unicodeとその主な符号化形式 UTF-16 UTF-32 UTF-8 Webで文字コードを指定する仕組み

            文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!|ハイクラス転職・求人情報サイト AMBI(アンビ)
          • 住所の正規化は沼である。

            杉原航太 @kota_sugihara 河野太郎がマイナンバーカードの住所照合についてデジタル音痴ぶりを如何なく発揮した件 河野大臣『問題は住所が「港区赤坂一丁目2の3」と書く人もいれば、「港区赤坂1-2-3」と書く人もいる…(中略)将来的にはAIの技術を使って表記揺れを判断することがあり得るかもしれない。』… twitter.com/i/web/status/1… pic.twitter.com/aF2jzwtBkN 2023-06-04 22:44:10

              住所の正規化は沼である。
            • 「とにかく日本の住所のヤバさをもっと知るべきだと思います」に、住所正規化コンバータはどこまで応えられるのか、やってみた - ジャスミンソフト日記

              note.com を読みました。私自身も日本の住所の扱いを何とかしないと業務アプリケーションの運用に支障が出ると感じ、2003年に「住所正規化コンバータ」というソフトウェアをリリースし、20年が経過しました。現在は国際航業株式会社様に取り扱っていただいています。 www.kkc.co.jp このブログにあるような指摘にどこまで応えられただろうかということで、社内で試してみました。利用したバージョンは最新の R7.2.0 で、住所マスタは2022年秋版と組み合わせました。その結果を公開します。 住居表示 丁目表記と地番表記の混在に対応しています。 浦安市舞浜2-1-1 郵便番号 都道府県 市区町村 町域 小字・丁目 番地・号 マッチレベル 2790031 千葉県 浦安市 舞浜 2 1-1 号レベル 浦安市舞浜2-11 郵便番号 都道府県 市区町村 町域 小字・丁目 番地・号 マッチレベル 2

                「とにかく日本の住所のヤバさをもっと知るべきだと思います」に、住所正規化コンバータはどこまで応えられるのか、やってみた - ジャスミンソフト日記
              • 【入門】データベース設計まとめ - Qiita

                はじめに 今回はデータベース設計について学び直したので内容をまとめていきます。 自分は2021年に新卒でWeb系の開発会社にフロントエンジニアとして入社し2022年で2年目になります。 実務ではNext.js×TypeScriptを利用したフロントの開発をメインで行っています。 直近の開発案件でRailsを使ったサーバーサイドの開発を担当することになり、DB設計を触ったのですが体系的な理解をしていなかったので苦戦をしました。 実装はできたものの、データベース設計を「なんとなくの理解」で終わらせないように、体系的に学び直しました。 データベース設計の学習に関しては下記の書籍を参考に進めました。 スッキリわかるSQL入門 達人に学ぶDB設計 徹底指南書 対象者 データベース設計について基礎から学びたい人 何となくデータベースの設計をしている人 正規化について学びたい人 データベースとDBMS

                  【入門】データベース設計まとめ - Qiita
                • 住所正規化のデモ機能を作ったので、日本のヤバい住所を入力してみた

                  はじめに 数か月ほど前、住所の正規化が話題になりました。こちらの記事が特に有名ですね。 関連して、こちらの記事も話題になりました。 当時はほかにも色々な人が日本のヤバい住所の例をあげてくれて、とても楽しかったです。 実は弊社でもAddressianという住所正規化サービスを提供しています。初めて目にする変わった住所を見かけたら、とりあえず自社のAPIに投げてみて「おお、正規化できた」「すごい!」などといいながら遊んで働いています。 サービスは無料で利用できますが、今までは利用の手順が面倒でした。 ユーザー登録する APIキーを発行する 住所正規化APIを呼び出すプログラムを用意する(サンプルコードあり) プログラムを実行して住所を正規化する そこで、もっと気軽に住所正規化を試してもらえるように、ユーザー登録しなくても使えるデモ機能を作ってみました。 デモ機能の概要 住所正規化デモ画面 こち

                    住所正規化のデモ機能を作ったので、日本のヤバい住所を入力してみた
                  • Python で Unicode 正規化 NFC/NFD の文字列を扱う - forest book

                    先日、ビジネスパーソン向けの Python 本を執筆したことを書きました。 t2y.hatenablog.jp 本稿では本書のことを「できるPy」と呼びます。 Amazon でいくつかカスタマーレビューもいただいて次のコメントをみつけました。 python3.7 対応ということで、pathlib を使ってる点が(古いpython は切り捨てる!的なところは)潔いと言えば潔いし、日本語のファイル名にも気を配っている記述はオライリーに期待するのは酷なところもある。でもこの本でもNFD問題は全くの記述無し。だめだろ、それじゃ。 Amazon CAPTCHA まさに仰る通りです。執筆時にそのことに気づかずご指摘いただいてありがとうございます。 ここでご指摘されている NFD 問題というのは、ファイル名のみに限った問題ではなく、Unicode の文字集合を扱ってエンコード/デコードするときに発生する

                      Python で Unicode 正規化 NFC/NFD の文字列を扱う - forest book
                    • IMI 情報共有基盤 コンポーネントツール

                      URLが「https://」で始まるサイトは、セキュリティ確保のためSSL(Secure Sockets Layer)技術を利用しています。当サイトを利用の際には、SSL技術対応のブラウザをご利用ください。

                      • 「日本の住所のヤバさ」知れ渡る 正規化・名寄せ問題、Twitterトレンドに

                        「日本の住所のヤバさ」が6月7日朝にTwitterトレンドになっている。住所表記の正規化・名寄せがいかに難しいかを解説した、inuroさんのnote記事「とにかく日本の住所のヤバさをもっと知るべきだと思います」がバズっているためだ。 6月4日のテレビ番組で、マイナンバーカードに記載される住所をめぐり、河野太郎デジタル大臣が「将来的にはAIの技術を使って住所の表記揺れを判断することがあり得るかもしれない」と発言し、住所の正規化についてネットで議論になっていたことがきっかけだ。 記事は、「日本の住所システムがカオスで、その計算機的な処理がいかに困難か」を解説する内容だ。 まず、日本にはそもそも、新旧の2つの住所システム(A町1丁目3番2号/A町1234番地)が併存しており、例えば、「浦安市舞浜2」の住所が「舞浜2丁目」「舞浜2番地」の2系統あるケースを紹介。 さらに、まったく同じ住所表記が異な

                          「日本の住所のヤバさ」知れ渡る 正規化・名寄せ問題、Twitterトレンドに
                        • 10万冊近いマンガのタイトルから巻数を取得する関数、巻数関数を作ったら思ったよりかなり大変だった話 - Qiita

                          マンガのタイトルから巻数を取得したい 自作サービスでマンガのタイトルから巻数を取りたくなった。マンガのタイトルで、巻数は何処に書いてあるか?例えば集英社の「HUNTER×HUNTER 1」。見ての通り最後に1と書いてある。つまりタイトルの最後に書かれている数字を取得すれば巻数が取れそうだ。ただし、出版社によってルールは若干違い、小学館は「名探偵コナン 1」、講談社は「はじめの一歩(1)」、秋田書店は「ドカベン 第1巻」だ。 区切り文字の後の文字列から数字を抜き取ったものが巻数 ただ、巻数は何文字か分からない。それよりもタイトルと巻数の間に、空白や括弧のような区切り文字がある。出版社に合わせて、タイトルと巻数の区切り文字の後の文字列を取得すると、集英社と小学館は「1」、講談社は「1)」、秋田書店は「第1巻」という文字列が取れる。この文字列から正規表現などで数字だけを抜き取るようにすると無事タ

                            10万冊近いマンガのタイトルから巻数を取得する関数、巻数関数を作ったら思ったよりかなり大変だった話 - Qiita
                          • WebAPIで住所の正規化処理、「住所クレンジングサービス」をインクリメントPが開始

                              WebAPIで住所の正規化処理、「住所クレンジングサービス」をインクリメントPが開始 
                            • 住所検索開発者が教える、知っておきたい日本の住所の話(第1回)|NAVITIME_Tech

                              こんにちは、見習いスパルタ人1号です。ナビタイムジャパンでPOI検索基盤を担当しています。得意な検索は住所検索、好きな検索は駅検索です。 経済産業省が IMI 情報共有基盤 コンポーネントツール を公開して大きな話題となっていますね。その中でも、住所の正規化については多くの方が興味を持っておられるようです。 ナビタイムジャパンではサービスの一環として住所検索を提供していますが、今回は「計算機で住所を扱うエンジニアに知っておいてほしい住所の基礎知識」についてお話したいと思います。正規化の話よりは、仕様レベルでの間違いを防ぐための一助となれば幸いです。 君は住所をどれだけ知っているか? 読者の皆様は、日本の住所についてどれだけのパターンがあるかご存知でしょうか? 運送業などの住所に強く関連する仕事をしていないのであれば、実家や自宅、会社の住所くらいしかパターンが分からない方も多いのではないでし

                                住所検索開発者が教える、知っておきたい日本の住所の話(第1回)|NAVITIME_Tech
                              • GitHub - jeresig/node-romaji-name: Normalize and fix common issues with Romaji-based Japanese names.

                                This is a utility primarily designed for consuming, parsing, and correcting Japanese names written in rōmaji using proper Hepburn romanization form. Beyond fixing common problems with Japanese names written with rōmaji, it's also able to do a number of amazing things: It's able to figure out which part of the name is the surname and which is the given name and correct the order, if need be (using

                                  GitHub - jeresig/node-romaji-name: Normalize and fix common issues with Romaji-based Japanese names.
                                • 【DB設計】現場で使う正規化崩しのパターン - Qiita

                                  本記事の目的 「テーブル設計、ほんとにこれがベストなのかな...?」 と思うことありますよね。シンプルなテーブル構造だと普通に正規化すれば問題なく運用できるんですが、ビジネスルールが複雑だったりするとあえて正規化を崩した設計を行うこともあります。ですが、「正規化を崩して何が嬉しいのか?」を論理的に考え、メリット・デメリットを考慮することによって、うまくトレードオフスライダーを調整することができるようになります。本記事では正規化も含めて、それぞれの正規化崩しがどのような目的のもと行われるのかを整理してみました。(なので、RAIDなどの物理設計は割愛します。) 正規化の功罪 そもそも、なぜ正規化崩しをやらないといけないのか?というと、、、 「正規化は、データ整合性を担保するためにパフォーマンスを犠牲にするから」です。 特に、多数の結合を必要とする検索のパフォーマンスがネックになることが多いです

                                    【DB設計】現場で使う正規化崩しのパターン - Qiita
                                  • データベースの正規化(第1〜第3正規形) - Wiz テックブログ

                                    こんにちは!バックエンドエンジニアの小室です。 先日、4月から入社予定の方に向け「データベース設計」について研修を行いました。 その中でもメイントピックであった「正規化」について改めてまとめてみました。 さっそくですが、データベースにおける正規化とは、 データベースで保持するデータの冗長性を排除し、 一貫性と効率性を確保するためのデータ形式へ変換することを指します。 一般的に第3正規形までで十分とされているため第3正規形までを取り上げます。 第1正規形 テーブルの行と列が交わる1つマスを「セル」と呼ぶことにします。 第1正規形の定義は「1つのセルには1つの値しか含まれない」です。 社員テーブル このように1つのセルに1つの値が含まれているとき、この値を「スカラ値」と言います。 社員テーブル(非正規形) 上のようなテーブルがあった場合、1人の社員は複数の子を養っているので、このように表現した

                                      データベースの正規化(第1〜第3正規形) - Wiz テックブログ
                                    • 【DB】第一正規形~第五正規形までを図解 | bbh

                                      正規化について 正規化とは、外部スキーマで定義したデータをDB上で効率的に管理するために整理、分割をする作業のことを指します。 この正規化には、第一正規化~第五正規化とボイスコッド正規化が存在します。 ただし、一般的に使われるのは、第一正規化~第三正規化までのことが多いです。 では、第一正規化から順番に見ていきます。 第一正規化 第一正規化は、一つのカラムに一つの値のみを持っている状態にすることを指します。 例えば、以下のようなテーブルが存在するとしましょう。 このテーブルは、注文に対して複数の商品が紐づいています。 これは概念的には間違っているようには見えません。 実際に注文には複数の商品が紐づくことがあります。 この構造の問題は、それをデータベースで表現することができない点です。 データベースでは、一つの値を配列にしたり、入れ子構造にしたりすることができません。 もし、データベースでこ

                                      • エンジニアHubにて「文字コード再入門─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!」公開 - yanok.net

                                        「エンジニアHub」にて記事を執筆しました。「文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!」として公開されています。 若手エンジニア向けのWebメディアとのことで、プログラミング上の注意点にフォーカスした内容になっています。コード例にはJava, Python, Rubyを用いています。 拙著をすでにお読みの方には復習となる内容ですが、まだの方はこの機会に是非お読みいただければと思います。記事の最後に拙著『[改訂新版]プログラマのための文字コード技術入門 (WEB+DB PRESS plusシリーズ)』の版元へのリンクも設定されていますので、興味を持たれた方には書籍の方もお読みいただければ幸いです。 当記事編集担当の方には「とても品質の高い記事」とのことで感謝のお言葉をいただきました。読者のお役に立つことを願っています。

                                        • SudachiPy による自然言語処理の正規化|npaka

                                          「SudachiPy」による自然言語処理の「正規化」についてまとめました。 1. SudachiPy「SudachiPy」はワークス徳島人工知能NLP研究所が開発している形態素解析器「Sudachi」のPython版です。 2. 正規化「正規化」とは、同じ意味の単語を統一的な内部表現に変換することで、テキストの比較を容易にする処理です。これによって、全角の「ネコ」や半角の「ネコ」やひらがなの「ねこ」を同じ単語として処理できるようになります。 「Sudachi」では、この「正規化」の機能が提供されています。 3. Sudachiの単語の正規化「Sudachi」の、以下のような単語の正規化を提供します。 (1) 送り違い : 【例】打込む → 打ち込む (2) 字種 : 【例】かつ丼 → カツ丼 (3) 異体字 : 【例】附属 → 付属 (4) 誤用 : 【例】シュミレーション → シミュレー

                                            SudachiPy による自然言語処理の正規化|npaka
                                          • NFD→NFC変換ツール

                                            ※濁点や半濁点が別(U+3099,U+309A)の合成文字を単体の文字に変換するツール。 詳しくはこちらを参照。【変換したいテキスト】 【変換後のテキスト】

                                            • Long Short Term Memory Network

                                              自然言語データや時系列データは入力変数の中に系列依存関係の複雑さをもつので、このような系列依存データを用いた推論や予測問題は機械学習問題の中でも困難なもので、画像識別や物体検出問題よりも一段と複雑な課題になります。 時系列データの代表例として想定できるものは、電波、音声波形、株価指数、為替レート、気温変化などです。通念では時系列データとして想定されないものとして、文章(単語列)などがあります。電波の波形なら一定の時間間隔でのサンプル値になりますし、文章なら単語を前から並べたときの番号になります。文章生成ならば、今までの単語列を入力として、もっともらしい次の単語を予測することが課題となります。正しい文章(the monkey ate the apple)を繰り返しLSTMに覚えさせる(重みベクトルを更新する)ことで、"monkey"の後に"ate"が来るようなルールを学習することができます。

                                              • canonicalタグとは?正しい設定・記述方法について|キーワードファインダー

                                                canonicalタグを有効活用していますか? この“canonical”とは、htmlファイルの<head>内に記述することでURLの正規化を目的とするもので、SEOにはぜひ知っておきたい重要なタグのうちのひとつです。 特に記事数が多い大規模サイトを管理している場合は、似たようなテーマ・コンテンツでインデックスされているとサイト全体の価値が下がります。 それ以外にも、“www”や、URL末尾に付く“/index.html(php)”などのあり・なしといった複数のURLからアクセスできてしまう場合も正規化が必要となります。 こういった類似するページの評価を統一して、正しく評価してもらうためにも、ページごとにしっかりと対策キーワードを選定することはもちろん、コンテンツの内容にもしっかりと気を使って作る必要があるわけです。 では今回は、このURLの正規化を意味する“canonicalタグ”の使

                                                  canonicalタグとは?正しい設定・記述方法について|キーワードファインダー
                                                • データベース設計入門#2 正規化|無駄のないテーブル設計とは?【日本一わかりやすくDB正規化を解説します】

                                                  データベース設計の入門講座です。DBの正規化について解説。無駄のないテーブル設計とは?【⏬もっと見る】→ ✅目次 ✅プロフィール・お仕事依頼✅関連動画✅サブチャンネル✅目次00:00 イントロ0:29 データベースの正規化とは?1:08 正規化のやり方2:03 正規化STEP1 横の繰り返しを正規化する2:5...

                                                    データベース設計入門#2 正規化|無駄のないテーブル設計とは?【日本一わかりやすくDB正規化を解説します】
                                                  • 日本の住所処理で鼻血を出さないために - Qiita

                                                    こちらの記事「日本の住所の正規化に本気で取り組んでみたら大変すぎて鼻血が出た。」を読み、実案件で住所を扱うシステムの構築・運用や住所を含むデータ分析など行っていた頃の思い出と重なり、もらい鼻血を出しそうになったので記事にしました。 色々書いていますが、要は特殊な地名に起因する辛さ以外にもこんなに大変なことがあるということです。 大変なので次の2点をまずは検討すると幸せになれるかもしれません、という記事です。 緯度経度への変換が必要ならまずはGoogleかYahooのAPIを検討 大量に処理する必要があるなら都道府県や市区町村などの粒度でサマライズし、個別の地点取得はなるべく避ける 前出の記事は住所コードへの突合を目的としている様子なので、私が経験したことのある案件、例えば会員ページで住所情報の入力を受けてDBへ格納するとか、データ分析案件で顧客データの住所フィールドで色々やるとかという場合

                                                      日本の住所処理で鼻血を出さないために - Qiita
                                                    • 日本の住所の正規化に本気で取り組んでみたら大変すぎて鼻血が出た。 - Qiita

                                                      先日、弊社では Community Geocoder というサービスをリリースしました。 Community Geocoder 紹介記事 さて、このジオコーダーは、住所を正規化してそれを「大字町丁目コード」という12桁の数字に変換し、そのコードをファイル名として GitHub ページ上に大量においた JSON ファイルにアクセスして緯度経度を取得するということをやっています。 つまり、住所の正規化からコードに変換する部分がとても重要で、そもそも正規化に失敗してしまうとどうしようもないという仕様なんです。 さいわい先日経産省が公開した IMI コンポーネントツール である程度のことをやってくれるのですが(というかそうであることを期待したのですが)、いろいろ調べ始めると住所という仕組みはほんとに複雑で、Facebook で絡んでくださった @hfu さんいわくまさに「自然言語処理そのもの」であ

                                                        日本の住所の正規化に本気で取り組んでみたら大変すぎて鼻血が出た。 - Qiita
                                                      • エクセル CHAR 関数:文字コードを文字に変換する

                                                        はじめに エクセルの CHAR 関数の使い方を紹介します。 CHAR 関数は文字コード (ANSI か JIS) を文字に変換します。 65 なら A に変換します。半角文字なら 0 ~ 255 の範囲を指定します。ANSI コードと同じ値です。 9250 なら あ に変換します。全角文字なら 0 ~ 約 38700 の範囲を指定します。JIS コード (ISO-2022-JP) と同じ値です。Shift_JIS とは別物です。 10 ならラインフィード (セル内の改行) 文字に変換します。 改行文字やタブ文字など特殊文字を入力できます。

                                                          エクセル CHAR 関数:文字コードを文字に変換する
                                                        1