正規化の人気記事 19件 - はてなブックマーク

1 - 19 件 / 19件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

正規化の検索結果1 - 19 件 / 19件

とにかく日本の住所のヤバさをもっと知るべきだと思います｜inuro
- 2608 users
- note.com/inuro
- 世の中
- 2023/06/07
「住所の揺らぎ程度のことにAIを使いたいだとかデジタル音痴」だの「住所の正規化なんてExcelで2時間あれば作れそう」だの、たいへんフットワークの軽やかな言説の数々に、位置情報界隈のみならず住所の正規化や名寄せに少しでも関わったことのあるエンジニアが総立ちでマサカリを投げていたのも記憶に新しい今日この頃ですが（2023年6月6日）、この手の騒動は周期的に起こってる印象です。ということはつまりいつまで経っても解消されない、解決が困難な課題であるその困難さが界隈以外に共有されていないであるわけで、その都度Twitterにトリビアが投下されてはTLが賑わい華やかではありますが、そろそろ自分の整理としてもどれだけ日本の住所システムがカオスで、その計算機的な処理がいかに困難かをメモっておこうかと思いました。なおこの件については既にQiitaにGeoloniaの宮内さんが鼻血の出そうな良エン
- 地図
- あとで読む
- 地理
- 日本
- 行政
- 住所
- 社会
- IT
- プログラミング
- map
経産省発の npm モジュール！住所や電話番号の正規化、ジオコーディングなどができる IMI コンポーネントツールを試した！
- 1325 users
- blog.geolonia.com
- テクノロジー
- 2020/05/29
経産省発の npm モジュール！住所や電話番号の正規化、ジオコーディングなどができる IMI コンポーネントツールを試した！ Code for Japan の関さんが SNS でシェアしてて知ったのですが、経産省さんがなにやらオープンソースで住所や電話番号の正規化などなどをするツールを公開したとのこと。 https://info.gbiz.go.jp/tools/imi_tools/ 経産省が住所変換や法人種別名、電話番号の正規化に使えるIMIコンポーネントツールを公開しました。ソースコードも公開。README にも使い方が丁寧に書かれていました。https://t.co/fPbV00EgZP 素晴らしい動き。こういう... #NewsPicks https://t.co/bew0qGKMFE — Hal Seki (@hal_sk) May 28, 2020 ぶっちゃけ当初はあまり期待
- npm
- 経済産業省
- あとで読む
- 正規化
- ツール
- javascript
- GIS
- プログラミング
- node.js
- developer
日本の住所の正規化に本気で取り組んでみたら大変すぎて鼻血が出た。 - Qiita
- 867 users
- qiita.com/miya0001
- テクノロジー
- 2020/06/04
先日、弊社では Community Geocoder というサービスをリリースしました。 Community Geocoder 紹介記事さて、このジオコーダーは、住所を正規化してそれを「大字町丁目コード」という12桁の数字に変換し、そのコードをファイル名として GitHub ページ上に大量においた JSON ファイルにアクセスして緯度経度を取得するということをやっています。つまり、住所の正規化からコードに変換する部分がとても重要で、そもそも正規化に失敗してしまうとどうしようもないという仕様なんです。さいわい先日経産省が公開した IMI コンポーネントツールである程度のことをやってくれるのですが（というかそうであることを期待したのですが）、いろいろ調べ始めると住所という仕組みはほんとに複雑で、Facebook で絡んでくださった @hfu さんいわくまさに「自然言語処理そのもの」であ
- 住所
- あとで読む
- 地図
- qiita
- 日本
- gis
- IMI
- 開発
- geo
- コード
文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう！｜ハイクラス転職・求人情報サイト AMBI（アンビ）
- 704 users
- en-ambi.com
- テクノロジー
- 2020/04/28
文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう！文字コードには、どのような種類があり、それぞれどのような意味を持つのか、といった、文字コードの基本的な概念、従来の文字コードを紹介し、現在のUnicodeの構成を概説し、プログラミングにおいて注意すべき箇所をいくつか取り上げます。ソフトウェア開発に携わる方の多くは、何らかの形で文字コードに触れることがあるでしょう。文字や記号をコンピュータ上でデータとして扱うには、文字コードの知識が必要不可欠です。本稿では、書籍『プログラマのための文字コード技術入門』の著者である矢野啓介さんが、知っておきたい基礎知識を分かりやすく解説します。文字コードとは？ Unicode以前の文字コード Unicodeとその主な符号化形式 UTF-16 UTF-32 UTF-8 Webで文字コードを指定する仕組み
- 文字コード
- unicode
- あとで読む
- encoding
- 文字
- エンジニア
- 入門
- web
- コード
- ASCII
住所の正規化は沼である。
- 397 users
- togetter.com
- 政治と経済
- 2023/06/06
杉原航太 @kota_sugihara 河野太郎がマイナンバーカードの住所照合についてデジタル音痴ぶりを如何なく発揮した件河野大臣『問題は住所が「港区赤坂一丁目2の3」と書く人もいれば、「港区赤坂1-2-3」と書く人もいる…（中略）将来的にはAIの技術を使って表記揺れを判断することがあり得るかもしれない。』… twitter.com/i/web/status/1… pic.twitter.com/aF2jzwtBkN 2023-06-04 22:44:10
- togetter
- あとで読む
- IT
- 行政
- システム
- 地理
- twitter
- 住所
- 地図
- 河野太郎
「とにかく日本の住所のヤバさをもっと知るべきだと思います」に、住所正規化コンバータはどこまで応えられるのか、やってみた - ジャスミンソフト日記
- 303 users
- yoshinorinie.hatenablog.com
- 政治と経済
- 2023/06/10
note.com を読みました。私自身も日本の住所の扱いを何とかしないと業務アプリケーションの運用に支障が出ると感じ、2003年に「住所正規化コンバータ」というソフトウェアをリリースし、20年が経過しました。現在は国際航業株式会社様に取り扱っていただいています。 www.kkc.co.jp このブログにあるような指摘にどこまで応えられただろうかということで、社内で試してみました。利用したバージョンは最新の R7.2.0 で、住所マスタは2022年秋版と組み合わせました。その結果を公開します。住居表示丁目表記と地番表記の混在に対応しています。浦安市舞浜2-1-1 郵便番号都道府県市区町村町域小字・丁目番地・号マッチレベル 2790031 千葉県浦安市舞浜 2 1-1 号レベル浦安市舞浜2-11 郵便番号都道府県市区町村町域小字・丁目番地・号マッチレベル 2
- 住所
- あとで読む
- 行政
- アルゴリズム
- ソフトウェア
- プログラミング
- 日本
- address
- GIS
- IT
【入門】データベース設計まとめ - Qiita
- 134 users
- qiita.com/KNR109
- テクノロジー
- 2022/08/10
はじめに今回はデータベース設計について学び直したので内容をまとめていきます。自分は2021年に新卒でWeb系の開発会社にフロントエンジニアとして入社し2022年で2年目になります。実務ではNext.js×TypeScriptを利用したフロントの開発をメインで行っています。直近の開発案件でRailsを使ったサーバーサイドの開発を担当することになり、DB設計を触ったのですが体系的な理解をしていなかったので苦戦をしました。実装はできたものの、データベース設計を「なんとなくの理解」で終わらせないように、体系的に学び直しました。データベース設計の学習に関しては下記の書籍を参考に進めました。スッキリわかるSQL入門達人に学ぶDB設計徹底指南書対象者データベース設計について基礎から学びたい人何となくデータベースの設計をしている人正規化について学びたい人データベースとDBMS
- 設計
- DB
- データベース
- あとで読む
- 開発
- database
- まとめ
- Qiita
- rails
住所正規化のデモ機能を作ったので、日本のヤバい住所を入力してみた
- 111 users
- zenn.dev/sikkim
- テクノロジー
- 2023/09/11
はじめに数か月ほど前、住所の正規化が話題になりました。こちらの記事が特に有名ですね。関連して、こちらの記事も話題になりました。当時はほかにも色々な人が日本のヤバい住所の例をあげてくれて、とても楽しかったです。実は弊社でもAddressianという住所正規化サービスを提供しています。初めて目にする変わった住所を見かけたら、とりあえず自社のAPIに投げてみて「おお、正規化できた」「すごい！」などといいながら遊んで働いています。サービスは無料で利用できますが、今までは利用の手順が面倒でした。ユーザー登録する APIキーを発行する住所正規化APIを呼び出すプログラムを用意する（サンプルコードあり）プログラムを実行して住所を正規化するそこで、もっと気軽に住所正規化を試してもらえるように、ユーザー登録しなくても使えるデモ機能を作ってみました。デモ機能の概要住所正規化デモ画面こち
- 住所
- あとで読む
- データ
- 検証
- 日本
- 統計
Python で Unicode 正規化 NFC/NFD の文字列を扱う - forest book
- 92 users
- t2y.hatenablog.jp
- テクノロジー
- 2019/06/30
先日、ビジネスパーソン向けの Python 本を執筆したことを書きました。 t2y.hatenablog.jp 本稿では本書のことを「できるPy」と呼びます。 Amazon でいくつかカスタマーレビューもいただいて次のコメントをみつけました。 python3.7 対応ということで、pathlib を使ってる点が（古いpython は切り捨てる！的なところは）潔いと言えば潔いし、日本語のファイル名にも気を配っている記述はオライリーに期待するのは酷なところもある。でもこの本でもNFD問題は全くの記述無し。だめだろ、それじゃ。 Amazon CAPTCHA まさに仰る通りです。執筆時にそのことに気づかずご指摘いただいてありがとうございます。ここでご指摘されている NFD 問題というのは、ファイル名のみに限った問題ではなく、Unicode の文字集合を扱ってエンコード／デコードするときに発生する
- python
- あとで読む
- 文字コード
- programming
- unicode
- macOS
- Mac
- 本
IMI 情報共有基盤コンポーネントツール
- 91 users
- info.gbiz.go.jp
- テクノロジー
- 2020/05/29
URLが「https://」で始まるサイトは、セキュリティ確保のためSSL（Secure Sockets Layer）技術を利用しています。当サイトを利用の際には、SSL技術対応のブラウザをご利用ください。
- 住所
- imi
- json
- javascript
- npm
- あとで読む
- library
「日本の住所のヤバさ」知れ渡る　正規化・名寄せ問題、Twitterトレンドに
- 79 users
- www.itmedia.co.jp
- テクノロジー
- 2023/06/07
「日本の住所のヤバさ」が6月7日朝にTwitterトレンドになっている。住所表記の正規化・名寄せがいかに難しいかを解説した、inuroさんのnote記事「とにかく日本の住所のヤバさをもっと知るべきだと思います」がバズっているためだ。 6月4日のテレビ番組で、マイナンバーカードに記載される住所をめぐり、河野太郎デジタル大臣が「将来的にはAIの技術を使って住所の表記揺れを判断することがあり得るかもしれない」と発言し、住所の正規化についてネットで議論になっていたことがきっかけだ。記事は、「日本の住所システムがカオスで、その計算機的な処理がいかに困難か」を解説する内容だ。まず、日本にはそもそも、新旧の2つの住所システム（A町1丁目3番2号／A町1234番地）が併存しており、例えば、「浦安市舞浜2」の住所が「舞浜2丁目」「舞浜2番地」の2系統あるケースを紹介。さらに、まったく同じ住所表記が異な
- 名寄せ
- 正規化
- 住所
- 日本
- あとで読む
- news
- IT
10万冊近いマンガのタイトルから巻数を取得する関数、巻数関数を作ったら思ったよりかなり大変だった話 - Qiita
- 60 users
- qiita.com/binnmti
- アニメとゲーム
- 2019/11/01
マンガのタイトルから巻数を取得したい自作サービスでマンガのタイトルから巻数を取りたくなった。マンガのタイトルで、巻数は何処に書いてあるか？例えば集英社の「HUNTER×HUNTER 1」。見ての通り最後に1と書いてある。つまりタイトルの最後に書かれている数字を取得すれば巻数が取れそうだ。ただし、出版社によってルールは若干違い、小学館は「名探偵コナン　１」、講談社は「はじめの一歩（１）」、秋田書店は「ドカベン第1巻」だ。区切り文字の後の文字列から数字を抜き取ったものが巻数ただ、巻数は何文字か分からない。それよりもタイトルと巻数の間に、空白や括弧のような区切り文字がある。出版社に合わせて、タイトルと巻数の区切り文字の後の文字列を取得すると、集英社と小学館は「1」、講談社は「１）」、秋田書店は「第1巻」という文字列が取れる。この文字列から正規表現などで数字だけを抜き取るようにすると無事タ
WebAPIで住所の正規化処理、「住所クレンジングサービス」をインクリメントPが開始
- 49 users
- internet.watch.impress.co.jp
- テクノロジー
- 2020/10/02
- 正規化
- 住所
- api
- 地図
- あとで読む
- Webサービス
- サービス
- software
住所検索開発者が教える、知っておきたい日本の住所の話(第1回)｜NAVITIME_Tech
- 34 users
- note.com/navitime_tech
- 暮らし
- 2020/06/18
こんにちは、見習いスパルタ人1号です。ナビタイムジャパンでPOI検索基盤を担当しています。得意な検索は住所検索、好きな検索は駅検索です。経済産業省が IMI 情報共有基盤コンポーネントツールを公開して大きな話題となっていますね。その中でも、住所の正規化については多くの方が興味を持っておられるようです。ナビタイムジャパンではサービスの一環として住所検索を提供していますが、今回は「計算機で住所を扱うエンジニアに知っておいてほしい住所の基礎知識」についてお話したいと思います。正規化の話よりは、仕様レベルでの間違いを防ぐための一助となれば幸いです。君は住所をどれだけ知っているか? 読者の皆様は、日本の住所についてどれだけのパターンがあるかご存知でしょうか? 運送業などの住所に強く関連する仕事をしていないのであれば、実家や自宅、会社の住所くらいしかパターンが分からない方も多いのではないでし
GitHub - jeresig/node-romaji-name: Normalize and fix common issues with Romaji-based Japanese names.
- 20 users
- github.com/jeresig
- テクノロジー
- 2020/07/11
This is a utility primarily designed for consuming, parsing, and correcting Japanese names written in rōmaji using proper Hepburn romanization form. Beyond fixing common problems with Japanese names written with rōmaji, it's also able to do a number of amazing things: It's able to figure out which part of the name is the surname and which is the given name and correct the order, if need be (using
- 正規化
- ローマ字
- 人名
- 日本人
- 名前
- Japanese
- OSS
- *あとで読む
【DB設計】現場で使う正規化崩しのパターン - Qiita
- 10 users
- qiita.com/Terao-Takumi
- テクノロジー
- 2023/03/20
本記事の目的「テーブル設計、ほんとにこれがベストなのかな...?」と思うことありますよね。シンプルなテーブル構造だと普通に正規化すれば問題なく運用できるんですが、ビジネスルールが複雑だったりするとあえて正規化を崩した設計を行うこともあります。ですが、「正規化を崩して何が嬉しいのか?」を論理的に考え、メリット・デメリットを考慮することによって、うまくトレードオフスライダーを調整することができるようになります。本記事では正規化も含めて、それぞれの正規化崩しがどのような目的のもと行われるのかを整理してみました。(なので、RAIDなどの物理設計は割愛します。) 正規化の功罪そもそも、なぜ正規化崩しをやらないといけないのか?というと、、、「正規化は、データ整合性を担保するためにパフォーマンスを犠牲にするから」です。特に、多数の結合を必要とする検索のパフォーマンスがネックになることが多いです
- データベース
- 未分類
- DB
- 開発
- 資料
- あとで読む
データベースの正規化(第1〜第3正規形) - Wiz テックブログ
- 5 users
- tech.012grp.co.jp
- テクノロジー
- 2022/07/14
こんにちは！バックエンドエンジニアの小室です。先日、4月から入社予定の方に向け「データベース設計」について研修を行いました。その中でもメイントピックであった「正規化」について改めてまとめてみました。さっそくですが、データベースにおける正規化とは、データベースで保持するデータの冗長性を排除し、一貫性と効率性を確保するためのデータ形式へ変換することを指します。一般的に第3正規形までで十分とされているため第3正規形までを取り上げます。第1正規形テーブルの行と列が交わる1つマスを「セル」と呼ぶことにします。第1正規形の定義は「1つのセルには1つの値しか含まれない」です。社員テーブルこのように1つのセルに1つの値が含まれているとき、この値を「スカラ値」と言います。社員テーブル(非正規形) 上のようなテーブルがあった場合、1人の社員は複数の子を養っているので、このように表現した
- db
- あとで読む
【DB】第一正規形～第五正規形までを図解 | bbh
- 4 users
- bbh.bz
- テクノロジー
- 2022/04/21
正規化について正規化とは、外部スキーマで定義したデータをDB上で効率的に管理するために整理、分割をする作業のことを指します。この正規化には、第一正規化～第五正規化とボイスコッド正規化が存在します。ただし、一般的に使われるのは、第一正規化～第三正規化までのことが多いです。では、第一正規化から順番に見ていきます。第一正規化第一正規化は、一つのカラムに一つの値のみを持っている状態にすることを指します。例えば、以下のようなテーブルが存在するとしましょう。このテーブルは、注文に対して複数の商品が紐づいています。これは概念的には間違っているようには見えません。実際に注文には複数の商品が紐づくことがあります。この構造の問題は、それをデータベースで表現することができない点です。データベースでは、一つの値を配列にしたり、入れ子構造にしたりすることができません。もし、データベースでこ
- あとで読む
エンジニアHubにて「文字コード再入門─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう！」公開 - yanok.net
- 3 users
- yanok.net
- テクノロジー
- 2020/04/29
「エンジニアHub」にて記事を執筆しました。「文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう！」として公開されています。若手エンジニア向けのWebメディアとのことで、プログラミング上の注意点にフォーカスした内容になっています。コード例にはJava, Python, Rubyを用いています。拙著をすでにお読みの方には復習となる内容ですが、まだの方はこの機会に是非お読みいただければと思います。記事の最後に拙著『[改訂新版]プログラマのための文字コード技術入門 (WEB+DB PRESS plusシリーズ)』の版元へのリンクも設定されていますので、興味を持たれた方には書籍の方もお読みいただければ幸いです。当記事編集担当の方には「とても品質の高い記事」とのことで感謝のお言葉をいただきました。読者のお役に立つことを願っています。