タグ

データに関するendo_5501のブックマーク (35)

  • 住所正規化のデモ機能を作ったので、日本のヤバい住所を入力してみた

    はじめに 数か月ほど前、住所の正規化が話題になりました。こちらの記事が特に有名ですね。 関連して、こちらの記事も話題になりました。 当時はほかにも色々な人が日のヤバい住所の例をあげてくれて、とても楽しかったです。 実は弊社でもAddressianという住所正規化サービスを提供しています。初めて目にする変わった住所を見かけたら、とりあえず自社のAPIに投げてみて「おお、正規化できた」「すごい!」などといいながら遊んで働いています。 サービスは無料で利用できますが、今までは利用の手順が面倒でした。 ユーザー登録する APIキーを発行する 住所正規化APIを呼び出すプログラムを用意する(サンプルコードあり) プログラムを実行して住所を正規化する そこで、もっと気軽に住所正規化を試してもらえるように、ユーザー登録しなくても使えるデモ機能を作ってみました。 デモ機能の概要 住所正規化デモ画面 こち

    住所正規化のデモ機能を作ったので、日本のヤバい住所を入力してみた
    endo_5501
    endo_5501 2023/09/14
    “注意:この記事はかなり長いです。” w
  • 行政の統計資料のような非構造化データをGPTで構造化データに変換する|mah_lab / 西見 公宏

    今朝方GPT-4が発表されて、みなさん死ぬほど盛り上がってますねー。 GPT-4を使えば一発でできそうなネタではありますが、GPT-4 APIのお値段は3.5よりもお高めの設定なので、これからはどのように上手くGPTのバージョンを使い分けていくかが問われていくと思います。 というわけで今日は非構造化データを構造化データに変換する話です。 問題の背景行政が定期的に公開している統計資料をご覧になったことはありますでしょうか。ディスる訳ではないですが、以下に示すのは私が住んでいる富士吉田市の統計資料です。 統計ふじよしだ令和元年度版 - 商業 このように分かりやすい表で情報を提供してくれるのはありがたいのですが、数値データにはなっていないので分析に活用することができません。 GPTのパワーを使って、このような非構造化データを構造化データに変換できないか?というのが日のお題になります。 コードP

    行政の統計資料のような非構造化データをGPTで構造化データに変換する|mah_lab / 西見 公宏
  • おうちの回線速度をお手軽に可視化してみよう | IIJ Engineers Blog

    2018年新卒入社。名古屋支社にてSI中心にお仕事をするエンジニア仕事ではサーバやミドルウェアを、趣味ではウェブやアプリを弄っています。 【IIJ 2022 TECHアドベントカレンダー 12/21(水)の記事です】 はじめに 名古屋支社の kmmt-t です。 今年の夏頃、インターネットの回線速度を測定するブームがありました。(なぜ?については触れませんが・・・) 俗に言われる「回線速度」というものは、時間帯やご近所さんの利用状況などの様々な要因で変化するものなので1回だけ測ったところで大した意味は持たないでしょう。先日公開された弊社のハンズオン研修の1つである「監視Overview」でも述べられている通り、何かのシステムを監視するのであれば「可視性」「通知性」「特定性」「分析性」を重視しなければなりません。・・・例えそれが自宅のインターネット回線であっても! というわけで今回は、以下

    おうちの回線速度をお手軽に可視化してみよう | IIJ Engineers Blog
  • バンナム、約42万フレーム分のモーションデータ無償公開 歩行、格闘、ダンスなど 研究用に

    ライセンスは「CC BY-NC-ND 4.0」で、利用の際にクレジットを表示すること、非営利でのみ利用すること、内容を改変しないことを求めている。 バンダイナムコは、メタバースやXR技術が広まる中、コンテンツ規模が拡大すると従来のモーション制作過程では限界を迎えると予想。AIを活用したキャラクターのモーションを生成する研究を行っている。 一方、AIによるモーション研究はデータセットの入手が難しいため研究開発が進んでいないとして、自社で使っているデータの一部を提供することにしたという。 関連記事 実在しない顔の画像3000点を無償配布、AI学習用データセットに 法人向け・商用利用可 AI活用のコンサルティング事業を手掛けるAPTOなど2社が、AIの学習データとして利用できる、実在しない男女の顔写真3000枚の無償配布を始めた。法人を対象に11月30日までの期間限定で提供し、商用利用も認める。

    バンナム、約42万フレーム分のモーションデータ無償公開 歩行、格闘、ダンスなど 研究用に
  • なぜシェルスクリプトで高度なデータ管理にSQLiteを使うべきなのか? ~ UNIX/POSIXコマンドの欠点をSQLで解決する

    なぜシェルスクリプトで高度なデータ管理にSQLiteを使うべきなのか? ~ UNIX/POSIXコマンドの欠点をSQLで解決するShellScriptUNIXSQLitePOSIXQiitadelika 「利用者は数十億人!? SQLiteはどこが凄いデータベース管理システムなのか調べてみた」の続きです。 はじめに 複雑な構造のデータを扱うのであればシェルスクリプトや Unix (POSIX) コマンドでデータ管理を行うのは避けるべきだと思います。解決不可能な問題が多いからです。しかしそれでも何かしらの理由でやろうと考える(やらなければいけない)のであれば SQLite を使うのをおすすめします。シェルスクリプトや Unix コマンドは行単位の単純なテキストデータをシーケンシャルにデータ処理するのが前提となっており、改行や空白が含まれるデータや複雑な構造のデータ扱うのは苦手です。またシェル

    なぜシェルスクリプトで高度なデータ管理にSQLiteを使うべきなのか? ~ UNIX/POSIXコマンドの欠点をSQLで解決する
  • オープンデータ、使ってほしいけどオススメしづらい3つの理由

    Yahoo! JAPAN Digital Hack Day 2021の技術紹介イベントでのプレゼン資料です。 https://hackday.yahoo.co.jp/ アーカイブ動画はこちらからご覧頂けます。 https://youtu.be/3e9OPS8qSA4?t=9890

    オープンデータ、使ってほしいけどオススメしづらい3つの理由
  • ISO 8601: 優れた日付フォーマット

    Kirby Kevinsonのブログより。 あなたが世の中の動きを知らずに暮らしているのであれば、アメリカの日付フォーマット(mm/dd/yyyy)とヨーロッパの日付フォーマット(dd.mm.yyyy)など、世界には様々な日付フォーマットがあると聞いたことがあるでしょう。あなたが十分に賢いなら、アメリカの日付フォーマットが意味をなさず、ひどいものであることに気付くでしょう。多くの人がこのことから導き出される単純な結論は、ヨーロッパ形式がベストだということですが、私はそうではないと思います。もし、あなたがそう考えている人の一人なら、ISO 8601と呼ばれるあまり知られていない日付フォーマットを紹介して、あなたの考えを変えてみましょう。 基 フォーマット名の「ISO」の部分から分かるように、これは国際標準化機構が作成した実際の規格です。移植可能なソフトウェアの作成に役立つ時間間隔の記述方法

    endo_5501
    endo_5501 2021/02/28
    アメリカの日付フォーマットは本気で阿呆だと思う
  • Googleが大量の機械学習用データベースを無料公開してた - Qiita

    個人用メモです。 機械学習は素材集めがとても大変です。 でもこの素材集め、実は無理してやらなくても、元から良質な無料データベースがあったようなのです。 URLはこちら YouTube8-M https://research.google.com/youtube8m/explore.html 提供されているサービスは以下の通り 800万個の動画 19億個のフレーム 4800個の分類 使い方はExploreから画像セットを探し、ダウンロードするだけ。 他の方法も見つけた open images dataset 「すごい神だな」と思ったのは これもう完成されてますよね もちろんこの認識前の画像もセットでダウンロードできます。 Youtube-8Mとは、画像数を取るか、精度で取るか、という違いでしょうか。 他にも良い素材集を教えていただきました (はてなブックマーク情報 @sek_165 さん )

    Googleが大量の機械学習用データベースを無料公開してた - Qiita
  • 追伸。そろそろおまえもseabornヒートマップを使うように。 母より - Qiita

    はじめに seabornのヒートマップの使い方をまとめました。 記事タイトルは相変わらずコピーメカに考えてもらってます。 母はヒートマップを暖房器具か何かだと思っているのかな? seaborn ヒートマップの使い方 今回はseabornのflightsというデータを使っていきます。 import seaborn as sns; sns.set() import pandas as pd flights = sns.load_dataset("flights") display(flights.head())

    追伸。そろそろおまえもseabornヒートマップを使うように。 母より - Qiita
  • 約10万台のHDD故障率レポート2018年Q3版公開、大容量モデルの信頼性の高さが明らかに

    クラウドストレージサービスを提供するBackblazeが、自社で運用するストレージセンターのハードディスク(HDD)の故障率データの2018年Q3(7月から9月)版を公開しました。ついにすべての3TBモデルが引退し、大容量の12TBモデルが主力になりましたが、8TB以上の大容量モデルの大量導入によってHDD全体の信頼性は向上していることが確認されています。 Backblaze Drive Stats: 2018 Hard Drive Failure Rates https://www.backblaze.com/blog/2018-hard-drive-failire-rates/ Backblazeが2018年9月30日時点で運用するHDDは、システム用が1866台、データ用が9万7770台と、10万台目前まで到達しています。このうち、最低運用台数45台を切るものやテスト用HDDのデータ

    約10万台のHDD故障率レポート2018年Q3版公開、大容量モデルの信頼性の高さが明らかに
    endo_5501
    endo_5501 2018/10/22
    “容量8TBを超える大容量モデルの信頼性は非常に良好”
  • 家具3Dデータを無償公開、Twitterの反響に中の人がびっくり 公開の狙いは

    建築物のCG制作などを手掛ける積木製作(東京都墨田区)はこのほど、同社が制作した3Dの家具モデルを無償公開した。商用・非商用を問わず、誰でもダウンロードして使える。 図面を基に建築物の外観や内観を立体化した完成イメージ図「建築パース」で使うことを想定した3Dの家具モデル。公開したデータは米Autodeskの3Dモデリングソフト「3ds Max」で開けるmax形式で、椅子やソファ、スタンドライトなどが含まれている。 ITmedia NEWSの取材に対し、同社の竹内真哉さんはTwitter上の反応に驚いたと話す。 「何年も前からFacebookなどで(データの配布を)告知していましたが、7月からTwitterも始めました。(今回、注目が集まったことに)びっくりしています」(竹内さん) 公開した家具データは、同業者や学生などにも使ってほしいという。「建築パース制作はマイナーなジャンルです。建築パ

    家具3Dデータを無償公開、Twitterの反響に中の人がびっくり 公開の狙いは
  • 「VRM」って何?どんなことができる? - dwango on GitHub

    VRM」とは VR(Virtual Reality)やVTuberなどにおいて**「キャラクターや人型のアバター(の3Dモデル)」**を取り扱おうとした場合、従来はアプリケーションごと・3Dモデルデータごとに独自のシステムを開発したり細かく調整したりする必要がありました。 というのも… 3Dモデルを作成したクリエイターや使用したモデリングツールによって「作法」が違いデータの状況がひとつひとつ異なっている 座標系が異なっていたり、スケールが異なっていたり、初期姿勢が異なっていたり、表情の表現方法が異なっていたり… もちろん、骨(ボーン)の入れ方も状況によって異なっていたり 3Dモデルデータを取り扱うフォーマットは、各社各様で仕様が必要以上に複雑であったり、必要な情報が足りなかったりしている 対応ソフトが多い「FBXファイル」はアプリケーションごとに読めたり読めなかったり。どのアプリケーショ

    「VRM」って何?どんなことができる? - dwango on GitHub
    endo_5501
    endo_5501 2018/04/17
    “アバターの人格に関する許諾範囲”
  • 「まさかスキャナーで…」年金機構甘いチェック : 社会 : 読売新聞(YOMIURI ONLINE)

    年金機構が委託した業者のデータ入力で約95万2000人分にミスがあった問題は、機構側のずさんな業務管理が一因だった。 うち入力漏れの約8万4000人分で過少支給が判明。さらに約31万8000人分の一部で支給額に誤りがある見通しで、機構は26日にも詳細を公表する。度重なる不祥事に、識者は「体制を抜的に見直す必要がある」と指摘している。 ◆「まさか」 「まさかスキャナーで読み取っているとは……」。ある厚生労働省幹部は、主なミスの原因が業者の契約に反した入力方法にあり、それを見逃してきた機構のチェックの甘さにあきれた。 機構が所得控除などに関するデータ入力を委託した情報処理会社「SAY企画」(東京都豊島区)は、2人1組で手入力するという来の入力方法ではなく、スキャナーを使って紙のデータを読み取っていた。機械が誤認識した漢字などが残り、配偶者の所得区分を示す丸印も誤って認識され、過少支給な

    「まさかスキャナーで…」年金機構甘いチェック : 社会 : 読売新聞(YOMIURI ONLINE)
    endo_5501
    endo_5501 2018/03/25
    スキャナ使おうが人力でやろうがどっちでも良いけど、その後のチェックできてなかったのが問題なのでは
  • OSSのデータ可視化ツール「Metabase」が超使いやすい - Qiita

    Metabase、まじでイケてる。 1日で、Re:Dashから乗り換えました。 Metabaseとは OSSのデータ可視化ツール。Re:Dashとかと同じ類。 AWSとかに乗せて、誰もが見れるダッシュボードを作ったりする時に使うと、俺かっけーってなります。 スクリーンショット 実際に社内で運用している様子をモザイク付きでお見せします。 毎日みているダッシュボード。これの4倍くらいの数値見てる。 ダッシュボードの編集。マウスで簡単に位置や大きさの変更ができる。 クエリビルダー的なやつがあり、グルーピングとか超絶便利。SQL書けない人でも、単一テーブルとかだったら余裕かと。 グラフ化も簡単。 SQLでのクエリ編集画面。ちゃんと補完してくれる。 Metabaseの良い所 見た目が格好いい。 インストールが簡単。 openjdk-8-jdk入れて、jarファイル置くだけ。 豊富なデータソースに対応

    OSSのデータ可視化ツール「Metabase」が超使いやすい - Qiita
  • 誰がインフルエンサーだったのか

    Introduction SNSの情報発信源として強い影響力を持つ人をインフルエンサー(influencer)と呼ぶ。日でツイッター投稿が盛り上がった10月の衆院選を分析すると、選挙のインフルエンサーの意外な姿が浮かび上がった。 データ出所:NTTデータ。リツイート含む。年代はNTTデータが推定した もっとも注目されたTweetは トランプ氏の4倍衆院選期間中の「選挙」にかかわるつぶやきをリツイート数の多い順にランク付けしたところ、トップ5はすべて4万を超え、最も多いもので9万近くに上った(10月下旬)。頻繁なツイッター発信で知られるアメリカトランプ大統領でも、11月の来日時のつぶやきでみればリツイート数は多くて2万台。ランキング上位のつぶやきはトランプ氏の倍以上の影響力があったことになる。上位に並んだのは、投票を呼びかける前向きなつぶやきだ。 RANK Tweet DATE RT 1

    誰がインフルエンサーだったのか
    endo_5501
    endo_5501 2017/11/16
    3行くらいで
  • 「その運動量は無理でしょ」心臓ペースメーカーのデータが犯罪の立証に使われる

    完全犯罪がさらに難しくなりそう。 ウェアラブルが人の命を救ったというニュースはありましたが、ウェアラブルが犯罪の立証に使われるケースが今後増えるのかな。アメリカ、オハイオ州でそう思わせるような出来事がありました。 自宅から出火し40万ドルの被害を受けたRoss Compton氏、59歳。警察当局は同氏の証言を疑い、火災は保険金目的の自作自演と考え、起訴します。そして、同氏の体内に埋まっている心臓ペースメーカーのデータが今年2017年12月の裁判で証拠として使われることになったんです。 Compton氏の証言がどんなものだったのか、オハイオ州ミドルトン市の地元メディアJournal Newsは次のように報じています。 Compton氏は外部ポンプを持つ人工心臓を移植されている。彼は「火事が始まったとき、寝ていた」と警察に供述している。起きて火に気付くと、荷物をスーツケースやカバンに詰め、寝室

    「その運動量は無理でしょ」心臓ペースメーカーのデータが犯罪の立証に使われる
    endo_5501
    endo_5501 2017/07/24
    まあ、保険屋だったら考えうる全てのものを利用するよな
  • 超人気アダルトサイトが過去10年分の流行り廃りを総まとめしたデータを公開

  • 都市伝説「青いクルマは事故が多い」を調べてみました!

    このランキングは、1968年に出版されたEric P.Danger著「Using Colour to Sell」の資料を参考にしたもので47年前のデータでした。 2048件の交通事故から、自動車を色別に分析されたものです。ただし、場所・期間など、どのように集計したものかは不明です。 「47年前のデータなんてあてになるのか…」と思いましたが、このようなランキングになる原因が、なかなか理にかなう説明になっています。 実は、青・赤・黄がこのように別れているのは、色彩学を学ぶには大変都合の良いデータなので、この「カラー・マーケティング論」で説明されている内容を紹介します。 青い車が事故率1位の原因は「目のレンズの仕組み」にあった?目がピントを合わせる時、水晶体(すいしょうたい)と呼ばれる部分は、カメラのレンズの役割をします。水晶体を通して、網膜というセンサーに映像を届けています。自律神経によって、

    都市伝説「青いクルマは事故が多い」を調べてみました!
    endo_5501
    endo_5501 2016/05/11
    “黄色いものを見るときの目は、正しい距離で見えている”
  • 【艦これ】支援艦隊にフィット・過積載は存在しない!?【支援検証】

    圧倒的プレゼン能力不足わかり辛いかもだけど許してくだち・・・この動画は多くの人に知ってもらいたいという趣旨で作りました支援艦隊にフィット過積載があるかどうかの検証かなり大雑把な検証なので信じるかどうかは各提督の判断にお任せしますスプレッドシート(生データ)https://docs.google.com/spreadsheets/d/1UmFm33JfsBwc2JUtPybmbTDQ0ZFK0T0LUr-9jDjm4zo/edit?usp=sharing過去投稿したもの→mylist/46314030コミュ→co2702332更新報告などTwitter https://twitter.com/iF_aiehu

    【艦これ】支援艦隊にフィット・過積載は存在しない!?【支援検証】
  • 日本の夏は高温化してるか?

    賢二(HAN-NEKO,Kenji) 💜💙💛🟠🌈🎌🇷🇺🇺🇦 @Tvvitter_com 「ほんの30年前はクーラーもないのにみんな普通に生活していた、30度を超える火は珍しく猛暑日という言葉もなかった、近年暑くなった」 という話を小耳にはさんだので、気象庁から1950年以降の夏の気温データをとってきてプロットしてみた pic.twitter.com/x6rx7cbNAt 2015-08-03 10:46:17

    日本の夏は高温化してるか?