「Dataset」を検索 - はてなブックマーク

1 - 40 件 / 2914件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

Datasetの検索結果1 - 40 件 / 2914件

無料で使える「住所マスターデータ」公開、表記統一や緯度経度への変換に活用可能　全国の町丁目レベル18万9540件の住所データを記録
- 1457 users
- internet.watch.impress.co.jp
- テクノロジー
- 2020/08/20
- 地図
- データ
- あとで読む
- 住所
- データベース
- 不動産
- map
- gis
- 開発
- data
無料 BGM・効果音のフリー音源素材 | Springin’ Sound Stock
- 1036 users
- www.springin.org
- アニメとゲーム
- 2022/06/23
無料 BGM・効果音のフリー音源素材誰でも報告不要で商用利用無料！今すぐ使える BGM・効果音 1,000点以上！動画制作やイベントにもちろんスプリンギンアプリでも利用可
- 素材
- 音楽
- フリー素材
- あとで読む
- sound
- プログラミング
- BGM
- 音源
- フリー
- 効果音
PLATEAU [プラトー] | 国土交通省が主導する、日本全国の3D都市モデルの整備・オープンデータ化プロジェクト
- 833 users
- www.mlit.go.jp
- テクノロジー
- 2020/12/22
3D都市モデルが実装されることで、未来はどのような展望を見せるのか。インタビューやレポートを通じて、多角的な視点で3D都市モデル、そしてPLATEAUのさまざまな可能性を読み解きます。
- 地図
- 3D
- あとで読む
- map
- webサービス
- 行政
- データ
- 国土交通省
- GIS
- web
個人情報テストデータジェネレーター
- 830 users
- testdata.userlocal.jp
- テクノロジー
- 2021/09/14
アプリケーションのテストなどで利用できる、リアルな架空の個人情報データ（疑似データ）を生成するツールです。
- テスト
- あとで読む
- データ
- ツール
- webサービス
- generator
- tool
- test
- ジェネレータ
- data
いたばし花火大会に関して
- 806 users
- anond.hatelabo.jp
- 世の中
- 2023/08/06
火事が起きて途中中止になったけど花火は最期まで上がっていたといういたばし花火大会だが、実は戸田市との共同開催になっていて、荒川を挟んで板橋側だけが中止になったのだ。荒川を挟んで両岸で打ち上げまくるのね。でも板橋区の方では「いたばし花火大会」としてしかアナウンスされないし、戸田市側の方は「戸田橋花火大会」としてしか案内されないから、東京都民or板橋区民の中には戸田市の方でも打ち上げてるのを知らない人が結構いるし、反対側の埼玉県民、戸田市民の方も然りで、「中止になったのに最後まで打ちあがってたのは何故？？？」というなぞなぞみたいな事になってしまった。そして両岸で共同開催という珍しい形になったのは、荒川の改修工事が元になっている。荒川放水路工事と河道直線化赤羽の岩淵に岩淵水門という隅田川入口を締め切る水門があるんだが、そこから下流の荒川は大正から昭和初めに掛けて開削した放水路だ。それまでは
- 歴史
- 増田
- あとで読む
- 東京
- 地理
- 文化
- 埼玉
- history
- 行政
- 読み物
日本のウェブデザインの特異な事例
- 704 users
- okuranagaimo.blogspot.com
- テクノロジー
- 2022/11/26
sabrinas.spaceより。 8週間もかからなかったはずのプロジェクト日本のウェブデザインはどう違うのか? 2013年のRandomwireのブログ投稿で、著者(David)は、日本のデザインの興味深い相違点を強調しました。日本人はミニマリストのライフスタイルで海外に知られていますが、ウェブサイトは奇妙なほどマキシマリストです。ページには様々な明るい色(3色デザイン原則を破っている)、小さな画像、そして多くのテキストが使われています。2022年11月に撮影されたこれらのスクリーンショットで、自分の目で確かめて下さい。ブログ投稿には、文化的専門家、デザイナー仲間、そして不満を抱く市民によって支持されている、考えられる理由がいくつか挙げられていました。この理論が今でも正しいのか、また、もっと定量的なアプローチが可能なのか気になったのでやってみました。私が見つけたもの各国の最も人
- デザイン
- あとで読む
- web
- design
- ui
- 日本
- webデザイン
- webdesign
- ネット
- 文化
誰の声でも100人の声に変えられる声変換システム - Dwango Media Village(ドワンゴメディアヴィレッジ,dmv)
- 688 users
- dmv.nico
- テクノロジー
- 2020/09/14
著者の声を録画・録音して声を変換し元の映像と組み合わせてみた映像です。このときの変換元の音声は撮影用のスマートフォンで録音しており、部屋の残響が含まれるなど声が少し不鮮明になる収録環境ですが、それでもしっかり声変換できていることがわかると思います。概要 Dwango Media Villageの廣芝です。誰の声でも狙った複数の人の声に変えることができる声変換システムを開発し、実際に声を変えることができるデモページを公開しました。 (2022年5月 SeirenVoiceシリーズの製品化に伴いデモページは終了しました。) この記事では、声変換技術を研究開発する際に取り組んだ課題について紹介します。声の変換技術には、リアルタイム性と品質のトレードオフがあります。既存の声変換システムはリアルタイム性を重視する傾向がある一方、品質を重視したものはあまり見かけません。品質を優先した声変換
- 音声合成
- あとで読む
- 機械学習
- 技術
- 音声
- 学習
- technology
- システム
- データ
- deeplearning
論文読みの日課について - ｼﾞｮｲｼﾞｮｲｼﾞｮｲ
- 685 users
- joisino.hatenablog.com
- 学び
- 2023/04/10
かれこれ三年以上ほぼ毎朝論文を読んでいます。ほぼ毎朝、というのは本当にほぼ毎朝です。この三年のうち読まなかった日はワクチンの副反応でダウンしている日など、あわせて 10 ~ 20 日ほどでしかありません。この日課だけでも 1000 本以上は論文を読んだことになります。論文読みの日課についての知見が溜まってきたのでこの記事で共有します。主な想定読者は研究者と学生の皆さんですが、それ以外の論文読みに興味のある皆さんにも有用な情報が詰まっているはずです。日課の流れ Readable について 🧐 論文の選び方自分の研究内容と直接関係あるものを読む（特におすすめ）完全にランダムに選ぶ被引用数の多い順に選ぶ（特におすすめ）トピックごとに重要な論文を読んでいく研究者ごとに論文を読んでいく 📝 論文メモの書き方 ⏳ 時間を計測する 🤗 論文メモを公開する 📜 表現集の作成 🔨
- 論文
- 研究
- あとで読む
- ツール
- 仕事
- 勉強
- education
- tool
- research life
- 教育
ゼロから始める、データ分析と可視化 - Kyash Product Blog
- 637 users
- blog.kyash.co
- テクノロジー
- 2021/08/18
はじめまして。Kyashでデータエンジニアリングを担当しているKyashデータマンです。この記事では、Kyash社内のデータ分析の基礎に関するドキュメントを紹介します。 Kyashでは、データエンジニアリング・ガバナンス・セキュリティなど様々な角度から、公正なデータの取扱いと活用を推進しています。従来は、一部の訓練された技術者がデータ分析を一手に担っていましたが、社内でもデータ活用のニーズも多く、その担当者に分析や集計の業務が集中するという課題がありました。この課題に対して、データへの適切なアクセス管理を行い、そして適切なBIツールを導入することで、データを取り扱う人が自分でデータ分析・そして活用できるようになることを目指しています。アクセス管理には、個人情報やそれに準ずる機密データに対して、ポリシータグによるアクセス権のコントロール、そしてアクセス権のリネージなどのソリューションの導入
- 統計
- あとで読む
- データ分析
- データ
- 分析
- グラフ
- 仕事
- 可視化
- tableau
- tips
「リモートで組織内のサイロ化が進む」「全員出勤日を設けるなど工夫する必要がある」コロナ禍でMicrosoftがフルリモートになった影響を調べた調査の結果が出た
- 629 users
- togetter.com
- テクノロジー
- 2021/09/12
n @_sh0he1 - ビデオ通話・対面などの同期コミュニケーションが減り、チャット・メールなど情報量が少ない非同期コミュニケーションが増えた - グループ内にリモートに転向した同僚がいると、オフィスに残った同僚でも同様の変化が見られた（！） (2/n) 2021-09-11 00:52:29 n @_sh0he1 結論：リモート化は組織内のサイロ化を進める、質と量で劣る非同期コミュニケーションの増加を招き、労働者のアウトプットに長期的に影響する恐れがある。また、ハイブリッド型勤務でも”全員出勤日・リモート日”を設けるなど工夫しないとリモートの悪影響を受けることがわかった。 2021-09-11 00:54:53 リンク Nature Human Behaviour The effects of remote work on collaboration among information
デジタル庁のデータ分析基盤「sukuna」｜デジタル庁
- 625 users
- digital-gov.note.jp
- テクノロジー
- 2023/06/27
はじめまして。デジタル庁ファクト＆データユニット所属、データエンジニアの長谷川です。本記事ではデジタル庁内でデータ活用を推進するための組織と分析基盤についてご紹介します。これまでのデジタル庁noteと比べると、技術寄りの話題が多い記事となりますが、庁内のデータ活用に興味のある方はぜひご覧ください。デジタル庁のデータ活用組織「ファクト＆データユニット」ファクト＆データユニットとはデジタル庁の特徴の一つに、デジタル分野において各種の専門性をもつ「民間専門人材」が多く所属していることが挙げられます。民間の専門人材は、デザイン、プロダクトマネジメント、エンジニアリングなど、領域ごとに「ユニット」と呼ばれる組織を構成しており（参考：デジタル庁 - 組織情報）、必要に応じてさまざまなプロジェクトにアサインされて業務を遂行する、人材プールのような役割を果たしています。ファクト＆データユニットも
- データ
- あとで読む
- 統計
- GCP
- data
- 分析
- 行政
- cloud
- データ分析
- bigquery
Googleが大量の機械学習用データベースを無料公開してた - Qiita
- 597 users
- qiita.com/ulwlu
- テクノロジー
- 2021/08/31
個人用メモです。機械学習は素材集めがとても大変です。でもこの素材集め、実は無理してやらなくても、元から良質な無料データベースがあったようなのです。 URLはこちら YouTube8-M https://research.google.com/youtube8m/explore.html 提供されているサービスは以下の通り 800万個の動画 19億個のフレーム 4800個の分類使い方はExploreから画像セットを探し、ダウンロードするだけ。他の方法も見つけた open images dataset 「すごい神だな」と思ったのはこれもう完成されてますよねもちろんこの認識前の画像もセットでダウンロードできます。 Youtube-８Mとは、画像数を取るか、精度で取るか、という違いでしょうか。他にも良い素材集を教えていただきました（はてなブックマーク情報 @sek_165 さん）
- 機械学習
- あとで読む
- google
- データベース
- 学習
- 素材
- youtube
- 無料
- ML
- データセット
バンナム、約42万フレーム分のモーションデータ無償公開　歩行、格闘、ダンスなど　研究用に
- 535 users
- www.itmedia.co.jp
- テクノロジー
- 2022/04/28
ライセンスは「CC BY-NC-ND 4.0」で、利用の際にクレジットを表示すること、非営利でのみ利用すること、内容を改変しないことを求めている。バンダイナムコは、メタバースやXR技術が広まる中、コンテンツ規模が拡大すると従来のモーション制作過程では限界を迎えると予想。AIを活用したキャラクターのモーションを生成する研究を行っている。一方、AIによるモーション研究はデータセットの入手が難しいため研究開発が進んでいないとして、自社で使っているデータの一部を提供することにしたという。関連記事実在しない顔の画像3000点を無償配布、AI学習用データセットに　法人向け・商用利用可 AI活用のコンサルティング事業を手掛けるAPTOなど2社が、AIの学習データとして利用できる、実在しない男女の顔写真3000枚の無償配布を始めた。法人を対象に11月30日までの期間限定で提供し、商用利用も認める。
- 3DCG
- あとで読む
- 素材
- 3D
- データ
- AI
- 研究
- 開発
- モーション
- game
無料で10万点以上のパリの美術作品がダウンロード可能に、商用利用・修正・再頒布もOK
- 533 users
- gigazine.net
- 学び
- 2020/01/10
パリ市立近代美術館などが収蔵する多数の美術品を所管する公共団体Paris Muséesが、10万点以上の美術コレクションの画像を無料かつ自由に利用・修正・再頒布可能なオープンコンテントとしてインターネットに公開しました。 Les collections en ligne des musées de la Ville de Paris http://parismuseescollections.paris.fr/fr Open content : plus de 100 000 œuvres des collections des musées de la Ville de Paris en libre accès | Paris Musées http://www.parismusees.paris.fr/fr/actualite/open-content-plus-de-100-000-
- 素材
- 美術
- ダウンロード
- あとで読む
- 無料
- 芸術
- art
- gigazine
- 画像
- 美術館
ゲームプレーヤーを精神疾患にするディストピア――久里浜医療センター「ゲーム障害の有病率5.1％」論文のからくり/井出草平 - SYNODOS
- 499 users
- synodos.jp
- 学び
- 2021/08/30
ゲームプレーヤーを精神疾患にするディストピア――久里浜医療センター「ゲーム障害の有病率5.1％」論文のからくり井出草平社会学社会エグゼクティブ・サマリ久里浜医療センターの樋口進氏らのグループが発表した論文から、ゲーム障害を過剰診断していく方針が読み取れる。この論文は厚労省・文科省の政策にも影響があると考えられ、ゲーム好きの健康な子どもや若者たちが、精神疾患とレッテルを貼られ精神科病棟に入れられる未来も現実味を帯びてきた。先日、ゲーム障害の有病率調査が久里浜医療センターによって発表された。【注1】英語論文として発表されたため、まだ一般には知られていないが、専門家の間ではかなり話題になっている。というのも、久里浜医療センターはゲーム障害でない人を診断しようとしているのではないか、と、いわゆる過剰診断を懸念する声が湧き上がっているからである。本稿では、久里浜医療センターの研究を紹介
- 医療
- ゲーム
- あとで読む
- game
- 論文
- 研究
- 社会
- 行政
- 障害
- medical
「モザイク画像の解像度を64倍にする研究」が人種差別の議論に発展、非難を集めた研究者はアカウントを停止
- 465 users
- gigazine.net
- 世の中
- 2020/07/02
計算機科学の分野において功績を収めた人物に贈られるチューリング賞を2018年に受賞した、Facebookの人工知能部門におけるチーフ研究者、ヤン・ルカン氏は、人工知能および機械学習における人種差別の議論で多くの非難を受け、Twitterアカウントを停止することを発表しました。 Yann LeCun Quits Twitter Amid Acrimonious Exchanges on AI Bias | Synced https://syncedreview.com/2020/06/30/yann-lecun-quits-twitter-amid-acrimonious-exchanges-on-ai-bias/ きっかけは2020年6月20日に、デューク大学が人工知能アルゴリズムを用いた高品質の画像生成に関する研究結果をTwitter上で公表したことから始まりました。 Face Depi
- AI
- 機械学習
- 差別
- あとで読む
- 研究
- 画像
- 社会
- 人工知能
- GIGAZINE
- 技術
APIキーもログインも不要！完全無料で使える天気予報API「Open-Meteo」を使ってみた！ - paiza times
- 411 users
- paiza.hatenablog.com
- テクノロジー
- 2021/11/04
どうも、まさとらん（@0310lan）です！今回は、誰でも無料で使える天気予報APIを提供してくれるWebサービスをご紹介します！面倒なユーザー登録やAPIキーの設定などが不要で、欲しい天気情報のパラメータを含めたURLを好きなように構成するだけで簡単にJavaScriptから制御できるのが特徴です。日本はもちろん、世界中の詳細な天気情報を取得できるのでご興味ある方はぜひ参考にしてみてください！【 Open-Meteo 】 ■「Open-Meteo」の使い方それでは、「Open-Meteo」をどのように使えばいいのか詳しく見ていきましょう！「Open-Meteo」が提供する天気予報APIを利用するにあたり、何か特別な登録や申請は必要ありません。もっと言えば、ユーザー登録も不要でAPIキーもありません。非営利プロジェクトであれば誰でも自由に使うことが可能で、以下のエンドポイント
- API
- あとで読む
- webサービス
- 天気
- 開発
- javascript
- プログラミング
- weather
- グラフ
- JSON
ChatGPTはどのように学習を行なっているのか
- 403 users
- zenn.dev/ttya16
- テクノロジー
- 2022/12/06
はじめに ChatGPTのインパクトが個人的にすごかったので、どういった学習が行われているのか、どういう課題があるのか等を理解しようと思い、OpenAIの記事をベースに情報をピックアップしてざっとまとめました。あくまで私なりの解釈で情報を整理してまとめたものになりますので、いくつか専門性の低い分野に対しては曖昧な記述になっていたり、理解を誤って記載しているかもしれません。もし間違い等がありましたらご指摘いただけると大変ありがたいです。 ChatGPT: Optimizing Language Models for Dialogue 参考 ChatGPTは、OpenAIによって開発された、対話に特化した言語モデルである。特徴としては、前の対話内容に続く質問への回答が可能。間違いを認めることもできる。正しくない前提に対する異議を唱えることもできる。不適切なリクエストには応じない。
- AI
- ChatGPT
- あとで読む
- 機械学習
- 人工知能
- 学習
- 技術
- OpenAI
- 自然言語処理
- ソフトウェア
あなたがまだ使っていないかもしれないHTML5の便利機能10選 - Qiita
- 389 users
- qiita.com/kanye__east
- テクノロジー
- 2020/09/22
こんにちは、たかとーです🧑‍🎤 こちらは、10 useful HTML5 features, you may not be usingの翻訳記事になります。当記事は、Tapasさんの許可を得て翻訳しています。Tweet 10 useful HTML5 features, you may not be using HTML5は新しいものではありません。最初のリリース（2008年1月）以来いくつかの機能を使用してきました。100DaysOfCodeの取り組みの一環として、HTML5の機能リストをもう一度よく見てみました。何か見つけたかな？私は今のところあまり使っていません。この記事では、過去にあまり使ったことがなかったが、今では便利になったHTML5の機能を10個挙げています。また、Netlifyでホストされている、実際に動作する例を作成しました。参考になることを願っています。 htt
- html5
- html
- あとで読む
- web制作
- qiita
- css
- 便利
- javascript
- コンテンツ
- web
スマートニュース、国会議案データベースを無償公開　過去20年分をGitHubで
- 373 users
- www.itmedia.co.jp
- テクノロジー
- 2022/07/01
スマートニュースは7月1日、国会の過去20年分以上の議案データ約1万8000件を収集・整理し、オープンデータ化した国会議案のデータベースを、GitHubで無償公開（衆議院、参議院）した。GitHubを利用しない人向けに、閲覧用のWebページ（衆議院、参議院）も公開した。国会で審議された法案や予算案、条約、決議案といった議案は、衆参両議院のWebサイトに掲載されている。提出者や審議された委員会、賛成・反対した政党（衆院のみ）などの情報も確認できるが、国会の回次ごと、また議案ごとにページが分かれているため、集計や検索、一覧が難しかった。今回、同社の「メディア研究所」が、各議案のページに掲載されている情報を収集、整理し、CSVファイルとJSONファイル形式で公開。MITライセンスに準拠し、商用・非商用を問わずオープンデータとして誰でも無償で使えるようした。主に報道機関や研究者に、選挙報道や
- データベース
- あとで読む
- 政治
- github
- メディア
- データ
- web
- 選挙
- オープンデータ
- 国会
テキストから御朱印を自動生成するシステム、筑波大が開発　寺社1000カ所以上から御朱印収集、データ化
- 367 users
- www.itmedia.co.jp
- テクノロジー
- 2022/01/07
Innovative Tech：このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。筑波大学落合研究室の研究チームが開発した「Goshuin 2.0: Construction of the World’s Largest Goshuin Dataset and Automatic Generation System of Goshuin with Neural Style Transfer」（御朱印2.0）は、テキストから御朱印を自動生成する学習ベースのシステムだ。訓練用のデータセットは、寺社1000カ所以上を訪問し取得した御朱印を基に大規模にデータ化した。御朱印とは、日本の神社やお寺に参拝した証として集められるものだ。御朱印はおおむね、印章と寺社の名称や本尊／祭神の
- 宗教
- 文化
- 研究
- 機械学習
- あとで読む
- 御朱印
- システム
- 開発
- webサービス
- 神社
時系列予測で使えるpythonライブラリ一覧 - ざこぷろのメモ
- 360 users
- zakopilo.hatenablog.jp
- テクノロジー
- 2020/07/19
本記事では、時系列予測に利用できるpythonのライブラリの使い方について説明をします。パッとライブラリを使うことを目指すため具体的なアルゴリズムの説明は省きます。 ※説明が間違えている場合があればご指摘いただけると助かります。目次利用データライブラリ Prophet PyFlux Pyro Pytorch Lightgbm 補足:Darts まとめソースコードこのブログで記載されているソースコードはGitHubに上げておいたのでもしよろしければ参考にしてください。 github.com 利用データ今回用いるデータはkaggleのM5 Forecasting - Accuracyと呼ばれるコンペティションで利用されたデータを用います。作成したランダムなデータよりも実データのほうが予測をしている感があるからです。予測に使うデータはwalmartの売上データです。下図はその
OpenAI API のファインチューニングガイド｜npaka
- 347 users
- note.com/npaka
- テクノロジー
- 2023/08/23
1. ファインチューニングの利点ファインチューニングの利点は、次のとおりです。 (1) プロンプトよりも高品質な応答 (2) プロンプトに収まりきらないより多くの例の適用 (3) プロンプトの短縮によるトークン数 (コスト) の節約 (4) プロンプトの短縮による処理時間の短縮モデルは膨大な量のテキストで事前学習されており、このモデルを効果的に利用するため、プロンプトに手順や応答の例を指定する手法が使われます。この例を使用してタスクの実行方法を示すことを「Few-Shot」と呼びます。ファインチューニングで、プロンプトに収まりきらないより多くの例で学習することにより、さまざまなタスクでより良い結果を達成できるようになります。プロンプトに多くの例を指定する必要はなくなります。これによりトークン (コスト) が節約され、処理時間も短縮されます。 2. ファインチューニングの使用料金ファイン
- ChatGPT
- あとで読む
- AI
- OpenAI
- 学習
- 機械学習
- 自然言語処理
- api
- GPT
- LLM
ダミーデータ作成のお供に！ VS Code 拡張機能「vscode-random」で人名やカラーコードなどを自動生成してもらおう！ | DevelopersIO
- 339 users
- dev.classmethod.jp
- テクノロジー
- 2020/10/15
はじめにダミーデータを作成しなければならないときってありますよね？テストデータやサンプル画面を作るときに値をどうするか困ったことありませんか？そういった悩みを VS Code で解決するための拡張機能が vscode-random です。 https://marketplace.visualstudio.com/items?itemName=jrebocho.vscode-random デモ（GitHub リポジトリより引用）拡張機能としてはカーソル位置にランダムな値を挿入するという単純なものなのですが、VS Code のマルチカーソル機能と組み合わせることで非常に強力な体験を得ることができます。名前やメールアドレスの項目がある JSON や YAML に対し、複数の項目にまとめて値を挿入して作り上げるのは気持ちいいこと間違いなし！対応コマンドコマンド説明生成例
- vscode
- あとで読む
- データ
- テスト
- コード
- dummy
- プログラミング
- 拡張
- ダミーデータ
- code
「施策デザインのための機械学習入門」を完全に理解したサトシくんがポケモン捕獲アルゴリズムを実装する話 - kanayamaのブログ
- 338 users
- tepppei.hatenablog.com
- テクノロジー
- 2021/09/05
プロローグストーリー編第1章感銘 step1. KPIの設定 step2. データの観測構造をモデル化する step3. 解くべき問題を特定する step4. 観測データのみを用いて問題を解く方法を考える step5. 機械学習モデルを学習する step6. 施策を導入する第2章絶望第3章反省第4章再起 step1（再） KPIの設定 step2（再）データの観測構造をモデル化する step3（再）解くべき問題を特定する step4（再）観測データのみを用いて問題を解く方法を考える step5（再）機械学習モデルを学習する step6（再）施策を導入する第5章俺たちの戦いはこれからだ！実装編準備擬似データの生成意思決定モデルの学習モデルのオフ方策評価モデルの真の性能の評価まとめこの記事を読んだ方はこんな記事も読んでいます（多分） @tkana
- 機械学習
- あとで読む
- アルゴリズム
- 学習
- 勉強
- ポケモン
- データ
- ML
- machinelearning
- AI
エムスリーのデータ基盤を支える設計パターン - エムスリーテックブログ
- 318 users
- www.m3tech.blog
- テクノロジー
- 2021/10/01
こんにちは、エムスリーエンジニアリンググループの鳥山 (@to_lz1)です。ソフトウェアエンジニアとして製薬企業向けプラットフォームチーム / 電子カルテチームを兼任しています。ソフトウェアエンジニアという肩書きではありますが、私は製薬企業向けプラットフォームチームで長らくデータ基盤の整備・改善といったいわゆる "データエンジニア" が行う業務にも取り組んできました。本日はその設計時に考えていること / 考えてきたことをデータ基盤の設計パターンという形でご紹介しようかと思います。多くの企業で必要性が認識されるようになって久しい "データ基盤" ですが、まだまだ確立された知見の少ない領域かと思います。少しでもデータエンジニアリングを行う方の業務の参考になれば幸いです。データ基盤の全体像収集部分の構成 RDBデータログデータ活用部分の構成データマートの実例「データ基
- 設計
- あとで読む
- データ
- architecture
- データ基盤
- aws
- bigquery
- 分析
- db
- チーム
OCR処理プログラム及び学習用データセットの公開について | NDLラボ
- 309 users
- lab.ndl.go.jp
- テクノロジー
- 2022/04/25
2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館（以下、「当館」とします。）が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日本語のOCR処理プログラムです。このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。リポジトリ : https://github.com/ndl-lab/
- OCR
- あとで読む
- github
- 勉強
- 学習
- 資料
- 機械学習
- 図書館
- python
- AI
英語の学術論文をChatGPT-4で執筆する際の手順メモ｜Kan Hatakeyama
- 304 users
- note.com/kan_hatakeyama
- テクノロジー
- 2024/01/05
はじめに英語の論文をGPT4に執筆させた際の手順を記します｡普段からChatGPTを使っている人にとっては､当たり前のやり取りしかしていないのですが､意外と使えていない方がnon-AI分野では多いので､丁寧にプロンプトを示していきます｡ (ワークショップで解説する必要が出てきたので､そのためのメモ書きです) GPT-4に論文は書けるのか?ゼロから書かせるのは難しいですが､日本語の下書きを英訳するのは得意で､少なくとも筆者が満足する品質のテキストが得られます｡ GPTを使って執筆をするメリットDeepLやGoogle翻訳と違い､英文のスタイル(e.g., 論文調)を明示的に指示できるので､翻訳のクオリティが高い日本語ネイティブにとっては､日本語で書いた方が圧倒的に楽※ スペルミスや文法ミスを犯さないので､校正の手間も減る｡※ 基本的に翻訳タスクしか行っていないので､GPTが過去の類似文章
- ChatGPT
- 英語
- あとで読む
- 論文
- LLM
- 人工知能
- AI
- 文章生成AI
- 研究
GPTが出した回答の確からしさを見えるようにしてみる - Taste of Tech Topics
- 300 users
- acro-engineer.hatenablog.com
- テクノロジー
- 2023/03/10
皆さんこんにちは。データサイエンティストチームYAMALEXのSsk1029Takashiです。 YAMALEXは Acroquest 社内で発足した、会社の未来の技術を創る、機械学習がメインテーマのデータサイエンスチームです。この記事はGPTでチャットボットを作ってみるシリーズ第3弾です。第1弾と第2弾もぜひご覧ください。 acro-engineer.hatenablog.com acro-engineer.hatenablog.com 第1弾では、GPTになるべく正確な回答をさせるために、回答の情報を持つ文書を検索し、それをもとに回答を生成するという内容を試しました。文書をもとに回答を生成することで比較的正確な回答を取得することができました。ただし、この回答も必ずしも正確な回答とは限らないので、どれくらい信頼していいのかを自動で判定する仕組みが欲しくなります。今回は第1弾のシ
- ChatGPT
- AI
- あとで読む
- GPT
- 機械学習
- 学習
- 文章
- 自然言語処理
- 人工知能
- tech
Three.jsで新宿駅構内図を3Dで可視化してみる - Qiita
- 293 users
- qiita.com/satoshi7190
- テクノロジー
- 2023/12/25
これは MIERUNE AdventCalendar 2023 24日目の記事です! 昨日は@northprintさんによるSvelteKitでURLクエリパラメーターの操作をするでした。はじめにこの記事では新宿駅の屋内地図データを使用して、Three.jsで3Dによる可視化をします。 DEMOはコチラ使用するデータ今回は、G空間情報センターで公開されている「新宿駅屋内地図オープンデータ」の統合版（ShapeFile）を使用します。データについての詳細は製品仕様書に記載されています。この記事のように、データの加工利用には以下の出典が必要となります。コンテンツを編集・加工等して利用する場合は、上記出典とは別に、編集・加工等を行ったことを記載してください。なお、編集・加工した情報を、あたかも国（又は府省等）が作成したかのような態様で公表・利用してはいけません。（コンテンツを編集・
- threejs
- あとで読む
- 地図
- Three.js
- 3D
- qiita
- javascript
- map
- 新宿
- コンテンツ
Announcing D1: our first SQL database
- 256 users
- blog.cloudflare.com
- テクノロジー
- 2022/05/11
This post is also available in Français, Deutsch, Español, 简体中文, 日本語 and 繁體中文. We announced Cloudflare Workers in 2017, giving developers access to compute on our network. We were excited about the possibilities this unlocked, but we quickly realized — most real world applications are stateful. Since then, we’ve delivered KV, Durable Objects, and R2, giving developers access to various types of st
- cloudflare
- database
- CDN
- SQLite
- DB
- SQL
- あとで読む
- データベース
BigQueryでクエリ一撃で29万円溶かしたけど助かった人の顔
- 252 users
- futurismo.biz
- テクノロジー
- 2024/01/29
SolanaのPublic DataをBigQueryで取得したかった# えー、お笑いを一席. ブロックチェーンSolanaのデータがGoogle Cloud BigQueryで使えるようになったというニュースをたまたまネット推薦記事でみかけた1. おや, 面白そうだ. ちょっとやってみようかな… BigQueryはさわるのが１年以上つかってないかも, どうやるんだっけ… とりあえずカラムとかサンプルでちょっとデータをみたいよな, こんな感じだっけか？とりあえず動かしてみよう, ポチッとな. … 5秒でレスポンスが帰ってくる. おー、速い. えーっと, あれ課金データ309TB？！いちげきひっさつ、ハサンギロチン2. BigQueryでクエリ一撃5 秒で29万円溶かした人の顔# 話題の画像生成AI, DALL･Eをつかって BigQueryでお金溶かした人の顔を表現してもらった3. あ
- bigquery
- あとで読む
- google
- SQL
- コスト
- cloud
- データ
- GCP
ChatGPTにお前はどうやって実装されてんの？って聞いてみたら
- 252 users
- anond.hatelabo.jp
- テクノロジー
- 2023/01/19
マジレスされてチビッた．こりゃGoogleさんもビビるわけだ．ぼく： How were you implemented? Is it deep learning-based? ChatGPT: I am a language model called GPT-3 (Generative Pre-trained Transformer 3) that was developed by OpenAI. It is a deep learning-based model that uses a type of neural network called a transformer, which was trained on a large dataset of text to learn patterns of language. GPT-3 is trained using a techni
- ChatGPT
- AI
- あとで読む
- 増田
- 人工知能
- ネタ
- 技術
- IT
データ分析を元にFAQサイトを継続的に改善する - yasuhisa's blog
- 242 users
- www.yasuhisay.info
- テクノロジー
- 2020/07/09
FAQサイト、サポート問い合わせをせずとも自分で疑問を解決できて便利ですよね。でも、検索した単語が一件もヒットしないと、ちょっとガッカリしてしまします。そういったガッカリを減らすために、簡単なデータ分析を使ってFAQサイトを継続的に改善する話を書いてみます。 ...というのも、自分が仕事で関わっているMackerelでは最近FAQをリニューアルしたからなのでした。 MackerelのFAQではZendesk Guideを利用していますが、Zendesk Guideは便利なAPIが用意されているので、それと既存のデータ基盤を組み合わせて改善していく形です。 FAQサイト内の検索語を列挙するまず、FAQサイト内でどういった単語が検索されているのかを列挙します。Google Tag Manager経由でFirebase Analyticsにデータを飛ばすと閲覧状況が分かりますが、そのログをBi
- zendesk
- あとで読む
- BigQuery
- 分析
- アナリティクス
- faq
- firebase
- データ
- mackerel
- api
機械学習で逆ストリートビューを作り、写真から港区らしさを判定する - エムスリーテックブログ
- 233 users
- www.m3tech.blog
- テクノロジー
- 2021/12/11
テストデータでの予測結果先日新橋を散歩していたときの会話。妻 "こういう路地って新橋らしさあるよねー" 私 "本当です？どういうところで当てられるの？" 妻 "歩道の雰囲気？" 私 "うーん" ということで、MLエンジニアたるもの、そんなことが本当にできるのか機械学習で検証してみましょう。写真から撮影場所を当てる作るもの港区らしさとは柵でわかる中央区・千代田区・江東区最もXX区に間違えそうなYY区の写真とは技術的な話参考論文: PlaNet Google Streetview API と Geolonia API 学習について他の地域の分類機を作る自分の撮った写真の地域を当てる Limitation まとめ We are hiring! おまけ: モデルと勝負！写真から撮影場所を当てるこんにちは、AI・機械学習チームリーダーの大垣(id:Hi_king)です。こ
- 機械学習
- あとで読む
- 写真
- 街
- AI
- 東京
- ネタ
Geolonia 住所データ
- 231 users
- geolonia.github.io
- テクノロジー
- 2020/08/05
Skip to the content. Geolonia 住所データ全国の町丁目、大字、小字レベルの住所データ（277,543件）をオープンデータとして公開いたします。本データは、国土交通省位置参照情報ダウンロードサービスで配布されている「大字・町丁目レベル位置参照情報」をベースとしていますが、「大字・町丁目レベル位置参照情報」データは年に一回更新であるのに対して、本リポジトリで配布するデータは毎月更新しています。 latest.csvをダウンロード latest.dbをダウンロードリリースノート住所データ仕様ファイルフォーマット latest.csv: CSV latest.db: SQLite3で読み込めるバイナリ形式列都道府県コード都道府県名都道府県名カナ都道府県名ローマ字市区町村コード市区町村名市区町村名カナ市区町村名ローマ字大字町丁目名大字町丁目
- data
- データ
- GIS
- opendata
- 地図
- oss
- development
- address
- webサービス
- 不動産
Microsoftがたった13億のパラメーターでGPT-3.5超えのHumanEval50.6％をたたき出す「phi-1」を発表
- 229 users
- gigazine.net
- テクノロジー
- 2023/06/22
LLaMaやFalconといった小型の大規模言語モデル(LLM)が矢継ぎ早にリリースされる中、Microsoft ResearchのAI研究チームが、プレプリントサーバーのarXivで、Transformerベースのモデル「phi-1」を発表しました。このモデルは、パラメーター数がGPT-3.5の100分の1以下の13億しかないにもかかわらず、テスト用データセット・HumanEvalでGPT-3.5を上回る成績を収めたことが報告されています。 [2306.11644] Textbooks Are All You Need https://doi.org/10.48550/arXiv.2306.11644 Microsoft Releases 1.3 Bn Parameter Language Model, Outperforms LLaMa https://analyticsindiama
- AI
- Microsoft
- あとで読む
- 人工知能
- LLM
- 機械学習
- 技術
- ChatGPT
- 学習
- techfeed
図書館オープンデータを使って図書館データポータルサイトを作りました - Qiita
- 225 users
- qiita.com/uedayou
- テクノロジー
- 2021/09/12
国立国会図書館では、さまざまなオープンデータが公開されています。その中に「図書館及び関連組織のための国際標準識別子（ISIL）」試行版LODがあります。これは、日本全国の図書館に関する情報が網羅的にまとめられているRDFデータとなります。提供されているデータはXMLファイルなので個別にデータを取得するためにはプログラムなどで処理する必要があるので、Webブラウザで各データを見やすく提供するWebサイト「図書館施設データポータル」を作成しました。ここでは、図書館施設データポータルを紹介します。図書館及び関連組織のための国際標準識別子（ISIL）」試行版LOD とは元データは、「図書館及び関連組織のための国際標準識別子（ISIL）」という図書館等につけられる国際的な識別子で、国立国会図書館では、このISILが付与される図書館の情報をオープンデータ(XMLファイルのRDFデータ)
SQLを使った監視でデータ基盤の品質を向上させる - MonotaRO Tech Blog
- 216 users
- tech-blog.monotaro.com
- テクノロジー
- 2021/08/24
こんにちは、データ基盤グループの吉田(id:syou6162)です。データ基盤グループでは安定してデータを利用できるように様々な取り組みを行なっています。本エントリでは、データ品質に問題がある場合にすぐに気付けるようにしたSQLによる監視の仕組みを紹介します。背景 SQLを使った監視基盤の構築実際の監視項目例他チームがdailyで転送しているデータがバッチの失敗により遅れていないか BigQueryのエラーレートが急激に増加していないか承認済みビューの設定が意図せず消えていないか今後の展望背景データ基盤の運用をしていると、日々様々なトラブルと向き合う必要があります。例えば、以下のようなものがあります。他チームがdailyで転送しているデータがバッチの失敗により遅れている TerraformなどのIaCで承認済みビューの権限管理を行なっているが、コードの設定ミスで意図せぬ状態
- sql
- BigQuery
- あとで読む
- monitoring
- 監視
- データ
- 運用
- cloud
Pythonでいい感じにバッチを作ってみる - prefectをはじめよう - JX通信社エンジニアブログ
- 215 users
- tech.jxpress.net
- テクノロジー
- 2020/12/18
JX通信社シニア・エンジニアで, プロダクトチームのデータ活用とデータサイエンスのあれこれ頑張ってるマン, @shinyorke（しんよーく）です. 最近ハマってるかつ毎朝の日課は「リングフィットアドベンチャー*1で汗を流してからの朝食」です. 35日連続続いています. 話は遡ること今年の7月末になりますが, JX通信社のデータ基盤の紹介&「ETLとかバッチってどのFW/ライブラリ使えばいいのさ🤔」というクエスチョンに応えるため, このようなエントリーを公開しました. tech.jxpress.net このエントリー, 多くの方から反響をいただき執筆してよかったです, 読んでくださった方ありがとうございます！まだお読みでない方はこのエントリーを読み進める前に流して読んでもらえると良いかも知れません. 上記のエントリーの最後で, 次はprefect編で会いましょう. という挨拶で締めさせ