[B! 機械学習][*data] sh19910711のブックマーク

【AutoGluon】画像やテキストを含む表データの分類 - パソコン関連もろもろ

2021年12月15日記事を修正しましたはじめに手順データのダウンロード学習テストデータを使った検証動作環境環境構築良い結果を求めて（追記）変更点結果はじめに下記のチュートリアルページを実行してみました。 auto.gluon.ai 扱うデータは表形式データですが文章を含んだ列と画像を含んだ列があります。そのデータを使った分類問題です。手順データのダウンロード from autogluon.core.utils.loaders import load_zip download_dir = './ag_petfinder_tutorial' zip_file = 'https://automl-mm-bench.s3.amazon aws.com/petfinder_kaggle.zip' load_zip.unzip(zip_file, unzip_dir=downl

sh19910711 2024/05/27

"扱うデータは表形式データですが文章を含んだ列と画像を含んだ列 / autogluon: 「MXNet」と「PyTorch」の両方が必要 / CUDAのバージョンは11.3ですがmxnet-cu112が問題なく動いています / presets='best_quality'" 2021

リンク

Adversarial Random ForestsによるテーブルデータのAugmentation・モックデータ生成

はじめにこんにちは。株式会社アイデミーデータサイエンティストの中沢(@shnakazawa_ja)です。本記事ではAdversarial Random Forestsを使ったテーブルデータの生成について、RおよびPythonでの実装を紹介します。 Adversarial Random Forests (ARF) とは ARFは2023年にProceedings of The 26th International Conference on Artificial Intelligence and Statisticsに採択された論文で提案された、テーブルデータに対して密度推定と生成モデリングを行う高速な手法です[1]。その名の通りGAN[2]とRandom Forestを組み合わせた手法で、生成と識別を交互に繰り返すことで元データの特性を学習し、元のテーブルデータと類似したデータを生成

sh19910711 2024/05/10

"ARF; Adversarial Random Forests: その名の通りGANとRandom Forestを組み合わせた手法 + 元のテーブルデータと類似したデータを生成 / 個人情報・秘匿情報をマスクしたモックデータの生成といった場面での活用可能性"

リンク

Deep learning に対応!! Splunk DL Toolkit に触ってみた - Qiita

概要 Splunkが DeepLearningに対応しました（驚き）。昨年(2018年)の .conf で発表があり beta 版としてアングラで動いてたらしいですが、今回正式に Deep Learning Toolkit もリリースされて追加できるようになりました。もちろんGPUなどにも対応しており、Tensorflow /Keras / PyTorch そして複数の NLP ライブラリが利用可能です。今回はどんな感じで実装できるのか、まずはセットアップしてみたいと思います。ちなみに Youtubeで概要とセットアップなどが紹介されてますので、こちらも合わせてチェックしてください。 https://www.youtube.com/watch?v=IYCvwABLyh4 マニュアルはなさそうでして、DL Toolkit アプリをインストールすると簡単なセットアップガイドが載ってるた

sh19910711 2024/05/08

"Splunk DLTK: Tensorflow/Keras/PyTorch + 複数の NLP ライブラリが利用可能 / 苦労するデータ収集や前処理、そして最後の実装部分をSplunkに任せ + いいモデルができてしまえば、後は通常の Splunkの知識さえあれば実装ができます" 2019

リンク

Solr でランキング学習を体験する | 関口宏司のLuceneブログ

一定期間更新がないため広告を表示しています

sh19910711 2024/05/07

"Solrでランキング学習というと、まもなくリリースされる Solr 6.4.0 に含まれる SOLR-8542 を思い浮かべる方もいるかもしれない / NLP4L: アクセスログからクリックモデルを計算して関連度を自動算出する方法が用意されて" 2017

リンク

BigQuery DataFrames と Vertex AI Pipelines による機械学習パイプライン構築

はじめにこんにちは、クラウドエースデータソリューション部の松本です。普段は、データ基盤や MLOps を構築したり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。クラウドエースデータソリューション部についてクラウドエースのIT エンジニアリングを担うシステム開発統括部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのがデータソリューション部です。弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があればエントリーをお待ちしております！今回は、BigQuery DataFrames と Vertex AI Pipelines による機械学習パイプライン構築方法について、ご紹介いたします。この記事はこんな人にオススメ機械学習パイプラインにおける実行基盤を検討さ

sh19910711 2024/05/01

"Vertex AI Pipelines: Vertex ML Metadata を使用してアーティファクトに関するメタデータの追跡が可能 / bigframes.ml の register 関数により、訓練したモデルを Vertex AI Model Registory に登録"

リンク

初手BQMLのメリデメ

概要スタートアップで初めて機械学習を用いた予測システムをデプロイするときにBigQueryMLを採用したので、やったこととメリデメを整理する。背景・課題機械学習を用いて需要予測を行うシステムをデプロイしたい予測システムの導入は初めてなので、現在簡単にデプロイできるような体制はない dbtでデータ基盤を管理している予測モデルがワークするか確かめられるまでは、リッチなシステム構築は避けたいやったこと BigQueryMLを用いて、学習・モデルデプロイ・予測を行うシステムを組んだ https://cloud.google.com/bigquery/docs/bqml-introduction?hl=ja あらかじめデータ基盤やジョブスケジューリング機能を作れていたので、実装自体は調査含めて4日くらいでできたシステム構成・データ処理はdbtで管理する。これにより異常データなどが入っ

sh19910711 2024/04/27

"BigQuery ML + dbt_ml: 学習結果がvertex aiで自動的に表示されるため、性能指標のモニタリングについてゼロから開発する必要がない + データをBigQuery外に出すことなく、学習・予測が完了 / model_registryでvertex aiを指定"

リンク

Amazon SageMaker Data Wrangler に画像の前処理が追加 - Qiita

はじめに AWS UpdateでAmazon SageMaker Data Wranglerに画像の前処理機能が追加されました。 Data WranglerはAmazon SageMaker Studioの機能の一つで、データの前処理が行えるサービスです。従来はファイルタイプとしてcsv, parquet, json, jsonl, orcに対応していたようですが、「image」が追加されました。利用イメージは以下のようになります。やってみる「S3からインポート → 重複削除 → ノイズ付与 → S3にエクスポート」という流れを試してみます。インポートするS3バケット内に同じ画像データを2枚用意しました。この画像に処理を行い、エクスポートするまでを試してみます。データインポートデータソースをS3としてインポートします。File typeは「image」を選択しました。イン

sh19910711 2024/04/23

"Data Wrangler: SageMaker Studioの機能の一つで、データの前処理が行えるサービス / 組み込みの変換も用意 + 今回は重複削除とノイズ付与 / カスタムで作成したスクリプトをステップに追加することもできる" 2023

リンク

UMAP 0.4の新機能で遊ぶ（プロット、非ユークリッド空間への埋め込み、逆変換） - Qiita

UMAPがバージョンアップしてv0.4が公開された。 2020/02/10現在では、pip install --pre umap-learnでバージョンを上げることができる。疎行列をそのまま入力できたりいろんな機能が追加されているらしいけど、ここではプロット機能、非ユークリッド空間への埋め込み、逆変換を試してみる。データだけ変えてほぼドキュメントに書いてあるコード例そのままやってるだけなので、それぞれについて詳しくはUMAPドキュメントへ。データ PARCのレポジトリに置いてあったscRNA-seqのデータセットとアノテーション（Zheng et al., 2017, 10X PBMC）を使って実験する。68,579細胞、事前にPCAで50次元に圧縮済み。気軽にやるにはちょっと大きすぎるデータなので適当に1万細胞くらいに落として使う。

sh19910711 2024/02/29

"UMAP埋め込みのときに使われたneighborhood graphを可視化してくれる機能 / どういったconnectivityが学習されたのかを検証するときに使えるかも / 球面など他のタイプの空間に埋め込むことも可能らしい (output_metric)" / 2020

リンク

クラスタ数を自動推定するX-means法を調べてみた - Qiita

背景前回、k-meansの最適なk数ってどうやって探すの？って記事を書きました ↓ コメント欄というわけで、『X-means』を調べましたクラスタ数を自動推定するX-means法について Pelleg and Moore (2000)が提案したK-meansの拡張アルゴリズム。クラスター数Kを自動決定する k-meansをデータ数が多くても高速に動くようなアルゴリズムに工夫するという点が、従来のk-meansとの差分。 "x-means"でググると最初に出てくる2本のpopularっぽい論文 X-means: Extending K-means with Efficient Estimation of the Number of Clusters | Carnegie Mellon Univ. (2000) x-meansの提案論文クラスター数を自動決定するk-meansアルゴ

sh19910711 2024/02/29

"X-means: k-meansの逐次繰り返しとBICによる分割停止基準 / 少ないクラスター数でk-means + 2-meansして、クラスターを分割 + BICが大きくなったら採用 / k-meansの欠点（初期値依存性）をひきづっている" / 2016

リンク

因果関係を捉える強化学習の論文を読む - mabonki0725の日記

因果推論では2つの流派（ルービンとパール）があり、同じ因果を扱っているが方法が異なるので混乱してしまう。ルービンはスコア法に代表される因果推論であり、パールはベイジアンネットに代表される非巡回有向図(DAG:Directed Acyclic Graph)を用いる因果推論となっている。下記の記事はさらに心理学(キャンベル)を追加した区分について記述している。統計学における因果推論（ルービンの因果モデル） – 医療政策学×医療経済学機械学習での因果推論では、データから因果を推定する次の様な方法があるが、介入という操作を使えず本当の因果は判定できないものである。 (i) データの3次以上のモーメントを使う独立成分分析で因果方向を推定する方法 http://www.padoc.info/doc/kanoIca.pdf http://padoc.info/doc/sas2015_bn_struc

sh19910711 2024/02/28

arXiv:1901.08162 / "ルービンはスコア法に代表される因果推論であり、パールはベイジアンネットに代表されるDAGを用いる / DAG上でエージェントが様々な介入を行ってその結果から効率的に因果関係を把握" / 2019

リンク

大規模画像テキストデータのフィルタリング手法の紹介

基盤モデルのための事前学習用のデータは「量」にフォーカスされがちですが、昨今では「質」の部分にも注目が集まっています。特に昨年開催されたDataCompは、データの質にフォーカスしたData-centricなコンペ設計となっており、データフィルタリングのノウハウが多数共有されました。本発表ではDataCompでの事例を中心に、最近の大規模画像テキストペアデータのためのフィルタリング手法について紹介します。

sh19910711 2024/02/11

"CLIPの成功を皮切りにweb上から画像とテキストのペアを大量に収集する試みが盛んに / alt-text: 画像とテキストの紐づけを容易にする + 代わりにノイズが多く / DataComp: データの「質」を定量的に評価するためのベンチマーク"

リンク

機械学習のデータセットはどう失われるか - Qiita

機械学習では、データセットが重要であることを先に述べた。機械学習のデータセットの重要性しかし、そのデータセットとは実は容易に失われてしまいやすいことを述べておきたい。データ取得と管理を軽んじる傾向研究者・開発者とも自分の業績として着目される分野の作業に時間を使いたい。すぐれたアルゴリズムを創りだして論文を書いて自分の業績を世界に認めさせたい。。よくできた実装を創りだして、そのコードの作者としての業績を作りたい。そういうものは、時間をかけたからといい結果にたどりつくとは限らない。研究者・開発者としての腕の見せ所だ。それにくらべると、データの取得と管理は、そこまで業績として評価されることの少ないものだ。「時間さえかければうまくいくんだろう」とか「他に〇〇のデータがあるんだから十分じゃないか」とか、「原理的にうまくいくことを示したんだから、あとは現場の人間がデータを増やしてく

sh19910711 2024/01/12

"収集したデータがそのまま機械学習の有効なデータになることはほとんどない / データはCloud Storage にあるはずなんだけど、どれがそのデータなのかわからない / ドキュメントはいろんな場所に置かれがち" / 2019

リンク

SparkとParameter Server - Qiita

この記事はApache Spark Advent Calendar二日目の記事として書きました。 Apache Sparkにはその分散処理の特徴を活かした機械学習ライブラリ、MLlib, MLが含まれています。元々オンメモリで分散処理を行うSparkにとってiterativeな計算が必要な場面の多い機械学習のアルゴリズムとは親和性が高く期待の大きかった分野のひとつでもあります。モデルの大きさところがDeep learningのような最近話題の手法、アルゴリズムでは非常に大きなモデルを扱う場合があります。ここでの大きさとは次元数、合計としてのデータ容量の大きさを含みます。MLlibのアルゴリズムを見てみるとしばしば以下のようにモデルの重みをbroadcastしていることがわかります。 while (!converged && i <= numIterations) { // 重みをbro

sh19910711 2023/02/18

2015 / "分散KVS for Machine Learning: GoogleのDistBeliefの論文にmotivationと目的みたいなものが読み取れます / SPARK-4590: Parameter Serverとは何か、どんな実装が現在あるのかという事前調査 / SPARK-6937: A Prototype of Parameter Server"

リンク

ヤフーの全社共通レコメンドプラットフォームでのMLOpsの取り組み #mlopsコミュニティ | ドクセル

スライド概要「第27回 MLOps 勉強会」で発表した内容になります。 https://mlops.connpass.com/event/270245/ 社内で利用されている全社共通レコメンドプラットフォームでのモデル開発の効率化や品質向上に関するMLOpsの取り組みの紹介

sh19910711 2023/02/07

"papermill: notebookをそのまま Argo Workflows でジョブ化できる / great-expectations: メンテ・事故によるログの減少を素早く検知・確認できた + ログ仕様についての知識の属人化が緩和 + 運用しながら徐々に閾値を調整していく"

リンク

1ペタバイトのデータセットで機械学習する / WebDataset入門

深層学習をする上で、最も大切なマシンスペックを聞かれたら何と答えますか? GPUのTensor性能、VRAM、GPUの数、CPU性能、メモリ、… 問題によって正解は異なりますね。しかし、特に大規模なデータセットで機械学習する場合では、しばしばネットワーク帯域とストレージシステムのディスクI/Oによって制限されます。この記事ではそのような課題に対して、学習側でどのようにデータを扱うかを見ていきたいと思います。 1. この記事は? こんにちは、TURING MLチームです。TURINGはEnd-to-Endな深層学習モデルでLv5完全自動運転車の開発を目指す会社です。私たちは自動運転モデルを動かすため、可視域のカメラセンサによる画像で学習し、カメラ映像のみから車体の操作や経路選択、安全性の判断を行わせています。(実際の車を動かす事例はこちらの記事をご覧ください。) そのため、機械学習のため

sh19910711 2023/01/20

2022 / "WebDataset: 任意のストレージシステムにデータを数十～数百MBごとにシャーディング（分割）して配置 + 将来的にPyTorchのサブパッケージとして取り込まれるための提案がなされています / aws/amazon-s3-plugin-for-pytorch"

リンク

Kedro を用いた分析コンペ向けのデータパイプライン構築

Kaggle Advent Calendar 2019 の9日目の記事です。一応自己紹介を書いておくと、 Kaggle は mhiro2 という名前でここ1年くらい趣味としてやっています。本業では、 MLOps の一環として、 GKE や BigQuery, Cloud Composer, MLflow などを活用した自社向けの機械学習基盤開発をやっています。 ML やデータ分析の理論や技術そのものよりは、 ML のサイクルを円滑に回すためのシステムデザインやアーキテクチャなどの仕組み化に関心があります。はじめにKaggle をはじめとした分析コンペに取り組んでいる方の中には、自前のパイプラインを構築されている方も多くいらっしゃるかと思います。そもそもパイプラインとは何ぞや、という話ですが、EDA や特徴量のエンコードなどの前処理はもちろん、複数のモデルやパラメータでの学習やアンサン

sh19910711 2022/12/16

2019 / "Kedro: Python で全てのワークフローを記述 + yaml でデータカタログを定義 / ワークフローをコードベースで定義して実行できる類似の OSS としては、最近話題の Metaflow を始め、 d6tflow , Steppy, Sacred などなど"

リンク

AlloyDBの拡張を使ってVertex AIで公開したAPIを呼び出す - Qiita

はじめにこんにちは。昨日に引き続きMLOpsブロックの岡本が担当させていただきます。昨日はサービングを楽にできる？？ Vertex AIを利用した推論APIの作成検討というタイトルでVetex AIを使った推論APIのサービングについて書かせていただきました。本日はGoogle Cloudのデータベースサービスに関する内容になります。 Google I/O 2022でGoogle Cloudの新しいデータベースサービスであるAlloyDB for PostgreSQLが発表され、2022/11現在はプレビュー版としてサービス提供されています。自分の所属チームでは今のところAlloyDBを採用した実績はありませんが、利用する機会がないか伺い、技術調査を行なっているような段階です。本記事ではAlloyDBのドキュメントを読んだ中でも気になった拡張（google_ml_integrat

sh19910711 2022/12/04

"AlloyDBのドキュメントを見るとInvoke Vertex AI predictionsなる項目があり + Vertex AIのonline predictionsを呼び出す方法について記載 / ML_PREDICT_ROW関数の引数にVertex AI Endpointのエンドポイントとrequest bodyを指定して実行"

リンク

BigQuery MLで商品一覧画面の並び順を改善して売上を40%上げた話 - OVERS

目次はじめに自己紹介内容概要基本設計 TCVのビジネスモデル施策内容システム構成フェーズ１: とりあえずAutoMLを使ってみるフェーズ２: 目的変数を変えるフェーズ３: BigQuery MLの導入による検証高速化フェーズ４: 国別フェーズ５: 回帰ではなく分類へフェーズ６とその先へおわりにはじめに自己紹介じげん開発Unit データ分析基盤チームの伊崎です。開発Unitは特定の事業部に所属しない全社横断組織です。その中で、データ分析基盤チームは全社のデータ基盤の整備、データ利活用を担当しています。私個人としては、大学で純粋数学を学んだ後、前職でエントリーレベルの機械学習エンジニアとして働きました。現職では半分データエンジニア、半分データサイエンティストとして働いています。プライベートでKaggleに参加し、銅メダルを獲得した経験があります（最近は活動

sh19910711 2022/12/01

"BigQuery MLの導入による検証高速化 / AutoMLは最終的なモデルを得るためのみに用い、そこまでの試行錯誤は普通のGBDTでやりたい / 最終的なモデル作成はBigQuery MLのAutoMLモデルを利用"

リンク

「確率論」（伊藤清, 岩波講座基礎数学）を古本屋にて200円で買った。 - 閃き- blog

先日、神保町の古本屋で「確率論」（岩波書店）を買いました。お値段はなんと税込２００円です。確率論は統計学はもちろん、確率微分方程式などの解析分野の基礎でもあるので、辞書的に使うのはアリだと思います。 ↓表紙はこんな感じところで、数学というのはシビアな世界で、とりわけ定義(公理)と証明(演繹)を重視します。最近のAIブームの中で、偉い人が「機械学習や数値解析、計算統計学などの分野を学ぶ際には、当然その下位分野も学んでしかるべきである。」という主張をよくしていますが、これは数学の作法として自然なものでしょう。で、実際、統計・機械学習まわりでは以下のようなお叱りを受けることがしばしばあります。「機械学習を学ぶ前に、統計学を学びなさい！」「統計学を学ぶ前に、確率論を学びなさい！」「確率論を学ぶ前に、測度論を学びなさい！」「測度論を学ぶ前に、解析論を学びなさい！」 ... (以下略

sh19910711 2022/11/25

2018 / "お叱り: 「機械学習を学ぶ前に、統計学を学びなさい！」「統計学を学ぶ前に、確率論を学びなさい！」「確率論を学ぶ前に、測度論を学びなさい！」「測度論を学ぶ前に、解析論を学びなさい！」 ... (以下略"

リンク

数学に強いエンジニアむけの機械学習勉強法

今年の3月から機械学習の勉強を始めて9ヶ月たったのでその振り返りと今後機械学習に入門する人の参考になればという記事です。巷の記事だと「数学何もわからない人向けの機械学習~」みたいなものが多いので「数学チョットワカル人向け」に勉強方法をまとめてみようと思いました。前提として筆者は大学で数学を専攻しており、社会人になってからはプログラミングを生業としております。 # 前提知識のおさらいいきなり機械学習入門～のような書籍に入る前に、基礎知識としてこの辺を抑えておくと良いと思います。 ## 線形代数:大学1年レベル機械学習の説明はほとんど行列の計算として表現されますので大前提として。手を動かして計算問題を解くのもおすすめです。プログラミングのための線形代数 https://www.amazon.co.jp/dp/4274065782 ## 基礎統計(頻度主義):大学1年レベル正規分布や指数分

sh19910711 2022/11/24

"ある程度写経をして「どう書くのか」がわかってきたら次は「モデルがどう動くのか」を学習します。(この”学習”の主語は機械ではなく人間です) / 『完全独習ベイズ統計学入門』『ベイズ統計の理論と方法』"

リンク

はてなブックマーク

タグ

関連タグで絞り込む (46)

機械学習と*dataに関するsh19910711のブックマーク (133)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第1週）

今週のはてなブックマーク数ランキング（2024年5月第4週）

今週のはてなブックマーク数ランキング（2024年5月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス