タグ

機械学習に関するsh19910711のブックマーク (1,365)

  • 【論文まとめ】DINO: Emerging Properties in Self-Supervised Vision Transformers

    記事ではFacebook AI Researchの研究者らによって提案されたDINOという,画像モデルにおける自己教師あり学習の解説を行います. Caron, Mathilde, Hugo Touvron, Ishan Misra, Hervé Jégou, Julien Mairal, Piotr Bojanowski, and Armand Joulin. 2021. “Emerging Properties in Self-Supervised Vision Transformers.” arXiv [cs.CV]. http://arxiv.org/abs/2104.14294. (cf.) Facebook ブログ, GitHub, Yannic Kilcher氏の解説動画 要点:画像モデル (e.g. ResNet, Vision transformers)における,ラベル無

    sh19910711
    sh19910711 2024/05/13
    "「AugmentationとDatasetが帰納バイアスになっている」という仮説 / 写真を取るときは,自分が注目する物体を視野の中に入れる.道路の脇に草が少し生えているような画像はインターネット上に普通アップロードしない" 2021
  • カードゲームの強化学習 - Qiita

    はじめに よく知られる碁の強化学習は「Alpha Go」があり、将棋やチェスにも対応した強化学習は「AlphaZero」とか「MuZero」がある。 オセロAIDeepLearning的立ち位置からやられる事がある。(評価関数的AIの場合もある) ポーカー(テキサスホールデム)の強化学習は「Pluribus」、麻雀の強化学習は「Suphx」がある。 一方、コンピュータゲームではAtari(70,80年代のビデオゲーム機)のゲームをやるモデルに「Agent57」、「MuZero」、「R2D2」等がある。また、マリオの強化学習としてDQNのチュートリアルコードがあり、比較的よくやられている。その他、強化学習がやられるゲームとしては動画からの学習の題材としてMinecraft、starcraft2の「AlphaStar」などがあるらしい。 しかし、TCG(トレーディングカードゲーム)の強化学習

    カードゲームの強化学習 - Qiita
    sh19910711
    sh19910711 2024/05/13
    "マリオだと入力データが(4,84,84)なのでstrideで画像サイズを減らして演算量を減らすメリットがある / 6種類のカードから成る簡単な環境であればDQN学習でもカードゲームのプレイが出来ているように見える" 2023
  • 機械学習における不均衡データの扱い方

    注意 この記事は Dealing with Imbalanced Classes in Machine Learning を和訳したものです。 元記事中で class imbalance や imbalanced classification などと表現されている概念は、必要に応じて 不均衡データ などの表現に置き換えています。 はじめに 現実世界の分類問題ではしばしば、不均衡データを扱わざるを得ない状況になる場合があります。不均衡データとは、データセットに含まれるインスタンスのクラスが占める割合が均一にならないようなもののことを指します。不均衡データを用いた機械学習では、評価指標と手法の適切な調整が重要で、これが行われないと、あなたが取り組みたい真の目的に対して無意味な指標が最適化されてしまう可能性があります。 例えば、AとBの2つのクラスがあるとします。クラスAがデータセットの90%を

    機械学習における不均衡データの扱い方
    sh19910711
    sh19910711 2024/05/13
    "分類問題を異常検知問題として捉え直す / 異常検知では、データ点の「通常の」分布があると仮定 / 過半数クラスをデータ点の「通常の」分布として扱い、少数クラスのインスタンスを異常なデータ点とみなし" 2018
  • 【論文読解】Castle in the Sky: Dynamic Sky Replacement and Harmonization in Videos - Qiita

    【論文読解】Castle in the Sky: Dynamic Sky Replacement and Harmonization in VideosComputerVision 概要 『天空の城』の名を冠する動画合成に関する論文を読んでみたので、紹介してみます。 この論文で提案している手法は、以下の画像のように、空の領域を別途用意されたテンプレート画像と置き換えることで、あたかも天空の城が現実に出現したかのように合成できるというものです。公式実装のリポジトリ名がSkyARとなっているように、まさに「空のAR」というべき効果が得られています。 手法が面白いのは、このような合成を、ジャイロセンサーなどの情報を利用せずに、画像情報のみからリアルタイムで動画に対して適用できるという点にあります。公式のプロジェクトページに様々な動画が上がっているので、眺めてみると楽しいと思います。 手法では

    【論文読解】Castle in the Sky: Dynamic Sky Replacement and Harmonization in Videos - Qiita
    sh19910711
    sh19910711 2024/05/13
    "あたかも天空の城が現実に出現したかのように合成 / 画像情報のみからリアルタイムで動画に対して適用できる / CoordConv: 画像中における相対的な位置情報も特徴量に埋め込む" 2020
  • 深層学習の量子化に入門してみた 〜BERTをStatic Quantization〜 - Retrieva TECH BLOG

    こんにちは。 リサーチャーの勝又です。 私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。 前々回、深層学習の量子化について簡単な解説記事を公開しました。 前回はDynamic Quantizationを試した記事を公開しました。 今回はStatic Quantizationを実際に試してみようと思います。 Static Quantizationの概要 ONNX Runtimeを利用した量子化方法紹介 データの準備および単語分割を行う 量子化のConfigを作成 Calibrationを実行してscale factorを計算する 量子化適用前に除外するノードを定義 量子化の実行 量子化実験 実験設定 推論速度の比較 まとめ Static Quantizationの概要 Static Quantization(Post Tr

    深層学習の量子化に入門してみた 〜BERTをStatic Quantization〜 - Retrieva TECH BLOG
    sh19910711
    sh19910711 2024/05/13
    "Static Quantizationを行うことで、量子化を行わない場合より推論速度を高速化 + 一方でStatic QuantizationよりもDynamic Quantizationの方が推論速度が速いこともわかり / optimum: お手軽にPyTorchのBERTを量子化したONNXモデルに変換" 2022
  • ポアンカレエンベッディング - にほんごのれんしゅう

    ポアンカレエンベッディング Euclid空間にエンベッディングするようなword2vecは意味の上下関係が明示的に記されません。(情報としたあったとしても僅かでしょう) ポアンカレボールという双曲幾何学空間に埋め込むことで、効率的に意味(や木構造)の上位関係をとらえることができます[1] 理解 ポアンカレボールはこのような、外周部に行くほど密になる球みたいなものなのです。 図1. ハニカム構造のPoincare Ball(Wikipediaより) ポアンカレボールでは外に行くほど情報が密になり、空間が広がっているともとらえます。 数式で表現するとこのようになって、 gEというユークリッド距離がxが1に近づけば無限に大きくなることがわかります。 このポアンカレボール上にある二点間の距離はこのように表現され、単純なユークリッド距離ではないことが見て取れます。 この距離関数に基づいて損失関数L(

    ポアンカレエンベッディング - にほんごのれんしゅう
    sh19910711
    sh19910711 2024/05/13
    "ポアンカレボール: 外周部に行くほど密になる球みたいなもの + 外に行くほど情報が密になり、空間が広がっている / 情報が何らかの上下関係を持っており、木構造で表現できるとき、ルートノードが真ん中に" 2018
  • MIRU2023 参加レポート - ZOZO TECH BLOG

    こんにちは。ZOZO Researchの研究員の古澤・北岸・平川です。2023年7月25日(火)から7月28日(金)にかけて画像の認識・理解シンポジウムMIRU2023に参加しました。この記事では、MIRU2023でのZOZO Researchのメンバーの取り組みやMIRU2023の様子について報告します。 目次 目次 MIRU2023 企業展示 全体の動向 若手プログラム インタラクティブセッション [IS3-46] 着用者の体型を考慮したファッションコーディネート推薦 [IS3-87] ファッショントレンドの検出と予測:SNS投稿データのクラスタリングと時系列解析 気になった研究発表 [OS3B-L2] Instruct 3D-to-3D: Text Instruction Guided 3D-to-3D conversion [OS4A-L2] 数式ドリブン教師あり学習によるセマンテ

    MIRU2023 参加レポート - ZOZO TECH BLOG
    sh19910711
    sh19910711 2024/05/13
    "MIRU: 画像の認識・理解についてのシンポジウム / 昨年は敵対的生成ネットワークを使用する研究が多かった + 今年はStable Diffusionなどで注目を集めている拡散モデルを用いた研究へとシフト" MIRU2023:IS3-87 2023
  • Autoencoderを用いたOutfitからのスタイル抽出/style auto encoder

    sh19910711
    sh19910711 2024/05/13
    "Autoencoderの仕組みを利用してスタイル混合比と基底スタイルを獲得する / 誤差関数はhinge loss + 復元時に用いる行列について、各行が独立となるように正則化をかける + 行列の各行は基底スタイルを表す" 2018
  • 社内輪講資料 / semi-supervised learning

    2020.05.22 社内勉強会にて発表に使用した資料です。

    社内輪講資料 / semi-supervised learning
    sh19910711
    sh19910711 2024/05/12
    "Smoothness assumption: 2つのデータポイントが近ければ対応する2つのラベルも同一であるはずというもの / Triguero15: pseudo-labeling技術のレビューと分析 / Subramanyaand14: graph-based手法の概要" 2020
  • Google Meet仮想背景のAIモデルを参考に開発した高速高精度なバーコードスキャナ

    こんにちは。 前回のブログでGoogle Meetの仮想背景用のAIモデルをwasm化したTensorflow Lite(TFLite)で動かす方法についてご紹介しました。今回は、この技術の活用先の一つとして、軽量、高速なバーコードスキャナを作成してみたのでご紹介したいと思います。 動作としてはこのような感じになります。様々の向きを向いている複数のバーコードを高速に読み取れています。 軽量Semantic Segmentationモデル 仮想背景で使われているAIモデルはSemantic Segmentationモデルと呼ばれます。このモデルは、写真などの画像のピクセル毎に何が写っているかを分類し、対象物が写っている領域を特定してくれます。例えば、下図のように、左の可愛い様の画像を入力すると真ん中のように様と背景の領域を特定した出力を出してくれます。これを人間に使って人間と背景の領域を

    Google Meet仮想背景のAIモデルを参考に開発した高速高精度なバーコードスキャナ
    sh19910711
    sh19910711 2024/05/11
    "軽量Semantic Segmentationを用いてバーコードがありそうな領域を切り出す / シーケンシャルに行っていたエッジ検出処理の一部を、Tensorflow Lite(+XNNPACK)で最適化された行列演算で一気に計算" 2021
  • 深層学習の不確実性 - Uncertainty in Deep Neural Networks -

    Twitter: ottamm_190 追記 2022/4/24 speakerdeck版:https://speakerdeck.com/masatoto/shen-ceng-xue-xi-falsebu-que-shi-xing-uncertainty-in-deep-neural-networks コンパクト版:https://speakerdeck.com/masatoto/shen-ceng-xue-xi-niokerubu-que-shi-xing-ru-menRead less

    深層学習の不確実性 - Uncertainty in Deep Neural Networks -
    sh19910711
    sh19910711 2024/05/11
    "現実の環境は非常に変化しやすくNNが未知データと捉え「知らない」不確実性が生まれる / NNは分布の変化に敏感 + 性能を劣化させることがある / アンサンブルで重要なのはNN間の振る舞いの多様性" 2021
  • 不正検知を可能とする弱教師あり学習手法「DevNet」の紹介 〜膨大なデータに潜む異常を最小限のラベリングで見つける技術〜

    sh19910711
    sh19910711 2024/05/11
    "不正対策の難しさ: 不正かどうかの判断には文脈を考慮する必要がある + 一回ならまぐれかもしれない / 考慮しなければいけないことが時間と共に変化 / DevNet: 未知のデータは正常とみなして学習" arXiv:1911.08623 2021
  • NFL 1st and Future - Player Contact Detection 振り返り - :D

    はじめましての人ははじめまして。普段sqrt4kaidoという名前でkaggleのコンペなどに参加しています。記事では、先日まで行われていたNFLで5位に入ることができましたので、その振り返りを行いたいと思います。 概要 データ ベースライン 弊チームソリューション stage1 stage2 推論 上位解法紹介 1st 3rd 感想、進め方など 概要 コンペは、The National Football League (ナショナル・フットボール・リーグ、以下:NFL)の試合中におけるプレーヤーの外部接触を検出するタスクでした。タスクの実施にあたっては、試合の動画データとトラッキングデータなどのテーブルデータが与えられました。提出はコードコンペティションの形式で行われました。 データ 動画は、全体が映ったものと、ゴール側(EndZone)、サイド側(SideLine)から撮られた3種類

    NFL 1st and Future - Player Contact Detection 振り返り - :D
    sh19910711
    sh19910711 2024/05/11
    "試合中におけるプレーヤーの外部接触を検出するタスク / 精度向上を行うとともに効率的な学習方法を模索するのもこのコンペの肝の一つ / PyTurboJPEGを利用することで、1.5倍ほど画像読み込み時間を短縮" 2023
  • シンプルなHITL機械学習と様々なタスクにおけるHITL機械学習

    sh19910711
    sh19910711 2024/05/11
    "様々なサンプリング手法を組み合わせて活用することで同じ件数の学習データであってもモデルの予測性能を効率よく改善できる / 評価データを最初に作成しないとモデルの精度を正しく評価するのが難しくなる"
  • Poincaré Embeddings でJ1リーグのチーム・選手を可視化 - u++の備忘録

    ふと「Poincaré Embeddings」*1で遊んでみたいと思い立ち、サッカーJ1リーグのデータで試してみました。 Poincaré Embeddings gensimでの実装とデータセット Poincaré Embeddingsの学習 活用方法 おわりに Poincaré Embeddings Poincaré Embeddingsに関する説明は、ABEJA*2やscouty*3のブログに譲ります。 Poincaré Embeddings は端的に言うと word2vec の埋め込み先をユークリッド空間ではなく双曲空間にするという手法で、階層構造やべき分布をもつデータを埋め込むという問題設定において、低次元でもよい表現を与えられるという特徴があります。 Poincaré Embeddings による職種の類似度計算とその利用 - LAPRAS AI LAB gensimでの実装とデ

    Poincaré Embeddings でJ1リーグのチーム・選手を可視化 - u++の備忘録
    sh19910711
    sh19910711 2024/05/11
    "gensimの実装では正則化の影響で周囲にノードが集結しすぎないような工夫 / チーム名が中心 + 円周側に選手 / 「浦和レッズ」の近くに「サンフレッチェ広島」が配置 + 移籍した選手の影響ではないか" 2019
  • Matrix FactorizationとDeep Matrix Factorization(Keras)でのレコメンド - statsuのblog

    レコメンドの手法であるMatrix Factorizationについて勉強したのでその記録です。 以下の検証に関するコードはgithubにあげてあります。 github.com 1. 記事の概要 レコメンドの手法であるMatrix Factorizationについての概要 Matrix FactorizationのNeural Network形式の表現とKerasでの実装 Deep Matrix Factorizationの表現とKerasでの実装 MovieLensでの精度検証 2. Matrix Factorizationの概要 ざっくりと。 Matrix Factorizationはレコメンドの手法のひとつ。 レコメンドの参考サイト レコメンドつれづれ ~1-1. 協調フィルタリングのコンセプトを知る~ - Platinum Data Blog by BrainPad レコメンドつ

    sh19910711
    sh19910711 2024/05/10
    "KerasでDeep Matrix Factorization / Deepにするのは簡単 + どの部分をdeepにするかは工夫のしどころ / Matrix Factorizationめっちゃ強い + Deep Matrix Factorizationはポテンシャルありそうだけど、パラメータチューニングしんどい" 2019
  • 能動学習のいろは:書籍「Human-in-the-Loop機械学習」3〜5章

    sh19910711
    sh19910711 2024/05/10
    "エントロピー基準サンプリング: 正解ラベルを観測した際の「驚き」の期待値で不確実性を計算 / 多様性サンプリング: モデルが「知らないことを知らない」データを特定してサンプリングしたい"
  • 20分で分かる Human-in-the-Loop 機械学習におけるアノテーションとヒューマンコンピューターインタラクションの真髄

    第8回 Data-Centric AI勉強会 ~Human-in-the-Loop機械学習 特別回~の発表内容です。 https://dcai-jp.connpass.com/event/315963/ 書籍「Human-in-the-Loop 機械学習」において、翻訳を担当した章(1,7,8,11,12章)の内容を抜粋して紹介します。Human in the loop 機械学習において重要な概念であるアノテーションとヒューマンコンピューターインタラクションについて、著者の機械学習エンジニアとしての実例を交えつつ説明します。 Amazon での書籍リンク https://amzn.to/47u5tFz

    20分で分かる Human-in-the-Loop 機械学習におけるアノテーションとヒューマンコンピューターインタラクションの真髄
    sh19910711
    sh19910711 2024/05/10
    "データの性質が時間とともに変化する場合、既存のモデルを新しいデータに適応させるよりも、小規模でも新規にアノテーションしたデータを学習データに追加して再学習させるほうが効果的"
  • Adversarial Random ForestsによるテーブルデータのAugmentation・モックデータ生成

    はじめに こんにちは。株式会社アイデミーデータサイエンティストの中沢(@shnakazawa_ja)です。 記事ではAdversarial Random Forestsを使ったテーブルデータの生成について、RおよびPythonでの実装を紹介します。 Adversarial Random Forests (ARF) とは ARFは2023年にProceedings of The 26th International Conference on Artificial Intelligence and Statisticsに採択された論文で提案された、テーブルデータに対して密度推定と生成モデリングを行う高速な手法です[1]。 その名の通りGAN[2]とRandom Forestを組み合わせた手法で、生成と識別を交互に繰り返すことで元データの特性を学習し、元のテーブルデータと類似したデータを生成

    Adversarial Random ForestsによるテーブルデータのAugmentation・モックデータ生成
    sh19910711
    sh19910711 2024/05/10
    "ARF; Adversarial Random Forests: その名の通りGANとRandom Forestを組み合わせた手法 + 元のテーブルデータと類似したデータを生成 / 個人情報・秘匿情報をマスクしたモックデータの生成といった場面での活用可能性"
  • Tree Tensor Networkを用いた画像分類器 - Qiita

    はじめに テンソルネットワークは、量子多体系などの高次元なデータを効率的に扱うための手法として利用される技術ですが、近年、テンソルネットワークを機械学習に応用する研究が様々行われています。 今回は、文献[1]を参考に、Tree Tensor Network (TTN)を用いて、画像の分類を行うモデルをPyTorchで実装し、MNISTとFashion-MNISTに対して、その性能を確認してみます。 概要 今回用いるTree Tensor Network (TTN)は、その名の通り、木構造のテンソルネットワークです。 今回取り上げるTTNによる分類器では、葉が画像の各ピクセルに相当し、この情報を集約していくような構造になります。 この際、愚直に実装しようとすると、葉より上のノードのテンソルの次元数が非常に大きくなってしまうのですが、ここでCP分解と呼ばれる手法を用いて、これを小さなテンソルに

    Tree Tensor Networkを用いた画像分類器 - Qiita
    sh19910711
    sh19910711 2024/05/09
    "TTN; Tree Tensor Network: 葉が画像の各ピクセルに相当 + 愚直に実装しようとすると、葉より上のノードのテンソルの次元数が非常に大きく / CP分解: テンソルをベクトルの直積の和に分解 + 近似的にテンソルを表現" 2023