タグ

分類に関するsh19910711のブックマーク (19)

  • 機械学習における不均衡データの扱い方

    注意 この記事は Dealing with Imbalanced Classes in Machine Learning を和訳したものです。 元記事中で class imbalance や imbalanced classification などと表現されている概念は、必要に応じて 不均衡データ などの表現に置き換えています。 はじめに 現実世界の分類問題ではしばしば、不均衡データを扱わざるを得ない状況になる場合があります。不均衡データとは、データセットに含まれるインスタンスのクラスが占める割合が均一にならないようなもののことを指します。不均衡データを用いた機械学習では、評価指標と手法の適切な調整が重要で、これが行われないと、あなたが取り組みたい真の目的に対して無意味な指標が最適化されてしまう可能性があります。 例えば、AとBの2つのクラスがあるとします。クラスAがデータセットの90%を

    機械学習における不均衡データの扱い方
    sh19910711
    sh19910711 2024/05/13
    "分類問題を異常検知問題として捉え直す / 異常検知では、データ点の「通常の」分布があると仮定 / 過半数クラスをデータ点の「通常の」分布として扱い、少数クラスのインスタンスを異常なデータ点とみなし" 2018
  • 社内輪講資料 / semi-supervised learning

    2020.05.22 社内勉強会にて発表に使用した資料です。

    社内輪講資料 / semi-supervised learning
    sh19910711
    sh19910711 2024/05/12
    "Smoothness assumption: 2つのデータポイントが近ければ対応する2つのラベルも同一であるはずというもの / Triguero15: pseudo-labeling技術のレビューと分析 / Subramanyaand14: graph-based手法の概要" 2020
  • 多値分類における階層構造を利用したマルチタスク学習とその解釈性 / Multi-task Learning for solving hierarchical multilabel classification and its interpretability - Speaker Deck

    ■イベント 【Sansan×エムスリー】自然言語処理勉強会(ライブ配信あり) https://sansan.connpass.com/event/125652/ ■登壇概要 タイトル:多値分類における階層構造を利用したマルチタスク学習とその解釈性 登壇者:DSOC R&D Group 奥田裕樹 ▼Sansan Builders Box https://buildersbox.corp-sansan.com/

    多値分類における階層構造を利用したマルチタスク学習とその解釈性 / Multi-task Learning for solving hierarchical multilabel classification and its interpretability - Speaker Deck
    sh19910711
    sh19910711 2024/04/27
    "MTL: ラベルのメタ情報を上手く活用したい + 上位構造を推定することで目的とする下位構造の推定が容易になるのでは / MTL-Stack-Concat: Task-specific Layerの入力をShared Layerの出力に加えて単語ベクトルも連結" 2019
  • Facebookチームが開発した画像分類にTransformerを利用した効率モデルDeiTを紹介!

    Facebookチームが開発した画像分類にTransformerを利用した効率モデルDeiTを紹介! 2021.01.10 レポート 学術研究, 画像処理 はじめに FacebookのAIリサーチチームから、画像処理にTransformerを利用して効率化を目指した新たなモデル「Data-efficient image Transformers (DeiT)」が発表されたので、簡単にご紹介します。 ●論文 Training data-efficient image transformers & distillation through attention https://arxiv.org/abs/2012.12877 ●Facebook AI Blog Data-efficient image Transformers: A promising new technique for ima

    Facebookチームが開発した画像分類にTransformerを利用した効率モデルDeiTを紹介!
    sh19910711
    sh19910711 2024/04/23
    "DeiT; Data-efficient image Transformers: 蒸留が行えるようにTransformerアーキテクチャを修正 + 蒸留用のトークン(変換された画像データに沿う形でネットワーク内で学習されるベクトル)が導入" arXiv:2012.12877 2021
  • huggingface/transformers の日本語BERTで文書分類器を作成する - Qiita

    概要 先日、huggingfeceのtransformersで日語学習済BERTが公式に使えるようになりました。 https://github.com/huggingface/transformers おはようござえます、日友達 Hello, Friends from Japan 🇯🇵! Thanks to @NlpTohoku, we now have a state-of-the-art Japanese language model in Transformers, bert-base-japanese. Can you guess what the model outputs in the masked LM task below? pic.twitter.com/XIBUu7wrex — Hugging Face (@huggingface) December 13,

    huggingface/transformers の日本語BERTで文書分類器を作成する - Qiita
    sh19910711
    sh19910711 2024/04/22
    "transformersとPyTorch, torchtextを用いて日本語の文章を分類するclassifierを作成、ファインチューニングして予測するまで / 実装は「つくりながら学ぶ!PyTorchによる発展ディープラーニング」をとても参照" 2019
  • MNIST互換の日本語くずし字データセットでCNNやt-SNEを試す - sw1227’s diary

    1. くずし字データセットとは 2. ダウンロード 3. データを眺める 4. t-SNEによる次元削減 5. CNN(by Keras)による識別 6. まとめ・今後のこと 1. くずし字データセットとは 以前から公開されていた日古典籍データセットでは、デジタル化されたくずし字の画像をダウンロードすることが可能でした。 人文学オープンデータ共同利用センターのニュース(2018/12/08)によると、この日古典籍くずし字データセットを元に、MNISTデータセット互換のくずし字データセット「KMNIST」が公開されたそうです。詳細はGitHubや以下のリンクを参照していただければ良いのですが、おなじみのMNISTデータセットと同様、10クラスに分類できる28x28のグレースケール画像が70,000枚(訓練用60,000・テスト用10,000)提供されています。また、Kuzushiji-4

    MNIST互換の日本語くずし字データセットでCNNやt-SNEを試す - sw1227’s diary
    sh19910711
    sh19910711 2024/04/22
    "KMNIST: くずし字データセット + おなじみのMNISTデータセットと同様、10クラスに分類できる28x28のグレースケール画像が70,000枚 / CNN: くずし字が結構ぐちゃぐちゃに見える割にはよく識別できている" 2018
  • 半教師あり学習のこれまでとこれから - Qiita

    初めまして。新入社員の石川です。 大学と大学院では半教師あり学習を専門にしてきました。今回はそのこれまでの技術と今後についてご紹介します。 半教師あり学習(Semi-Supervised Learning)とは 半教師あり学習は機械学習の手法の一つで、教師あり学習で必要となるデータ形成においてコスト削減を目指します。 まず、機械学習は大きく * 教師あり学習 * 教師なし学習 * 強化学習 の3つが挙げられます。ここでは、教師あり学習と教師なし学習について簡単に説明した後に半教師あり学習について説明していきます。(強化学習は半教師あり学習とあまり関連がないため、別記事を参考にして下さい) 教師あり学習は、学習に必要となる教師データ(および評価データ)について全てのインスタンスにアノテーションと呼ばれるラベル付けの作業が必要です。 例えば、病院に来た患者のレントゲン写真をインプットしたときに

    半教師あり学習のこれまでとこれから - Qiita
    sh19910711
    sh19910711 2024/04/19
    "半教師ありクラスタリング: 一部のデータ間にそれらが同じクラスタに属するかどうかの情報が付加 / PNU Learning: モデル仮定を必要としない半教師あり学習の手法" arXiv:1605.06955 2019
  • 【コード付き】画像用Transformerを利用して衛星画像の分類機械学習モデルを作成する | 宙畑

    色々な分野で応用され始めているTransformerの簡単な解説と実際に衛星画像を利用した雲判定機械学習モデルを作成していきます。 宙畑の2020年Kagglerのアンケート記事でも触れましたが、最近は自然言語処理で使われていたTransformerという技術が、自然言語処理以外の分野でも利用されるようになり、精度の高い結果を出すようになりました。 Kaggleランカーの9人に聞いた、2020年面白かったコンペ9選と論文9選 今回の記事では、Transformer や画像を扱うための Vision Transformer(ViT) についての簡単な解説をおこない、実際に ViT を利用して衛星画像の分類タスクを行います。コードはGoogle Colaboratory(GPU) 上で動かすことを想定していますので、すぐに実行できるようになっています。 Transformer Transfor

    【コード付き】画像用Transformerを利用して衛星画像の分類機械学習モデルを作成する | 宙畑
    sh19910711
    sh19910711 2024/04/13
    "Vision Transformer(ViT): CNNを全く使わずにAttentionのみでモデルが構築 + CNNでは難しかった画像の離れた位置の情報も利用 + 画像を複数枚に分割 / 衛星画像に雲が写っている(cloudy)か、写っていない(clear)かの分類" 2021
  • 機械学習_潜在意味解析_理論編 | DevelopersIO

    概要 こんにちは、データインテグレーション部のyoshimです。 この記事は機械学習アドベントカレンダー20日目のものとなります。 今回は「潜在意味解析(LSA)」という手法を説明してみようと思います。 今回のご説明の流れとして、「潜在意味解析(LSA)」は「トピックモデル」という概念を背景としているものなので、まずは「トピックモデル」についてご説明しようと思います。 その後に「潜在意味解析(LSA)」についてご説明し、「潜在意味解析(LSA)」を発展させたアルゴリズムである「確率的潜在意味解析(pLSA)」、「潜在ディリクレ割り当て(LDA)」、LDAでよく利用されるギブスサンプリングというサンプリング手法、をご紹介しようと思います。 目次 1.トピックモデルとは 2.潜在意味解析(LSA)とは 3.アルゴリズムの流れ 4.確率的潜在意味解析(pLSA) 5.ギブスサンプリング 6.潜在

    機械学習_潜在意味解析_理論編 | DevelopersIO
    sh19910711
    sh19910711 2024/04/12
    "pLSA: 過学習しやすい + その分「今あるデータに対してアドホック的に一回分析する」といった場合はpLSAが適しています / LDA: ハイパーパラメータを求めることで、最終的に求めたい確率密度関数を求める" 2017
  • お手軽な画像の多クラス分類(データセット収集、学習、推論実行まで) - Qiita

    自前のデータセットを使って画像のクラス分類をしたいとき、学習済みモデルを使った転移学習が一番手軽かと思います。 中でもKerasは最もコード量が少なく済むし分かりやすいものです。 この記事は、機械学習プロジェクトをまだ実装したことが無い、かつチュートリアルを読みたくない人のためのガイドです。 また、データセット収集、学習、推論実行 をそれぞれスクリプトに実装したので、新たなプロジェクトの土台に使えるかもしれません。 colabは使用せずに完全にローカルでやります 完全なコードはこちら 来は次のチュートリアルとガイドをなぞることで、「画像の多クラス分類」を実装できるようになります。 はじめてのニューラルネットワーク:分類問題の初歩 https://www.tensorflow.org/tutorials/keras/classification?hl=ja モデルの保存と復元 https

    お手軽な画像の多クラス分類(データセット収集、学習、推論実行まで) - Qiita
    sh19910711
    sh19910711 2024/04/12
    "webカメラを使ってリアルタイムで手のハンドサインを識別 / 直近10フレーム(0.33ms)分の結果中の最頻値を使う / patienceがデフォルトの0だと事故で速攻終わることがしばしばあるので3"
  • ラベル伝播法・拡散法による半教師あり学習で少量のラベル付きデータから分類モデルを作る - Qiita

    はじめに こんにちは,(株)日立製作所 研究開発グループ サービスコンピューティング研究部の露木です。 機械学習で一般的な教師あり学習の問題として,正解ラベルの付いているデータを大量に準備しなければならないことが挙げられます。この問題を解決するために,ラベルなしデータを活用することで必要なラベル付きデータの数を削減する半教師あり学習の分野があります。そして,半教師あり学習の一種にグラフベースのラベル伝播法があります。 ラベル伝播法は,あるデータのラベルをその近傍にあるラベルのないデータにコピーする (伝播させる) ことで,少量のラベル付きデータからモデルを学習します。また,「グラフベース」と呼ばれる理由は,ひとつひとつのデータをノード,データの類似度をエッジ (の重み) としたグラフを構成して,このグラフ上でラベルを伝播するからです。このとき,類似度の計算にカーネル法を組み合わせることで非

    ラベル伝播法・拡散法による半教師あり学習で少量のラベル付きデータから分類モデルを作る - Qiita
    sh19910711
    sh19910711 2024/04/09
    "scikit-learnにはラベル伝播法 (label propagation) とラベル拡散法 (label spreading) が実装 / ラベル伝播法: 類似度をエッジ (の重み) としたグラフ + 類似度の計算にカーネル法を組み合わせることで非線形データにも対応" 2020
  • KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter

    KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter

    KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
    sh19910711
    sh19910711 2024/04/04
    "Co-training: それぞれの特徴空間で分類器を構築 + 一方の予測結果を反映してもう一方の分類器のラベルありデータとして用いる / PU-learning: 確信度が閾値以下の事例を負例とみなす半教師あり学習" doi:10.1145/2623330.2623336 2014
  • 記事分類における教師データおよびモデルの管理

    2016/03/18 エムスリー x Gunosy Beer bash!(Gunosy.beer#2) での発表資料です。 http://gunosy-beer.connpass.com/event/28045/

    記事分類における教師データおよびモデルの管理
    sh19910711
    sh19910711 2024/03/28
    "クラウドソーシング: 記事にカテゴリを振り分けてもらう + ひとかたまりに対して2人に評価をしてもらい分類が同じになったものを教師データとして採用 / 言葉の出現には周期性がある + ある程度の期間が必要" 2016
  • Dynamic Time Warping(動的時間伸縮法)で時系列データをクラスタリングする - Fire Engine

    最近時系列データのクラスタリングに興味を持ち始めて、いくつか論文読んだり、アルゴリズムについて調べていたら、実装してみたくなったので勉強のために作ってみました。 実装の言語にはGolangを用いていて、クラスタリングのアルゴリズムは、Dynamic Time Warping(以下、DTW)とk-medoids法を組み合わせたものです。 作ったもの 使い方 検証 実装したアルゴリズム Dynamic Time Warping(DTW) k-medoids さいごに 作ったもの github.com tsclusterはtime series clusteringの略です。 今回は作ったのは、特定のアルゴリズムのみですが、今後興味があるアルゴリズムがあれば、ここに実装していきます。 使い方 func main() { var dataset [][]float64 dataset = appe

    Dynamic Time Warping(動的時間伸縮法)で時系列データをクラスタリングする - Fire Engine
    sh19910711
    sh19910711 2023/04/12
    2019 / "k-medoids: クラスタの代表点をcentroid(重心)ではなくmedoidを選択する + k-meansよりノイズや外れ値に強い / medoid: クラスタ内のデータ点で、同一クラスタ内の他の全ての点までの距離の総和が最小になる点"
  • グラフからコミュニティ構造を抽出する 〜リッチフローによるグラフの時間発展〜

    コミュニティ抽出とは簡単に言えばグラフにおけるノードのクラスタリング手法です。具体的なアルゴリズムとしてはGirvan–Newman法をはじめ様々なアルゴリズムが存在しますが、この記事では去年(2019年)提案された新しい手法について解説したいと思います[1]。 [1907.03993] Community Detection on Networks with Ricci Flow 話の元になっているのはこちらの論文で、グラフをリッチフローによって変形し、伸びたエッジを切断していくことでクラスタを求めるというアルゴリズムです。リッチフローという聞き慣れない言葉が出てきましたが、ちゃんと後で説明するので気にせず進めましょう。 まずは実際にグラフのクラスタリングを行う様子をアニメーションで見てみてください。 アルゴリズム自体はそれほど難しくありませんが、背景を含めて理解するためには2つの理論

    グラフからコミュニティ構造を抽出する 〜リッチフローによるグラフの時間発展〜
    sh19910711
    sh19910711 2021/12/29
    "リッチフロー: 曲率(空間の曲がり具合)に基づいて多様体の形を変形 / リッチ曲率はある方向vに進んだ時の空間の大きさの変化 / グラフをリッチフローによって変形することでコミュニティという基本的な部品に分解"
  • 大量のニュースから興味関心のある話題をベイジアン分類で抽出する - Qiita

    前々回はニュースデータを収集するために RSS/Atom フィードを利用する話を書きました。 RSS/Atom フィードには全文配信と要約配信があり、昨今ではページビューを稼ぐため要約配信、特にリンクがリダイレクトになっているものや、文がカラのものが多いという話をしました。 全文配信 … タイトル、リンク、それに記事文全体を含むフィード 要約配信 … タイトル、リンク、記事の一部のみまたは文がカラのフィード フィードデータをためる方法 前回は一部で最近話題の Fastladder のセットアップ方法を紹介し、付属のクローラーを使ってサーバーのデータベースにフィードを溜めるという方法を説明しました。 いずれ別の記事で詳しく述べますが Fastladder はサーバー設置型な上、ソースコードは公開されていますので、クローラー自体を自作することも可能です。 また fluentd は柔軟なロ

    大量のニュースから興味関心のある話題をベイジアン分類で抽出する - Qiita
  • HatebuFriends の仕組み - もしかして: blog.iron's.jp

  • Chainer2.0でDeep Embedded Clustering - Qiita

    データの次元圧縮手法について調べている時に、後輩が次元圧縮 + クラスタリングを同時に学習するディープラーニングの手法「Deep Embedded Clustering」を調べて教えてくれたのでせっかくだからChainerで実装してみようというのがこの記事です。 実装したコードはGithubで公開しています。 https://github.com/ymym3412/DeepEmbeddedClustering Deep Embedded Clusteringとは Deep Embedded Clusteringは「Unsupervised Deep Embedding for Clustering Analysis」という論文の中で提案されているクラスタリングの手法です。 次元圧縮やクラスタリングの手法は他にも以下のようなものがあります。 k-means、混合ガウスモデル(GMM) 高速に

    Chainer2.0でDeep Embedded Clustering - Qiita
  • DAY9: 非階層的クラスタリングの3つの手法 - RedandWhiteDays

    Pythonの有名な機械学習用ライブラリであるscikit-learnには様々なアルゴリズムが実装されており、ユーザーは実際に実装しなくても簡単にアルゴリズムを呼び出せるようになっている。とはいえ、原理すら知らずに使うのは危険であり、また自分の目的に適した手法を選択するためにも原理の理解は避けて通れない。今回はscikit-learnに実装されている中から、K-Means, DBSCAN, Mean-shiftの三つの手法を簡単にまとめておくことにする。 なおどのようなアルゴリズムが存在するのか、の一覧はCluster analysis - Wikipedia, the free encyclopediaによくまとまっている。scikit-learnの一覧ページ(2.3. Clustering — scikit-learn 0.17.1 documentation)も参考になるだろう。 1

    DAY9: 非階層的クラスタリングの3つの手法 - RedandWhiteDays
  • 1