タグ

ブックマーク / qiita.com/khigashi02 (3)

  • UMAP 0.4の新機能で遊ぶ(プロット、非ユークリッド空間への埋め込み、逆変換) - Qiita

    UMAPがバージョンアップしてv0.4が公開された。 2020/02/10現在では、pip install --pre umap-learnでバージョンを上げることができる。 疎行列をそのまま入力できたりいろんな機能が追加されているらしいけど、ここではプロット機能、非ユークリッド空間への埋め込み、逆変換を試してみる。 データだけ変えてほぼドキュメントに書いてあるコード例そのままやってるだけなので、それぞれについて詳しくはUMAPドキュメントへ。 データ PARCのレポジトリに置いてあったscRNA-seqのデータセットとアノテーション(Zheng et al., 2017, 10X PBMC)を使って実験する。68,579細胞、事前にPCAで50次元に圧縮済み。気軽にやるにはちょっと大きすぎるデータなので適当に1万細胞くらいに落として使う。

    UMAP 0.4の新機能で遊ぶ(プロット、非ユークリッド空間への埋め込み、逆変換) - Qiita
    sh19910711
    sh19910711 2024/02/29
    "UMAP埋め込みのときに使われたneighborhood graphを可視化してくれる機能 / どういったconnectivityが学習されたのかを検証するときに使えるかも / 球面など他のタイプの空間に埋め込むことも可能らしい (output_metric)" / 2020
  • 生物学データの次元削減・可視化手法PHATEを使ってみる - Qiita

    PHATE(Moon, K.R., van Dijk, D., Wang, Z. et al. Nature Biotechnology 37, 1482–1492 (2019))を使ってみる。 生物学の論文で使われる次元削減の手法は山のようにあるけど、どの手法も一長一短。代表的なものとしてたとえば以下のような手法がよく使われる。 1. PCA: 主成分分析。分散最大の軸を取り出す。他の手法にはない色んな利点があるけど、特に可視化に使う場合には、非線形な特徴が捉えられない、分布の大域的特徴を良く反映するぶん局所的な構造がノイズとしてつぶれがち、などの欠点がある。 2. t-SNE(およびUMAP): それぞれの点についてlocal neighborhoodとの距離関係が保存されるように低次元の配置を探索する。なのでデータ分布の局所的構造がよく保存された可視化となる。データが複数のクラスタか

    生物学データの次元削減・可視化手法PHATEを使ってみる - Qiita
    sh19910711
    sh19910711 2023/01/08
    2019 / "t-SNE(およびUMAP): クラスタを良く反映した可視化となるが、連続的な「軌道」などは適当に分割されてしまいがち / クラスタ間の相対的な距離関係は乱数によってもコロコロ変わる"
  • 高次元データの分布の密度を反映した埋め込み手法DensMAP - Qiita

    なんかまた新しい埋め込み手法が提案された。次から次に。 Narayan, A., Berger, B. & Cho, H. "Assessing single-cell transcriptomic variability through density-preserving data visualization." Nature Biotechnology (2021) 見逃していたけど結構前にbioRxivで提案されていて、すでにUMAPの公式実装に機能が追加されている。 この論文ではt-SNE、UMAPの目的関数に、後述する「ある項」を追加して改良された新手法、Den-SNE、DensMAPを提案。 解決を試みている問題は、t-SNEやUMAPにおいて「高次元空間における密度」の情報が無視されてしまいがちな点。 以下具体的な例で見てみる。 具体例 密度が異なる6クラスタの埋め込み U

    高次元データの分布の密度を反映した埋め込み手法DensMAP - Qiita
    sh19910711
    sh19910711 2022/10/15
    2021 / "DensMAP: 解決を試みている問題はt-SNEやUMAPにおいて「高次元空間における密度」の情報が無視されてしまいがちな点 / なんとか高次元空間における広がりをちゃんと反映した低次元可視化が得られないか"
  • 1