[B! python][--] sh19910711のブックマーク

sh19910711 id:sh19910711

pythonと--に関するsh19910711のブックマーク (32)

TensorFlow Object Detection APIを使ってFaster R-CNN、R-FCN、SSDを比較してみた - Qiita
TensorFlow Object Detection APIを使ってFaster R-CNN、R-FCN、SSDを比較してみた機械学習 MachineLearningTensorFlow物体検出ObjectDetection 5行まとめ TensorFlow Object Detection APIには各種モデルが準備されており、簡単に試すことができた。 SSDは推論がとても早いが学習に時間がかかる。 R-FCNは推論時間でSSDに劣るが、検出精度がSSDより高め。学習時間と精度のバランスも良い。ラベル付けの補助としてR-FCNを使い、推論時間が重要な場面での最終的な検出器としてSSDを使うのが良さそう。ラベル付け（アノテーション）は苦行。概要 TensorFlow Object Detection APIを使い、独自のデータセットで物体検出（Object Detection）を行っ
sh19910711 2024/05/24
"SSD: 推論がとても早いが学習に時間がかかる / R-FCN: 検出精度がSSDより高め / ラベル付けの補助としてR-FCNを使い、推論時間が重要な場面での最終的な検出器としてSSDを使うのが良さそう" 2019

*program

python

機械学習

cv

--

label
リンク
『Phase reconstruction based on recurrent phase unwrapping with deep neural networks』に基づく位相復元手法をPyTorchで実装した - 備忘録
はじめに実装実験音声の分析条件実験結果おわりにはじめに Masuyama氏らによる位相復元手法 "Phase reconstruction based on recurrent phase unwrapping with deep neural networks"が2020年に提案されている． https://ieeexplore.ieee.org/document/9053234 arxiv.org 本手法は，まずDNNで位相の微分（時間方向・周波数方向）を推定し，次に推定した微分に基づいて位相を再帰的に求める（積分する，アンラッピング）という2段階の処理からなる．位相が波形のずれに敏感という問題を回避しつつ，従来のDNNによる位相の直接推定（von Mises DNN）よりも高い精度で位相を推定することができる，というわけである．「位相を再帰的に求める」 recurrent
sh19910711 2024/05/22
"RPU: DNNで位相の微分（時間方向・周波数方向）を推定 + 推定した微分に基づいて位相を再帰的に求める（積分する，アンラッピング） / 位相が波形のずれに敏感という問題を回避" arXiv:2002.05832

*algorithm

機械学習

音声

python

--

eess.AS
リンク
RWA (Recurrent Weighted Average) モデルを学習させてみた in Keras - Qiita
RWA (Recurrent Weighted Average) とは？論文 (Machine Learning on Sequential Data Using a Recurrent Weighted Average) はこちら上図の c が RWA のモデル概略図です (a は通常の LSTM、b はアテンション付きの LSTM)。 RWA とは、系列データを扱う再帰的ニューラルネットワーク (Recurrent Neural Networks; RNN) の派生のひとつです。提案論文中では、RNN の実装としてよく使用されている LSTM と比較して、精度が良い収束が速いパラメータ数が少ないと、良いことずくめのことが書いてあります。その主張の強さとアーキテクチャの簡明さに驚き、また、現在ほぼデファクトスタンダードとなっている LSTM を本当に上回ることができるのか
sh19910711 2024/05/21
"RWA; Recurrent Weighted Average: Attention を一般化し、再帰的に定義し直すことで RNN の構造に組み込んだもの + attention を過去の状態の移動平均だと考え" arXiv:1703.01253 2017

*algorithm

機械学習

python

--

stat.ML
リンク
Jax・Brax・HaikuでGPU引きこもり学習
sh19910711 2024/05/19
"XLA: Tensorflowのバックエンドとして開発された中間言語 / Brax: 物理シミュレーターもJaxで書いてしまえば勝手にGPU上で動いて速いんじゃない？というモチベーション + OpenAI gym風のEnv API" 2021

*program

python

gpu

--

engine
リンク
Poincaré Embeddings でJ1リーグのチーム・選手を可視化 - u++の備忘録
ふと「Poincaré Embeddings」*1で遊んでみたいと思い立ち、サッカーJ1リーグのデータで試してみました。 Poincaré Embeddings gensimでの実装とデータセット Poincaré Embeddingsの学習活用方法おわりに Poincaré Embeddings Poincaré Embeddingsに関する説明は、ABEJA*2やscouty*3のブログに譲ります。 Poincaré Embeddings は端的に言うと word2vec の埋め込み先をユークリッド空間ではなく双曲空間にするという手法で、階層構造やべき分布をもつデータを埋め込むという問題設定において、低次元でもよい表現を与えられるという特徴があります。 Poincaré Embeddings による職種の類似度計算とその利用 - LAPRAS AI LAB gensimでの実装とデ
sh19910711 2024/05/11
"gensimの実装では正則化の影響で周囲にノードが集結しすぎないような工夫 / チーム名が中心 + 円周側に選手 / 「浦和レッズ」の近くに「サンフレッチェ広島」が配置 + 移籍した選手の影響ではないか" 2019

*algorithm

機械学習

visualization

W

--

*program

python
リンク
AWS Step Functionsの単体テスト実施手順 | takemikami's note
AWS Step Functionsの単体テストをローカル環境で実施したい場合、 AWSのドキュメントに「AWS Step Functions Local」を使った方法が記載されており、 AWS Step Functionsから呼び出す処理(Lamda,SQSなど)をモックする方法もあります。ステートマシンのローカルテスト | docs.aws.amazon.com https://docs.aws.amazon.com/ja_jp/step-functions/latest/dg/sfn-local.html モックサービス統合の使用 | ステートマシンのローカルテスト | docs.aws.amazon.com https://docs.aws.amazon.com/ja_jp/step-functions/latest/dg/sfn-local-test-sm-exec.html
sh19910711 2024/05/09
"Step Functionsの単体テスト: ドキュメントに「AWS Step Functions Local」を使った方法が記載 + 呼び出す処理(Lamda,SQSなど)をモックする方法もあり / 繰り返しの実施をしやすいようにpytestに組み込む"

*infra

aws

workflow

testing

--

*program

python
リンク
ランダムフォレストをスクラッチで実装したい - Qiita
非Deepな機械学習手法としてランダムフォレスト (Random Forest) を選択する場面は多々ありますが、基本的にライブラリ任せになってあまり中身を意識することがありません。ので、今回はランダムフォレストの内部的な仕組みを確認しつつ、それを踏まえてPythonでスクラッチ実装していこうと思います。ランダムフォレストについてランダムフォレストの仕組みに関する分かりやすい記事は探せばいくらでもあるので、ここでは以降が読みやすくなるよう実装の視点から少し解説をつけておきます。ランダムフォレストはたくさんの決定木から構成され、決定木はノードから構成されます。イメージとしては以下のようになります。なので、実装の手順としては、ノード : Node 決定木 : DecisionTree ランダムフォレスト : RandomForest の3つのクラスを実装していきます。 1. ノード
sh19910711 2024/05/09
"sklearn.tree は使わない縛り / RandomForest: 入力されたデータからランダム抽出したサブセットを各決定木への入力とすることで多様な木を構築 + 抽出の際、使用する特徴量についても選択" 2020

*algorithm

機械学習

tree*

--

*program

python
リンク
MicroPython × BLE × テプラ〜リバースエンジニアリングを添えて〜 /micropython-ble-tepra
sh19910711 2024/05/09
"テプラ: スマホから印刷できるTEPRA Lite LR30という機種 + BLEで通信 / 通信内容をリバースエンジニアリングして自分のプログラムから印刷できるようにしよう / ESP32: 軽量なBluetoothスタック + 秒でWi-FiとBLEを喋らせられる" 2021

*tech

*program

python

sys*

--

*network

computer

ガジェット
リンク
Python: LightGBM v4.0 の CUDA 実装を試す - CUBE SUGAR CONTAINER
LightGBM のバージョン 4.0.0 が 2023-07-14 にリリースされた。このリリースは久しぶりのメジャーアップデートで、様々な改良が含まれている。詳細については、以下のリリースノートで確認できる。 github.com リリースの大きな目玉として CUDA を使った学習の実装が全面的に書き直されたことが挙げられる。以前の LightGBM は、GPU を学習に使う場合でも、その計算リソースを利用できる範囲が限られていた。それが、今回の全面的な刷新によって、利用の範囲が拡大されたとのこと。ただし、PyPI で配布されている Linux 向け Wheel ファイルは CUDA での学習に対応していない。対応しているのは CPU と、GPU でも OpenCL の API を使ったもの。そのため、もし CUDA を使った学習を利用したい場合には自分で Wheel を
sh19910711 2024/04/30
"CUDA を使った学習を利用したい場合には自分で Wheel をビルドする必要 / pip: --no-binary で PyPI の Wheel をインストールせず、ソースコード配布物を自身でビルド + キャッシュが効いてしまわないように --no-cache も指定" 2023

*program

python

tree*

gpu

--

pkg*
リンク
Streamlitを使ってデータカタログを作ってみた
sh19910711 2024/04/27
"SQLを実行する時にどのテーブルを使うべきか理解するのに苦労 / カタログ型のソフトウェアは高額 + StreamlitがイケてそうだからStreamlitで作ろう / Streamlit in Snowflakeにて、簡単にアプリをデプロイすることもできる"

*data

*program

python

webapp

datalake

--

dwh
リンク
PyTorchで学習したモデルをOpenCVで使う (Custom Layer編) - takminの書きっぱなし備忘録 @はてなブログ
この記事はOpenCV Advent Calendar 2020 18日目の記事です。はじめに OpenCVにはDNNモジュールという畳み込みニューラルネットワークの機能が実装されています。この機能は推論専用のため、CaffeやTensorflowなどの深層学習ライブラリ上で学習したモデルを読み込んで使用します。DNNモジュールはPyTorchのモデルを直接はサポートしていませんが、ONNXをサポートしているため、PyTorchからONNX経由でモデルを読ませることができます。参考： takmin.hatena blog.com さて、自分たちで開発をしていると、既存のネットワーク層ではなく、自分たちで独自に開発した層を使いたいという要求が出てくると思います。TensorflowやPyTorchなどほとんどの深層学習ライブラリにはこのようなカスタマイズしたネットワーク層を作成する機能がつ
sh19910711 2024/04/27
"既存のネットワーク層ではなく、自分たちで独自に開発した層を使いたい / OpenCV: PyTorchのモデルを直接はサポートしていませんが、ONNXをサポートしている / CaffeやTensorflowのモデルを取り込む例 + チュートリアルに解説" 2020

*program

cv

機械学習

--

python
リンク
Pyserini（Faiss）を使ってお手軽Entity検索をやってみた！ - Retrieva TECH BLOG
こんにちは。リサーチャーの勝又です。私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。今回の記事では、Pyseriniという情報検索の研究で使われるPythonライブラリの簡単な使い方、拡張方法について紹介します。 Pyseriniとは Pyseriniを使ってEntityの検索を実施する Entity検索について Pyseriniの準備について Pyseriniを動かす流れ Encodeを行う Indexingを実施する Searcherを作成する Entity検索してみるまとめ Pyseriniとは近年、Large Language Model（LLM）の流行に伴い、Retrieval-augmented Language Modelのように、情報検索技術の需要は高まっていると思います。たとえば、LangC
sh19910711 2024/04/27
"Pyserini: Anserini（Luceneベースの情報検索ツール）やFaissのインターフェイス + BM25のような古典的な手法や、Faissを利用したDense Vectorによる検索、 uniCOILやSPLADEといったSparse Vectorによる検索を動かすことができ" 2023

*data

search

近傍

python

--

W
リンク
目で見る過学習と正則化 (社内勉強会発表資料) - y_uti のブログ
勤め先の社内勉強会で、過学習と正則化について説明しました。発表資料を公開します。目で見る過学習と正則化 from y-uti www.slideshare.net 先月、社内勉強会でロジスティック回帰について説明したのですが、その際に触れられなかった話題として、今回改めて取り扱いました。機械学習は、実際にプログラムを書いて結果を可視化することで具体的なイメージを掴めるようになると思うため、今回もできるだけ図を多くして、視覚的に説明することを意識しました。説明内容に対応する Notebook ファイルは Gist で公開しています。 https://gist.github.com/y-uti/5127117445f28e5d5c66f7b5c66d262b 資料を作成しながら私自身が学んだ内容として、ソルバーの違いを意識できた点があります。scikit-learn の LogisticRe
sh19910711 2024/04/23
"機械学習: 実際にプログラムを書いて結果を可視化することで具体的なイメージを掴める / scikit-learn: LogisticRegression クラスが利用する既定のソルバーは、現在は liblinear ですが、version 0.22 から lbfgs に変更" 2019

*algorithm

機械学習

--

python
リンク
本当に小さく機械学習プロダクトを始めるには - Qiita
TL;DR マイクロサービス基盤がない、潤沢にエンジニアリソースがない、そんな現場にも機械学習プロジェクトをいい感じにプロダクトに乗せていく今風のやり方について考えたい。そのために現状世の中にある機械学習ツールを俯瞰したい。プロダクトに乗せるとすると、デプロイで終わりではなくて、モデル再学習やモニタリングなども含めて考えたい。はじめに機械学習のサービスは内部のアルゴリズムが複雑であっても、そのサービス自体に求められることが多くなかったり、学習と推論時で必要なリソースが異なったりというところからマイクロサービスアーキテクチャと相性が良いと言われています。実際に機械学習をプロダクトで使うことについて意欲的に取り組んでいる企業、特にWeb系企業では既にマイクロサービスアーキテクチャを採用した基盤があり、その上で効率的に機械学習モデルをデプロイするための方法を検討しています。一方で、そうでな
sh19910711 2024/04/22
"kubeflow pipelines: 特徴的なのは、TFXのいちコンポーネントであるTensorflow Transform(TFT)を使えるところ + 設定項目に"preprocess-mode"というものがあり、Kubernetes上ではなくDataflow上で動作させることもできます" 2018

*infra

devops

機械学習

--

workflow

python
リンク
huggingface/transformers の日本語BERTで文書分類器を作成する - Qiita
概要先日、huggingfeceのtransf ormersで日本語学習済BERTが公式に使えるようになりました。 https://github.com/huggingface/transf ormers おはようござえます、日本の友達 Hello, Friends from Japan 🇯🇵! Thanks to @NlpTohoku, we now have a state-of-the-art Japanese language model in Transf ormers, bert-base-japanese. Can you guess what the model outputs in the masked LM task below? pic.twitter.com/XIBUu7wrex — Hugging Face (@huggingface) December 13,
sh19910711 2024/04/22
"transformersとPyTorch, torchtextを用いて日本語の文章を分類するclassifierを作成、ファインチューニングして予測するまで / 実装は「つくりながら学ぶ！PyTorchによる発展ディープラーニング」をとても参照" 2019

*algorithm

NLP

分類

--

*book

python
リンク
scikit-learn（機械学習）の推定器：Estimatorの選び方入門
※サンプル・コード掲載あらすじ scikit-learnはpythonで使用できる機械学習ライブラリですが、元々とても多くの推定器（Estimator）が実装されています。ただ、どのEstimatorを使えばよいのか最初から決めるのは経験則や広範囲な知識が必要なのでなかなか難しいです。そのため、一括で全部試してしまってその結果から良さそうなモデルを選定していくという方法を取ると効率がよいため、その方法をご紹介します。 1. 環境構築環境はpython3を使用します。必要なライブラリをインストールします。また、日本語の処理にmecabが必要なので、それもインストールします。 #数値計算・機械学習系 sudo pip install pandas sudo pip install scikit-learn sudo pip install scipy #mecab sudo apt
sh19910711 2024/04/22
"scikit-learn: どのEstimatorを使えばよいのか + 全部試してしまってその結果から良さそうなモデルを選定していくという方法を取ると効率がよい / all_estimators: scikit-learnに実装されている全モデルが取得でき" 2020

*program

python

--

機械学習
リンク
うわっ… 私のPytorch、メモリ食いすぎ…？ 1行毎に使用GPUメモリを監視できるツールを紹介 - Qiita
はじめに深層学習のコードを書いている時、GPUメモリ不足エラーが起きたことはありませんか？でも実際どこでメモリを大量に消費しているか分からない... しょうがないからバッチサイズ減らそう...となってしまうことも多いと思います。そこで今回はPytorchでどの演算でどれくらいのGPUメモリを使用しているかどのテンソル・パラメーターがどれくらいGPUメモリを使用しているかをお手軽にプロファイリングできるpytorch_memlabというモジュールを見つけたので、実際に使ってみようと思います。なお、この記事はDLHacks LT にてお話しする内容になっています。使い方まずはお手軽pipでインストール from pytorch_memlab import profile class Net(nn.Module): def __init__(self): # 省略 @profi
sh19910711 2024/04/21
"pytorch_memlab: どのテンソル・パラメーターがどれくらいGPUメモリを使用しているかをお手軽にプロファイリングできる / デコレータをつけると、~.pyの実行終了時にプロファイル結果を表示" 2019

*program

python

機械学習

--

performance
リンク
強化学習 keras-rl2からstable-baselins3への乗り換え - Qiita
はじめに久々にkeras-rl2を使用して強化学習を行ったのですが昔作成したプログラムが動かなくなっていました。tensorflowのバージョンアップが原因のようです。とりあえず動くようには修正したのですが、keras-rl2は2年くらいメンテナンスされておらず、これを機にstable baselinesに移行することにしました。私の環境は下記のとおりです。 macOS: 14.0（23A344） Python: 3.11.5 gym: 0.26.2 tensorflow: 2.14.0 keras: 2.14.0 keras-rl2: 1.0.5 1. 確認のために使用したプログラム下記で使用した拙作のプログラムを使用します。少し変更しているので再掲します。環境 import time import numpy as np import gym class MovingEnv(g
sh19910711 2024/04/21
"keras-rl2: 2年くらいメンテナンスされておらず、これを機にstable baselinesに移行 / 使用しているフレームワークを変更するのは勇気がいる / stable-baselines3: トレーニング時間がkeras-rl2よりだいぶ短い" 2023

*algorithm

機械学習

python

--

rl
リンク
機械学習の知識がないけどゲームAIを作って唐揚げを大量に食べる｜柞刈湯葉
世は空前のAIブームである。DeepMind の Alpha Go が囲碁のトッププロを負かしてから5年、そのへんのコンビニでも「AI を利用した」「AI で設計した」という文字があふれるようになった。自分も以前 TensorFlow のサンプルコードを丸写しして手書き文字認識のプログラムを書いたものだが、原理がよくわからないので「AI を作ってる感」がわかないし、機械を学習させているというより機械に学習させられている感が否めない。できれば複雑なライブラリを使わず、自分でゼロから作れる単純なもので「AI してる」という実感を得たい。「AI してる」感とは何なのかといえば、おそらくAIの成長過程が見えることだろう。となればゲーム AIがわかりやすい。自分の書いたプログラムが成長していくのは見ていて楽しいし、ゲームであればその成長が実感しやすい。とはいえオセロやブロック崩しのようなものを作る
sh19910711 2024/04/21
"TensorFlow: 機械を学習させているというより機械に学習させられている感が否めない / できれば複雑なライブラリを使わず、自分でゼロから作れる単純なもので「AI してる」という実感を得たい" 2021

*game

暮らし

考え方

--

python
リンク
[Python] 都道府県における回線品質のマッピング - Qiita
ただし、JitterとPingの単位はms、DownloadとUploadはMbpsです。このデータを可視化していきます。 3. 可視化 3.1. ライブラリ地図データを扱う上で、もっともシンプルであろうGeopandasを採用しました。その他にも、インタラクティブな地図を作れるfoliumや、海外線、陸地、政治的境界線などの様々な特徴を表示可能なCartopyなどのライブラリがあります。 3.2 地図情報地図情報は国土交通省の下記サイトから拝借しました。必要に応じて全国か都道府県のデータをダウンロードしてください。今回は埼玉県と東京都のデータを使いたいので、 N03-20230101_11_GML.zip (埼玉県) N03-20230101_13_GML.zip (東京都) をダウンロードします。圧縮ファイルを解凍すると、*.geojsonという地理空間データがあるのでこれを
sh19910711 2024/04/20
"埼玉県における光回線のマッピング / インフラに対して人口が多い・少ないのような情報も見えるかも / Cartopy: 海外線、陸地、政治的境界線などの様々な特徴を表示可能 / folium: インタラクティブな地図を作れる" 2023

*data

*network

GIS

--

python
リンク
1 2 次のページ