[B! *tech][機械学習] sh19910711のブックマーク

マルチモーダル学習ライブラリ Heronと⾃動運転への応⽤

sh19910711 2024/05/24

"運転: 人間は無意識のうちに多くの「文脈」を理解している / Heron: 様々なモデルを組み合わせて学習（画像エンコーダ・アダプター・LLM） / 大規模分散学習: ABCIグランドチャレンジで実施 + V100 256基を使用"

リンク

Edge TPU USB Acceleratorでモデルの再学習を試してみた - 油を売る

Edge TPUを用いて，自作データセットによるClassifierの再学習（転移学習）を試してみた． Edge TPUでは，サーバで分類モデルを再学習する代わりに，ImprintingEngine APIを使用してEdge TPU上で転移学習を実行することができる． Edge TPUのImprintingEngine APIはCVPR2018で提案されたLow-shot learning with imprinted weights [1]を用いて転移学習を実現する．この手法は，再学習の際にbackwardが必要ないため，Edge TPU上で高速に再学習を実行することが出来る． Low-shot learning with imprinted weights Edge TPU APIのインストール $ wget http://storage.google apis.com/cloud-i

sh19910711 2024/05/05

"Edge TPUのImprintingEngine API: CVPR2018で提案されたLow-shot learning with imprinted weightsを用いて転移学習 / backwardが必要ないため，Edge TPU上で高速に再学習を実行することが出来る" arXiv:1712.07136 2019

リンク

Edge TPU USB Acceleratorの解析 - Operationとモデル構造 - Qiita

この記事について Google Coral Edge TPU USB Acceleratorの動作を解析します。前回は、データ入出力に注目して解析を行いました。今回は、Operationやモデル構造がパフォーマンスに与える影響を調べます。前回の解析結果で、入出力データ量がパフォーマンスに与える影響が大きいことが分かったので、その影響を受けないようなモデルを作って解析を行います。また、解析用のモデルだけだとつまらないので、最後にはMobileNet, MobileNetV2, Mobilenet SSDのパフォーマンス測定を、いくつかの条件下で実施しました。お願いと注意基本的には実際に動かして確認した結果をベースに書いています。が、考察や推測の部分は完全に僕の考えです。そのため、間違えや誤解を与えてしまうところがあるかもしれません。その際には、ぜひご指摘いただけると嬉しいです

sh19910711 2024/05/05

"TPU: 行列の積和演算に特化 / 入出力データ量が少ない、特殊な実験用モデルの場合 > Dense(Fully Connected)は遅い。TPUはCPUの1/2～1/5程度の速度 / パラメータがOff-chipメモリに配置 > USB2.0の場合、速度低下の原因になる" 2019

リンク

Jetson AGX Orinを使いこなすうえで参照するリポジトリ - Qiita

想定する読者 Jetson AGX Orin ユーザー画像認識、機械学習系の関心を持っている人すでに移植済みのモジュールがあれば、さっさとデモを動かしたい人 URLS https://github.com/dusty-nv/ https://github.com/dusty-nv/jetson-containers これらの用途に対するdocker imageを得ることができます。使用しているJetsonでのJetPacKのバージョン（もしくはL4Tのバージョン）にあうdisk imageを取得すれば、利用するアプリケーションの立ち上げがしやすくなります。 https://github.com/dusty-nv/jetson-inference 図に示してある種類の画像認識タスクを実行することができます。 https://github.com/NVIDIA-AI-IOT https:

sh19910711 2024/04/24

"torch2trt: pytorch で学習されたモデルをTensorRT に変換 / dusty-nv/jetson-containers: JetPacKのバージョンにあうdisk imageを取得 / 複数のリポジトリでdockerを使いつつ作業を進めていくと、ディスクスペースの枯渇に直面する"

リンク

Stable Baselines と Raspberry Pi によるホッケーロボットの強化学習｜npaka

「AI・人工知能EXPO 2020 【秋】」の「ギリア」ブースにて、「Stable Baselines」と「Raspberry Pi」によるホッケーロボットの強化学習を展示しました。 Webカメラの映像を入力として使って、「Raspberry Pi」上で「Stable Baselines」による推論を行い、ロボットアームの操作して、ホッケーロボットの対戦を実現させています。今回は、「Stable Baselines」と「Raspberry Pi」によるホッケーロボットの強化学習の作成の流れを紹介します。【ステップ1】ロボットアームとホッケー台の選定はじめに、ロボットアームをいろいろ試してみて、KHRシリーズで有名な近藤科学の「KXR-A5」を選びましました。ホッケーするのに十分なサーボ速度、長時間動く耐久性、1台38,000円という値段の安さが決め手になりました。

sh19910711 2024/04/21

"Webカメラの映像を入力として使って、「Raspberry Pi」上で「Stable Baselines」による推論 / KXR-A5: ホッケーするのに十分なサーボ速度、長時間動く耐久性、1台38,000円 / 模倣学習: 「人間の操作ログ」に近いほど報酬を与える" 2021

リンク

Intel Developer Cloudを使用してYOLOv8を評価する - Fixstars Tech Blog /proc/cpuinfo

各マシンのCPU型番やメモリ容量などが表示されますので、評価したいマシンを選んでください。実行時には先頭にあるID(例:idc001sk1)を使ってマシンを指定します。性能評価エッジデバイス上で性能評価を行うためには、実行したい内容をスクリプトとして用意する必要があります。今回は予め用意した下記のスクリプトを使用します。このスクリプトは、モデルと実行デバイスをいくつかの組み合わせで実行しています。モデルは通常のモデルと量子化済みのモデルの２種類、実行デバイスはCPU、GPU(iGPU)、AUTOの３種類の中から組み合わせて実行します。 AUTOはCPUとGPU両方を組み合わせて実行するモードです。 benchmark.sh #!/bin/sh #PBS -v VENV_PATH #PBS -j oe cd $PBS_O_WORKDIR source ${VENV_PATH}/b

sh19910711 2024/04/12

"Intel Developer Cloud for the Edge: エッジ向けデバイス上でAIアプリケーションを中心に評価が可能 + JupyterLabを使用 / NNCF: OpenVINOチームが開発しているモデル最適化ツール + 量子化をはじめとした様々なモデル最適化を適用"

リンク

fairseqで翻訳モデルを作成してみる - Qiita

これはfairseq+sentencepieceで翻訳モデルを作成する実験中の備忘録です。環境はNVIDIA Jetson AGX Xavier 16GBを使用しています。先日OpenNMTを試したのですがハイパーパラメータを設定すると途端にうまく動きません。どうも実装側に問題があるようで、諦めてfairseqを触ることにしました。 fairseqもバージョンによっては動かないことがあり、0.12.2ではトレーニングはできるがジェネレートに失敗する。 0.10.2は動かない。0.10.0はトレーニングとジェネレートの両方で動きました。これはPythonのバージョンを調整するなりで何とかなりそうですが一旦動くバージョンもありましたので0.10.0を触っていくことにします。現在は勉強を兼ねて幾らか大きめの学習データでトレーニングを試しています。ちなみに現在の進捗状況ですが、１エポッ

sh19910711 2024/02/26

"NVIDIA Jetson AGX Xavier: 低消費電力 + シーリングライトを点けたままと変わりません / fairseq: 0.12.2ではトレーニングはできるがジェネレートに失敗 + 0.10.0はトレーニングとジェネレートの両方で動きました"

リンク

MKL-DNNで学ぶIntel CPUの最適化手法 - Cybozu Inside Out | サイボウズエンジニアのブログ

初めにサイボウズ・ラボの光成です。 DNN（deep neural network : 深層学習）といえばGPUや専用プロセッサを使うのが主流です。しかしIntelはCPUで高速にDNNをするためのライブラリ MKL-DNN を提供しています。 MKL-DNNはIntelの最新CPUに対応したオープンソースソフトウェアなのでコードを見ると勉強になります。ここではMKL-DNNで使われているテクニックをいくつか紹介します。概要 MKL-DNNの紹介 Xbyakの紹介呼び出し規約圧縮displacement ReLU exp 内積 vpdpbusd キャッシュコントロール想定読者 C++11とx64 CPUのアセンブリ言語の知識をある程度仮定します。機械学習についてはその知識がなくても最適化手法が理解できるよう、最小限の説明をします。 MKL-DNNの特長まずMKL-DNNの

sh19910711 2023/04/18

2019 / "Intelの第二世代Xeon SPで搭載されたDL Boost命令を使うと1バイト整数ベクトルの内積を高速に求められます / CPUがAVX512_VNNI命令セットに対応しているとvpdpbusdを使えます"

リンク

実験用 GPU 環境をどう準備したらいい？（非情報系が機械学習を使う研究をしたいとき） - 木曜不足

深層学習が著しく発展し、今まで人間にしかできないと思われていたことができるようになってきました。そのおかげで、今まで機械学習と縁が薄かった分野でも、機械学習を使った研究がしたいという声が上がるようになっています。前々回は、それを裏付けるように非情報系の学生さんが機械学習を使った研究をしたいという応募がサイボウズ・ラボユースに増えているという話、前回はいままで機械学習や深層学習に縁のなかった人が何から勉強したらいいかという話を書きました。今回はその続き、研究に必要な実験用 PC 環境をどのように準備したらいいかというお話です。深層学習の実験をするには、十分な性能の GPU を積んだ PC が必要です。今どきの機械学習関連の研究室では、院生有志がメンテナンスしている GPU のクラスタがあって、それを使わせてもらえることが期待できます。自分用の PC を手配する場合も、研究テーマに適し

sh19910711 2022/11/13

"非情報系の学生さんが機械学習を使った研究をしたいという応募がサイボウズ・ラボユースに増えている / NVIDIA 公式ブログの記事: ほかのソフトウェアではあまり問題にならないような機械学習特有の諸問題について"

リンク

Jetson Nanoで動く深層強化学習を使ったラジコン向け自動運転ソフトウェアの紹介 - masato-ka's diary

この記事について深層強化学習を利用してAI RC Carの走行を学習させるソフトウェアをGithub上で公開しています。learnign_racerと命名しました。2020年4月29日の時点でのバージョンはv1.0.0です。この記事ではこのソフトウェアについて紹介していきます。 github.com なお、NVIDIAのJetson Community Projectsのページでも紹介されています。 developer.nvidia.com learning_racerの概要このソフトウェアは10分から15分程度の学習時間で、コースに沿って走行する方法を獲得することができます。従来のAI RC Carでは人間のお手本操作をDNNに覚えこませる手法が一般的です1。ですが、本手法は教師なし学習の手法である強化学習をベースとしているため、教師データとなる人間のお手本操作は必要ありません。さら

sh19910711 2022/09/10

2020 / "画像から圧縮した特徴を入力として利用する / 今回は状態表現学習として千から1万程度の画像をVAEで学習 / 潜在空間を32次元の特徴量としてSACへ入力 / クラウドで学習できる部分を切り出しておく"

リンク

ディープラーニングを用いて約1.8万円の低コスト筋電義手を作りました - もう疲れたので電子工作します

前回掲載したディープラーニングを応用した筋電義手の記事を予想外に多くの方にご覧いただき、非常に驚いています。こうやって皆さんに反応をもらえると非常に励みになりますね、本当にありがとうございます！今回は開発した筋電動作推定システムを簡易的なロボットアームに適用することで、低コストの筋電義手を作成したので報告させていただきます。（といっても、快適に使用するには程遠いですが、、、、）また、前回の記事でいただいたコメントに対する捕捉情報についても述べていきたいと思います。実際の動作とコストについてメカ・エレキ・ソフト設計補足情報今後について実際の動作とコストについて実際に動いているときの動画です。前回の記事と同様に、手を握った時・反った時・屈曲した時・無造作時の4種類の筋電位パターンをディープラーニングを用いて分類し、分類結果に応じてロボットアームを動かしています。ディープラー

sh19910711 2022/08/26

2019 / "手を握った時・反った時・屈曲した時・無造作時の4種類の筋電位パターンをディープラーニングを用いて分類し、分類結果に応じてロボットアームを動かしています / 5000円程度で3軸のロボットアームが買える"

リンク

ステイホームで乱れた生活習慣を機械学習を使って改善する話 #kuac2020 - Qiita

この記事は、Kyoto University Advent Calendar 2020の13日目の記事です。 12日目の記事はれおまるさんの「ワインに惹き込まれた経緯とそのススメ」でした。臨場感溢れる表現でワインと出会った衝撃と魅力を語られていたのが印象的で読み応えのある記事でした。この記事で触れているプロジェクトの詳細は以下をご覧ください。自己紹介 lzpelと申します、工学部地球工学科というところの学生です。地盤や土木構造物などの勉強をしています。他の登録者、Twitterで有名（？）な人々なのに文章力低い自分が参戦していいのだろうかと戦々恐々です。今回はコロナで怠け者になったけど電子工作と機械学習で改善できたよという話を書きます。外出自粛コロナで春から大学の授業形態が変わりオンライン授業が続いています。そこで映像授業に積極的に参加して各自学習するのがあるべき姿ですがカメラオフ

sh19910711 2022/06/09

"空腹に耐えられなくなった深夜三時頃に24時間営業のフレスコでお惣菜を買って食べたりします / 「意識改革」は効果が無いことは失敗から学んできました。スローガン程度で変わらないから今の自分があります"

リンク

２値化CNN on FPGAでGPUとガチンコバトル（公開版）

TensorFlow User Group HW部(2017年２月２７日)で使ったスライドです。講演後、一部加筆・修正しています。

sh19910711 2021/07/04

"AlexNet: ディープラーニングブームに火をつけた記念的CNN / CNNの最適化手法: Pruning, Weight Sharing, Quantization, Binarized, Ternarized / 枯れる時期を見極める目利きが重要"

リンク

FPGAに機械学習モデルを実装する – その1：ランダムフォレストによるクラス分類 - GMOインターネットグループグループ研究開発本部

こんにちは，次世代システム研究室のS.T.です。普段はHadoopネタを書いていますが，今回はテーマをがらっと変えて，FPGAネタです。「FPGAに機械学習の推論部分を実装し高速に処理を行う」という技術は耳にしたことがありましたが，漠然としたイメージがあるだけで実際にどのように実装していくのかということは知りませんでした。調べてみると，高位合成を用いた手法(1)や，学術研究として開発されたアクセラレータとしてのアーキテクチャ(2)は存在するようですが，シンプルなサンプルコードの形で存在するものはないようです。もちろん「ソフトウェアエンジニアやデータサイエンティストが作成したモデルを高位合成でFPGAに落とし込みアクセラレータとして使用する」というユースケースを考えれば納得がいきますし，応用できる範囲もHDLで直接実装するより広くなると思います。しかし，「低コスト小規模なローエンドFP

sh19910711 2021/06/03

"784次元のMNIST手書き文字画像をそのまま784ビットの入力信号 => 4ビットの識別結果（2進値） / 伝搬遅延を実質的な「推論に要する時間」と考え，ソフトウェア実装の「predictを呼び出してから結果を得るまでの時間」と比較"

リンク

FPGAでのDNN(Deep Neural Network)の整理(LUT-Netまとめ) - Ryuzのブログ

はじめに現在DNN(Deep Neural Network)の実装において、FPGAの活用はしばし議論の対象になっています。もちろんDNN分野全体からするとニッチな部類に入るとは考えますが、FPGAベンダーはここに非常に力を入れており、作成したネットワークのデプロイ先としてFPGAが選択しやすくなるような各種のソリューションが用意され始めており、日々進化しています。ここでのFPGAのメリットは、低消費電力であったり、コストであったりします。DNNの実行にはクラウドであっても電力というランニングコストは馬鹿になりませんし、エッジコンピューティング、特にバッテリー駆動のモバイル分野においては電力は極めて重要です。またイニシャルコストの重要性はどちらも同じでしょう。ここでFPGAベンダーはこぞって、「GPUと同じように開発できます」をキャッチフレーズに、GPUを使って研究開発をしている多く

sh19910711 2020/12/19

リンク

THETAプラグインでTensorFlow Liteのセグメンテーションをかける - Qiita

はじめにリコーのYuuki_Sです。弊社ではRICOH THETAという全周囲360度撮れるカメラを出しています。 RICOH THETA VやTHETA Z1は、OSにAndroidを採用しており、Androidアプリを作る感覚でTHETAをカスタマイズすることもでき、そのカスタマイズ機能を「プラグイン」と呼んでいます。(詳細は本記事の末尾を参照）。上述の通りTHETAは、カメラでありながらAndroid端末でもあるため、単体で撮影し機械学習の処理をかけて出力することが可能です。以前、@KA-2さんがTHETAプラグインで連続フレームにTensorFlow Liteの物体認識をかける記事を掲載しましたが、今回はセマンティックセグメンテーションを実施する方法を記載しようと思います。本記事を参考にすることで、セグメンテーション結果をライブプレビューに反映したり、下図の様に人物と背

sh19910711 2020/06/06

リンク

DeepLearningで上司を認識して画面を隠す - Qiita

背景仕事をしているとき、業務に関係ない情報を閲覧していることって誰でもありますよね？そんなときに背後にボスが忍び寄っていると気まずい思いをします。もちろん急いで画面を切り替えれば良いのですが、そういう動作は逆に怪しまれることになりますし、集中しているときは気がつかないこともあります。そこで怪しまれずに画面を切り替えるために、ボスが近づいてきたことを自動的に認識して画面を隠すシステムを作ってみました。具体的にはKerasを用いてボスの顔を機械学習し、カメラを用いて近づいてきたことを認識して画面を切り替えています。ミッションミッションはボスが近づいてきたら自動的に画面を切り替えることです。状況は以下のような感じです。ボスの席から私の席まではだいたい6,7mくらいです。ボスが席をたってから、4,5秒で私の席に到達します。したがって、この間に画面を隠す必要があるわけです。時間的余裕は

sh19910711 2020/03/14

リンク

20190928 M5StickVではじめる軽量モデルの実世界への応用 #TFUG

TFUG KANSAI Meetup 2019 (2019/9/28) の発表資料です。PowerPoint 資料は https://onedrive.live.com/view.aspx?cid=5bfb28e03f325ed5&page=view&resid=5bfb28e03f325ed5!648669&parId=5bfb28e03f325ed5!648668&app=PowerPoint Read less

sh19910711 2019/09/30

リンク

機械学習で3塁コーチの盗塁サインを見破る | 秋元@サイボウズラボ・プログラマー・ブログ

実験工作系有名YouTuberのマーク・ローバーさんの新作は、実用的で面白く、機械学習がどんなものかを野球ファンに強く印象づけるような動画です。野球のコーチが出すブロックサインを、機械学習を使って当ててしまおうという企画。まずは子供の野球を使って単純なサインを当てるのですが(02:00)、これはサインと盗塁したかどうかを3通り入力しただけで当てられるようになってしまいます。この時点では、帽子と左耳を連続で触った時だけが盗塁の指示でした。動画は04:00 あたりから機械学習の簡単な紹介をし、06:00 からは、50人の草コーチに尋ねたブロックサインの作り方を説明します。ほとんどのコーチが、あらかじめ決めておいた場所=インディケーターを触った後にどこを触るかで、盗塁を伝えていることから、機械学習を使うまでもなく、90%の盗塁サインは見破れるとなりました。残りの10% を見破るものとして