サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
掃除・片付け
aru47.hatenablog.com
大遅刻ですが、LiDARアドベントカレンダーの記事です。 CES 2024でもたくさんLiDARが発表され、各社大きく性能を伸ばしています。 なんで各社横並びで性能向上できたかは。。今年中に情報解禁されるんじゃないでしょうか。 Valeo Scala3 news.yahoo.co.jp youtu.be www.valeo.com OEMメーカのため詳しい性能はオープンになっていないが、中国lidar導入は難しい日系OEMにとっても本命の一つか。 SCALA2に比べると10倍の解像度向上を達成しており、解像度は水平垂直共に0.05度らしい。 s % HesaiやRobosenseの同解像度品と比べるとかなり粗く見えるのは気の所為? Robosense M3 www.youtube.com www.robosense.ai 解像度0.05度、10%反射率物体の検知距離300m 940nm V
研究室運営の初動は共同研究者にも恵まれたのもあり、安定しつつありますが企業→大学講師パスだったので着任時に科研費もさきがけの存在すらしらなかったので情報収集に苦労しました。 誰かの役に立てるよう、備忘録的に参考になったサイトや情報をまとめます。 研究室運営 学生指導 グラントライティング 代表で出したグラント 研究室運営 着任~3年目まで何をしたか具体的に書かれている貴重なサイト。 着任時にはかなり読み込み、僕も1年目は出せるグラント(科研費、JST、民間財団)には全部出すように心がけました。 30pi.blogspot.com 明大中村先生の貴重な研究室運営のノウハウ nkmr-lab.org こちらの記事も初年度にどのようなグラント戦略を取ったか具体的に書かれています。 https://note.com/takuya_maeda/n/ne332701f6629note.com 学生指導
(最新SSD IOはPCIe x4でした。ご指摘ありがとうございます。) はじめに どの処理で律速しているか調べる 各処理の速度改善方法 データ読み込み速度の改善 データ前処理速度の改善 GPU処理速度の改善 コンピューティングについての他記事 はじめに Kaggle Advent Calendar 2022 8日目です。 突然ですが、あなたはDNN学習時にどの処理で学習速度が律速しているか把握してますか? DNN学習には図に示すように大きく3つの要素があります: (SSDからの)データ読み込み (CPUによる)データ前処理 (GPUによる)DNN計算 学習時のデータの流れとしては SSDからデータが読み込まれ、CPUに送られる(SATA or PCIe) CPUにてaugmentationや正規化などの前処理が行われ、GPUにデータが送られる(PCIe x16) GPUにてDNNの計算・
目的 OpenAIが公開した文字起こしAIのWhisperを使って動画に字幕を自動生成します。 パーフェクトではないですが、十分実用的な日本語字幕が生成できます。 用意 github.com Python3.7+とpytorch1.0+環境が必要。ローカルがなくてもcolabで十分動くと思います。 pip install git+https://github.com/openai/whisper.git # whisperインストール sudo apt install ffmpeg # ffmpegインストール Whisper 実行 動画test.mp4の字幕生成するとします。 # ffmpegを使い動画から音声データ抽出 ffmpeg -i test.mp4 -acodec libmp3lame -ab 256k audio.mp3 # Whisper実行 whisper audio.m
記事について 画像はDetectron2より 物体検出をほとんど使っていない方を対象として、2021年末の物体検出ライブラリを俯瞰することが本記事の目的。 ある程度物体検出の経験ある方は学ぶことは少ないと思う。またあくまで書いてあるのは筆者の感想であるので人によっては全く違う意見になることもあるかと。また本記事ではモデルの技術的な説明はありません。それらについて理解を深める際は参考ページや元論文を当ってみると良いかと思います。 また大変遅くなりましたが、本記事はKaggleアドベントカレンダー(裏)の24日目でもあります(年明けちゃってすみません)。 qiita.com 記事について 紹介するライブラリ一覧 所感 アンサンブルについて 精度vs速度トレードオフ ライブラリ紹介 yolov5 学習について 推論について Yolox 学習について Efficientdet 学習コード torc
実は三体とメダリストを布教する記事なんですが、オマケで今年面白かった技術書もまとめました。 技術書(順不同) ディープラーニング学習する機械 量子コンピュータの進歩と展望 研究者の仕事術 科研費獲得の方法とコツ RISC-V原典 Pythonではじめる数理最適化 Reinforcement Learning 2nd edition 小説 三体 No Rules 漫画 メダリスト ラーメン再遊記 技術書(順不同) ディープラーニング学習する機械 ディープラーニング 学習する機械 ヤン・ルカン、人工知能を語る (KS科学一般書) 作者:ヤン・ルカン講談社Amazon ディープラーニングの歴史は耳タコだが、過去のAIブームからずっとニューラルネットを牽引している当事者が記述した貴重な本。 Brag-LuCunのあだ名通り随所に入る自慢話や悪口が軽快で面白いw 量子コンピュータの進歩と展望 米国科
よくぞこの記事に来てくれた。 褒美としてクソコンペに参加する権利をやろう 本記事について クソコンペを考える クソ要因 どうしたらクソ要因を減らせるのか? Shakeが大きいコンペがクソコンペか? クソコンペを避けるには KCY2021 グランプリ候補 Kaggle Cassava Leaf Disease Classification(タピオカコンペ) クソ要因 Leak疑惑 RSNA-MICCAI Brain Tumor Radiogenomic Classification クソ要因 画像データを使ったレモンの外観分類(レモンコンペ) クソ要因 リーク内容 その後 本記事について クソコンペオブザイヤー2021(KCY2021)へようこそ! どうも、クソコンペ愛好家のarutema47です。 本記事はKaggleアドベントカレンダー(裏)の12日目の記事となります。 よくKaggle
またまたQiitaからのお引越し記事です。 センサについてはこちらをどうぞ。 aru47.hatenablog.com 目的 点群DNNでできること 3Dセンサ 3D DNNの家計図 変更履歴 2Dベースアプローチ Complex YOLO (ECCV workshop 2018), YOLO 3D (ECCV workshop 2018) 手法について 俯瞰(bird's eye viewまたはBEV)とは? メリット デメリット 点群ベースアプローチ (PointNet系) PointNet(NIPS 2016) PointNetの手法について PointNetのタスク PointNetの実装 PointNet++(NIPS 2017) 実装 VoteNet(ICCV 2019) センサフュージョンベースアプローチ Frustrum PointNets 手法について メリット デメリッ
Kaggleマシンの参考になればと思い執筆しました。 最近はColab Proが月1000円と破格でディープラーニング環境を提供しており、Kaggle Notebookも相当良いです。 感覚的にですが、30万くらいのマシンを組むよりはColab Pro、Kaggle Notebookの方が早く、それ以上払うならばリターンが得られるというイメージがあります。 さらに月5000円のColabPro+だとV100マシンが優先的に使用できるため50万くらいのマシン相当になります。高いかなーと当初思いましたが電気代を考えるとオンプレV100マシンを回すより安いです。 自分は開発はオンプレ鯖で行ってアンサンブル学習はColabを使用して並列で学習したりします。 colab.research.google.com オンプレマシンのメリットとしては 容量をかなり大きくできる。2TBなど扱えるのは大きく、コ
"Locality is efficiency, Efficiency is power, Power is performance, Performance is King", Bill Dally マルチスレッディングとは? CPUとGPUのマルチスレッディングの違いをブログにまとめていたけど例によって誰も興味なさそう— arutema47 (@arutema47) 2021年8月16日 つぶやいたら読みたい方が多そうだったので完成させました。 マルチスレッディングとはメモリ遅延を隠蔽しスループットを上げるハードウェアのテクニックです。 ただCPUとGPUで使われ方がかなり異なるため、その違いについて考えてみる記事です。 (SIMDについて並列プログラミングの観点から触れるべきでしたが、時間無いマルチスレッディングに注目するため初版では省きました。) 本記事について 本記事はCPUとG
論文の書き方 ymatsuo.com あのAIで有名な松尾先生の論文の書き方に関するページ。 論文のストーリー構築の重要さからproof-readingに関する心構えまで全て参考になる。 hontolab.org Stanford大のJennifer WidomのTips for Writing Technical Papersを和訳したものです。 特にイントロダクションを書く際に考える5つのポイント: 問題は何か? なぜその問題が興味深くかつ重要なのか? なぜその問題を解くのが困難なのか? (例:なぜ単純なアプローチではうまく解けないのか?) なぜ今までその問題は解決されてこなかったのか? (もしくは,既存手法の何が悪いのか?提案手法と既存手法との差異は何か?) 提案アプローチの重要な要素は何か?それを用いた結果はどうだったのか? 特定の制約条件についても全て述べるようにすること. をま
HAQ: Hardware-Aware Automated Quantization with Mixed Precision (CVPR 2019 oral), Kuan Wang∗, Zhijian Liu∗,Yujun Lin∗, Ji Lin, and Song Han Paper Codes 課題 量子化はDNNをモバイルデバイスの高速化において重要な技術だが、各レイヤのビット幅などの設計は今まで手設計でルールベースなどで行われてきた。この論文ではレイヤ毎の量子化ビット数を自動的にハードウェアの性能を反映しつつ決定可能なHAQ技術を提案する。具体的には強化学習エージェントを使うことでレイテンシを最小化するパラメータを求める。 提案技術 mixed precision DNNの量子化は幅広く使用されている技術であり、一般的には量子化はDNNの全レイヤを単一のビット幅になるよう圧縮を
はじめに ステレオカメラの信号処理について詳細に記述しているメディアは少ない。 一方で現行のステレオカメラで最高の精度を誇るEnsensoのwhitepaperは非常に参考になる。 Obtaining Depth Information from Stereo Images 原理 ステレオカメラ自体の原理はシンプルで、人間が距離を認識するのと同様の"視差"の概念を使用する。 左センサで見た物体が右センサで見た時、何ピクセルズレているかに応じてセンサから物体までの距離が算出できる。 この視差をステレオカメラでは"Disparity"と呼ぶ。 課題 歪み 一方でイメージセンサで得られた画像はレンズなどにより歪みが生じる。 歪があると左右のセンサで物体位置がheightによりズレてしまい、disparityを計算できない。 この画像では左右の画像で歪みが生じてしまい、左右センサでかなり指している
Qiitaからのお引越し記事です。 目標 ステレオカメラ 概要 特徴 使用製品 パターンプロジェクションカメラ 概要 使用製品 iPhone ゾゾスーツ 工業製品(Ensenso, キーエンス) Time of Flight LiDAR Time of Flightの原理 特徴 スキャン型LiDAR フラッシュ型LiDAR 製品 Velodyne Series 追記 Livox Horizon iPhone iToF LiDAR 目標 通常のカメラは物体の明るさ、色を抽出するのに対し、距離センサは物体までの距離をセンシングします。そのため3DカメラやDepth Sensorなどと呼ばれたりします。 距離を知ることは多様なアプリケーションにおいて重要であり、例えば自動運転では前方車両までの正確な距離を知ることは必須です。またゲームなどのアプリケーションでは人の動作などを距離センサで抽出するK
目的 有名所のDNN特許を調べてみました。ほとんどがGoogleの特許ですがBatchNorm、transformer以外日本で登録されていないのが多いですね。 調べたところで力尽きてちゃんとクレームはトップ以外読んでません。随時リストはアップデートしていきます。 参考: https://www.reddit.com/r/MachineLearning/comments/c5mdm5/d_googles_patent_on_dropout_just_went_active_today/www.reddit.com 感想 Dropout,Batchnorm,transformerなど根幹特許を多くGoogleに抑えられていますが、基本的にはPatent Trollに対しての防衛でGoogleから権利行使することはないようです。(訴訟は今の所ない) 目的 感想 Tips 画像認識 Incept
Qiitaからのお引越しです。 前編 aru47.hatenablog.com TLDR; (2021/06/17) resnet50でCIFAR10をFP16により学習を2倍高速化でき、メモリ使用量も半分にできる。 pytorch1.6からデフォルトでMixed Precision学習をサポートしており、画像認識なら大抵これで上手く学習できます。 一部例外として、swin transformerだとapexを使用したほうが精度が良い場合もありました。 このチュートリアル通りにコードを書くのがおすすめです。 pytorch.org use_amp = True # ampをオンオフ # Creates model and optimizer in default precision model = Net().cuda() optimizer = optim.SGD(model.param
TLdr; torch2trtというpytorchモデルをTensorRTに簡単に変換するライブラリを使い、Jetson nano+xavier上で画像認識とセグメンテーションの推論処理を10倍高速化できることを確認しました。 ただtorch2trtはカスタムモデルには対応していないため(resnetなどtorchvision標準モデルのみ)、自作モデルのTensorRT変換は大変だと思います。 TLdr; TensorRTとは TesnorRTを気軽に試す 画像認識 画像セグメンテーション 他高速化シリーズ aru47.hatenablog.com aru47.hatenablog.com TensorRTとは https://amzn.to/3q9qrEK https://amzn.to/37ndtL5 例えばJetsonNanoなどは安価に入手できるエッジデバイスだが搭載しているGP
前回のあらすじとこの記事の目的 前編: ハードウェアの速度をどう評価するか考える(1) ~クロック、OPS~ 現代ハードウェアの計算性能を評価する尺度であるメモリ律速の概念とルーフラインモデルについて理解を深めることです。 本記事を通し、あるアルゴリズムが速度が十分に出ない時、それがハードウェアのどの性能(メモリか演算)に律速されてるかイメージできるようになるのが目標です。 しかし前編は子供が起きたので前編は演算速度だけで終わってしまった! 今回は起きる前にメモリ律速まで書くぞ! アチアチのGPUお待ち! 前回のあらすじとこの記事の目的 メモリ律速 メモリが重要なワケ GPUから読み解くメモリバンド幅 ルーフラインモデル Further comments TPU vs GPU FP16, BF16, TF32などの低精度Mixed Precision学習 メモリ律速 脱線したが本線のメモリ
この記事の目的 現代ハードウェアの計算性能を評価する尺度であるメモリ律速の概念とルーフラインモデルについて理解を深めること。 対象読者はメモリバンド幅やOPSなどの概念があまりわかっていない人です。例えば本記事を通し、あるアルゴリズムが速度が十分に出ない時、それがハードウェアのどの性能(メモリか演算)に律速されてるかイメージできるようになるのが目標です。 思うままに書いていたら肝心のメモリの話まで行きませんでした。そのため前編はクロックや演算(OPS)についてです。 TPUのルーフラインモデル この図はTPUの論文に出てくるRoofline modelです。この図が意味するところを理解するのが本記事の最終目標となります。 ハードウェアの速度をどう評価すればいいか? ベンチマークによる評価 ハードウェア速度の評価は昔から大きな問題でした。わかりやすい評価指標にある代表的なアルゴリズム数種類で
https://www.kaggle.com/kyoshioka47 目的 この度約10ヶ月間Kaggleに参戦しCompetition Masterになり賞金も獲得できました。本記事では参戦したコンペ中の思考や得られた事を振り返り記録します。これからKaggleを始めMasterを目指す人の参考になればと思います。 また試しに昔登録したamazonアフィリエイトのリンクをいくつか貼ってみました。コーヒー代を寄贈する気持ちでクリック先で本を買ってもらえると嬉しいです。 目的 バックグラウンド 始まり Lyftコンペ 学んだこと Kaggleで強い人って? PKUコンペ 学んだこと Bengali Shake Downの洗礼 Shake Downの原因 ShakeDownを避けるために実践したこと PANDA チームアップ 優勝 Winner's call 闇の小麦コンペ 最後に勉強してよか
Amazon Prime 一ヶ月無料 Seq2seqからBERTまでのNLPモデルの歴史をざっとまとめる。 DNNは知ってるけどTransformerってなんだかわからない、って人におすすめです。 Abst. 画像認識にもTransformerが使われることが多く、DeepRLやGPT-3といったNLPモデルも身近になってきています。"Attention is 何?"と言えなくなってきたので勉強しました。 Feedforward NetworksからSeq2Seq, Attention機構からTransformer登場、そしてBERT GPTといった最新モデルまでの流れを広く浅く記述する予定。 またKaggle NLPコンペの上位解法から利用例を探る。 Tl;DR TransformerはSelf-Attentionという機構でデータ内の時系列的特徴を抽出でき、従来のRNNを始めとするNN
密、かつ高精度な点群をステレオカメラによって得る研究。Depth prediction Networkの提案により高精度な点群の生成に成功している。 従来のステレオカメラは深度情報(カメラからの距離)のみしか得られなかったが、この研究では3D点群(つまりX,Y,Z座標)を獲得する。 高密度、高精度な3D点群をステレオカメラで得るメリットは: 1) LiDARベースの3D物体検出技術がステレオカメラに適応可能になる。 2) LiDARの高密度化に使える。 ( 黄色のとてもスパースな点群がLiDARで実際に観測した点群。 赤、紫が従来のステレオカメラベースの点群である一方、本技術の点群は青。驚くべきことに高精度+高密度! というかLIDARより密度が高いのでかなりブレークスルー。 LiDARで点群密度を上げるのはかなり大変で機器のコストもかなり上がる(数十倍とか)。 LiDARを使わない3D物
記事の目的 本記事ではdToFとiToF LiDARの基本や原理について説明します。 また込み入った理論ではなく、LiDARの大まかな種類や用途を理解するのが目標です。 LiDARセンサはLight Detection and Rangingの略で光を使った距離測定技術の総称です。 RADARが電磁波を使って距離を測るのに対して、光を使った距離センサを指します。 こちらは距離センサ全般の記事です。合わせてどうぞ。 aru47.hatenablog.com 記事の目的 LiDARには大きく2種類ある dToF LiDAR 原理 dToF LiDARの製品 dToF LiDARの種類について iPadのdToF LiDAR indirect Time of Flight 原理 iToF LiDARの製品 参考文献 最後に LiDARには大きく2種類ある LiDARには大きく2つ種類があります。
なんの論文? CenterNetの著者からの最新論文。CenterNetと同様にシンプルなアプローチながら、有効性や応用性が高く様々な研究で使われるようになりそう。 前作CenterNetはPointを用いた物体検出であったが、今回は同様のPoint-baseのネットワークでトラッキングの提案。 従来Deepトラッキング系の研究よりも高速、かつ高精度を実現。 著者のAbst.が端的で面白い。 "Our tracker, CenterTrack, applies a detection model to a pair of images and detections from the prior frame. CenterTrack localizes objects and predicts their associations with the previous frame. That’
このページを最初にブックマークしてみませんか?
『arutema47's blog』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く