[B! 機械学習] [8ページ] sh19910711のブックマーク

Disentangled な表現の教師なし学習手法の検証 - Preferred Networks Research & Development

本記事は、2019年インターンシップに参加された蕭喬仁さんによる寄稿です。はじめまして。PFN の2019夏季インターンシップに参加した東京大学の蕭喬仁です。大学では自然言語処理について研究しており、SNS からのマイニングに興味があります。今回のインターンでは「Disentangled な表現の教師なし学習手法の検証 (Unsupervised Disentangled Representation Learning)」というテーマで研究を行いましたので、その紹介をいたします。実験に使用したコードはこちら https://github.com/pfnet-research/chainer-disentanglement-lib で公開しています。 Disentangledな表現映画 Star Wars がお好きな方は ”imperial entanglements” という表現

sh19910711 2024/05/02

"潜在変数の次元数や種類がパフォーマンスにどのような影響を与えるか / Disentangled Representation: 潜在空間中の各次元が観測データ中の因子や性状ごとに分かれているような状態" 2019

リンク

MLflowを用いた分類エンジンの刷新 - Retrieva TECH BLOG

こんにちは。レトリバの飯田(@HIROKIIIDA7)です。TSUNADE事業部研究チームのリーダーをしており、分類エンジンの開発・マネジメント、検索分野の研究、チームマネジメントを行っています。今回は、前回の記事から自己紹介に追加されている「分類エンジンの開発・マネジメント」について書いていきます。これは、チームで取り組みました。経緯レトリバでは、その前身のPreferred Infrastructure時代から自然言語処理に取り組んでいました。文書・文分類は基本タスクの一つであり、応用でも非常に多く取り組む機会があります。そのため、実験管理も含めたエンジンを10年以上前から作っていました。このエンジンはコア部分がC++で作られていました。そのため、モデルの追加はC++で行うことになります。また、パラメータ管理をRailsで行っていた結果、新しいモデルのパラメータ設定はRail

sh19910711 2024/05/02

"レトリバ: 実験管理も含めたエンジンを10年以上前から作っていました + 前身のPreferred Infrastructure時代 + パラメータ管理をRailsで / 最も重要な点は実験管理 + モデルを定期的に更新するというユースケースはなかった" 2023

リンク

MobileNet(v1,v2,v3)を簡単に解説してみた - Qiita

スマホなどの小型端末にも乗せられる高性能CNNを作りたいというモチベーションから生まれた軽量かつ(ある程度)高性能なCNN。MobileNetにはv1,v2,v3があり、それぞれの要所を調べたのでこの記事でまとめる。原論文は Howard, Andrew G., et al. "Mobilenets: Efficient convolutional neural networks for mobile vision applications." arXiv preprint arXiv:1704.04861 (2017). Sandler, Mark, et al. "Mobilenetv2: Inverted residuals and linear bottlenecks." Proceedings of the IEEE Conference on Computer Vision

sh19910711 2024/05/02

"Depthwise Separable Convolution: 空間方向とチャネル方向の畳み込みを同時に行うのではなく、順に行う / MobileNet v1: ConvolutionをこのDepthiwise Separable Convolutionに変えて、13段重ねることで、約1/8 ~ 1/9に総演算量を削減" 2019

リンク

夏のトップカンファレンス論文読み会 / InnovationMeetup20170918csn_cvpr2k17

夏のトップカンファレンス論文読み会（2017/09/18）での発表資料です。 - connpass: https://abeja-innovation-meetup.connpass.com/event/63466/ - 著者実装: https://github.com/andreasveit/conditional-similarity-networks - 散布図: https://github.com/crcrpar/conditional_similarity_networks_pytorch

sh19910711 2024/05/01

"類似度計算: 「似ている」は画像の属性ごとに計算できると嬉しい + 1つの基準につき、1つのモデルを用意するのは効率が悪い / ベクトルにマスクを適用 + 空間を分割することで複数の類似度計算を可能に" arXiv:1603.07810 2017

リンク

BigQuery DataFrames と Vertex AI Pipelines による機械学習パイプライン構築

はじめにこんにちは、クラウドエースデータソリューション部の松本です。普段は、データ基盤や MLOps を構築したり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。クラウドエースデータソリューション部についてクラウドエースのIT エンジニアリングを担うシステム開発統括部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのがデータソリューション部です。弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があればエントリーをお待ちしております！今回は、BigQuery DataFrames と Vertex AI Pipelines による機械学習パイプライン構築方法について、ご紹介いたします。この記事はこんな人にオススメ機械学習パイプラインにおける実行基盤を検討さ

sh19910711 2024/05/01

"Vertex AI Pipelines: Vertex ML Metadata を使用してアーティファクトに関するメタデータの追跡が可能 / bigframes.ml の register 関数により、訓練したモデルを Vertex AI Model Registory に登録"

リンク

OptunaでProphetのパラメータをいじって時系列予測の精度を改善してみた - Qiita

NTTドコモ R&D Advent Calendar 2020 の9日目の記事となります。 NTTドコモ1年目の島田です。普段はグロースハックチームでデータ分析業務をしています。今回は、時系列予測ツールProphetと、ハイパーパラメータ自動最適化フレームワークOptunaを組み合わせたら、どのくらい精度があがるのかを試してみました。そもそも時系列予測となると、特に統計モデルの知識やドメイン知識が必要になります。古典的なARIMAや状態空間モデルを使うのであれば統計の知識が求められますし機械学習で予測するにしても、「季節性を表現する特徴量構築」のフェーズがあり、データを観察し、ドメイン知識を利用しながら特徴量を慎重に設計する必要があります。また、時系列データの場合、データ量が少ないことが多々あります。日次データになると、1年分だとしても365点しかデータが存在しないので、サ

sh19910711 2024/04/30

"時系列予測: データを観察し、ドメイン知識を利用しながら特徴量を慎重に設計する必要 / Prophet: 各パラメータが大きい影響力を持っていて、値を少し変えただけでも、予測値が大きく変化" 2020

リンク

順序付き多値分類を回帰問題で解くときの閾値をoptunaで求める - まずは蝋の翼から。

目的データ分類問題として解く回帰問題として解く連続値の予測部分パターン1.Clipping+四捨五入でラベル化するパターン2. Optunaで閾値を探索してラベル化する計算時に変数を用いる対応策1.高階関数対応策2. Objective Class+call 最適化の実行目的分類クラスが順序付きカテゴリの場合、分類問題としてではなく回帰問題として解く方法がある。その際に、例えば2.4として予測されたラベルは2とするか3とするかを判別する閾値を最適化したい。 for文を回して0.01刻みで計算して・・・という愚直なやり方でもいいが今回はoptunaを使う。モデルはlightGBMを用い、評価指標はF1-macroとする。データ挙動を確認するだけなので、House Priceの住宅価格MEDVを四捨五入して10で割ったものを順序付きラベルとする（12.9ならラベル

sh19910711 2024/04/30

"分類クラスが順序付きカテゴリの場合、分類問題としてではなく回帰問題として解く方法がある / 2.4として予測されたラベルは2とするか3とするかを判別する閾値を最適化したい" 2021

リンク

Optunaによる多目的最適化

Optuna Meetup #1 での発表資料です。

sh19910711 2024/04/30

"多目的最適化: 成田空港⇔フランクフルト間の移動プラン + 移動時間の最小化⇔費用の最小化 + 2つの目的はトレードオフの関係 / 多目的ベイズ最適化: AutoML向き + MOTPEはTPEの多目的版 / optuna.visualization" 2021

リンク

MLOps系プロダクトの布教活動報告 - Qiita

この記事はMLOps Advent Calendar 2021の18日目の記事です。 2016年にもTensorFlowとMLサービスの2016年の布教活動報告を書きましたが、ここ3年くらいはMLOps系の活動をメインにしてきたので、その報告です。COVID後はイベント登壇も減り、ブログ記事の執筆が多くなりました。その裏話的な内容です。 Feature Store のブログ記事今年5月のGoogle I/OでVertex AIのMLOps系プロダクトがいくつかリリースされたので、その後にフォローアップのブログ記事を出し始めました。まずは6月にPMのAnandと書いた Kickstart your organization’s ML application development flywheel with the Vertex Feature Store（日本語版）です。このプロダクト

sh19910711 2024/04/29

"Developer Advocateは何もしないと何も仕事がこない / 入れ替わる新しい人たちと信頼関係を築くのが一苦労 + 社内営業的なムーブも必要 / 動画: ブログだけでなく ~ セッション発表時のスライド等で使い回せる" 2021

リンク

Hydra, MLflow, Optunaの組み合わせで手軽に始めるハイパーパラメータ管理

Optuna meetup #1 で使用した資料です．

sh19910711 2024/04/29

"Hydra: パラメータを階層立てて構造的にYAMLファイルに記述 + グリッドサーチを1行で実行可能 / MLflow: Hydraと組み合わせハイパラの管理・保存・比較が容易に / Hydraのプラグインを利用したOptunaの導入" 2021

リンク

2021年で面白かったTransformer関連論文 - moriyamaのエンジニアリング備忘録

この記事はみらい翻訳アドベントカレンダー14日目の記事です。 2021年も終わりを迎える中、個人的には転職してからちょうど1年経ちました。機械翻訳の研究開発に携わることもあり、自然言語処理や深層学習全般を中心にいろいろな論文を読んだ一年でした。年末にありがちな今年の論文BEST10のようなランキングを作ってみようと考えたが、選定とランキング基準がなかなか定まらず、それだけで数日かかりそうだったので、Transf ormer関連論文に絞ってまとめてみようと思います。今年も昨年に続きTransf ormer is all you needの色が一層強くなったと感じます。Transf ormer自体は自然言語処理を題材に提案されたモデルですが、最近は画像領域や音声領域でも高い性能を発揮しています。強く注目されているモデルということもあり、構造の細部にフォーカスした多くの研究がありましたので、そ

sh19910711 2024/04/29

"CANINE: 各文字に対して複数のハッシュ化を通じて数値化し、それらを連結して文の数値表現とする + 複数の文字トークンに対して一定幅で畳み込みを行うことで疑似的に単語にあたる表現を得る" arXiv:2103.06874 2021

リンク

Kaggle音コンペで銅メダル獲得したときの手法解説 - Qiita

今年3月頃から機械学習（主にDeepLearning）とKaggleを始め、賞金のあるコンペ「Freesound Audio Tagging 2019（以下FAT2019）」に初めて挑戦しました。やるならばと金メダルを目指していましたが、結果はPrivateLB 89位で銅メダルに落ち着きました。苦労・工夫した点や、参考にした論文、記事、カーネルなども交えてここに記録したいと思います。ちなみに以下が最終提出カーネルです。定数で学習モードと推論モードを切り替えていたので、少し読みづらいですが…。なお、MixMatchなど一部の実装は実験的なもので、最終提出には使っていません。モデルAの学習カーネルモデルBの学習カーネル（A→B 転移学習）モデルBを使った推論カーネルコンペの内容 FAT2019は、環境音データに対して「エンジン音」や「男性の歌声」などのタグを付ける認識モデルを開発

sh19910711 2024/04/29

"環境音データに対して「エンジン音」や「男性の歌声」などのタグを付ける / 周波数軸に対してメルスケール、パワーに対して対数スケールで変換 / 推論時にもデータ水増しすると精度が向上することが知られ" 2019

リンク

ゼロから創る tensorflow + reinforcement learningを使ったディープラーニングもどき - コンピュータ将棋 Qhapaq

注：今回の記事は完全にプログラマ向けの解説記事ですソースコードの閲覧、ダウンロードは此方からどうぞ GitHub - qhapaq-49/tf_reinforcement: tensorflowを使った簡単(300行弱)なreinforcement learning 【今回作りたいもの】囲碁やポーカーのAIで度々注目されているディープラーニングを使った強化学習。時代の先端を走るゲーム AI開発者的には是非覚えておきたいスキルの一つです。といっても、強化学習の動作原理自体は下記の図のようにシンプルなものです。本稿では下記図の流れを一通り搭載したスタンドアロンで動く強化学習ルーチンを紹介します（上述のgithubのコードを見ながら読まれることをオススメします）。【本稿で扱うゲームのルール】本稿ではニューラルネットで動く競りゲームのAIを作ります。競りゲームとは・初期所持金１０のプレイヤ

sh19910711 2024/04/29

"教師データ: ランダムムーブの対局 + 勝った方の手を良い手としてその手の採択率を上げる / 記事は沢山あるのですが、その多くはgymなどの洗練されすぎたパッケージを使っていて" 2017

リンク

SHapley Additive exPlanationsで機械学習モデルを解釈する / dgtalk5

2020年1月16日に行われたData Gateway Talk vol.5での発表資料です。 https://data-gateway-talk.connpass.com/event/155457/ この発表をログミーさんに記事化して頂きました。こちらには資料の口頭での補足も入っています。 https://logmi.jp/tech/articles/322738

sh19910711 2024/04/29

"SHAP: 協力ゲーム理論のShapley Valueから + より貢献度が高い人により多くの報酬 / モデルに投入した特徴量Xをゲームのプレイヤーと見立てて、あるインスタンスの予測値への特徴量の貢献度をShapley Valueで測る" 2020

リンク

機械学習のための音声の特徴量ざっくりメモ (Librosa ,numpy) - Qiita

Introduction この記事は基本的に自分用のメモみたいなもので、かなりあやふやな部分もあります。間違っている部分を指摘していただけると助かります。(やさしくしてね) ネット上にLibrosaの使い方、Pythonによる音声特徴量の抽出の情報が少なかったり、難しい記事ばかりだったので、かなり噛み砕いてメモするつもりでいます。基本的に機械学習に用いられている音声の特徴量について記述していきます。 (2019/8/20)勉強した分だけ載せました、ちょっとずつ更新していきます。 (2019/8/22)MFCCの分だけ更新しました。 (2019/8/23)ZCRについて書きました。紹介する特徴量 MFCC log-mel spectrum HNR ZCR 1.MFCC MFCCとの出会い音声認識に広く使われている特徴量で、だいたいの音声における機械学習の代表的な特徴量ということでだいた

sh19910711 2024/04/29

"MFCC: 人間の声道の特性(人間の声と聴覚の仕組み)をうまく反映している + 人間の低音に敏感で高音に鈍いという特徴を考慮 + この特徴量を使うと非力なマシンで機械学習をできる旨味がある" 2019

リンク

Metric LearningでTWICEのメンバー9人を見分けるPyTorch入門 - Qiita

エンジニア＆リサーチインターンの佐藤(Twitter: TodayInsane)です。 ABEJA Advent Calendarの21日目を担当します。もうすぐクリスマスですね！"Merry&Happy"！！！軽い自己紹介今年の4月からフロントエンドのデザイン→Vue.js実装をメインの業務とし、半年間とあるプロダクトの開発・案件受注を長期インターンとしてお手伝いさせて頂いてました。本記事と直接の関係はありませんが、このプロダクトの開発者兼ぼくのメンターさんによる思いとテックと面白さが詰まったABEJA Tech Blogも是非ご一読ください。そして9月に初案件が無事成功した話を、インターン体験記兼続編として執筆中です。現在はエンジニア業務と同時並行で、10月から機械学習のリサーチインターンもしています。上述の人物認証を使ったプロダクトやABEJAのサービスであるInsight

sh19910711 2024/04/29

"Person Re-Identification: 画像または映像を解析し、写っている人物が既知(登録済みの人)か未知かを判定 / domain gap: 「学習データセットの人たちは推論時には多分1人も出てこない」問題" 2019

リンク

Deep Learningを使った欠損値補完 DataWig

欠損のままでも動くフレームワークも最近は増えていますが欠損値の扱いは機械学習適用において難しい課題の一つです。簡便的に平均値, 中央値, 最頻値などの統計量を代入する、Scikit-learnのAPIなどを使って、機械学習アルゴリズムで欠損を埋める, MICEで代入するなどの方法がありますが、この記事ではDeep Learningベースの欠損値補完ライブラリであるDataWigについて触れてみたいと思います。欠損のタイプ[1] データの欠損には大きく3つのメカニズムがあるとされています。 MCAR(Missing Completely At Random ） : 完全にランダムな欠損で、ある値の欠損する確率が、その対象のデータと無関係（例：サイコロを振ってランダムに欠損させているような状況）であることを指します。データ数が十分確保できるのであれば欠損行を削除しても問題ないタイプです。

sh19910711 2024/04/29

"DataWig: Amazonが開発 + 欠損値補完ライブラリ + Apache MXNetをベース / 数値だけでなく、カテゴリの欠損補完にも対応 / 代入したいカラム内の属性もしくはカラム全ての潜在的な値の尤度を得る" 2021

リンク

AzureのAutoMLに化合物の活性予測の勝負を挑んでみた話 - Qiita

はじめに Azure Machine Learningで自動的にモデルが作れるらしい。そこで化合物の予測モデルの精度で勝負を挑んでみた。対象データこの分野では実験から得られる教師データは少な目で、化学構造から得られる説明変数(記述子)は数千から場合によっては数万となるのが1つの特徴である。精度が出やすいデータの場合、予測方法が優れているかどうか分かりにくいため、データ数が少なく、精度がやや低目のデータとして「化学のためのPythonによるデータ解析・機械学習入門」の6章の、データ数 114 件、 R^2 が 0.7 程度の以下データを選定した。 https://github.com/hkaneko1985/python_data_analysis_ohmsha/blob/master/sample_data/molecules_with_pIC50.csv 比較方法比較方法は以下

sh19910711 2024/04/29

"難しい小データに対しアンサンブル学習により高い汎化能力をもつモデルを構築 / 大規模なデータで勝負した場合、負ける可能性が非常に高い / モデル構築はAutoMLにまかせ、人は説明性の向上などに注力した方がよい" 2021

リンク

NIPS 2016 Adversarial Training Workshop　体験記 - Qiita

去年参加したNIPS Adversarial Training Workshopについて書きます。 Advent Calendarに投稿するはずだったのですが忘れていました...すみません。動画が全て上がっているので詳しく知りたい人はそれを見るといいと思います。 https://www.facebook.com/groups/675606912596390/ あとHuszarのBlogとかにももっといいまとめが上がっているのでそれもおすすめです。またGANは曖昧な部分が多かったり理解が甘くて、とんちんかんなことを書いていたりかもしれませんがそこは悪しからず。 Adversarial Training Workshopとは Generative Adversarial NetworksとAdversarial example関連 (virtual adversarial trainingと

sh19910711 2024/04/29

"2015年がVAEの年だとしたら2016年はやはりGANの年 / GAN: ミニマックス問題でかつバッチ学習してるせいで少なくともトレーニングしているときのlossを見るだけでは学習が進んだが判断できません" 2017

リンク

はてなブックマーク

タグ

関連タグで絞り込む (162)

機械学習に関するsh19910711のブックマーク (1,437)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第4週）

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス