タグ

機械学習に関するsh19910711のブックマーク (1,437)

  • Disentangled な表現の教師なし学習手法の検証 - Preferred Networks Research & Development

    記事は、2019年インターンシップに参加された蕭喬仁さんによる寄稿です。 はじめまして。PFN の2019夏季インターンシップに参加した東京大学の蕭喬仁です。 大学では自然言語処理について研究しており、SNS からのマイニングに興味があります。 今回のインターンでは「Disentangled な表現の教師なし学習手法の検証 (Unsupervised Disentangled Representation Learning)」というテーマで研究を行いましたので、その紹介をいたします。 実験に使用したコードはこちら https://github.com/pfnet-research/chainer-disentanglement-lib で公開しています。 Disentangledな表現 映画 Star Wars がお好きな方は ”imperial entanglements” という表現

    Disentangled な表現の教師なし学習手法の検証 - Preferred Networks Research & Development
    sh19910711
    sh19910711 2024/05/02
    "潜在変数の次元数や種類がパフォーマンスにどのような影響を与えるか / Disentangled Representation: 潜在空間中の各次元が観測データ中の因子や性状ごとに分かれているような状態" 2019
  • MLflowを用いた分類エンジンの刷新 - Retrieva TECH BLOG

    こんにちは。レトリバの飯田(@HIROKIIIDA7)です。TSUNADE事業部 研究チームのリーダーをしており、分類エンジンの開発・マネジメント、検索分野の研究、チームマネジメントを行っています。 今回は、前回の記事から自己紹介に追加されている「分類エンジンの開発・マネジメント」について書いていきます。これは、チームで取り組みました。 経緯 レトリバでは、その前身のPreferred Infrastructure時代から自然言語処理に取り組んでいました。文書・文分類は基タスクの一つであり、応用でも非常に多く取り組む機会があります。そのため、実験管理も含めたエンジンを10年以上前から作っていました。 このエンジンはコア部分がC++で作られていました。そのため、モデルの追加はC++で行うことになります。また、パラメータ管理をRailsで行っていた結果、新しいモデルのパラメータ設定はRail

    MLflowを用いた分類エンジンの刷新 - Retrieva TECH BLOG
    sh19910711
    sh19910711 2024/05/02
    "レトリバ: 実験管理も含めたエンジンを10年以上前から作っていました + 前身のPreferred Infrastructure時代 + パラメータ管理をRailsで / 最も重要な点は実験管理 + モデルを定期的に更新するというユースケースはなかった" 2023
  • MobileNet(v1,v2,v3)を簡単に解説してみた - Qiita

    スマホなどの小型端末にも乗せられる高性能CNNを作りたいというモチベーションから生まれた軽量かつ(ある程度)高性能なCNN。MobileNetにはv1,v2,v3があり、それぞれの要所を調べたのでこの記事でまとめる。 原論文は Howard, Andrew G., et al. "Mobilenets: Efficient convolutional neural networks for mobile vision applications." arXiv preprint arXiv:1704.04861 (2017). Sandler, Mark, et al. "Mobilenetv2: Inverted residuals and linear bottlenecks." Proceedings of the IEEE Conference on Computer Vision

    MobileNet(v1,v2,v3)を簡単に解説してみた - Qiita
    sh19910711
    sh19910711 2024/05/02
    "Depthwise Separable Convolution: 空間方向とチャネル方向の畳み込みを同時に行うのではなく、順に行う / MobileNet v1: ConvolutionをこのDepthiwise Separable Convolutionに変えて、13段重ねることで、約1/8 ~ 1/9に総演算量を削減" 2019
  • 夏のトップカンファレンス論文読み会 / InnovationMeetup20170918csn_cvpr2k17

    夏のトップカンファレンス論文読み会(2017/09/18)での発表資料です。 - connpass: https://abeja-innovation-meetup.connpass.com/event/63466/ - 著者実装: https://github.com/andreasveit/conditional-similarity-networks - 散布図: https://github.com/crcrpar/conditional_similarity_networks_pytorch

    夏のトップカンファレンス論文読み会 / InnovationMeetup20170918csn_cvpr2k17
    sh19910711
    sh19910711 2024/05/01
    "類似度計算: 「似ている」は画像の属性ごとに計算できると嬉しい + 1つの基準につき、1つのモデルを用意するのは効率が悪い / ベクトルにマスクを適用 + 空間を分割することで複数の類似度計算を可能に" arXiv:1603.07810 2017
  • BigQuery DataFrames と Vertex AI Pipelines による機械学習パイプライン構築

    はじめに こんにちは、クラウドエース データソリューション部の松です。 普段は、データ基盤や MLOps を構築したり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのが データソリューション部 です。 弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があれば エントリー をお待ちしております! 今回は、BigQuery DataFrames と Vertex AI Pipelines による機械学習パイプライン構築方法について、ご紹介いたします。 この記事はこんな人にオススメ 機械学習パイプラインにおける実行基盤を検討さ

    BigQuery DataFrames と Vertex AI Pipelines による機械学習パイプライン構築
    sh19910711
    sh19910711 2024/05/01
    "Vertex AI Pipelines: Vertex ML Metadata を使用してアーティファクトに関するメタデータの追跡が可能 / bigframes.ml の register 関数 により、訓練したモデルを Vertex AI Model Registory に登録"
  • OptunaでProphetのパラメータをいじって時系列予測の精度を改善してみた - Qiita

    NTTドコモ R&D Advent Calendar 2020 の9日目の記事となります。 NTTドコモ1年目の島田です。普段はグロースハックチームでデータ分析業務をしています。 今回は、時系列予測ツールProphetと、ハイパーパラメータ自動最適化フレームワークOptunaを組み合わせたら、どのくらい精度があがるのかを試してみました。 そもそも 時系列予測となると、特に統計モデルの知識やドメイン知識が必要になります。 古典的なARIMAや状態空間モデルを使うのであれば統計の知識が求められますし 機械学習で予測するにしても、「季節性を表現する特徴量構築」のフェーズがあり、 データを観察し、ドメイン知識を利用しながら特徴量を慎重に設計する必要があります。 また、時系列データの場合、データ量が少ないことが多々あります。 日次データになると、1年分だとしても365点しかデータが存在しないので、サ

    OptunaでProphetのパラメータをいじって時系列予測の精度を改善してみた - Qiita
    sh19910711
    sh19910711 2024/04/30
    "時系列予測: データを観察し、ドメイン知識を利用しながら特徴量を慎重に設計する必要 / Prophet: 各パラメータが大きい影響力を持っていて、値を少し変えただけでも、予測値が大きく変化" 2020
  • 順序付き多値分類を回帰問題で解くときの閾値をoptunaで求める - まずは蝋の翼から。

    目的 データ 分類問題として解く 回帰問題として解く 連続値の予測部分 パターン1.Clipping+四捨五入でラベル化する パターン2. Optunaで閾値を探索してラベル化する 計算時に変数を用いる 対応策1.高階関数 対応策2. Objective Class+call 最適化の実行 目的 分類クラスが順序付きカテゴリの場合、分類問題としてではなく回帰問題として解く方法がある。 その際に、例えば2.4として予測されたラベルは2とするか3とするかを判別する閾値を最適化したい。 for文を回して0.01刻みで計算して・・・という愚直なやり方でもいいが今回はoptunaを使う。 モデルはlightGBMを用い、評価指標はF1-macroとする。 データ 挙動を確認するだけなので、House Priceの住宅価格MEDVを四捨五入して10で割ったものを順序付きラベルとする(12.9ならラベル

    順序付き多値分類を回帰問題で解くときの閾値をoptunaで求める - まずは蝋の翼から。
    sh19910711
    sh19910711 2024/04/30
    "分類クラスが順序付きカテゴリの場合、分類問題としてではなく回帰問題として解く方法がある / 2.4として予測されたラベルは2とするか3とするかを判別する閾値を最適化したい" 2021
  • Optunaによる多目的最適化

    Optuna Meetup #1 での発表資料です。

    Optunaによる多目的最適化
    sh19910711
    sh19910711 2024/04/30
    "多目的最適化: 成田空港⇔フランクフルト間の移動プラン + 移動時間の最小化⇔費用の最小化 + 2つの目的はトレードオフの関係 / 多目的ベイズ最適化: AutoML向き + MOTPEはTPEの多目的版 / optuna.visualization" 2021
  • MLOps系プロダクトの布教活動報告 - Qiita

    この記事はMLOps Advent Calendar 2021の18日目の記事です。 2016年にもTensorFlowとMLサービスの2016年の布教活動報告を書きましたが、ここ3年くらいはMLOps系の活動をメインにしてきたので、その報告です。COVID後はイベント登壇も減り、ブログ記事の執筆が多くなりました。その裏話的な内容です。 Feature Store のブログ記事 今年5月のGoogle I/OでVertex AIのMLOps系プロダクトがいくつかリリースされたので、その後にフォローアップのブログ記事を出し始めました。まずは6月にPMのAnandと書いた Kickstart your organization’s ML application development flywheel with the Vertex Feature Store(日語版)です。 このプロダクト

    MLOps系プロダクトの布教活動報告 - Qiita
    sh19910711
    sh19910711 2024/04/29
    "Developer Advocateは何もしないと何も仕事がこない / 入れ替わる新しい人たちと信頼関係を築くのが一苦労 + 社内営業的なムーブも必要 / 動画: ブログだけでなく ~ セッション発表時のスライド等で使い回せる" 2021
  • ランキング学習を使って有馬記念を予想してみた - Qiita

    日は12/24です。何の日か、みなさんお分かりですよね?🎅 そう、みんな大好き有馬記念の日です。🐎 ボートレースファンからはグランプリの優勝戦の日だろ!という主張もありそうですが、今回は数年ぶりに競馬予想ネタを書きたいと思います。 私自身、過去に2回、競馬予想をテーマにした記事を掲載してきました。 機械学習の初心者がpythonで競馬予測モデルを作ってみた 機械学習の初心者がpythonで有馬記念を予想してみた レースは相対評価で予想したい 過去記事では、ロジスティック回帰やランダムフォレスト等を使用してましたが、実は違和感を少々感じていました。それは、データセット全体から絶対評価で、購入対象馬を予測しているからになります。 ちょっと分かりにくいかもしれませんが、例として、以下のデータセットの場合、レース番号に関係なく、賞金の高い馬が購入対象になりやすいという傾向があります。 レース

    ランキング学習を使って有馬記念を予想してみた - Qiita
    sh19910711
    sh19910711 2024/04/29
    "LightGBM: 2種類のAPIが存在 + sklearnに馴染みがあるので、Scikit-learn API(LGBMRankerクラス)を使用 / NDCG: ランキング学習モデルの評価指標の一つ + 生成したランキングが真の並び順にどれだけ適合しているか" 2023
  • Hydra, MLflow, Optunaの組み合わせで手軽に始めるハイパーパラメータ管理

    Optuna meetup #1 で使用した資料です.

    Hydra, MLflow, Optunaの組み合わせで手軽に始めるハイパーパラメータ管理
    sh19910711
    sh19910711 2024/04/29
    "Hydra: パラメータを階層立てて構造的にYAMLファイルに記述 + グリッドサーチを1行で実行可能 / MLflow: Hydraと組み合わせハイパラの管理・保存・比較が容易に / Hydraのプラグインを利用したOptunaの導入" 2021
  • 2021年で面白かったTransformer関連論文 - moriyamaのエンジニアリング備忘録

    この記事はみらい翻訳アドベントカレンダー14日目の記事です。 2021年も終わりを迎える中、個人的には転職してからちょうど1年経ちました。 機械翻訳の研究開発に携わることもあり、自然言語処理や深層学習全般を中心にいろいろな論文を読んだ一年でした。 年末にありがちな今年の論文BEST10のようなランキングを作ってみようと考えたが、選定とランキング基準がなかなか定まらず、それだけで数日かかりそうだったので、Transformer関連論文に絞ってまとめてみようと思います。 今年も昨年に続きTransformer is all you needの色が一層強くなったと感じます。Transformer自体は自然言語処理を題材に提案されたモデルですが、最近は画像領域や音声領域でも高い性能を発揮しています。 強く注目されているモデルということもあり、構造の細部にフォーカスした多くの研究がありましたので、そ

    2021年で面白かったTransformer関連論文 - moriyamaのエンジニアリング備忘録
    sh19910711
    sh19910711 2024/04/29
    "CANINE: 各文字に対して複数のハッシュ化を通じて数値化し、それらを連結して文の数値表現とする + 複数の文字トークンに対して一定幅で畳み込みを行うことで疑似的に単語にあたる表現を得る" arXiv:2103.06874 2021
  • Kaggle音コンペで銅メダル獲得したときの手法解説 - Qiita

    今年3月頃から機械学習(主にDeepLearning)とKaggleを始め、賞金のあるコンペ「Freesound Audio Tagging 2019(以下FAT2019)」に初めて挑戦しました。やるならばと金メダルを目指していましたが、結果はPrivateLB 89位で銅メダルに落ち着きました。苦労・工夫した点や、参考にした論文、記事、カーネルなども交えてここに記録したいと思います。 ちなみに以下が最終提出カーネルです。 定数で学習モードと推論モードを切り替えていたので、少し読みづらいですが…。なお、MixMatchなど一部の実装は実験的なもので、最終提出には使っていません。 モデルAの学習カーネル モデルBの学習カーネル(A→B 転移学習) モデルBを使った推論カーネル コンペの内容 FAT2019は、環境音データに対して「エンジン音」や「男性の歌声」などのタグを付ける認識モデルを開発

    Kaggle音コンペで銅メダル獲得したときの手法解説 - Qiita
    sh19910711
    sh19910711 2024/04/29
    "環境音データに対して「エンジン音」や「男性の歌声」などのタグを付ける / 周波数軸に対してメルスケール、パワーに対して対数スケールで変換 / 推論時にもデータ水増しすると精度が向上することが知られ" 2019
  • ゼロから創る tensorflow + reinforcement learningを使ったディープラーニングもどき - コンピュータ将棋 Qhapaq

    注:今回の記事は完全にプログラマ向けの解説記事です ソースコードの閲覧、ダウンロードは此方からどうぞ GitHub - qhapaq-49/tf_reinforcement: tensorflowを使った簡単(300行弱)なreinforcement learning 【今回作りたいもの】 囲碁やポーカーのAIで度々注目されているディープラーニングを使った強化学習。時代の先端を走るゲームAI開発者的には是非覚えておきたいスキルの一つです。といっても、強化学習の動作原理自体は下記の図のようにシンプルなものです。稿では下記図の流れを一通り搭載したスタンドアロンで動く強化学習ルーチンを紹介します(上述のgithubのコードを見ながら読まれることをオススメします)。 【稿で扱うゲームのルール】 稿ではニューラルネットで動く競りゲームAIを作ります。競りゲームとは ・初期所持金10のプレイヤ

    ゼロから創る tensorflow + reinforcement learningを使ったディープラーニングもどき - コンピュータ将棋 Qhapaq
    sh19910711
    sh19910711 2024/04/29
    "教師データ: ランダムムーブの対局 + 勝った方の手を良い手としてその手の採択率を上げる / 記事は沢山あるのですが、その多くはgymなどの洗練されすぎたパッケージを使っていて" 2017
  • SHapley Additive exPlanationsで機械学習モデルを解釈する / dgtalk5

    2020年1月16日に行われたData Gateway Talk vol.5での発表資料です。 https://data-gateway-talk.connpass.com/event/155457/ この発表をログミーさんに記事化して頂きました。 こちらには資料の口頭での補足も入っています。 https://logmi.jp/tech/articles/322738

    SHapley Additive exPlanationsで機械学習モデルを解釈する / dgtalk5
    sh19910711
    sh19910711 2024/04/29
    "SHAP: 協力ゲーム理論のShapley Valueから + より貢献度が高い人により多くの報酬 / モデルに投入した特徴量Xをゲームのプレイヤーと見立てて、あるインスタンスの予測値への特徴量の貢献度をShapley Valueで測る" 2020
  • 機械学習のための音声の特徴量ざっくりメモ (Librosa ,numpy) - Qiita

    Introduction この記事は基的に自分用のメモみたいなもので、かなりあやふやな部分もあります。間違っている部分を指摘していただけると助かります。(やさしくしてね) ネット上にLibrosaの使い方、Pythonによる音声特徴量の抽出の情報が少なかったり、難しい記事ばかりだったので、かなり噛み砕いてメモするつもりでいます。 基的に機械学習に用いられている音声の特徴量について記述していきます。 (2019/8/20)勉強した分だけ載せました、ちょっとずつ更新していきます。 (2019/8/22)MFCCの分だけ更新しました。 (2019/8/23)ZCRについて書きました。 紹介する特徴量 MFCC log-mel spectrum HNR ZCR 1.MFCC MFCCとの出会い 音声認識に広く使われている特徴量で、だいたいの音声における機械学習の代表的な特徴量ということでだいた

    機械学習のための音声の特徴量ざっくりメモ (Librosa ,numpy) - Qiita
    sh19910711
    sh19910711 2024/04/29
    "MFCC: 人間の声道の特性(人間の声と聴覚の仕組み)をうまく反映している + 人間の低音に敏感で高音に鈍いという特徴を考慮 + この特徴量を使うと非力なマシンで機械学習をできる旨味がある" 2019
  • Metric LearningでTWICEのメンバー9人を見分けるPyTorch入門 - Qiita

    エンジニア&リサーチインターンの佐藤(Twitter: TodayInsane)です。 ABEJA Advent Calendarの21日目を担当します。 もうすぐクリスマスですね!"Merry&Happy"!!! 軽い自己紹介 今年の4月からフロントエンドのデザイン→Vue.js実装をメインの業務とし、半年間とあるプロダクトの開発・案件受注を長期インターンとしてお手伝いさせて頂いてました。記事と直接の関係はありませんが、このプロダクトの開発者兼ぼくのメンターさんによる思いとテックと面白さが詰まったABEJA Tech Blogも是非ご一読ください。そして9月に初案件が無事成功した話を、インターン体験記兼続編として執筆中です。 現在はエンジニア業務と同時並行で、10月から機械学習のリサーチインターンもしています。上述の人物認証を使ったプロダクトやABEJAのサービスであるInsight

    Metric LearningでTWICEのメンバー9人を見分けるPyTorch入門 - Qiita
    sh19910711
    sh19910711 2024/04/29
    "Person Re-Identification: 画像または映像を解析し、写っている人物が既知(登録済みの人)か未知かを判定 / domain gap: 「学習データセットの人たちは推論時には多分1人も出てこない」問題" 2019
  • Deep Learningを使った欠損値補完 DataWig

    欠損のままでも動くフレームワークも最近は増えていますが 欠損値の扱いは機械学習適用において難しい課題の一つです。 簡便的に平均値, 中央値, 最頻値などの統計量を代入する、Scikit-learnのAPIなどを使って、機械学習アルゴリズムで欠損を埋める, MICEで代入するなどの方法がありますが、この記事ではDeep Learningベースの欠損値補完ライブラリであるDataWigについて触れてみたいと思います。 欠損のタイプ[1] データの欠損には大きく3つのメカニズムがあるとされています。 MCAR(Missing Completely At Random ) : 完全にランダムな欠損で、ある値の欠損する確率が、その対象のデータと無関係(例:サイコロを振ってランダムに欠損させているような状況)であることを指します。データ数が十分確保できるのであれば欠損行を削除しても問題ないタイプです。

    Deep Learningを使った欠損値補完 DataWig
    sh19910711
    sh19910711 2024/04/29
    "DataWig: Amazonが開発 + 欠損値補完ライブラリ + Apache MXNetをベース / 数値だけでなく、カテゴリの欠損補完にも対応 / 代入したいカラム内の属性もしくはカラム全ての潜在的な値の尤度を得る" 2021
  • AzureのAutoMLに化合物の活性予測の勝負を挑んでみた話 - Qiita

    はじめに Azure Machine Learningで自動的にモデルが作れるらしい。 そこで化合物の予測モデルの精度で勝負を挑んでみた。 対象データ この分野では実験から得られる教師データは少な目で、化学構造から得られる説明変数(記述子)は数千から場合によっては数万となるのが1つの特徴である。 精度が出やすいデータの場合、予測方法が優れているかどうか分かりにくいため、データ数が少なく、精度がやや低目のデータとして「化学のためのPythonによるデータ解析・機械学習入門」の6章の、データ数 114 件、 R^2 が 0.7 程度の以下データを選定した。 https://github.com/hkaneko1985/python_data_analysis_ohmsha/blob/master/sample_data/molecules_with_pIC50.csv 比較方法 比較方法は以下

    AzureのAutoMLに化合物の活性予測の勝負を挑んでみた話 - Qiita
    sh19910711
    sh19910711 2024/04/29
    "難しい小データに対しアンサンブル学習により高い汎化能力をもつモデルを構築 / 大規模なデータで勝負した場合、負ける可能性が非常に高い / モデル構築はAutoMLにまかせ、人は説明性の向上などに注力した方がよい" 2021
  • NIPS 2016 Adversarial Training Workshop 体験記 - Qiita

    去年参加したNIPS Adversarial Training Workshopについて書きます。 Advent Calendarに投稿するはずだったのですが忘れていました...すみません。 動画が全て上がっているので詳しく知りたい人はそれを見るといいと思います。 https://www.facebook.com/groups/675606912596390/ あとHuszarのBlogとかにももっといいまとめが上がっているのでそれもおすすめです。またGANは曖昧な部分が多かったり理解が甘くて、とんちんかんなことを書いていたりかもしれませんがそこは悪しからず。 Adversarial Training Workshopとは Generative Adversarial NetworksとAdversarial example関連 (virtual adversarial trainingと

    NIPS 2016 Adversarial Training Workshop 体験記 - Qiita
    sh19910711
    sh19910711 2024/04/29
    "2015年がVAEの年だとしたら2016年はやはりGANの年 / GAN: ミニマックス問題でかつバッチ学習してるせいで少なくともトレーニングしているときのlossを見るだけでは学習が進んだが判断できません" 2017