[B! python][系列] sh19910711のブックマーク

sh19910711 id:sh19910711

pythonと系列に関するsh19910711のブックマーク (7)

TensorflowでプチRNNによるロジスティック写像のカオス回帰 - Qiita
Recurrent Neural Network (リカレントニューラルネットワーク) 時系列データなど連続値で相関がありそうなものに対して、入力を一つづつ処理しつつネットワーク内部で状態値を保持して、入力が全て終わった後に最終的な出力をしてくれるRNNさん。実世界の時系列データだとノイズが入りすぎるし、Tensorflowのチュートリアルのような言語系だとイマイチ"時系列"としてのイメージが難しい。そしてイマイチRNNCellクラスの仕様がつかめないので、諦めて実験的に簡単な自己フィードバックのモデルを作ってみます。検証対象 : カオス力学バタフライエフェクトで有名なカオスですが、一見ランダムに見えるんだけど実はある法則みたいなものがある事象を分析する上で役に立つやつです。その中でも個人的に一番分かりやすい Logistic Map(ロジスティック写像)を例にお話をします。離
sh19910711 2024/05/24
"カオス: ランダムに見えるんだけど実はある法則みたいなものがある / 法則にしたがっているなら簡単に予測できそう / カオスがカオスたる所以 + 初期値やパラメーターがほんの僅か違うだけでまったく違う値になって" 2016

*program

python

機械学習

系列
リンク
Python: PyTorch の RNN を検算してみる - CUBE SUGAR CONTAINER
今回は、PyTorch の RNN (Recurrent Neural Network) が内部的にどんな処理をしているのか確認してみる。なお、ここでいう RNN は、再起的な構造をもったニューラルネットワークの総称ではなく、いわゆる古典的な Simple RNN を指している。これを書いている人は、ニューラルネットワークが何もわからないので、再帰的な構造があったりすると尚更わからなくなる。そこで、中身について知っておきたいと考えたのがモチベーションになっている。使った環境は次のとおり。 $ sw_vers ProductName: macOS ProductVersion: 11.5.2 BuildVersion: 20G95 $ python -V Python 3.9.6 $ pip list | grep torch torch 1.9.0 もくじもくじ下準備モデルを
sh19910711 2024/05/23
"ニューラルネットワークが何もわからないので、再帰的な構造があったりすると尚更わからなくなる / (総称としての) RNN は縦に積み重ねることで性能向上が望める / num_layers という引数 + デフォルト値は 1" 2021

*program

python

機械学習

系列
リンク
Google ColabでTimesFMを動かして予測してみた - Qiita
概要最近の記事を見ると、Zero-Shotで時系列予測ができるTimesFMと呼ばれるものが公開されていました。 Githubのリポジトリはこちら：時系列予測というとベイズなどを用いて泥臭いことをやったりしないとですが、こちらはtransf ormerのデコーダ部分のみを用いてGoogle TrendsやWikipedia Pageviewなどの膨大なデータ(100 billion time point)で学習を実施したものを公開されています。パラメータも200Mで、GPT-3やLLama-2などと比較すると軽量なモデルであり、チューニングすることなく高度な予測をすることが可能であると書かれています。時系列予測と言われるとベイズなどが浮かんできますが、面倒臭いのでサクッと予測できるのは比較対象としても悪くない気もしています。今回は、国内企業物価指数] 総平均（前年比）の2000年から2
sh19910711 2024/05/18
"TimesFM: Zero-Shotで時系列予測 + Google TrendsやWikipedia Pageviewなどの膨大なデータ(100 billion time point)で学習を実施したもの / トレンド予測とかで時系列データが限られてる時にパッと出してみるのに使える気もしました"

*program

python

系列
リンク
fairseqで自分でトレーニングしたTransformerモデルをロードする - Qiita
はじめに機械翻訳のTransf ormerモデルをトレーニングする機会があり，Pytorchベースのfairseqを使ったんですが，アプリ用のコードでモデルのロードにハマってしまいました．備忘録のために記事を書きます． fairseqとは Facebookの人工知能研究チームが開発している，機械翻訳用のフレームワークです．Facebookが開発元ということもあり，Pytorchがベースになっています．最近はHuggingfaceのTransf ormersが人気でTransf ormerモデルを扱うならPytorchだよね，ということもあり，こちらをフレームワークとして選びました．その他の機械翻訳フレームワークとしては，MarianNMT，OpenNMT（こちらもPytorchベース）などがあります．基本的な機能はどのフレームワークも大差ない印象ですが，論文実装のコードはfairseqが選ば
sh19910711 2024/04/28
"fairseq: 日本語ドキュメントが少ない + HuggingfaceのTransformersを使っている人であれば使いやすい / 機械翻訳フレームワークとしては，MarianNMT，OpenNMTなどがあり / 論文実装のコードはfairseqが選ばれている場合が多い" 2020

*program

python

機械学習

系列
リンク
PyTorchのSeq2Seqをミニバッチ化するときに気をつけたこと - 人工知能とか犬とか
概要 PyTorchチュートリアルに、英仏の機械翻訳モデルを作成するTranslation with a Sequence to Sequence Network and Attentionがあります。このチュートリアルは、教師データを一つずつ与える形になっており、結構遅いのです。なので、バッチでの学習ができるように修正を試みたところ、注意ポイントがいくつかあったのでまとめておきます。 RNNのバッチ学習の実装 RNNでバッチ学習を行う際に問題となるのが、入力されるデータ系列の長さがバッチ内で異なることです。この問題には一般的に、バッチ内での長さを揃えるためのパディングと、パディングした部分が学習の邪魔にならないようにするマスキングを実装して対処する必要があります。実装自体は割と簡単にできますが、きちんと実装しないと学習が全然進まなかったりするので注意が必要です。パディングパデ
sh19910711 2024/04/28
"Seq2Seqをミニバッチで行う場合、損失の計算を行う際にパディング部分を適切に処理しないと、損失の計算結果がで大きく変わってしまいます / 損失を過大評価したり過小評価したり" 2018

*program

python

機械学習

系列
リンク
LinkedInが開発した時系列モデル“Greykite”の理論と実装 - ぱぐみの部屋
時系列データのモデリングとして、以下のような手法がメジャーかなと思います。 ARIMA Prophet 状態空間モデル RNN LSTM DeepAR 今回は、2021年に発表された比較的新しい手法であるGreykiteのご紹介をしていきます。注意：本記事は2022年11月時点の情報をもとに記載しております。ライブラリの変更等により本記事の記載内容が古くなる可能性がありますが、ご了承ください。 Greykiteとは? LinkedInが2021年にOSSとして公開した時系列予測モデルです。機械学習分野の国際会議であるKDD2022でも発表されたようです。 KDD2022よりLinkedInによる時系列予測OSS Greykite (https://t.co/wpsCnuak2t) の紹介論文。コアとなるSilverkiteというアルゴリズムの紹介が中心で解釈可能性と速度が売り。Proph
sh19910711 2022/11/20
"Greykite: LinkedInが2021年にOSSとして公開した時系列予測モデル + KDD2022でも発表 / 解釈可能性と計算速度が売りらしく、論文中でもMetaが開発したProphetや、Amazonが開発したDeepARと比較 / 探索的分析に役立つ可視化機能も充実"

*data

*program

python

系列
リンク
Tensor2Tensorで雑談チャットボットを作ったら今度はうまくいった話 - Qiita
はじめに前回の失敗から手法を変えてチャットボットの作成を試みました。今度はうまくいきましたが、ほぼ公式ドキュメント通りの内容なのであまり面白味はありません。前回の失敗はこちらから全体のコードはこちらから作成方法今回はGoogle Brain チームが提供しているTensor2Tensor(t2t)を使うことにしました。 t2tは既に用意されているデータセットで学習するだけならコードを書くことなく(コマンドのみ)実行できる手軽さが特徴です。自前のデータセットを実行する際にも、ほぼ公式ドキュメントに書かれている数行のコードと形式の整ったデータセットさえあれば実行できるので非常に楽です。今回は前回作成した名大会話コーパスから抽出したinput_corpus.txtとoutput_corpus.txtをデータセットとして学習・推論をさせてみます。実行環境はGoogle Colabで
sh19910711 2021/07/03
"ほぼ公式ドキュメントに書かれている数行のコードと形式の整ったデータセットさえあれば実行できる / 今回の学習には大体3時間~4時間 / 会話というより質問に対して応答しているだけではあります"

*algorithm

機械学習

系列

#

*program

python
リンク
1