Use historical markdown data to predict store sales
台風の経路情報を題材にして、Dynamic Time Warping (DTW) を用いた時系列データの類似度の計算を試してみます。DTW は二つの時系列データの類似度を測る方法の一つで、英語版の Wikipedia に簡単な説明と実装例があります。 Dynamic time warping - Wikipedia, the free encyclopedia 過去の台風の経路情報は、各国の機関によって公表されているようです。たとえば、気象庁のデータや、米軍の Joint Typhoon Warning Center (JTWC) という機関のデータが、それぞれ以下のウェブページで公表されています。 気象庁|過去の台風資料 Joint Typhoon Warning Center (JTWC) これらのデータは各機関が独自の観測によって取得したもので、同一の台風を表す情報でも少しずつ数値が
いま手元に 20万件くらいの時系列があって、それらを適当にクラスタリングしたい。どうしたもんかなあ、と調べていたら {TSclust} というまさになパッケージがあることを知った。 このパッケージでは時系列の類似度を測るためのさまざまな手法 (=クラスタリングのための距離) を定義している。うちいくつかの手法を確認し、動的時間伸縮法 / DTW (Dynamic Time Warping) を試してみることにした。 DTWの概要 時系列相関 (CCF) の場合は 片方を 並行移動させているだけなので 2つの系列の周期が異なる場合は 相関はでにくい。 DTW では 2つの時系列の各点の距離を総当りで比較した上で、系列同士の距離が最短となるパスを見つける。これが DTW 距離 になる。そのため、2つの系列の周期性が違っても / 長さが違っても DTW 距離を定義することができる。 アルゴリズム
ログデータの異常検知を行う必要が発生したので、変化点検出の統計的な手法をざっくりと調べてみた。 偏差の累積和による方法 各データ点に対して標本平均との偏差の累積和を求め、これが最も大きくなる点を変化点とする方法。 手順は下記の通り。 系列全体の平均値(標本平均)を計算して、各点について平均値との差を求める 平均値との差の累積和を計算し、絶対値が最大になる点を変化点とする。 変化点によって区切られた各区間について、1,2を再帰的に繰り返す。 平均値でなく分散を使うバージョンもある。 特徴 1次元のデータ列に適用可能。 変化していない部分のデータは同一の確率分布に従い、かつ観測値はすべて互いに独立であることを仮定。 上記を満たしていれば、データが特定の分布に従うことを仮定しない。 もちろんデータの独立性が仮定できなければ使えないので、ログのような時間相関のありがちなデータにおいて使える場面は限
Rで機械学習(PRML):SVM vs ランダムフォレストモデル (株価シナリオ②)日経平均値動き幅 過去日連動性検証 【 検証事項 】 日経平均株価の各日の(取引時間内)の値動き幅(ボラティリティ: ((当日終値-当日始値)/当日始値)100) )は、X日前の値動きボラティリティ ( ((X日前の終値-X日前の始値)/X日前の始値)100) ) と、どのような関連性があるか。※X = 1 ~ 7 【 事前仮説 】 当日の値動きボラティリティ( ((当日終値-当日始値)/当日始値)100) )は、Xの値がより小さい X日前の値動きボラティリティ ( ((X日前の終値-X日前の始値)/X日前の始値)100) ) から、強い影響を受けている 【 背景にある知見 】 ( GARCHモデル ) ある日の株価ボラティリティは、近い過去日のボラティリティに引っ張られる」(上げ(下げ)相場が続いている期
Python pandasとstatsmodelsを用いた時系列分析についてまとめる。pandasは欠損値の処理や移動平均の算出に、statsmodelsはARIMAなど時系列解析の実施に用いるとよさそう。以下の内容について順次取り上げていきたい。 ●単純移動平均 ●自己相関関数(ACF:Auto Correlation Function) ●偏自己相関関数(PACF:Partial Auto Correlation Function) ●自己回帰過程:AR(p) ●自己回帰移動平均過程:ARMA(p, q) ●自己回帰和分移動平均過程:ARIMA(p, q, d) ●多変量自己回帰過程:VAR(p) ●状態空間モデル ARIMAまでがひとつの系列のみを対象とした分析。VARはARの多変量版で、ある系列を予測するのに他の系列のデータも活用する。状態空間モデルは、観測方程式と状態方程式(真の
Next: RNNについて リカレントネットの学習法と応用: オートマトンの抽出 複雑系解析論講座 橋本研究室 小林 仁 概要: リカレントニューラルネットワーク(RNN)はフィードバックを持っており、従来のフィードフォワード、Hopfieldモデル等と異なり、時系列データを容易に取り扱うことができる。 しかし、RNNは構造が異なるため、従来の学習則を直接適用することはできない。そのためRNN独自の学習則が必要となる。ここではそのなかでも基本的な学習則について紹介する。またRNNに対する学習則はいくつか提案されているが、各々は異なる特徴を持っており、実際にどれを適用するべきかを考えなくてはならない。よってここではそのような学習則の持つ特徴に関する研究についても要約する。 先に述べた特徴より、RNNは様々な時系列パターンの認識や生成に用いることができると考えられる。ここではどのような問題に、
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く