Explore and run machine learning code with Kaggle Notebooks | Using data from Meta Kaggle
週末KagglerとしてavazuのCTR予測コンペに参加しました。Kaggleは機械学習版のISUCONだと思ってもらえばよいです。コンペ自体は終わっているので、late submiteであまり意味はないかもしれません、練習です。leaderboard上で上位10%以内に行けたので、そこまでの試行錯誤をメモしておきます。謎ノウハウ(?)を持っているガチ勢じゃないと上位に行けないものかと思っていましたが、基本に忠実にやればこれくらいの順位(上位7.6%)に行けましたし、他の人の工夫を垣間見えるという意味でも現場の機械学習やり始めたエンジニアにお薦めできそうでした。 参加の動機 目標感: 頑張りすぎずに上位10%以内に入る 試行錯誤 AthenaとRedashによる探索的データ解析 ベンチマークをまず超える 線形分類器でシンプルな特徴量 時系列要素を忘れていて過学習発生 特徴量エンジニアリン
kaggle TensorFlow Speech Recognition Challengeの上位者のアプローチを紹介する(前編)DeepLearning音声認識データサイエンスKaggleSpeechRecognition INTRODUCTION 今更ながらこちらのkaggleのコンペの上位者のアプローチを紹介します。 TensorFlow Speech Recognition Challenge tensorflowの名を冠していることから予想できるように、 google brainがorganizerです。 自分も一応は参加しておりました・・・。 長いので前編・後編に分けてポストいたします。 今回はコンペそのものと、アプローチの要素のうちタスク設計と特徴量について触れます。 このコンペについて コンペのタスクの内容 音声認識の中でも、いわゆる"keyword spotting" t
機械学習のサイトKaggle で使われている略語をまとめました. 画像は[https://static1.squarespace.com/static/58a3826fd2b857e5fe09f025/58ac6a226b8f5b3bdce84c5a/58d04a9246c3c4a6bd5ab664/1490045642866/Kaggle+Workshop.png?format=1500w]から引用 機械学習で用いられる略語 普段Kaggleをやっているとなんのことを表しているのかわからない略語が多くあります。 今回いいまとめを見つけたので、日本語にして少しだけわかりやすくしたいと思います。 https://www.kaggle.com/getting-started/38187 略語は初心者では何のことかわからずやる気を削ぐ原因となると思います。 KaggleをやっているとよくLBやC
[概要] 最近のkaggle のコンペのwinning solution で、stacked generalization がよく使われています。これの元になった論文は、1992 年のWolpert さんによるものです。 triskelion さんのブログKaggle Ensembling Guide | MLWave の中でもこの手法についての説明があります。 様々な学習器を上手く組み合わせて、より精度の良いモデルを作ろうというのが基本的な考え方です。具体的には次の図のような感じです。 level 0 は、元となるデータです。またこの場合における各学習器はgeneralizer と呼ばれています。level 0 のデータにgeneralizer を適用して生成されたデータがlevel 1 のデータとなります。 その後も、同様に名づけられています。 [過去のコンペ] まずは、多層パーセプト
Use historical markdown data to predict store sales
皆さんこんにちは お元気ですか。私は元気です。 今日は前回の以下のページからだいぶ更新が立ち、Kaggleのコンペ的にも多くの開催がありました。 そこで、新しいページでリンクを纏めてみました。 中にはインタビューやフォーラム、githubなど様々なものが混合しているのはお許し下さい。 nonbiri-tereka.hatenablog.com Prudential Life Insurance Assessment 1st - 1st place solution - Prudential Life Insurance Assessment | Kaggle 2nd - Solution -- 2nd place - Prudential Life Insurance Assessment | Kaggle Homesite Quote Conversion 3rd- Homesite Q
PyDataTokyoに触発されたので、Kaggleで上位を取るための戦略、そして神々に近づくための学習戦略を考えてみました。 kaggle master (自慢)ではありますが、kaggle歴は浅いので、いろんな突っ込みどころがあると思います。 1. 初参加 ~ top25% まずはtitanicのtutorialを始めてみる 終わったら、ちゃんとポイントのもらえる本番コンペに参加する お遊びコンペだとなかなか気合いが入らないので(人によります) いろんなコンペがあるが、とりあえず興味があるのに参加してみる 無理そうならあきらめる beat the benchmark(btb)というのがForumに出てくるので、まずはbeat the beat the benchmarkを目指す。これができればtop25%とか行けるのではなかろうか。 ツールの使い方を覚える良い機会 btbは特徴量をそん
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く