タグ

kaggleに関するn_knuuのブックマーク (5)

  • Text Classification: All Tips and Tricks from 5 Kaggle Competitions

    In this article, I will discuss some great tips and tricks to improve the performance of your text classification model. These tricks are obtained from solutions of some of Kaggle’s top NLP competitions. Namely, I’ve gone through: Jigsaw Unintended Bias in Toxicity Classification – $65,000 Toxic Comment Classification Challenge – $35,000 Quora Insincere Questions Classification – $25,000 Google QU

    Text Classification: All Tips and Tricks from 5 Kaggle Competitions
  • kaggle: Porto Seguro's Safe Driver Prediction まとめ - copypasteの日記

    はじめに コンペ概要 データの種類とタスク 評価方法 提出方法 勉強になる Kernel と Discussion Data Preparation & Exploration | Kaggle Stratified KFold+XGBoost+EDA Tutorial(0.281) | Kaggle Resampling strategies for imbalanced datasets | Kaggle Python target encoding for categorical features | Kaggle Dimensionality reduction (PCA, tSNE) | Kaggle Tune and compare XGB, LightGBM, RF with Hyperopt | Kaggle 2-level Stacker | Kaggle Entity

    kaggle: Porto Seguro's Safe Driver Prediction まとめ - copypasteの日記
  • Kaggle Past Competitions

    Kaggle Past Solutions Sortable and searchable compilation of solutions to past Kaggle competitions. If you are facing a data science problem, there is a good chance that you can find inspiration here! This page could be improved by adding more competitions and more solutions: pull requests are more than welcome. Warning: this is a work in progress, many competitions are missing solutions. If you f

  • Stacking - 計算編① - - Qiita

    1. はじめに データコンペ界隈主導で、数%の精度を高める手法としてstacking・blendingが非常に流行っております(言わずもがなですが)。実務家として着目したいのは、数%の改善をする方法論だと思います。数%でチャリチャリ度合は全然違いますので、技術により利益貢献をするという目線で大変頼もしい手法です。StackingがKaggle主導で誕生した理由も、以下を覗くとうなずけます; [http://goo.gl/T0OlsV より引用] 1位と2位の差が2bp(∝10^-4)とは全く驚きです。そこでエントリーでは、Stackingの概要を整理した後、sklearnを使って実験を行い、Stackingにより得られる示唆を考察してみたいと思います。 2. Stackingとは 実のところ、何が正しいのか不明瞭なのですが、[4]を参照し解釈すると視点としては以下が挙げられると考えていま

    Stacking - 計算編① - - Qiita
  • いかにしてkaggleを解くか | threecourse's memo

    Walmart2015については、CrowdFlowerのSolutionを参考にしながら、いろいろと考えながらやってました。 結局xgboostとneural netのstackingくらいしかできませんでしたが。。(38th/1047) その中で、kaggleの問題に対して”解”を出すのにあたって、どういうポイントがあり、どのように進めていくべきかの”構造”を考えてみました。 kaggle masterだけど機械学習は素人なので、突っ込みどころはいっぱいあると思います。ご指摘やこんな資料があるなど、教えていただければ助かります。 1 – 特徴量作成・管理 何だかんだいっても特徴量作成は重要で、重要な特徴量を逃すと勝ち目はないでしょう。 逆に適切な特徴量が作れれば、xgboostだけで勝てることもあるようです。(cf. Rossmann) 特徴量はN * M(N:ID, M:要素数)の数

  • 1