[B! contest][*data] sh19910711のブックマーク

AtCoder の問題を解くのにかかる時間をモデリングした - pepsin-amylaseのブログ

概要 AtCoder の問題に取り掛かってから AC するまでにかかる時間の対数の平均値は、レーティングの1次式で表現できると考えられます。理論的導出 qiita.com この記事の説明にあるように、AtCoderのパフォーマンスは、他の人に対する勝率が内部レーティング差のシグモイド関数で決まると仮定したときの内部レーティングの最尤推定値です。ここから、2人がある1問の早解き競争したときの勝率も内部レーティングの差のシグモイド関数になると仮定します。この仮定を満たすような解答時間の確率分布を考えていくと、次の分布がその要件をだいたい満たすことがわかります（天下り）。対数正規分布期待値はレーティングの1次式分散はレーティングによらない定数早解きの勝敗は内部レーティングの差を正規分布の累積密度関数に与えたものとなります。正規分布の累積密度関数はシグモイド関数に似ているので、近似とい

sh19910711 2024/03/13

"内部レーティングから解答時間の対数に単回帰 / レーティングを能力パラメータとしたロジスティック項目応答モデルでの難易度推定がうまく行くのは、上の理論的導出とだいたい同じ説明" 2019

リンク

データ分析コンテストで優勝するための3つの戦略 - Qiita

本記事はFringe81 アドベントカレンダー2017の6日目の投稿で、こちらの記事をQiita向けに書き直したものです。 2017/10/30まで開催されていたDeepAnalytics主催のレコメンドエンジン作成コンテストに参加し、見事優勝することができました。今回はそのとき役に立ったデータ分析のテクニックを紹介します。参加したコンテスト: オプトDSL・DeepAnalyticsコンテスト『レコメンドエンジン作成チャレンジコンテスト』コンテストについて今回のコンテストでは、オプト社が提供する2017年4月の行動履歴から、2017年5月1週目においてユーザーが関心を示す商品を予測して、その精度を競います。行動履歴には人材、旅行、不動産、アパレルと異なる4業種が与えられ、それぞれ個別にモデリングをします。ユーザの行動は、CV、クリック、ページ閲覧、カートに入れるの4種類のev

sh19910711 2024/02/24

"ユーザの関心や需要は時間ともに変化するはずなので、3日前の閲覧1回と30日前の閲覧1回は3日前の閲覧1回の方が価値が高いということが予想されます / 実験サイクルの回転効率は競争力を上げるための重要な要素" / 2017

リンク

AtCoder Problems の難易度推定について - pepsin-amylaseのブログ

https://adventar.org/calendars/3865 Competitive Programming Advent Calendar 2019 の12月5日分です。この記事を書いた2019年12月時点でのAtCoder Probl emsの難易度推定について、思いつく限りの話題を書きます。あなたは誰？ AtCoder Probl ems に難易度推定をつけた人です。AtCoder社の人の次くらいにレーティングシステムに詳しいと思います。 AtCoder Probl ems の Difficulty ってなんですか？現在の内部レーティング*1がこの値の人がコンテストでその問題を見たら50%の確率で解けると考えられる値です。過去のコンテストの結果から推定しています。 DifficultyがX色という表現をたまに見ますが、これは AtCoder Probl ems 上でそれぞれの問

sh19910711 2023/05/13

2019 / "paiza: 対戦ゲームなどで使われるオンラインなレーティング更新法を採用しているようです / IRTはEloの矛盾しない拡張だったので、Eloで決まったレーティングを用いて難易度を推定してもうまく行った"

リンク

AtCoderの参加回数が多い人ほどレーティングが高い？ - 唯物是真 @Scaled_Wurm

前にAtCoderのレーティングの分布について調べて記事を書きました sucrose.hatena blog.com Twitterで「AtCoderにたくさん参加すればレーティングが上がる」という話を見かけて気になったので、ユーザーの参加回数とレーティングの関係を雑にグラフにしたりレーティングの分布のグラフを書いたりしてみました調べるのが簡単なAtCoderのランキングに書いてある現在のレーティングと参加回数の表のデータを使いました https://atcoder.jp/ranking?p=1 AtCoderのレーティングの分布レーティングの色分けについてはこちら↓ https://atcoder.jp/post/14 1回しか参加していないユーザーも数えているので灰色が全体の半分近くを占めていますレーティングレーティング上位何%か 2800(赤) 1% 2400(オレンジ) 2%

sh19910711 2022/12/07

2018 / "参加回数とレーティング / やる気の有無が参加回数とレーティングの上昇の両方に関わってくると思われる / もっとちゃんと調べるなら個々のユーザーのレーティングの上下を追ってちゃんと調べないとダメそう"

リンク

Colaboratoryで分析コンペをする時のテクニック集 - カレーちゃんブログ

3月2日に開催された、分析コンペ勉強会で、「Colaboratoryで分析コンペをする時のテクニック集」として発表をしました。 speakerdeck.com この記事では、その内容を書きたいと思います。 Colaboratoryテクニック9つ 1. テーマの設定（darkモード等）、エディタの設定（インデント幅等） 2. ColaboratoryかKaggleNotebookか判別 3. Notebook名を取得 4.Google Driveのファイルへのアクセスを許可 5.学習する際は、MyDriveはなるべく使わない 6.a Kaggle Apiを使用する 6.b データのKaggleDatasetsへのアップロード 7 Mydriveからのweightのロードが遅い場合 8 Githubのrepositoryをclone public repositoryをcloneする場合 p

sh19910711 2022/02/27

"name_notebook = get('http://172.28.0.2:9000/api/sessions').json()[0]['name']"

リンク

Atcoder Heuristic Contestの順位とアルゴリズムのレートの関係性を眺める - rmizutaの日記

はじめに Atcoder Heuristic Contest(AHC)は最適解を出すのが難しい問題に対し、出来るだけ良い解を作成するコンテストで、開催期間が1週間以上の長期コンテストと、1日未満の短期コンテストがあります。 ABC/ARC/AGCのような最適解を求めるアルゴリズムコンテストとは性質の異なるものにはなるのですが、体感としてアルゴのレーティングが相対的に低い人は長期コンテストの方が良い順位がとりやすい感じがしたので、それをデータを見て確認したいと思います。必要なデータはAtCoderの順位表のページのURLに/jsonをつければjson形式で取得できるので、それを利用しています。コンテスト種別現在まででRatedのヒューリスティックコンテストは9回開催されており、うち5回が短期、４回が長期コンテストでした。コンテスト名開催期間種別 AtCoder Heuri

sh19910711 2022/01/13

"若干ですが長期コンテストの方がばらつきが大きいように見えます / 30位以内に絞ると長期と短期で傾向に違い > 青色以下の人が30位以内に入る比率が短期だと平均20%程度なのに対し、長期だと50%近くまで増加"

リンク

RのPlayerRatingsパッケージを使ってテニス選手のレーティングを求める - Qiita

library(ggplot2) ggplot(data=data.frame(X=c(-800,800)), aes(x=X)) + stat_function(fun=function(x) 1/(1+10^(-x/400))) + scale_x_continuous(breaks=seq(-800,800,by=200)) + xlab("AさんとBさんのレーティング差") + ylab("Aさんの勝率[%]") このように、AさんのレーティングがBさんと比較して大きくなるほどAさんの期待される勝率は100%に近づいていきます。対戦後のレーティング値次に、どのようにレーティングが変化するかについてです。今回はレーティング2000のAさんとレーティング1800のBさんの対戦を考えます。Aさんの勝率は先ほどの式より約76%と求められます。ここで、 1)Aが勝った場合 Aのレーティ

sh19910711 2021/12/11

"kaggleのデータセットにある男子プロテニスの試合結果から、Eloレーティングというレーティング手法を使って選手の強さを定量的に評価 / コンペが注目されがちですが、面白いデータセットがたくさんあります"

リンク

kaggleのkernelから学ぶこんな可視化備忘録 - Qiita

自分が分析レポートを作るときに、機械学習や統計の知識がない人にもわかりやすいレポートを心がけるの備忘録。 A Data Science Framework: To Achieve 99% Accuracy 常に分析を始める前にdescribe()で綺麗にきちんとデータの情報を把握してから分析するようにしたいカテゴリカルな変数と目的変数もきちんと相関出してる。真似したい！このカーネル、とにかく可視化が綺麗！コードは引用元見てください！カテゴリカルな説明変数と目的変数のヒストグラムと、連続値の箱ひげ図。箱ひげ図はこれよりもseaborn使った方が綺麗かもしれない。同じ説明変数でも、分類ごとに目的変数との関係の棒グラフや折れ線グラフ説明変数同士で分析しても面白いですね。真ん中のカテゴリカルな変数VS連続値の変数のグラフめちゃ綺麗 3つの要素をこんな風に盛り込むのも面白い連続値VS連続

sh19910711 2021/04/10

リンク

AtCoderの問題難易度を項目反応理論を用いて推定する - rmizutaの日記

はじめに AtCoderは競技プログラミングのサイトです。ほぼ毎週のようにコンテストが開催され、参加者が複数の問題を解き、解いた問題数とその早さから順位がつきます。また各参加者はレーティングを持っていて、そのレーティングが順位によって変化するというシステムになっています。コンテストの問題には100,200,300などの得点がついており、これが難易度の目安となるのですが、同じ400点の問題でもこれは簡単すぎでは？というときから絶対無理…となるときもあるので、実質の難易度は得点とは少しずれが生じていると考えられます。特にAGC(AtCoder Grand Contest)や企業コンテストは通常のABC(Atcoder Beginner Contest)やARC(Atcoder Regular Contest)と同じ得点でも難易度が結構異なるように感じます。今回はこのテーマに対し、項目反応

sh19910711 2020/12/28

リンク

Kaggleコンペ初心者が命削りながらなんとかメダル圏内に滑り込んだ話 (IEEE-CIS Fraud Detection) - オットセイの経営日誌

前回のブログ記事投稿から約１ヶ月。この１ヶ月はKaggleのIEEE-CIS Fraud Detectionに人生を捧げると決めてブログを休んでいましたが、10/4にコンペが終了しました。結果は、6381の参加チーム中、532位でした。上位10%に入ることができ、初Kaggle本気参戦で銅メダルを獲得することができました。しかし、2週間ほど前からあらゆる試行錯誤を繰り返してもPublic LBが上がらず、所謂「このKaggleコンペ何もわからない」状態に陥り、非常に苦しい思いをした記憶が強いです。ということで、本記事はKaggleで初メダル圏内を目指そう、という方を読者に想定して、自分のやったことを書きます。メダルを既に獲得されている方、ましてKaggle Expert以上の方で万が一本記事にたどり着かれた場合は、さくっと離脱いただくか、笑って眺めていただければと思います。 1.

sh19910711 2019/10/13

リンク

はてな社内でKaggleハッカソンを行ないました(TakingDataリベンジマッチ編) - yasuhisa's blog

先週末、はてな社内でKaggleハッカソンを行ないました。丸一日、各自好きなKaggleのコンペに取り組んで、得られた知見を共有するという会です。自分は以前TalkingDataというコンペに参加していたのですが、データサイズが結構大きく、一月くらいやってみたももの試行錯誤に四苦八苦してしまい、途中で離脱していました...。このハッカソンでは、そういったデータセットでも何とかできるようになろう!ということを目標にして参加しました。もちろん1日だけではさすがに時間が足りないので、ハッカソン前の10日くらいは定時後にちまちま作業をやっていました。以下はハッカソン終了後に使った発表資料です。Kaggle上位の人にとっては当たり前のことしか書いてないかもしれませんが、社内でこういった知見をじわじわと貯めていくことが大事だと思っています。なお、ハッカソン終了後にAWSのでかいインスタンスを借りて

sh19910711 2018/08/25

リンク

一から始める機械学習（Kaggleで学ぶ機械学習） - Qiita

このページの対象読者、目的対象読者・機械学習の概要がわかっている方・もしくは一から始める機械学習(機械学習概要)を読んだ方が対象です目的・Kaggleについて理解する・機械学習について実際の流れを理解する・Kaggleのチュートリアルを用いて実践を行う・scikit-learnを用いて実践を行うアジェンダ KaggleとはなぜKaggle？ Kaggleチュートリアル（Titanic: Machine Learning from Disaster）データの中でどれを使う？データ前処理使用データ使用する学習手法学習実行と交差検証最適化機械学習の流れ企業のコンテストを一部紹介このページはプレゼンテーションを再編集したものです。オリジナルであるプレゼンテーションをみたい方はこちらをどうぞ https://www.edocr.com/v/vlzyelxe/t

sh19910711 2018/05/10

リンク

SQLだけで機械学習するぞ-Hivemall入門- - Qiita

こんにちは。onunuです。 IESHILでエンジニアをしています。主にSQLを描くのがお仕事です。以前はマッハバイト(旧ジョブセンス)で開発していたのですが、SQLで座標平面を描く能力を評価してもらい、座標上の2点間の距離計算とかいっぱいする不動産のサービスに異動になりました。地球は球なので大変です。さてさて、本記事はLivesense -自- Advent Calendar 2017のために書かれています。テーマは自、ということなので、自分の仕事領域であるSQLに関して書こうと思います。 Hivemallとは HivemallはHadoop/Spark上でSQLクエリを用いて機械学習を行うためのライブラリです。実際にはHadoop/Spark用のデータウェアハウスであるHive上で動作するUDF(User Defined Function)として実装されています。ユーザー

sh19910711 2018/05/10

リンク

機械学習で広告の効果を推定したいお話。 | 分析のおはなし。

アメリカへの交換留学とノルウェーへの大学院留学を経た後に、データサイエンティストを目指そうとする人の戯れ言。こんばんは。数学ができなくて悩む今日この頃です。が、データ分析は数学そのものでは無いので気にせずコツコツやっていこうと思う今日でもあります。さて、 Japan.Rで発表してまいりました。内容は「機械学習を使って広告の効果を推定する」という予測モデルを使って因果推論を試みる内容でした。今回は内容の補足と解説を書きます。発表した資料はこちらです。 1. Hal Varianのアプローチそもそもこのトピックに興味を持ったのは Varianの書いた Big Data: New Tricks for Econometricsというペーパーと、それに影響を受けたNBERのDemand Estimation with Machine Learning and Model Comb

sh19910711 2018/05/07

“「広告の効果を受けて無いデータ」で予測モデルを作ってそれを広告の効果を受けているデータへ適応し、予測結果を広告がなかった時の売り上げの予測と考え”

リンク

KaggleのCTR予測コンペで上位10%に入るまでの試行錯誤 - yasuhisa's blog

週末KagglerとしてavazuのCTR予測コンペに参加しました。Kaggleは機械学習版のISUCONだと思ってもらえばよいです。コンペ自体は終わっているので、late submiteであまり意味はないかもしれません、練習です。leaderboard上で上位10%以内に行けたので、そこまでの試行錯誤をメモしておきます。謎ノウハウ(?)を持っているガチ勢じゃないと上位に行けないものかと思っていましたが、基本に忠実にやればこれくらいの順位(上位7.6%)に行けましたし、他の人の工夫を垣間見えるという意味でも現場の機械学習やり始めたエンジニアにお薦めできそうでした。参加の動機目標感: 頑張りすぎずに上位10%以内に入る試行錯誤 AthenaとRedashによる探索的データ解析ベンチマークをまず超える線形分類器でシンプルな特徴量時系列要素を忘れていて過学習発生特徴量エンジニアリン

sh19910711 2018/05/04

リンク

#stairlab データ分析コンテスト参加レポート – Moonshot 🚀 – Medium

ステアラボさんはありがたいことに毎回、勉強会の動画を公開してくれてるので、少し経てばまた動画を公開してくれるのでBlogをチェックしておくのがおすすめです。 https://stair.center/archives/category/blog 以下、聴講しながらの雑文メモです。個人的に刺さった一文(意訳)をまとめておきます。 TL;DR;コンペで勝つと、有用性の実証・知識の拡充(論文を出すため)がされるので良いサイクルが回りやすい by ikuyamada さんコンペで上位にいかないということは、なにかが足りない。スタンダードなことはみんな絶対やるので(やりきってシルバーに到達するくらいのレベル感)、そこから突き抜けましょう。 by Takuya Akiba さん最近のコンペの流れ: アンサンブルをするだけの時代から、データの特性を掴んだり発想ｍの飛躍が必要 by smly さん山田育

sh19910711 2018/03/10

リンク

データ分析コンテストの 勝者解答から学ぶ

ステアラボ人工知能シンポジウム 2018 講演資料 https://stair.connpass.com/event/76647/

sh19910711 2018/03/09

リンク

KaggleのためのMOOCがcourseraに！How to win a Data Science Competitionを受けた

KaggleのためのMOOCがcourseraに！How to win a Data Science Competitionを受けた kaggleの攻略法について、以前調査した。あまり、学習教材がなかった。 Kaggleをはじめたので対策や攻略法についてのブックマーク | Futurismo Kaggleを初心者が進めるには、とにかくコンペに参加してKernelを読むしかないのかなと思っていた。そんな自分に朗報！この courseraが提供するものこそ、自分が求めていたものだ。その名も・・・ How to Win a Data Science Competition: Learn from Top Kaggler https://www.coursera.org/learn/competitive-data-science 特徴# ロシアのカグルマスターが講師# この講座では、Yande

sh19910711 2018/01/28

リンク

データ分析コンテストの技術と最近の進展

第14回ステアラボ人工知能セミナー https://stair.connpass.com/event/68515/ の発表資料です．共有用のショートカットURL: https://goo.gl/MgFmJk

sh19910711 2017/10/26

リンク

Kaggle入門動画をつくった - tkm2261's blog

皆様こんにちわ今回はKaggle入門動画作ったので、その事について書いていきます。 Twitterでも告知したし、ブログは良いかなーと思ってたのですが、ニートで新しいこと挑戦企画としてYoutuberになってみました Kaggleの提出までを環境構築からライブコーディングして実況解説してみました。私流のKaggleワークフローですがよければ見てみて下さいhttps://t.co/0QUDEa1etK— Takami Sato (@tkm2261) 2017年10月20日英語の翻訳タイトルつけると、Googleが日本語でインデックスしてくれない事に気づき、ブログにも投稿することにしました。良ければ見てみて下さい。 Kaggle入門 Porto Seguroコンペ www.youtube.com 規約的に怪しかったので、Kaggleにも問い合わせてOK貰ってます。 https://ww

sh19910711 2017/10/25

リンク

はてなブックマーク

タグ

関連タグで絞り込む (10)

contestと*dataに関するsh19910711のブックマーク (23)

お知らせ

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

今週のはてなブックマーク数ランキング（2024年5月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス