最近は画像コンペではモデリングの余地があまりないことが多いが、系列データのコンペはデファクトの(pretrain)モデルが確立しておらずモデリングで勝敗が分かれることが多い。ここで系列データとは、時系列データ、センサデータ、RNA等のシーケンスデータのようなデータを意図している。 このような背景のもと、これまでの系列データを扱ったKaggleコンペティションとその上位解法を振り返りながら、系列データの深層学習モデリングを俯瞰する。 紹介しているコンペ: - IceCube - Neutrinos in Deep Ice - Google - American Sign Language Fingerspelling Recognition - Stanford Ribonanza RNA Folding - HMS - Harmful Brain Activity Classifica
みなさん、お久しぶりです。A7です。ここ数か月いろいろと忙しくてなかなか記事を書けてませんでした。 松尾研LLM講座の記事もそのうちだすのでお待ちください そして今もまだ忙しいので、今回の記事もまたぱっとまとめます。笑 自己紹介 データサイエンティストを目指して日々勉強している、慶應義塾大学大学院理工学研究科1年生(2024.05.01時点) 取得資格、コンペ優勝経験など、リアルタイムの情報は👇👇👇をみてね X: @A7_data←普段はXで活動しています。ありがたいことに、フォロワーは6500人を超えました😌 プロフィールページ👇👇👇 X👇👇👇 背景 Kaggleやりたい!ってなってた。 Kaggleはデータサイエンティストなら知らない人はいない、世界一のデータサイエンスコンペティションプラットフォーム。 世界の第一線で働くデータサイエンティストの方も多く参加されてお
はじめに こんにちは、@s_shoheyです。 2024年2月28日から4月17日にかけて開催された、Kaggle LLM Prompt Recoveryコンペについてまとめます。我々のチームは72位でしたが、特に我々の解法には言及しません。 コンペ概要 2つの文字列original_textとrewritten_textが与えられます。rewritten_textはGemmaによりoriginal_textから生成されたものです。この生成時に使われたrewrite_promptを予測することが目的です。 図は https://www.kaggle.com/competitions/llm-prompt-recovery/discussion/480683 より Gemmaは2024年2月にGoogleが公開したオープンなLLMモデルであり、このコンペはGemmaの宣伝も兼ねているのでは、
みなさんこんにちは。キャディ(CADDi)でML/MLOpsチームのグループリーダをしている稲葉です。今日は、エルピクセル(LPIXEL)さんと一緒にオフラインイベントを開催しましたので、そのイベントレポートをお伝えしたいと思います。 はじめに イベントの詳細は、connpassのページをご確認いただけると幸いです。このイベントを開催するにあたってエルピクセルさんとも色々と議論したのですが、AIを製品として市場にリリースしているエルピクセル株式会社、キャディ株式会社からどういう点を意識してプロダクト開発しているかをお話すると実際の開発現場がイメージできるのではないかという話になりました。また、Machine Learning Engineert・Engineering Managerそれぞれの立場からお伝えすることで、AI製品化プロセス全体の話ができるのではないかと思い、このような内容で開
はじめに 概要 ベイズ統計を用いてKaggleの1タイタニック問題を解いてみる. 分析は以下の手順で行う. データの可視化・理解 データの加工・前処理 ベイズ統計分析 モデルの記述 デザイン行列・データリストの作成 Stanファイルの記述 MCMC! 結果の評価 実行環境 Mac OS Sonoma 14.1 R version 4.3.1 RStudio version 2023.12.1+402 > R.versions version.string R version 4.3.1 (2023-06-16) > sessionInfo() other attached packages: [1] posterior_1.5.0 cmdstanr_0.6.1 lubridate_1.9.3 forcats_1.0.0 [5] stringr_1.5.0 dplyr_1.1.3 purrr
2023年4ー6月に開催されたImage Matching Challenge 2023(IMC2023)に参加し、4位(順位確定後は3位)を獲得することができました。 お疲れ様でした!! 笑顔で泣いてる pic.twitter.com/XyJHAnZLSO — HeKa (@warm_start) June 13, 2023 ※画像は順位確定前のもの。 また、CVPR2023のワークショップの1つImage Matching: Local Features and Beyondに招待され、解法を話す機会をいただきました。 まさか自分がこのような貴重な場に参加できるとは思ってもみなかったです。大変刺激を受けました。 どんなコンペ? いわゆるSfM(Structure from Motion)と呼ばれるテーマにあたります。 オブジェクトを色々な角度から撮影して得た画像セットを使い、それぞれの
BERTopic は、Transformersを用いて文書のトピックモデリングを行うためのPythonライブラリです。本記事では、自分がKaggleコンペの初手EDAによく使うコードをまとめました。 入出力のイメージ 入力: 文章のリスト (例:["I am sure some bashers of Pens fans ...", "My brother is in the market for a high-performance video card that supports VESA local bus with 1-2MB RAM. Does anyone hav...", ...]) 出力: 各文書の関係性を表した2次元座標図 ソースコード 以下にもあります Github Google colab import pandas as pd from umap import UMA
概要 SIGNATEで2024年1月18日~2024年2月15日において開催中のコンペ「第2回 金融データ活用チャレンジ」のデータを可視化し、LightGBMでの予測を行ってみました。 可視化はSeabornを活用することで、0,1のデータの分布を比較的簡単に見ることができるようになります。 予測結果のファイル名を都度設定するのは面倒なので、notebookのファイル名がそのまま使えると便利ですよね。notebookの設定を自動的に読み取る方法も紹介します。 とりあえずLightGBMで予測してみました。欠損値の補完などがなくても予測できてベースライン作成に便利です。 Confusion Matrix や Classification Reportを使って予測結果を出力できるようにしておきましょう。 データのインポート・前処理 ライブラリのインポート notebookの横幅を広げたいときに
はじめに 約5年前にKaggleを始めてから、昨年の12月にKaggle Competitions Grandmasterになることができました。この機会に、Kaggleを始めてからGrandmasterになるまでの過程を振り返ってみたいと思います。 Kaggleに参加する前は、機械学習に関する知識はほとんどありませんでしたが、質の高い公開ノートブックやディスカッション、日本のKaggleコミュニティ、頼りになるチームメイトのおかげで、なんとかKaggle Grandmasterになることができました。 だらだらと振り返っていたら、思ったより長文になってしまったので、適当に飛ばしつつ読んでいただけると幸いです。 www.kaggle.com はじめに バックグラウンド 参加前スペック 大学院での研究テーマ Kaggleとの出会い 下準備期間 参加コンペ振り返り 初参加~Expoertになる
本記事内容および公開データに対して多くのご意見をいただきまして誠にありがとうございました。 プロフィール更新のご連絡をいただきましたため、一部情報を更新しております。その結果、図4の企業ランキングにてLINEヤフー社が4位群に変更となりましたことご報告いたします。 ご意見・ご指摘いただきました方々、この場を借りて御礼申し上げます。 2024.01.26更新 本記事3行要約: ● Competition Grandmasterの総数で、日本が世界TOPに躍進!! ● 7ヶ月間で新たに15名の日本人Competition Grandmasterが誕生!! ● 企業別では、新たに4名のGMが生まれたPreferred Networks社が最多在籍!! *更新情報* 「Kaggle Master 分析レポート 2024版」を公開いたしました。 Grandmaster 分析レポートと合わせてご覧くだ
機械学習初心者がKaggleの「入門」を高速で終えるための、おすすめ資料などまとめ(2023年12月版) こんにちわ、カレーちゃんです。Kaggle GrandMasterです。 Kaggleはデータサイエンスに入門するのにとても適しています。ですが、英語の問題などがあり、入門するのが難しい。そこで、Kaggleの「入門」をこうすれば高速に完了できるというnoteを書きます。 同じタイトルの記事を、2020年8月にも書いたのですが、それから2年以上がたちました。それから、おすすめできる資料が増え、また、私が思う入門のコースもやや変わりましたので、更新をしたいと思います。 1.Kaggleに入門(はじめに取り組むと良い資料)Kaggleには、「タイタニックコンペ」という、練習用のコンペがあります。 これは、事故が起こったタイタニックの乗客のデータから、乗客の生死を予測するという、やりたいこと
Kaggleアドベントカレンダー2023の19日目の記事です. TL;DR データ分析未経験からkaggleでどんなことを学んだか 想像していたデータ分析と実業務とのGap kaggleやっていて良かったこと、kaggleでは学ばなかったこと はじめに 趣味でkaggleを始めたことをきっかけに、現在はデータ分析の仕事をしています。 Muj!rush!というアカウントでKaggleをしています。Kaggle expertです。 kaggleを始めてから3年程度経過したので(この3年間は、地球の公転が早まってんのかってくらい時間が経つのが早かったです)、これまでを振り返ることで、今後kaggleを始めてデータサイエンティストを目指すような方への参考になれば幸いです。 Kaggleと出会ったことで仕事への向き合い方や、今後のキャリアの考え方が変わったので、 僭越ながら一言だけ言わせてもらうと、
データ分析コンペティション「第2回 金融データ活用チャレンジ」開催のお知らせノーコード分析ツールを提供!プログラミング初心者の方でも安心して参加可能に 一般社団法人 金融データ活用推進協会(東京都中央区、代表理事:岡田 拓郎、以下「当協会」)は、データ分析コンペティション「第2回 金融データ活用チャレンジ」を2024年1月18日(木)から2024年2月15日(木)までの期間で開催いたします。 金融データ活用チャレンジについて 金融機関は、顧客の入出金情報をはじめ、他業界にはない重要なデータを大量に保有し、データ活用が急務と言われているにも関わらず、長らくそうしたデータの活用はあまり進んでいませんでした。その背景には、金融機関同士の横のつながりが弱く、ノウハウを共有できていないという、業界特有の事情がありました。 こうした課題を解決するため、参加者同士の横の繋がりを設け、会社の壁を越えたノウ
こんにちは、ウォンテッドリーでデータサイエンティストをしている合田(@jy_msc)です。先週末は atmaCup #16 に参加してモクモクとコードを書いていました。来週の日曜まで開催されているので、興味ある方はぜひ参加してみてください! この記事は、Wantedly Advent Calendar 2023 の11日目の投稿です。前回の記事は「Rustを使ったOS開発 - 普段のRustと同じ様にOSを実装したい」でした。 私は5年前から Kaggle に参加しており、今年の6月にようやく Kaggle Grandmaster になることができました。ちょうど良い節目だと思うので、これまでのデータ分析コンペの参加実績を振り返ったり、データ分析コンペに夢中に取り組み続けてきたことで得られたであろう自身の変化に関して言語化してみます。 ※本記事で述べる内容は私自身の経験に基づく私見ですので
これは Kaggle Advent Calendar 2023 12/10 の記事です。 ディープラーニングでは何を考えたらいいのか?「モデルの気持ち」などと言いますが、もっと具体的にどういうことなのか?私も素人でわからないのですが、今年参加したコンペで読んだ solution を題材に「情報を与える」という観点からモデルの気持ちを推測してみます。 「それ、俺も書いたが?」みたいなのはたくさんあるかと思いますが advent calendar ゆえどうかご容赦を。記憶をたよりに雑に書いて調べ直していません。 Classification の根拠を segmentation で与えるG2Net 2 Detecting Continuous Gravitational Waves はノイズに埋もれたデータに重力波の信号が含まれているかを判定する二項分類のコンペでした。入力は spectrogr
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く