タグ

Kaggleに関するmisshikiのブックマーク (251)

  • Kaggleコンペ初参加でチームに恵まれ金メダル(8位)だった - A Day in the Life

    今日(2022/06/21)の朝9時がKaggleのコンペ終了の時間。結果は即座に表示されるので、チームメンバーと見守る。結果はPublic LB(サンプルで抽出されたスコア)順位と変わらずの1975チーム中8位で金メダル。Kaggleコンペ初参加でチームに恵まれた幸運の結果であった。 チームの解法は英語では公開されていて、日語でも別途公開されると思うので、ここでは解法ではなく主に初参加の感想を。40日ぐらい前に特許と自然言語処理処理コンペであるU.S. Patent Phrase to Phrase Matchingをやらない?とAota氏に誘ってもらい始める。Kaggleは初学者用のを読んで練習用タイタニックコンペをやった程度の知識だったので、より具体的な進め方やチームで大切にする時の考え方を教えてもらう。 ツールとしては情報共有にNotion(主にboardでkanban)を使い

    Kaggleコンペ初参加でチームに恵まれ金メダル(8位)だった - A Day in the Life
  • 特許庁主催のAIコンペで1位、ヤフーの画像検索技術を使った優勝解法紹介

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。テクノロジーグループ サイエンス統括部で画像認識領域の技術開発や応用を担当している土井です。 ヤフーは、特許庁が初めて開催した「AI×商標 イメージサーチコンペティション」において、第1位を獲得しました。(プレスリリース) 記事では、社内の画像検索に関わる有志で参加した、「AIx商標イメージサーチコンペティション」(特許庁主催、Nishika株式会社開催/以降、コンペまたはコンペとする)の概要と弊チームの優勝解法について紹介します。 目次 コンペの概要 コンペの結果 基的なアプローチ(類似画像検索について) ソリューション概要 データセットの正解ラベルの修正 画像をグループ化し同一グループの画像を正解画像とする

    特許庁主催のAIコンペで1位、ヤフーの画像検索技術を使った優勝解法紹介
    misshiki
    misshiki 2022/06/13
    “特許庁主催、Nishika株式会社開催の「AIx商標イメージサーチコンペティション」の優勝解法の詳細を紹介しました。本記事の内容が、他の類似画像検索などのコンペに取り組む際の参考になれば”
  • 機械学習コンペ(テーブルデータ)をする時の特徴量管理を考える #1 - まだタイトルない

    kaggleなどでのテーブルコンペの公開ノートブックではそのノートですべてを完結させるという意味でもノート内で特徴量を作成していることが多いです。 しかし、長期間のコンペになると実験数は増えるし、処理に時間がかかる特徴量を使うケースも増えてきます。実験のたびに特徴量を計算するのは地球にやさしくない。。。 この問題に対するシンプルな対策は作った特徴量をファイルで保存しておいて読み取るだけにすることだと思います。 具体的な方法は kaggle 特徴量 管理 でググれば素晴らしい記事がいくつも出て来ると思います。 今回は特徴量毎に数値特徴量かカテゴリ特徴量かの情報も欲しくなったのでその情報も一緒に管理できるようにしていたのでその管理方法を紹介したいと思います。 そのまま誰かの役に立てば幸いですし、何かフィードバックが得られれば嬉しいです。 内容 trainの特徴量、testの特徴量、数値特徴量名

    機械学習コンペ(テーブルデータ)をする時の特徴量管理を考える #1 - まだタイトルない
    misshiki
    misshiki 2022/06/10
    “特徴量毎に数値特徴量かカテゴリ特徴量かの情報も欲しくなったのでその情報も一緒に管理できるようにしていたのでその管理方法を紹介”
  • 日経のデータサイエンティスト3名(+外部1名)で自然言語処理コンペに出た話 — HACK The Nikkei

    情報サービスユニットの増田です。普段は自然言語処理やBtoBプロダクトのユーザログの分析などを担当するデータサイエンティストとして仕事をしています。 記事では、世界最大級のデータサイエンスコミュニティプラットフォームである「Kaggle」にて2-5月に開催されていた自然言語処理コンペティション「NBME - Score Clinical Patient Notes」 に弊社のデータサイエンティスト3名(ほか、外部の機械学習エンジニアの方1名)でチームを組んで参加した体験談を紹介します。 コンペティション概要 このコンペティションのホストであるNBME(National Board of Medical Examiners)は、米国で医師免許試験を実施している機関です。受験者はその免許試験において、仮想的な患者が発言した内容に基づきカルテを記述します。そのカルテの採点は現状人手で行っている

    日経のデータサイエンティスト3名(+外部1名)で自然言語処理コンペに出た話 — HACK The Nikkei
  • Are Kaggle Competitions Worth It? Ponderings of a Kaggle Grandmaster

    Are Kaggle Competitions Worth It? Ponderings of a Kaggle Grandmaster
    misshiki
    misshiki 2022/06/06
    これは良い記事だなと思いました。Kaggleの良い部分と悪い部分が経験者の目線で書かれています。
  • Kaggleで磨く 機械学習の実践力|リックテレコム

    misshiki
    misshiki 2022/05/31
    新刊“2022年6月上旬刊行”2022/6/3
  • 「面白い」ことが絶対条件。GrandmasterとMasterが指南するKaggleの“勝ち方”と“楽しみ方” - Qiita Zine

    それぞれのKaggleとの出会い ――おふたりともKagglerということで、まずはKaggleとの出会いについて教えてください。 棚橋:はじめてKaggleに触れたのは大学院生の頃です。研究室の同期がやっていて、機械学習が流行っていたタイミングだったこともあり、「Titanic」という有名な問題をネットの解析記事などを参考に触り始めました。その頃はまだモデリングはまだしも、Pythonすら書いたことがなかったのですが、プログラミングが楽しいというのと、データから何かを予測するということにすごく感動を覚えた記憶があります。 そこからしばらく触っていなかったのですが、日立に入社して機械学習関連の研究者になったことをきっかけに再度チャレンジしたいと思い2019年12月頃から参加するようになりました。 ――そのときは、どのテーマに参加をされたのですか? 棚橋:「2019 Data Science

    「面白い」ことが絶対条件。GrandmasterとMasterが指南するKaggleの“勝ち方”と“楽しみ方” - Qiita Zine
  • H&Mコンペで銀メダルを獲得したソリューション - ANDPAD Tech Blog

    アンドパッドのデータ基盤チームに所属している成松です。 先日までkaggleで開催されていたH&M Personalized Fashion Recommendationsにて、私が参加したチームが2,952チーム中22位で銀メダルを獲得しました! そこで、記事ではH&Mコンペの簡単な概要説明と私個人のSolution(Private 36位相当)について紹介します。 コンペ概要 コンペは、指定されたテスト期間中に購入されそうなH&Mのファッションアイテム12個をユーザごとに予測し精度を競うという内容でした。データとしては、ユーザや商品の属性(ユーザ年齢、商品カテゴリなど)を記したメタデータ(customers.csv, articles.csv)とトランザクションデータ(transactions_train.csv)、そして商品の画像データが与えられました。また、コペではMAP@1

    H&Mコンペで銀メダルを獲得したソリューション - ANDPAD Tech Blog
  • kaggle NBME解法まとめ

    2022/MBME 解法まとめ 概要 お題 目的 患者を診療する際にメモ書きする技術の習得と評価 今回の課題 試験の注釈にある臨床概念と、メモにある表現を対応付ける手法の開発 「欲不振」→「事量が少ない」「服がゆるい」 具体例 実際の形式だが文章は異なる(実際の文章はRule AcceptしてDataタブから見られる) 医療メモ: 20yo male with nauseous and abdominal pain since this morning, ate raw oysters yesterday... features: Nausea label: ["nauseous", "abdominal pain"] 必要性 現状の手法とその課題 実際にあった試験(USMLE)では以下の流れで行っていた 特定の臨床例を話すように訓練した人と対話し、メモを書く 訓練を受けた医者の採点者

    kaggle NBME解法まとめ
  • Kaggle Happywhale - Whale and Dolphin Identificationで優勝&10位でソロ金メダルを獲得しました - Preferred Networks Research & Development

    2022年2月から4月にかけてkaggle competition Happywhale – Whale and Dolphin Identification が開催され、Preferred Networksのメンバー2名:山口(@charmq)、阿部( @knshnb)からなるチーム Preferred Dolphinが優勝しました。また、山川(@Yiemon773)が10位でソロ金メダルを獲得しました。 今回のコンペは1,588チームが参加し、kaggle世界ランクtop10のうち過半数が参加しているなど、非常に競争が激しいものとなりました。 記事ではこのコンペの概要と我々のソリューションについて紹介します。 コンペの概要について コンペでは、クジラやイルカの写真から各個体を識別するモデルの精度を競いました。 従来人手で莫大な時間をかけて行われていた個体識別を自動化することにより、

    Kaggle Happywhale - Whale and Dolphin Identificationで優勝&10位でソロ金メダルを獲得しました - Preferred Networks Research & Development
  • kaggleクジラコンペ2022 上位者解法まとめ

    はじめに 画像からクジラの個体識別を行うHappywhaleというkaggleコンペが2022/4/19まで開催されていました。 コンペ終了後に公開された上位者の解法からたくさん学びがあったので、備忘録も兼ねてまとめていきたいと思います。 上位者解法まとめ 1. Datasets オリジナル検出器 多くの方が自分で学習させた検出器を使ってクジラ領域を切り出したデータセットを使用していました。 全身領域や背ビレ領域を切り出した公開データセットがありましたが、同じ領域を切り出すにしても、検出器が異なると多様性が生まれて精度が上がったようです。 公開されているデータセットの予測値をGTとして検出器を学習し、予測が外れているデータだけアノテーションし直して再学習を繰り返す工夫をしているチームもありました(引用:4th solution) bounding box mix augmentation

    kaggleクジラコンペ2022 上位者解法まとめ
  • Kaggleで得られるのは“技術領域の深化”と“専門分野の拡張” DeNAのKaggle Grandmasterたちが語る、AIエンジニアとしての生存戦略

    コモディティ化するKaggleのTier 差別化のポイントは? 大久保渉太氏(以下、大久保):では次の質問に行きます。「昨今、特に日においてKaggleのTierは、コモディティ化しつつあるように見えます。これについてどう思われますか? そこで大切になる、Tierだけでは表せない差別化ポイントは何だと思いますか?」。これは誰が答えますか? 横尾修平氏(以下、横尾):では僕が答えます。 (一同笑) 大久保:お願いします。Tierがコモディティ化しているという話ですね。 横尾:コモディティ化しているというのは、事実としてあると思っています。Grandmasterの数は、確か日だとまだ20名ぐらいしかいない気がするので、まだまだ大丈夫なんじゃないかなと思います。マスターになってくると、今は相当数が増えているという印象があって、そうなると差別化する要素が必要になってくるのではないかなと思います

    Kaggleで得られるのは“技術領域の深化”と“専門分野の拡張” DeNAのKaggle Grandmasterたちが語る、AIエンジニアとしての生存戦略
  • 成績に応じて業務時間中にKaggleができる 世界トップクラスのKagglerが在籍する、DeNAの「Kaggle社内ランク制度」

    機械学習モデルの精度を競うコンペティションプラットフォーム「Kaggle」 大久保渉太氏(以下、大久保):日の流れです。日はこれらの目次の内容を通して、みなさんにKaggle Grandmasterの仕事や働く環境を一歩踏み込んで紹介できればと思っています。まずは私たちが取り組んでいるKaggleの紹介をしたいと思います。 Kaggleをご存じの方もけっこういると思いますが、機械学習モデルの精度を競うコンペティションのプラットフォームです。このKaggleに参加している人をKagglerと呼びます。DeNAには、Kaggle Grandmaster4名など、世界トップクラスのKagglerが数多く在籍しています。 図のように、Kaggleではスポンサーが出した課題に対して参加者が機械学習の予測モデルを提出してそのスコアを競っています。成績上位者であるKaggle Grandmaster

    成績に応じて業務時間中にKaggleができる 世界トップクラスのKagglerが在籍する、DeNAの「Kaggle社内ランク制度」
  • Kaggleランカーの7人に聞いた、2021年面白かったコンペ7選と論文7選 | 宙畑

    7名のKagglerの方にアンケートにご協力いただき、2021年に面白かったコンペと論文を教えていただきましたのでその結果を紹介します。 2022年8月31日以降、Tellus OSでのデータの閲覧方法など使い方が一部変更になっております。新しいTellus OSの基操作は以下のリンクをご参照ください。 https://www.tellusxdp.com/ja/howtouse/tellus_os/start_tellus_os.html 2021年も数多くのデータ解析コンペが開催され、興味深い論文が多く発表されました。 毎年Kaggle等のデータサイエンスコンペティションに取り組んでおられる人達にアンケートを実施し、その年の記事をまとめてきました。 そして年も7名のKagglerの方にアンケートにご協力いただき、2021年に面白かったコンペと論文を教えていただきましたのでその結果を紹

    Kaggleランカーの7人に聞いた、2021年面白かったコンペ7選と論文7選 | 宙畑
  • J-Quantsの切り拓く個人投資家の運用の未来|UKI

    はじめに2022年4月5日からKaggle(※世界最大のデータ分析コンペティションプラットホーム)にて、東証の株価を予測して運用パフォーマンスを競うJPX Tokyo Stock Exchange Predictionが開催されている。このコンペティションの主催者は東証を運営する日取引所グループ(以下JPX)そのものであり、ファンドやリサーチ会社の主催するコンペティションよりも「公式・公認」的な感覚がより一段強いものとなっていると言えるだろう(公式プレスリリース)。 JPXはコンペをJ-Quantsデータ分析コンペティション第3弾と呼称している。昨年にSignate(※日国内のデータ分析コンペティションプラットホーム)で開催された2つのJ-Quantsコンペに続く、3番目のコンペティションとなる。 ハッキリと言及するが、このコンペティションは現在資産運用を行っている個人投資家達、特に

    J-Quantsの切り拓く個人投資家の運用の未来|UKI
    misshiki
    misshiki 2022/04/08
    J-Quantsコンペの紹介記事。“長尾氏が昨年の人工知能学会誌No.3に寄稿した「資産運用ビジネスにおける人工知能とデータサイエンスの可能性」の一読をお勧めする。”読んでみる。
  • JPX Tokyo Stock Exchange Prediction | Kaggle

    Explore the Tokyo market with your data science skills

    misshiki
    misshiki 2022/04/06
    KaggleでJPX東京証券取引所の予測コンペも立ち上がった! 約2000の株式からポートフォリオを構築して将来的な収益を予測するみたい。
  • 個人投資家向けデータAPI配信サービス「J-Quants API」(ベータ版)の提供及びアーリーアダプター募集のお知らせ | 日本取引所グループ

    2022/04/05 JPX総研 個人投資家向けデータAPI配信サービス「J-Quants API」(ベータ版)の提供及びアーリーアダプター募集のお知らせ 株式会社JPX総研(以下「JPX総研」という。)は、プロジェクト”J-Quants”(以下、「プロジェクト」という。)にて、データサイエンスに興味のある個人の方向けに、ITデータ分析を活用した取引を促進するための環境を提供しております。プロジェクトの一環として、昨年開催した株式データ分析コンペティションにおいて提供したヒストリカル株価・財務等のデータAPI配信が好評だったことを踏まえ、この度、J-Quants API(ベータ版)(以下、「サービス」という)として提供することといたしましたのでお知らせいたします。 サービスは、番稼働前のベータ版として無償で提供することとし、ベータ版参加ユーザの皆様の声を反映させながら番サービ

    個人投資家向けデータAPI配信サービス「J-Quants API」(ベータ版)の提供及びアーリーアダプター募集のお知らせ | 日本取引所グループ
    misshiki
    misshiki 2022/04/06
    株式データ分析コンペティションで好評だったヒストリカル株価・財務等のデータAPI「J-Quants API」(ベータ版)が提供されることに。うれしい。ベータ版のリリースは本年前半予定で、まずは抽選で早期利用希望者を募集。
  • https://twitter.com/shinmura0/status/1511547049120268295

    misshiki
    misshiki 2022/04/06
    “gdrive課金する必要はないし、colabのアクセス速度も、gdriveよりKaggleDatasetの方が圧倒的に早い”
  • colabでkaggleのdatasetをマウントする

    1. kaggleのdatasetのgcsのリンクを取得する kaggleのnotebookで以下を実行する from kaggle_datasets import KaggleDatasets GCS_PATH = KaggleDatasets().get_gcs_path() print(GCS_PATH) notebookの作成は,マウントしたいデータセットのNew Notebookから作成する (これはtimmの例) 開催中のコンペのdatasetをマウントしたい場合は,コンペのページからNew Notebookする 2. colabでマウントする 2.1. gcpの認証をする

    colabでkaggleのdatasetをマウントする
  • Kaggle Feedback Prizeコンペ 反省会

    社内の勉強会で発表した資料になります。 Kaggleの「Feedback Prize - Evaluating Student Writing」コンペについての資料です。 工夫できる点や勉強になる点が多く、面白いコンペだったと思います。 コンペについての概要、自身の解法、上位解法のまとめ、加えてKaggleで使えるTIPSについて紹介しています!

    Kaggle Feedback Prizeコンペ 反省会