[B! Kaggle][自然言語処理] misshikiのブックマーク

misshiki id:misshiki

Kaggleと自然言語処理に関するmisshikiのブックマーク (17)

AI搭載エディタCursorの紹介と機械学習コンペでの使用レビュー
社内の技術共有会での発表資料です。 AI搭載エディタCursorの機能の紹介とKaggle等の機械学習コンペで使ってみて役立った点などを共有します
misshiki 2024/05/30
全29ページのスライド資料。

Kaggle

自然言語処理

人工知能
リンク
LLM_Prompt_Recovery
misshiki 2024/05/17
全28ページのスライド資料。データ処理が大事とのまとめ。

Kaggle

自然言語処理
リンク
KaggleのNLPコンペで初手に使える可視化〜BERTopicを用いた文書クラスタリングと可視化〜
BERTopic は、Transf ormersを用いて文書のトピックモデリングを行うためのPythonライブラリです。本記事では、自分がKaggleコンペの初手EDAによく使うコードをまとめました。入出力のイメージ入力：文章のリスト（例：["I am sure some bashers of Pens fans ...", "My brother is in the market for a high-performance video card that supports VESA local bus with 1-2MB RAM. Does anyone hav...", ...]）出力：各文書の関係性を表した2次元座標図ソースコード以下にもあります Github Google colab import pandas as pd from umap import UMA
misshiki 2024/03/04
“BERTopic は、Transformersを用いて文書のトピックモデリングを行うためのPythonライブラリです。本記事では、自分がKaggleコンペの初手EDAによく使うコードをまとめました。”

Kaggle

自然言語処理

BERT
リンク
kaggle LLM コンペ上位解法を自分なりにまとめてみた話｜Japan Digital Design, Inc.
お久しぶりです、三菱UFJフィナンシャル・グループ（以下MUFG）の戦略子会社であるJapan Digital Design（以下JDD）でMUFG AI Studio（以下M-AIS）に所属する蕭喬仁です。厨二心をくすぐる名前でadvent calendarに登録していますが、もう直ぐ三十路ということでアカウント名の替え時が最近の悩みです。さて、今年はOpenAIからリリースされたChatGPTを皮切りに生成AIが世間のトレンドとなっていますが、弊社でも「文章生成AIによる過去相場要約機能」の提供のような生成AIを用いたプロダクト開発やR&Dを進めています。中でも、検索を用いて外部知識を生成AIに埋め込むことでタスクの性能を高めるRetrieval-augmented Generation (以下RAG)は、大量の業務資料やマニュアルを保持するMUFGのような大企業にとっては非常に相
misshiki 2023/12/05
“kaggleではLLM Science Exam というRAGがテーマになっていたコンペティションが6月から10月に開催されました。”

Kaggle

自然言語処理
リンク
Kaggle_LLMコンペの攻略法を解説.pdf
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
misshiki 2023/12/01
全43ページのスライド資料。

Kaggle

自然言語処理
リンク
ISUCON13にLLM活用担当で参戦しました - LayerX エンジニアブログ
こんにちは、LayerX CTOの@y_matsuwitterです。最近はパン作りにハマっています。無心に小麦と酵母の声を聞くことで精神の安寧を求めています。この記事は LayerXテックアドカレ2023 19日目の記事です。前回は @shota_tech が「Go の linter 雰囲気で使っていたから調べ直した #LayerXテックアドカレ」を書いてくれました。次回はEMオフィスの@serimaより「Engineering Officeの話」がポストされる予定なのでご期待ください。 ISUCON13 昨日開催のISUCONに参加してきました。とても楽しい問題ですし、これだけの人数での開催を支えている運営の皆さんには頭が上がりません。個人でもLayerXとしてもスポンサーさせていただきました。ありがとうございます！ 10年近く一緒に出場している.datというチームで、私はプロンプトを
misshiki 2023/11/27
“ISUCON”

Kaggle

自然言語処理
リンク
Colaboratory on X: "You can now safely store your private keys, such as your @huggingface or @kaggle API tokens, in Colab! Values stored in Secrets are private, visible only to you and the notebooks you select. https://t.co/dz9noetUAL"
misshiki 2023/11/02
“huggingfaceやkaggleのAPI トークンなどの秘密キーを Colab に安全に保存できるようになりました。 Secret に保存された値は非公開であり、あなたとあなたが選択したノートブックのみに表示されます。” 良い。少し楽になる。

自然言語処理

Kaggle

Jupyter
リンク
kaggle LLMコンペ　上位解法まとめ
はじめに科学分野の5択問題を解くLLMの精度を競うKaggle - LLM Science Exam というkaggleコンペが2023/10/11まで開催されていました。コンペ終了後に公開された上位チームの解法からたくさん学びがあったので、備忘録も兼ねてまとめていきたいと思います。コンペ概要問題文（prompt）とA~Eの選択肢（option）が与えられ、それを解くモデルの精度を競うコンペでした。テストデータはSTEM分野のWikipedia記事からGPT3.5に作成させたことがDataタブで明言されていました。上位チーム解法まとめ 1. Approach 全てのチームが、問題の生成元となった記事をwikiテキストデータセットから検索（Retrieval）し、関連するテキスト（context）もモデルに入力するRAGと呼ばれるアプローチを採用していました。 RAGを行わないと
misshiki 2023/10/20
“全てのチームが、問題の生成元となった記事をwikiテキストデータセットから検索（Retrieval）し、関連するテキスト（context）もモデルに入力するRAGと呼ばれるアプローチを採用していました。”

Kaggle

自然言語処理
リンク
Llama 2
misshiki 2023/09/14
トレーニング済みのモデルを簡単に発見し、利用できるKaggle Mdoelsっで“Llama 2”が使えるようになったとのこと。

自然言語処理

Kaggle
リンク
Kaggleで学んだBERTをfine-tuningする際のTips⑥〜LLMでも使える学習効率化編〜 | 株式会社AI Shift
こんにちは！ AIチームの戸田です本記事では私がKaggleのコンペティションに参加して得た、Transf ormerをベースとした事前学習モデルのfine-tuningのTipsを共有させていただきます。以前も何件か同じテーマで記事を書かせていただきました。 Kaggleで学んだBERTをfine-tuningする際のTips①〜学習効率化編Kaggleで学んだBERTをfine-tuningする際のTips②〜精度改善編〜Kaggleで学んだBERTをfine-tuningする際のTips③〜過学習抑制編〜Kaggleで学んだBERTをfine-tuningする際のTips④〜Adversarial Training編〜Kaggleで学んだBERTをfine-tuningする際のTips⑤〜ラベルなしデータ活用編〜今回は学習効率化について書かせていただきます。このテーマは以前書かせ
misshiki 2023/08/28
Kaggle

BERT

自然言語処理
リンク
Stable Diffusion - Image to Prompts
Kaggleコンペティション: Stable Diffusion - Image to Prompts の上位ソリューション / 自チームソリューションについて、社内勉強会で紹介した資料です。
misshiki 2023/05/29
全31ページのスライド資料。Kaggleコンペの上位モデルの概要紹介。

Kaggle

コンピュータビジョン

自然言語処理
リンク
Find Pre-trained Models | Kaggle
misshiki 2023/03/02
“何百ものトレーニング済みですぐにデプロイできる機械学習モデルを 1 か所で検索して発見します。”

Kaggle

ディープラーニング

コンピュータビジョン

自然言語処理
リンク
[Product Launch] Introducing Kaggle Models | Kaggle
misshiki 2023/03/02
“Kaggle モデルは、Kaggle の他のプラットフォームとの深い統合を通じて、事前トレーニング済みのモデルを発見して使用する場所です。”コード付きですぐに使えそう。手軽で良いと思う。

Kaggle

ディープラーニング

自然言語処理

コンピュータビジョン
リンク
【自然言語処理】Kaggle1位タイ語極性分析を日本語でやってみる【TFIDFロジスティック回帰】 - Qiita
この記事はKaggle1位の解法を解説しているだけで、筆者が1位を取ったわけではありません。実際に1を取ったCSTORM3000氏を崇めましょう。前置き自然言語処理処理職人の皆様こんにちは、いかが処理処理されていますでしょうか。筆者はインターン先でタイ語の自然言語処理で遊んでいますが、タイ語自然言語処理界の金字塔pythai nlpのチュートリアルに面白い極性分類の方式があったので紹介し、日本語で試したいと思います。その名も、 TFIDFロジスティック回帰です。極性分析とはテキストが与えられて、それが喜んでいる「ポジティブ」か、憎悪に満ち溢れた「ネガティブ」のどちらかに区分けすることです。「俺の彼女はアスナに似てるｗ」というテキストにはpositiveを、「オレンジ今日も食べてみたけどまだ酸っぱくて泣いた」というテキストにはnegativeを返すような、モデルを作りたい
misshiki 2023/02/06
“タイ語自然言語処理界の金字塔pythainlpのチュートリアルに面白い極性分類の方式があったので紹介し、日本語で試したいと思います。その名も、 TFIDFロジスティック回帰です。”

Kaggle

自然言語処理
リンク
2021年のKaggle NLPコンペソリューションの共通戦略から学ぶ - Qiita
この記事についてこの記事は Kaggleアドベントカレンダーの21日目の記事です。昨日は u++ さんの【Weekly Kaggle News 2周年】クリック記事ランキング2021 でした。Transf ormer 強し。明日は @wokassis さんのワナビーからKagglerに〜コンペ所感〜です。本記事では、2021年の NLP コンペの上位ソリューションから共通して使われている手法や方針を紹介します。新しくNLPコンペに取り組む際に、基本的なことは試して次に何をすればよいかわからない、といった初学者向けに初期方針として参考になるかと思います。ある程度コンペに参加している人には「当たり前やろ〜」といった内容かもしれません。 2021年 NLP コンペ概要 2021年に終了したコンペは Coleridge Initiative - Show US the Data, Comm
misshiki 2021/12/22
“新しくNLPコンペに取り組む際に、基本的なことは試して次に何をすればよいかわからない、といった初学者向けに初期方針として参考に”

Kaggle

自然言語処理
リンク
【Kaggle Advent Calendar day19】NLP初手はどれ？〜Kaggle Notebookの人気ランキングと簡単な精度比較〜 - 統計応用合格君’s diary
Kaggle Advent Calendar 19日目の記事です。Kaggle Advent Calendar初参加ということで、お手柔らかにお願いします。 qiita.com 前日の記事は sinchir0 さん日本は他の国のKagglerよりTwitterが活発なのか - sinchir0のブログ翌日は upura さん【Weekly Kaggle News 2周年】クリック記事ランキング2021 - u++の備忘録です。いきなり余談かつ私事で申し訳ないですが、日頃から大変お世話になっているお二人に挟まれて嬉しさと恐縮さがないまぜになっております。申し遅れました、Kaggle Competitons Expertの増田と申します、よろしくお願いします。お笑い鑑賞が好きで、本日のM-1グランプリ決勝もとても楽しみです。この記事は何？一言で言うと、 NLPコンペにおける「初
misshiki 2021/12/22
“LSTM (/RNN/GRU)・BERT・RoBERTaの3強で、簡単な実験ではCNNも強かった。しかしながら、やはりアンサンブル前提で複数試すべき。”

Kaggle

自然言語処理
リンク
最新の深層学習技術による古典くずし字認識の現状と今後の展望 - May the Neural Networks be with you
こんにちは。@shunk031 です。普段は最先端の技術が大好きなパソコンのオタクですが、京都へ旅行して古き良き日本の文化に感化されました。この記事は法政大応情 Advent Calendar 2020 21 日目の記事です。 From http://codh.rois.ac.jp/ 今回は日本古典籍の分類タスクについて取り組んでみようと考え、近年の日本古典籍における「くずし字認識」に着目して調査をしました *1。日本古典籍といった古文書に対して、OCR 等の文字認識技術によって文字情報をデジタル化し、それらの情報をもとに解析を行う流れは現代では自然だと考えています。しかしながら、一般的に OCR は難しく、また古文書を機械に解析させることはさらなる困難があるのは容易に想像できます。くずし字認識に対して、近年の取り組みでは ROIS-DS 人文学オープンデータ協働センターが K
misshiki 2020/12/23
「くずし字認識」タスクの現状／Kaggleコンペでの上位解法を紹介。“既存の手法でどの程度認識可能であるか、また研究としてどのような点で貢献可能かの展望について個人的に考えた考察を含め検討”

Kaggle

自然言語処理
リンク
1