社内の技術共有会での発表資料です。 AI搭載エディタCursorの機能の紹介とKaggle等の機械学習コンペで使ってみて役立った点などを共有します
BERTopic は、Transformersを用いて文書のトピックモデリングを行うためのPythonライブラリです。本記事では、自分がKaggleコンペの初手EDAによく使うコードをまとめました。 入出力のイメージ 入力: 文章のリスト (例:["I am sure some bashers of Pens fans ...", "My brother is in the market for a high-performance video card that supports VESA local bus with 1-2MB RAM. Does anyone hav...", ...]) 出力: 各文書の関係性を表した2次元座標図 ソースコード 以下にもあります Github Google colab import pandas as pd from umap import UMA
お久しぶりです、三菱UFJフィナンシャル・グループ(以下MUFG)の戦略子会社であるJapan Digital Design(以下JDD)でMUFG AI Studio(以下M-AIS)に所属する蕭喬仁です。 厨二心をくすぐる名前でadvent calendarに登録していますが、もう直ぐ三十路ということでアカウント名の替え時が最近の悩みです。 さて、今年はOpenAIからリリースされたChatGPTを皮切りに生成AIが世間のトレンドとなっていますが、弊社でも「文章生成AIによる過去相場要約機能」の提供のような生成AIを用いたプロダクト開発やR&Dを進めています。中でも、検索を用いて外部知識を生成AIに埋め込むことでタスクの性能を高めるRetrieval-augmented Generation (以下RAG)は、大量の業務資料やマニュアルを保持するMUFGのような大企業にとっては非常に相
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
こんにちは、LayerX CTOの@y_matsuwitterです。最近はパン作りにハマっています。無心に小麦と酵母の声を聞くことで精神の安寧を求めています。 この記事は LayerXテックアドカレ2023 19日目の記事です。前回は @shota_tech が「Go の linter 雰囲気で使っていたから調べ直した #LayerXテックアドカレ」を書いてくれました。次回はEMオフィスの@serimaより「Engineering Officeの話」がポストされる予定なのでご期待ください。 ISUCON13 昨日開催のISUCONに参加してきました。とても楽しい問題ですし、これだけの人数での開催を支えている運営の皆さんには頭が上がりません。個人でもLayerXとしてもスポンサーさせていただきました。ありがとうございます! 10年近く一緒に出場している.datというチームで、私はプロンプトを
はじめに 科学分野の5択問題を解くLLMの精度を競うKaggle - LLM Science Exam というkaggleコンペが2023/10/11まで開催されていました。 コンペ終了後に公開された上位チームの解法からたくさん学びがあったので、備忘録も兼ねてまとめていきたいと思います。 コンペ概要 問題文(prompt)とA~Eの選択肢(option)が与えられ、それを解くモデルの精度を競うコンペでした。 テストデータはSTEM分野のWikipedia記事からGPT3.5に作成させたことがDataタブで明言されていました。 上位チーム解法まとめ 1. Approach 全てのチームが、問題の生成元となった記事をwikiテキストデータセットから検索(Retrieval)し、関連するテキスト(context)もモデルに入力するRAGと呼ばれるアプローチを採用していました。 RAGを行わないと
こんにちは! AIチームの戸田です 本記事では私がKaggleのコンペティションに参加して得た、Transformerをベースとした事前学習モデルのfine-tuningのTipsを共有させていただきます。 以前も何件か同じテーマで記事を書かせていただきました。 Kaggleで学んだBERTをfine-tuningする際のTips①〜学習効率化編Kaggleで学んだBERTをfine-tuningする際のTips②〜精度改善編〜Kaggleで学んだBERTをfine-tuningする際のTips③〜過学習抑制編〜Kaggleで学んだBERTをfine-tuningする際のTips④〜Adversarial Training編〜Kaggleで学んだBERTをfine-tuningする際のTips⑤〜ラベルなしデータ活用編〜 今回は学習効率化について書かせていただきます。このテーマは以前書かせ
Kaggleコンペティション: Stable Diffusion - Image to Prompts の上位ソリューション / 自チームソリューションについて、社内勉強会で紹介した資料です。
この記事はKaggle1位の解法を解説しているだけで、筆者が1位を取ったわけではありません。 実際に1を取ったCSTORM3000氏を崇めましょう。 前置き 自然言語処理処理職人の皆様こんにちは、いかが処理処理されていますでしょうか。 筆者はインターン先でタイ語の自然言語処理で遊んでいますが、タイ語自然言語処理界の金字塔pythainlpのチュートリアルに面白い極性分類の方式があったので紹介し、日本語で試したいと思います。 その名も、 TFIDFロジスティック回帰 です。 極性分析とは テキストが与えられて、それが喜んでいる「ポジティブ」か、憎悪に満ち溢れた「ネガティブ」のどちらかに区分けすることです。 「俺の彼女はアスナに似てるw」というテキストにはpositiveを、 「オレンジ今日も食べてみたけどまだ酸っぱくて泣いた」というテキストにはnegativeを 返すような、モデルを作りたい
この記事について この記事は Kaggleアドベントカレンダー の21日目の記事です。 昨日は u++ さんの【Weekly Kaggle News 2周年】クリック記事ランキング2021 でした。Transformer 強し。明日は @wokassis さんのワナビーからKagglerに〜コンペ所感〜です。 本記事では、2021年の NLP コンペの上位ソリューションから共通して使われている手法や方針を紹介します。 新しくNLPコンペに取り組む際に、基本的なことは試して次に何をすればよいかわからない、といった初学者向けに初期方針として参考になるかと思います。ある程度コンペに参加している人には「当たり前やろ〜」といった内容かもしれません。 2021年 NLP コンペ概要 2021年に終了したコンペは Coleridge Initiative - Show US the Data, Comm
Kaggle Advent Calendar 19日目の記事です。Kaggle Advent Calendar初参加ということで、お手柔らかにお願いします。 qiita.com 前日の記事は sinchir0 さん 日本は他の国のKagglerよりTwitterが活発なのか - sinchir0のブログ 翌日は upura さん 【Weekly Kaggle News 2周年】クリック記事ランキング2021 - u++の備忘録 です。 いきなり余談かつ私事で申し訳ないですが、日頃から大変お世話になっているお二人に挟まれて嬉しさと恐縮さがないまぜになっております。 申し遅れました、Kaggle Competitons Expertの増田と申します、よろしくお願いします。お笑い鑑賞が好きで、本日のM-1グランプリ決勝もとても楽しみです。 この記事は何? 一言で言うと、 NLPコンペにおける「初
こんにちは。@shunk031 です。 普段は最先端の技術が大好きなパソコンのオタクですが、京都へ旅行して古き良き日本の文化に感化されました。 この記事は 法政大応情 Advent Calendar 2020 21 日目の記事です。 From http://codh.rois.ac.jp/ 今回は日本古典籍の分類タスクについて取り組んでみようと考え、近年の日本古典籍における「くずし字認識」に着目して調査をしました *1。 日本古典籍といった古文書に対して、OCR 等の文字認識技術によって文字情報をデジタル化し、それらの情報をもとに解析を行う流れは現代では自然だと考えています。 しかしながら、一般的に OCR は難しく、また古文書を機械に解析させることはさらなる困難があるのは容易に想像できます。 くずし字認識に対して、近年の取り組みでは ROIS-DS 人文学オープンデータ協働センターが K
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く