並び順

ブックマーク数

期間指定

  • から
  • まで

201 - 240 件 / 1458件

新着順 人気順

kaggleの検索結果201 - 240 件 / 1458件

  • 特許庁主催のAIコンペで1位、ヤフーの画像検索技術を使った優勝解法紹介

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。テクノロジーグループ サイエンス統括本部で画像認識領域の技術開発や応用を担当している土井です。 ヤフーは、特許庁が初めて開催した「AI×商標 イメージサーチコンペティション」において、第1位を獲得しました。(プレスリリース) 本記事では、社内の画像検索に関わる有志で参加した、「AIx商標イメージサーチコンペティション」(特許庁主催、Nishika株式会社開催/以降、本コンペまたはコンペとする)の概要と弊チームの優勝解法について紹介します。 目次 コンペの概要 コンペの結果 基本的なアプローチ(類似画像検索について) ソリューション概要 データセットの正解ラベルの修正 画像をグループ化し同一グループの画像を正解画像とする

      特許庁主催のAIコンペで1位、ヤフーの画像検索技術を使った優勝解法紹介
    • ポケモンデータ解析.py - Qiita

      # https://www.kaggle.com/abcsds/pokemon から取得した Pokemon.csv を読み込む。 df = pd.read_csv("Pokemon.csv") # df とは、 pandas の DataFrame 形式のデータを入れる変数として命名 https://www.kaggle.com/abcsds/pokemon によると、各カラム(列)は次のような意味らしいです。 #: PokeDex index number Name: Name of the Pokemon Type 1: Type of pokemon Type 2: Other Type of Pokemon Total: Sum of Attack, Sp. Atk, Defense, Sp. Def, Speed and HP HP: Hit Points Attack: At

        ポケモンデータ解析.py - Qiita
      • Kaggle Grandmasterになるまでの7年間の軌跡 - のんびりしているエンジニアの日記

        皆さんこんにちは お元気でしょうか。冬だというのに、GPUと暖房で半袖装備でも過ごせています。 今年、長きにわたるMaster生活の終演を迎え、ようやくGrandmasterになることができました。 そこで、Grandmasterになるまでの経験をこちらに書き記しておこうと思います。 この記事はKaggle AdventCalendar2021カレンダー2、25日目になります。 qiita.com 著者の背景 Kaggleへの取り組み 1-3年目 4年目 IEEE's Signal Processing Society Avito Demand Prediction Challenge Home Credit Default Risk 5年目あたり 6年目 Global Wheat Detection 7年目 Shopee - Price Match Guarantee Hungry Ge

          Kaggle Grandmasterになるまでの7年間の軌跡 - のんびりしているエンジニアの日記
        • DeepLearningについて、最近作ったもの、書いたもの、勉強したこと

          こんにちは!逆瀬川 ( @gyakuse ) です。 今日は最近作ったもの、書いたもの、勉強したことを備忘録的にまとめていきたいと思います。 なぜ書くのか、なぜ学ぶのか DeepLearningの普及以降、Attention Is All You Need以降、Hugging Faceでの民主化以降、そしてStable DiffusionやChatGPTの登場以降、どんどんAGIへの距離が短くなってきています。未来は想定より大きく変わりそうです。どったんばったん大騒ぎのときはみんなが分かっておくべきことは効率的に共有すべきで、そのために書いています。書くためには論文等を読む必要があります。そしてそのためには基礎からしっかり学ぶことが大事です。次の一歩をみんなで歩んでいくために、学び、書いています。 間違ったことを言うかもしれませんが、それでも誰かのためになれば嬉しいです。あと、個人的にはこ

            DeepLearningについて、最近作ったもの、書いたもの、勉強したこと
          • 機械学習の歴史 - AI.doll

            WikipediaのTimeline of machine learningというページに機械学習の歴史がまとめられた表があったので、あとから見返しやすいように全て日本語にしてみた。 日本語訳はガバガバかもしれないので心配な人は元ページを見てね。 ムムッってとこがあったらコメントで教えてほしい 年表 1763 ベイズの定理のベース トマス・ベイズ(Thomas Bayes)の著書, "An Essay towards solving a Problem in Doctorine of Chances"がベイズが死んだ2年後, 彼の友人により修正・編集され出版された. 1805 最小二乗 アドリアン=マリ・ルジャンドル(Adrien-Marie Legendre)が最小二乗(méthode des moindres carrés)について記述. 1812 ベイズの定理 ピエール=シモン・ラプ

              機械学習の歴史 - AI.doll
            • 無償入手可能な音声コーパス/音声データベースの一覧 - Qiita

              無償かつ入手しやすい音声データセットをメモしています。 ライセンス・利用規約は「商用利用可能」「研究用途のみ」ともに紹介します。 コーパスを探すときに有用なサイト コーパス配布元サイト 音声資源コンソーシアム : 日本語コーパスが豊富、無償または有償で利用可能 緩いライセンスのコーパスでなくても良いときはここ 自発的発話の日本語音声コーパスはだいたいここにある 入手は要申請 所属や責任者を記入する必要があるため、研究者や企業でないと厳しい? (この記事では音声資源コンソーシアムのコーパスは未掲載) Shinnosuke Takamichi: コーパス一覧 : 日本語中心。高道先生が携わっている音声コーパス 大量の日本語音声コーパスが配布されている 音声合成のコーパスをつくろう (Slideshare) : 2021年6月時点の音声コーパス事情 あなたにどうしても伝えたい30の音声コーパス

                無償入手可能な音声コーパス/音声データベースの一覧 - Qiita
              • Kaggleランカーの7人に聞いた、2021年面白かったコンペ7選と論文7選 | 宙畑

                7名のKagglerの方にアンケートにご協力いただき、2021年に面白かったコンペと論文を教えていただきましたのでその結果を紹介します。 2022年8月31日以降、Tellus OSでのデータの閲覧方法など使い方が一部変更になっております。新しいTellus OSの基本操作は以下のリンクをご参照ください。 https://www.tellusxdp.com/ja/howtouse/tellus_os/start_tellus_os.html 2021年も数多くのデータ解析コンペが開催され、興味深い論文が多く発表されました。 毎年Kaggle等のデータサイエンスコンペティションに取り組んでおられる人達にアンケートを実施し、その年の記事をまとめてきました。 そして本年も7名のKagglerの方にアンケートにご協力いただき、2021年に面白かったコンペと論文を教えていただきましたのでその結果を紹

                  Kaggleランカーの7人に聞いた、2021年面白かったコンペ7選と論文7選 | 宙畑
                • Kaggle と出会ってから Master になるまで、そしてこれから。 - 俵言

                  はじめに 以下の Tweet で言っている"長い旅路"の詳細です。完全にポエムかつ長文*1、しかも自己陶酔を多分に含んだ自分語りです。 暇かつ心に余裕があって何でも寛大に許せそうな場合にお読みください。 奇跡の solo gold を獲得し、遂に Kaggle Master になりました! Kaggle と出会ってから4年半、一念発起して分析コンペに本気で取り組み始めてから1年半、長い旅路でした。 今までチームを組んだり議論したりして下さった皆さん、本当にありがとうございました!これからもよろしくお願い致します! pic.twitter.com/IzWin2rioa— 俵 (@tawatawara) 2020年3月18日 話をしよう。あれは2年... いや5年くらい前の話だったか... といった感じの、むかーしむかしからの話*2。Kaggle と出会ってからの人生(の一部)の紹介みたいなも

                    Kaggle と出会ってから Master になるまで、そしてこれから。 - 俵言
                  • 競馬予想 機械学習(LightGBM)で回収率100%超えたと思ったら、やらかしてた話 - Qiita

                    謝意 注意!!! この記事は完全にやらかしています ストックしてくれた人、申し訳ないです。 @hal27 様の指摘で気づくことができました、ありがとうございます。 ・やらかしたこと スクレイピング段階から致命的なミスを犯しました。 レース時点から前走3レース分のデータを取得していたつもりですが、実はスクレイピング実行時刻から最新の3レース分の情報を取得していました。 ただ、前走の情報を全く使わずに予測したところ、平均して90%ほどの回収率だったので、 正しいデータを使っても、100%は超えれるんじゃないかと思っています。 やり直します! この記事はやらかしちゃっててるんだなと思いながら見て下さい。(特に前走情報のスクレイピング部分に気を付けてください) はじめに 最近データ分析にはまっています。 データ分析コンペのKaggleをやっていて、私がよく思うのは「売上予測?もっと面白いテーマはな

                      競馬予想 機械学習(LightGBM)で回収率100%超えたと思ったら、やらかしてた話 - Qiita
                    • KaggleOpsを考える ~ MLflow + Colaboratory + Kaggle Notebook ~ - GMOインターネットグループ グループ研究開発本部

                      2020.10.05 KaggleOpsを考える ~ MLflow + Colaboratory + Kaggle Notebook ~ こんにちは。次世代システム研究室のY. O.です。 筆者はデータ分析のスキルアップのためにkaggleというデータ分析プラットフォームを活用しています。kaggleを始めてから約2年間を経て、スキルアップの枠を超え、趣味・生活の一部・etc.になってきてしまっているのも認めざるを得ません。。。 今回は、先日kaggleの自然言語処理コンペ(Tweet Sentiment Extraction)で2位になった結果を題材に、振り返りの意味を込めて”こうしておけば良かった”という点をMLOpsの観点でまとめていきたいと思います。 ここで、kaggleを取り巻くMLOpsの構成をKaggleOpsと勝手に呼ぶこととし、少なくとも筆者は今後のコンペでも以下にまとめ

                        KaggleOpsを考える ~ MLflow + Colaboratory + Kaggle Notebook ~ - GMOインターネットグループ グループ研究開発本部
                      • 人のコードを読むのしんどい、自分の環境だと動かない…… 「debug力」で解決するデータ分析のぴえんをこえてぱおん状態

                        「分析コンペLT会」は、KaggleやSIGNATEなど、データ分析のコンペに関連するLT(ライトニングトーク)を行う会です。久保田氏はデバッガの必要性と、jupyter notebookでのdebug方法について発表しました。 debug力があれば軽減されるノートブック入門のあるある 久保田史洋氏(以下、久保田):今日は5分のLT(ライトニングトーク)なので、5分で終われるかがちょっと不安ですが、急ぎ足で「jupyter notebookでのdebug入門」というタイトルで発表します。よろしくお願いします。 自己紹介も短めです。「Twitter」「Kaggle」を「fkubota」という名前でやっています。バンドルカードの株式会社カンムで、機械学習エンジニアをやっているKaggle Expertです。 コンテンツは、主にビギナーに向けて話します。2本立てで、「debugについて」「jup

                          人のコードを読むのしんどい、自分の環境だと動かない…… 「debug力」で解決するデータ分析のぴえんをこえてぱおん状態
                        • エンジニアになります

                          以下よくある未経験転職モノですので、苦手な方はご注意ください。 2020年8月から都内のベンチャーさんでエンジニアとして働くことになりました。目下のミッションでは医療データの解析をして疫学研究みたいなことをやるので、データサイエンティストともいえるかもしれません。 また自社サービスのAPIを実装したり、フロントを実装することもあるみたいなので、色々トライできそうです。楽しみです! 私自身が、これまでに他の方の転職記事をみてやる気をもらったり勉強させてもらっていたので、私の経験が誰かの役に立てばと思って、転職記事を書くことにしました。 とはいえ、きれいにまとめるのは面倒大変なので、どんなことを考えながらどんなことをやってきたのか日記を書きなぐる感じで書いていきます。 適宜フィルタリングして使えそうなところだけつまみ食いしてもらえると幸いです。 自己紹介 30歳。子供二人(4歳、1歳)。薬学修

                            エンジニアになります
                          • 機械学習初心者がデータ分析コンペサイトProbSpaceで総合ランク1位に到達するまでの道のり - 俺人〜OREGIN〜俺、バカだから人工知能に代わりに頑張ってもらうまでのお話

                            機械学習について全くの専門外で初心者だった私がコンペサイトProbspaceのRe:不動産取引価格予測コンペで3位入賞、YouTube動画視聴回数予測コンペで9位入賞するなど、累計で金2銀1銅1を獲得することができ、総合ランクで1位に到達することができました。 これまでたどってきた道のりを振り返って、良かった点、悪かった点を見直して、今後の進め方を考えていきたいと思います。 悪戦苦闘、一進一退しながら勧めてきた内容を、思いつくまま記載しているので、お見苦しい箇所もありますが、これから機械学習を始める皆さんや、始めたばかりの皆さんの何らかのキッカケになれれば光栄です。 では、振り返ってまいりたいと思います。 【目次】 1.G検定との出会い(2019年2月〜3月) 2.Pythonの勉強を始める(2019年4月) 3.kaggleのデータセットを使って機械学習に挑戦する(2019年4月〜5月)

                              機械学習初心者がデータ分析コンペサイトProbSpaceで総合ランク1位に到達するまでの道のり - 俺人〜OREGIN〜俺、バカだから人工知能に代わりに頑張ってもらうまでのお話
                            • レビューされる立場の難しさ - Qiita

                              はじめに エンジニアとしてキャリアが4年ほど経過しましたが、いまだにコードレビューを出す行為が苦手です。特に予め設計が組まれていて部分的に切り出された課題に対して、適切にレビューを出すのが苦手だなと感じています。 レビューのプロセスやレビューする側の記事はいくつもありますが、レビューをされる側の記事はあまりないなと思っています。 レビューを出すのに苦手意識のあるエンジニアには特に読んでほしい記事になってます。 レビューされる側の立ち位置 レビューする側(以下レビュアー)とレビューされる側(以下レビュイー)は、上司と部下の関係が多く、レビュアーの方が経験年数は上だと思います。そのため、レビュイーはレビュアーの指摘に対して、多くの場合は従うことが推奨されていると思います。 ただ、勘違いしないでほしいのは、レビュイーは受け身であってはならないことです。レビューを出したコードに対して、一番の理解者

                                レビューされる立場の難しさ - Qiita
                              • Azure OpenAI Service で、Function calling を試してみる - Taste of Tech Topics

                                こんにちは、igaです。 台風が接近していて、外出の予定と重ならないかドキドキしています。 今回は、Azure OpenAI Service(以下、Azure OpenAIと記載します)で7月から利用できるようになった「Function calling」を試してみます。 Function callingとは、実行可能な関数を予め定義しておき、自然言語から実行すべき関数と引数を特定してくれる機能です。 OpenAIのAPIで、6月にリリースされた機能ですが、それがAzure OpenAIでも利用できるようになりました。 この機能のポイントは、「関数を呼び出す」ことではなく、「呼び出す関数(とその引数)を特定してくれる」ことにあります。 (名前が「Function calling」なのに、ややこしいですね) Azure OpenAIの利用開始方法とAPIの呼び出し方については、前回の記事を参考

                                  Azure OpenAI Service で、Function calling を試してみる - Taste of Tech Topics
                                • PyTorch vs. TensorFlow、ディープラーニングフレームワークはどっちを使うべきか問題【2021年】

                                  連載目次 昨年10月、同タイトルの記事を公開して好評だった。今回は、2021年に向けた、そのアップデート記事となる。 ディープラーニング(深層学習)を実装する場合、専用のライブラリ/フレームワークを用いるのが一般的だ。ディープラーニングが流行してから直近5年ほどの間に、次々と新しいフレームワークが登場した。現在、主要なものを挙げると、 TensorFlow: 2015年登場、Google製。一番有名で、特に産業界で人気 Keras: 2015年登場、作者がGoogle社員。使いやすくて簡単。TensorFlow 2に同梱され標準API化 PyTorch: 2016年登場、Facebook製。この中では新興だが、特に研究分野で人気急上昇中 Chainer: 2015年登場、日本のPreferred Networks製。2019年12月に開発を終了し、PyTorchへの移行が推奨されている な

                                    PyTorch vs. TensorFlow、ディープラーニングフレームワークはどっちを使うべきか問題【2021年】
                                  • 脱・Kaggle初心者 ~ 一歩先に行くためのノウハウ

                                    連載目次 導入 この連載では、近年話題のコンペティションプラットフォーム「Kaggle」について、リクルート所属のKaggle Master 4人がKaggleの仕組みや取り組み方、初心者から一歩先に行くためのノウハウについて解説を行います。 第1回では、これからKaggleを始めようと思っている方向けに、Kaggleの仕組みや実際にコンペティションに出場した後の取り組み方、初心者におすすめのコンテンツについて解説を行いました。第2回では、ランクを上げていくために筆者が「実際に何をしていたか」について、実際の事例を交えながら解説していきます。

                                      脱・Kaggle初心者 ~ 一歩先に行くためのノウハウ
                                    • 機械学習で入ってはいけないデータが混入する「リーケージ」とその対策

                                      機械学習で入ってはいけないデータが混入する「リーケージ」とその対策:もう失敗しない!製造業向け機械学習Tips(1)(1/2 ページ) 製造業が機械学習で間違いやすいポイントと、その回避の仕方、データ解釈の方法のコツなどについて、広く知見を共有することを目指す本連載。第1回では「リーケージ」について取り上げる。 ⇒連載「もう失敗しない!製造業向け機械学習Tips」バックナンバー 筆者はデータサイエンティストとして、機械学習自動化プラットフォーム「DataRobot」の導入サポートをさまざまな製造業のクライアントに提供してきました。本連載では、その経験に基づいてお話させていただきます。 機械学習が使われる製造業特有の分野は、物性予測、工程管理、予防保全、故障予測、要因分析など多岐にわたります。しかし筆者は、それらの多くで同様のミスが繰り返されていることに気が付きました。これらの間違うポイント

                                        機械学習で入ってはいけないデータが混入する「リーケージ」とその対策
                                      • 物体検出ライブラリの紹介と所感 - arutema47's blog

                                        記事について 画像はDetectron2より 物体検出をほとんど使っていない方を対象として、2021年末の物体検出ライブラリを俯瞰することが本記事の目的。 ある程度物体検出の経験ある方は学ぶことは少ないと思う。またあくまで書いてあるのは筆者の感想であるので人によっては全く違う意見になることもあるかと。また本記事ではモデルの技術的な説明はありません。それらについて理解を深める際は参考ページや元論文を当ってみると良いかと思います。 また大変遅くなりましたが、本記事はKaggleアドベントカレンダー(裏)の24日目でもあります(年明けちゃってすみません)。 qiita.com 記事について 紹介するライブラリ一覧 所感 アンサンブルについて 精度vs速度トレードオフ ライブラリ紹介 yolov5 学習について 推論について Yolox 学習について Efficientdet 学習コード torc

                                          物体検出ライブラリの紹介と所感 - arutema47's blog
                                        • 今までやってきたあなたなら「絶対にできる!」 データサイエンスの世界に入るということは“強くてNew Game”

                                          「“開発者体験”で世界をエンパワメントする1日。」と題し、チームや組織の課題に日々取り組む方々に向けて開催された「Developer eXperience Day CTO/VPoE Conference 2021」。ここで、アイシア=ソリッド氏が「あなたが始めるデータ分析~データ分析プロジェクトの立ち上げ方から分析文化の作り方まで~」をテーマに登壇。最後にデータサイエンスの世界に入ることと、好き嫌いについて紹介します。前回の記事はこちらから。 データサイエンティスト協会の「タスクリスト」 アイシア=ソリッド氏:でも、「いやいや、待ってよ」と。「そうは言ってもエンジニアとデータサイエンスってちょっと違うでしょ? PoCとかなんとかあるでしょ? 聞いたことあるよ、アイシアさん」という方もいるかもしれない。 そんな方におすすめなのが、データサイエンティスト協会が出している、「タスクリスト」という

                                            今までやってきたあなたなら「絶対にできる!」 データサイエンスの世界に入るということは“強くてNew Game”
                                          • 「くずし字」の認識に世界のAI研究者・技術者が挑戦 ―全世界的コンペティションをKaggleで7月から開催― - 国立情報学研究所 / National Institute of Informatics

                                            日本は、古典籍、古文書、古記録などの過去の資料(史料)を千年以上も大切に受け継いでおり、数億点規模という世界でも稀なほど大量の資料が現存しています。日本の歴史・文化の研究や、過去の災害などの自然現象の解明を進めるには、これらの資料をデジタル化・オープン化するとともに、その内容を読み解く必要があります。ところが、現代のほとんどの日本人は「くずし字」で書かれた過去の資料を読めなくなっており、大量のくずし字をどう読み解くかが重要な課題となっています。 そこでこの社会課題の解決にAI(人工知能)を活用する方法を探るため、この7月から10月にかけて、世界最大規模の機械学習コンペプラットフォームである「Kaggle(カグル)」で、「くずし字認識:千年に及ぶ日本の文字文化への扉を開く」と題する全世界的なコンペを開催します。コンペを通して画期的なくずし字認識手法の開発が進むだけでなく、くずし字データセット

                                              「くずし字」の認識に世界のAI研究者・技術者が挑戦 ―全世界的コンペティションをKaggleで7月から開催― - 国立情報学研究所 / National Institute of Informatics
                                            • 松尾豊氏らが企画、東大生以外も受けられる無料講座 データサイエンティスト目指せる | Ledge.ai

                                              画像は「GCI 2020 Winter」の公式サイトより 【受講生募集】10/7(水)開講のGCIデータサイエンス講座の受講者を募集します。新型コロナウイルスの状況に鑑みオンラインでの開講となりますが、東大に限らず他大学の学生、高専生も応募できます。応募締め切りは9/22(火)です。皆さまからのご応募をお待ちしております。https://t.co/ZncWqoaKOg — 東京大学 松尾研究室 (@Matsuo_Lab) September 11, 2020 東京大学では10月7日から、オンライン講座「GCI 2020 Winter」を開講する。現在、同講座の受講者を募集中だ。本講座の企画には、東京大学大学院工学系研究科 教授で、『人工知能は人間を超えるか』(KADOKAWA)などの著書でも知られる松尾豊氏も携わっている。 東大生以外の学生も広く募集する本講座では、あらゆる分野で武器になる

                                                松尾豊氏らが企画、東大生以外も受けられる無料講座 データサイエンティスト目指せる | Ledge.ai
                                              • 大規模言語モデルのFine-tuningによるドメイン知識獲得の検討 - Preferred Networks Research & Development

                                                本記事は、2023年夏季インターンシッププログラムで勤務された竹田悠哉さんによる寄稿です。 はじめに 2023年度のPFN夏季インターンに参加した、東京大学大学院工学系研究科の竹田悠哉と申します。学部では画像生成の研究をしていましたが、技術の社会実装をより俯瞰的に学びたいと思い、現在は技術経営戦略学専攻で教育工学の研究をしています。 インターンでは「機械学習技術の社会実装」をテーマに、LLM(Large Language Model)にドメイン知識を習得させることに取り組みました。様々な設定において、主に英語で学習されたモデルであるLLaMA2に対して日本語のデータでのFine-tuningを行い、LoRAやInstruction Tuning、ドメイン知識の習得に関する知見を得ることができたと思います。本記事では、そこで利用した技術の紹介と、日本語におけるドメイン知識の習得に関する実験、

                                                  大規模言語モデルのFine-tuningによるドメイン知識獲得の検討 - Preferred Networks Research & Development
                                                • 転職エントリ ~大企業と育児と年齢とKaggleとキャリア~ - Paoの技術力を磨くブログ

                                                  初めての転職をしました。 2020年4月末を持って新卒から7年間勤めた会社を退職し、今年の5月から新しい会社で働いています。 自分に境遇が近い人などの参考になればと思い、書きました。 長くなると思うので、お題毎に気になるところだけでも読んでもらえると嬉しいです。 ※前職及び転職先の会社名は書いていませんのでご了承ください。 簡単な自己紹介 31歳 情報系の修士卒で新卒から8年目 一児(2歳)のパパ 機械学習を学び始めたのは4年前くらい Kaggle好き(Kaggle Master) 前職について 会社はいわゆるJTC(Japanese Traditional Company)と呼ばれるようなIT系の大企業でした。 最初の3年はWeb系のSIerみたいな仕事で、後半の4年は研究開発の部署で、機械学習を使ったユーザデータの解析やサービス検証などをやっていました。 入社3年目あたりで、趣味である

                                                    転職エントリ ~大企業と育児と年齢とKaggleとキャリア~ - Paoの技術力を磨くブログ
                                                  • Python: 時系列データの交差検証と TimeSeriesSplit の改良について - CUBE SUGAR CONTAINER

                                                    一般的に、時系列データを扱うタスクでは過去のデータを使って未来のデータを予測することになる。 そのため、交差検証するときも過去のデータを使ってモデルを学習させた上で未来のデータを使って検証しなければいけない。 もし、未来のデータがモデルの学習データに混入すると、本来は利用できないデータにもとづいた楽観的な予測が得られてしまう。 今回は、そんな時系列データの交差検証と scikit-learn の TimeSeriesSplit の改良について書いてみる。 使った環境は次のとおり。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.6 BuildVersion: 18G3020 $ python -V Python 3.8.1 下準備 あらかじめ、必要なパッケージをインストールしておく。 $ pip install scikit-le

                                                      Python: 時系列データの交差検証と TimeSeriesSplit の改良について - CUBE SUGAR CONTAINER
                                                    • 2022年版:実務の現場で働くデータサイエンティスト向け推薦書籍リスト(初級5冊+中級8冊+テーマ別14冊) - 渋谷駅前で働くデータサイエンティストのブログ

                                                      (Image by ElasticComputeFarm from Pixabay) 今年も恒例の推薦書籍リストの季節がやって参りました。……なのですが、相変わらず続くCOVID-19の影響*1でデータ分析業界及び隣接分野の新刊書を読む機会が減ったままにつき、例年とほぼ同じラインナップになっている点、予めご容赦いただければと思います。 初級向け5冊 総論 R・Pythonによるデータ分析プログラミング 統計学 機械学習 中級向け8冊 統計学 機械学習 テーマ別14冊 回帰モデル PRML 機械学習の実践 Deep Learning 統計的因果推論 ウェブ最適化 ベイズ統計 時系列分析 グラフ・ネットワーク分析 SQL コメントなど 初級向け5冊 初級向け書籍リストはあまり出入りがないのが通例ですが、今回も微妙に入れ替わりがあります。 総論 AI・データ分析プロジェクトのすべて[ビジネス力×

                                                        2022年版:実務の現場で働くデータサイエンティスト向け推薦書籍リスト(初級5冊+中級8冊+テーマ別14冊) - 渋谷駅前で働くデータサイエンティストのブログ
                                                      • 2日目:Python 3.10新機能パターンマッチの神髄がわかる | gihyo.jp

                                                        先日公開した「PyCon JP 2021」1日目のカンファレンスレポートはいかがでしたでしょうか? 本レポートでは引き続き、2日目の様子をご紹介します。 PyCon JPは日本国内外のPythonユーザーが一堂に会し、互いに交流を深め、知識を分け合い、新たな可能性を見つけられる場所として毎年開催される国際カンファレンスです。 PyCon JP 2021は2021年10月15日~16日のカンファレンスと2日間の会期で開催されました。 今回は16日に行われたカンファレンスの中から、注目セッションと感想について運営スタッフがレポートします。 Day2 Keynote:A Perfect match ―Mr. Brandt Bucher (nikkie) 2021年10月、PyCon JP 2021の少し前にリリースされたPython3.10。その目玉機能といえば、Structural Patte

                                                          2日目:Python 3.10新機能パターンマッチの神髄がわかる | gihyo.jp
                                                        • kaggleで強化学習をやってみた - 機械学習 Memo φ(・ω・ )

                                                          概要 現在、kaggle に Connect X という強化学習の Getting Started コンペ があります。このコンペを通じて強化学習を少し勉強したので、その内容を記載したいと思います。 こちらの書籍をもとに強化学習について理解したことと、Connect Xコンペでの実装を解説した記事になります。間違いがあれば、コメントいただけたら嬉しいです。 bookclub.kodansha.co.jp 強化学習とは 強化学習とは、行動から報酬が得られる環境において、各状況で報酬に繋がるような行動を出力するように、モデルを作成すること。 教師あり学習との違いは連続した行動によって得られる報酬を最大化させるという点です。囲碁を考えた時、ある局面で悪手に見えた一手が、先々進めると実は良い手だった、といった場合のその一手を選択できるようにするのが強化学習になります。 Connect X と強化学

                                                            kaggleで強化学習をやってみた - 機械学習 Memo φ(・ω・ )
                                                          • 時系列分析をお手軽に!機械学習ライブラリDartsの実演 - DATAFLUCT Tech Blog

                                                            こんにちは! 以前にDartsという時系列分析に特化したpythonライブラリを紹介しました。 前編はこちら 今回は実際にDartsを動かしていきましょう。 Darts内にもデータセットがありますが、公式でも触れられているのであえて、外部のデータを参照してみましょう。導入編でも触れたアイスクリームの生産量の変化を推測したいと思います。 アイスクリームのデータセットはこちら 上記リンクの上部右側Downloadからcsvをダウンロードしてください。 Dartsのインストールは以下の1コマンドです。Windowsではデフォルトのコマンドプロンプトでうまくインストールが終了しなかったので、WSL環境などを推奨します。 $ pip install darts ARIMAで学習してみる バックテストでモデルの選定を行う RNNで共変量を扱ってみる まとめ ARIMAで学習してみる まずは、導入編で最

                                                              時系列分析をお手軽に!機械学習ライブラリDartsの実演 - DATAFLUCT Tech Blog
                                                            • 数学に強いエンジニアむけの機械学習勉強法

                                                              今年の3月から機械学習の勉強を始めて9ヶ月たったのでその振り返りと今後機械学習に入門する人の参考になればという記事です。 巷の記事だと「数学何もわからない人向けの機械学習~」みたいなものが多いので「数学チョットワカル人向け」に勉強方法をまとめてみようと思いました。 前提として筆者は大学で数学を専攻しており、社会人になってからはプログラミングを生業としております。 # 前提知識のおさらいいきなり機械学習入門~のような書籍に入る前に、基礎知識としてこの辺を抑えておくと良いと思います。 ## 線形代数:大学1年レベル機械学習の説明はほとんど行列の計算として表現されますので大前提として。手を動かして計算問題を解くのもおすすめです。 プログラミングのための線形代数 https://www.amazon.co.jp/dp/4274065782 ## 基礎統計(頻度主義):大学1年レベル正規分布や指数分

                                                              • BERTを量子化して高速かつ軽量にする - moriyamaのエンジニアリング備忘録

                                                                こんにちは、@vimmodeです。自然言語界隈ではBERTを始めとしたTransformerベースの手法の進化が目覚ましいですが、実運用されている話はあまり聞きません。 その理由としてモデルのサイズの大きさと推論速度の遅さに一定起因すると感じており、この記事はその解消になり得る量子化と呼ばれる手法の紹介とPyTorchで実装されたBERTモデルに量子化を適応する方法を紹介します。 量子化とは 量子化という単語は数学や物理など様々な領域で使われています。ここで述べる量子化は情報理論における量子化であり、主に連続値を離散値で表現することを考えます。 機械学習の枠組みで考えるとモデルのパラメータや学習時の勾配(場合によっては入力と出力データも含める)の数値表現を浮動小数点から整数に変更することを目的にします。 ディープラーニングではパラメータ等をfloat32で表現することが多いですが、もしこれ

                                                                  BERTを量子化して高速かつ軽量にする - moriyamaのエンジニアリング備忘録
                                                                • Kaggleで世界トップレベルになるための思考法。Grandmaster小野寺和樹の頭の中 - Findy Engineer Lab - ファインディエンジニアラボ

                                                                  Kaggleとは、世界最大級の機械学習およびデータ分析のコンペティションです。コンペの主催企業や研究機関などがデータや分析のテーマを提供。その内容に基づいて世界中の参加者たちが機械学習モデルの精度を競います。 Kaggleにおけるランクの最高峰がGrandmasterであり、ゴールドメダル5枚とソロゴールドメダル(個人参加でのゴールドメダル)1枚がランク取得の条件となります。日本人でGrandmasterの称号を得ている数少ない方の一人が、NVIDIAの小野寺和樹(@0verfit)さんです。小野寺さんは「Kaggleに参加すること」を同社での仕事にしています。 どうすれば、スキルを向上させKaggleの上位ランクに入賞できるのでしょうか。今回は小野寺さんに、Kaggleに取り組むうえでどのような思考や行動をしているのかについてインタビューしました。 *…インタビューはオンラインで実施しま

                                                                    Kaggleで世界トップレベルになるための思考法。Grandmaster小野寺和樹の頭の中 - Findy Engineer Lab - ファインディエンジニアラボ
                                                                  • Kaggle Days World Championshipで優勝した話 - ABEJA Tech Blog

                                                                    ABEJAでデータサイエンティストをしている服部です。 2022年10月28, 29日にバルセロナにてKaggle Days World Championship Finalというデータサイエンスに関するイベント兼コンペティションが開催され、そこに参加しました。そして幸いなことに私の所属するチームが優勝することができました!! 本記事では今回のイベントそのものと、優勝に至るまでのコンペ上での過程や工夫点などについてご紹介しようと思います。 Kaggle Days World Championship Finalとは 1日目(ワークショップやプレゼンテーション等) Opening remarks by LogicAI and Kaggle HP introduction - Key note Kaggle Team - Ask Me Anything Winners team present

                                                                      Kaggle Days World Championshipで優勝した話 - ABEJA Tech Blog
                                                                    • 米不動産テック大手Zillowの大失敗に見るAI経営の教訓…「予測モデルの過信」「目標設定のミス」は他人事ではありません

                                                                      こんにちは。パロアルトインサイトCEO・AIビジネスデザイナーの石角友愛です。 2021年最後の寄稿は、「著名不動産テックの新事業“ZillowOffers”はなぜ大失敗したのか」を考察します。 Zillowは、不動産情報サイト運営を手がける米国最大の不動産仲介マーケットプレイスです。2006年に創業して以降、米国の不動産情報に関するウェブ検索の約3割はZillowが持つとされ、取り扱う物件数は1億3500万件以上。2020年にはZillowウェブサイトに訪れる毎月のユニークビジター数が3600万人を記録しました(Zillowウェブサイトとアプリに関する統計はこちら)。 Zillowの従来のビジネスモデルは、家を売りたい人と買いたい人を集めるマーケットプレイスでした。主に、その仲介役の不動産エージェントに向けたビジネスモデルを特徴としています。賃貸用の不動産を管理している業者向けにリスティ

                                                                        米不動産テック大手Zillowの大失敗に見るAI経営の教訓…「予測モデルの過信」「目標設定のミス」は他人事ではありません
                                                                      • 情報学専攻でない学生がデータサイエンティストを夢見た話 - Ebitia's Log

                                                                        1.はじめに 2.本編 2-1.どうしてデータサイエンティストを目指したのか? 2-2.応募フェーズ 2-3.選考1次フェーズ 2-4.選考2次フェーズ 2-5.就活の結末 3.どうすればよかったのか? 3-1.就活をはじめるのが遅かった 3-2.実績・スキルが不足していた 3-3.人間性が不足していた 4.最後に 1.はじめに 「情報系学部出身じゃないけどデータサイエンティストに興味がある...」 この記事はそういった就活中の学生に向けて書いています。備忘録も兼ねたポエムのようなものですね。 私自身は医療系の学生で、研究で少し機械学習を扱ってはいましたが、情報学の専攻などを一切してきませんでした。就活中の区分としてはただの理系学生としての扱いです。 そんな私がどうしてデータサイエンティストを目指したのか?そしてどうなったのか? 結論から言うと、私はなれませんでした。 なのでここからは敗北

                                                                          情報学専攻でない学生がデータサイエンティストを夢見た話 - Ebitia's Log
                                                                        • Google Colab上で秘匿情報を安全に使うために、Google Cloud Secret Managerを使う

                                                                          やりたいこと kaggleなどのコンペ参加時にColabで計算して、wandbなどの実験管理ツールを使いたい。 現状wandbなどのAPI keyが生のままColabに貼っているので、そのままgithubにpushできない。 driveにtxtやyamlファイルを置いて管理すると、自分の性格上散らかすと分かっているので、GCPのサービスを使ってバージョンを含めて一括管理したい。 やったこと GCPのSecret Managerを使ってAPI keyを秘匿化して、Colabで呼び出した。 やりかた GCP上の設定 自分のGCPのコンソールを立ち上げて、Secret Manager APIを有効化する。 そのままUI上で作成する。 有効化されているのを確認する。 これで設定は終わり。 Colab上の設定 参考googleの公式レポジトリ

                                                                            Google Colab上で秘匿情報を安全に使うために、Google Cloud Secret Managerを使う
                                                                          • 仕事も友達もKaggleで得た―。敏腕データサイエンティストが熱中する、分析で「競う」世界

                                                                            仕事=Kaggle=趣味。脳医学、生物学など他分野の専門家と予測モデルを作り続ける、“コンペ漬け”の日々 ――2020年3月から在籍するNVIDIAでは、業務時間のほとんどをKaggleに費やしているそうですね。 小野寺:はい。9割超の時間はKaggleをやっています。完全に趣味が仕事になった感じですね。最初にNVIDIAに声をかけてもらった時は「えっ、遊んでいるだけでお金がもらえるの?」と驚きました。 ――小野寺さんが業務時間をKaggleに費やすことは、NVIDIAにとってはどんな意味があるのですか。 小野寺:Kaggleで得たデータサイエンスの知見などを、会社に還元しているんです。今は主に、「RAPIDS」(*1)というソフトウエアライブラリを充実させるのに貢献しています。 *1 NVIDIAがオープンソースで提供する、データ分析をGPUで高速に実行するためのライブラリ ◆インタビュ

                                                                              仕事も友達もKaggleで得た―。敏腕データサイエンティストが熱中する、分析で「競う」世界
                                                                            • データサイエンティストの気づき!「勉強して仕事に役立てない人。大嫌い!!」『それ自分かも?』ってなった!!! - Qiita

                                                                              データサイエンティストの気づき!「勉強して仕事に役立てない人。大嫌い!!」『それ自分かも?』ってなった!!!統計データサイエンティスト新人プログラマ応援Qiita10th_過去CountdownCalendar2022 通りすがりのデータサイエンティスト、技術士(情報工学)・工学博士です。2021年9月11日(執筆当時の今日)まで、「俺はデータサイエンティストの経験が長い」ことを自慢していました。二十代の頃、いろんな論文公募で通らずに、データ解析したら二席をいただいたことに始まるかもしれません。 @kazuo_reveさんのあるところでの、ある書き込みに、意見を書こうと思いました。筋書きを立てていたら次々気がついたことが3つありました。気づき1「現場経験」、気づき2「隠蔽、改竄」、気づき3「10年」。 目次 目次 ・気づき1. 現場経験 ・気づき2. 隠蔽・改竄 ・気づき3. この10年、

                                                                                データサイエンティストの気づき!「勉強して仕事に役立てない人。大嫌い!!」『それ自分かも?』ってなった!!! - Qiita
                                                                              • 孤独でつらい機械学習データの作成を、ワイワイ楽しくする環境を3日で作る - Qiita

                                                                                21世紀でもっともセクシーと言われるデータサイエンスは、18世紀を彷彿とさせる奴隷的な作業によって支えられています(要出典)。その作業とは、データを作る作業(=アノテーション)です。多くの場合、アノテーションは孤独な単調作業の繰り返しです。延々と続けていると、全ての単語にunkとつけるようになる事例も報告されています。つまりつらい!のです。 本記事では、「孤独で辛い」アノテーションを「みんなで楽しく」行える環境を作る方法を紹介します。そのポイントは以下3点です。 Easy: アノテーションを楽に Feedback: アノテーションした結果がすぐにわかるように Gamification: アノテーション結果をみんなで競い合う Overview アノテーションを行う流れは以下のようになります。 Annotation Tool for Easy: アノテーションを楽にするためのツールを用意 In

                                                                                  孤独でつらい機械学習データの作成を、ワイワイ楽しくする環境を3日で作る - Qiita
                                                                                • SVMは復権し得るか? - 渋谷駅前で働くデータサイエンティストのブログ

                                                                                  Kaggleはすっかりただの野次馬の一人になって久しいんですが、しばらく前に行われたPetFinder.my - Pawpularity Contestというコンペで優勝者がSVR(サポートベクター回帰)を使ったことが話題になっていたというのを聞いて、NN全盛のこのご時世に意外だなと思ったのでした。 しかし、よくよく考えてみればかのVapnik御大がかつてSVMを考案する際にベースとしたアイデアはNNとは方向性の違う代物だったわけです。故に、例えばSVMとNNとがどのような点で異なるかが「見える化」出来れば、SVMが復権するための条件のようなものが見えてきそうです。 ということで、久しぶりに「サンプルデータで試す機械学習シリーズ」をやってみようと思います。実はDNNについては6年前にも似たようなことをやっているのですが、SVMとDNNとでサンプルサイズを変えながら比較するというのはやったこ

                                                                                    SVMは復権し得るか? - 渋谷駅前で働くデータサイエンティストのブログ