並び順

ブックマーク数

期間指定

  • から
  • まで

241 - 280 件 / 2003件

新着順 人気順

pandasの検索結果241 - 280 件 / 2003件

  • OpenAI Whisper に追加学習をさせる試み | IIJ Engineers Blog

    地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を中心に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、トランスジェンダーとしての道を歩み始めてます。 【IIJ 2022 TECHアドベントカレンダー 12/8(木)の記事です】 Whisperの追加学習に挑む2022年の冬 2022年アドベントカレンダー企画だそうです。 いかがお過ごしでしょうか。 私はもう興味を引くものに没頭するしか楽しみがないもんで、PCに向かってぼんやり面白いネタはないかなーと探す日々です。 最近はすっかりディープラーニングにズブズブで、とうとう数式かくのが面倒なあまり手書き入力のためのペンタブレットを買いました。てへ。 今回は9月から10月にかけてStabl

      OpenAI Whisper に追加学習をさせる試み | IIJ Engineers Blog
    • 【個人開発】Qiitaの人気の記事・ユーザー・書籍を見つけられるWebサービスを作りました - Qiita

      *印が付いているものは初めてさわった技術です。はい、お恥ずかしながらすべて初物です。(普段はJavaとかJavaとかJavaとかさわってます) Vue.jsを使用したSPAで作成しています。当初はRuby on Railsで作り始めたのですが、作るWebサービスを考えるとバックエンドはフルスタックなものはいらない・むしろデータ加工したAPIを返すだけで良いんじゃ?と思い、一気に方針転換してSPAで作るように変更しました。 バックエンドフレームワークも、Flaskに変更しました。 Flaskは一般にマイクロフレームワークと呼ばれていて、1ファイルで成り立つようなくらいなモノで小さく始められます。 が、Flaskの機能自体は少ないわけではなく、ディレクトリ構成なども特に規定があるわけでもなく、自由なので初心者には結構難しいFWなのかなという感じでした。 (RailsやDjangoのように規約に

        【個人開発】Qiitaの人気の記事・ユーザー・書籍を見つけられるWebサービスを作りました - Qiita
      • 2021年データサイエンスにオススメの本80冊!|Octoparse Japan

        ビッグデータの発展とともに、データサイエンスは今広く知られるようになりました。大学にデータサイエンスを学べる学部ができたり、データサイエンティストを目指している人もたくさんいるでしょう。この記事では、統計学から機械学習やマーケティングまで、初心者がデータサイエンスを学ぶのにおすすめの本を80冊紹介します! Part I: データサイエンス概論1.『データサイエンス講義 』Rachel Schutt、Cathy O'Neil 著 本書では、データサイエンスを行う上で、どのようなプロセスが必要か、データサイエンティストとしてはどのようなスキルセットが必要で、どのような思考方法を選択する必要があるのかを実例を多数示しながら紹介します。 2.『戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニック』Foster Provost、Tom Fawcett著 本書は、データをビジネスに活か

          2021年データサイエンスにオススメの本80冊!|Octoparse Japan
        • 【Python実践編】ビットコインのアービトラージ(裁定取引)コード例 - Qiita

          [8/27追記] 投資関連のPythonプラグラム等を自由にシェアできるサービスのベータ版を作成しました。 興味がある方は覗いてみてください↓ inbaseシェア|EA・bot・プログラムのシェアサービス この投稿では、Python3を使って仮想通貨の裁定取引を行います。 今回は、コインチェックとGMOコインの価格差を利用してサヤ抜きを行うことを目指します。 以前自分のブログで、 【Pythonデモコード】仮想通貨のアービトラージ(裁定取引)botの作り方 という記事を公開したのですが、こちらはあくまでもシュミレーションで実際に売買が作動することはありませんでした。 今回は実際に取引所のAPIを操作するところまでコートに組み込んでみました。 なおコインチェックと GMO コインの口座開設から API キーの発行までは下の記事で公開している手順と全く同じです。 一応画像付きで解説しているので

            【Python実践編】ビットコインのアービトラージ(裁定取引)コード例 - Qiita
          • Python: 時系列データの交差検証と TimeSeriesSplit の改良について - CUBE SUGAR CONTAINER

            一般的に、時系列データを扱うタスクでは過去のデータを使って未来のデータを予測することになる。 そのため、交差検証するときも過去のデータを使ってモデルを学習させた上で未来のデータを使って検証しなければいけない。 もし、未来のデータがモデルの学習データに混入すると、本来は利用できないデータにもとづいた楽観的な予測が得られてしまう。 今回は、そんな時系列データの交差検証と scikit-learn の TimeSeriesSplit の改良について書いてみる。 使った環境は次のとおり。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.6 BuildVersion: 18G3020 $ python -V Python 3.8.1 下準備 あらかじめ、必要なパッケージをインストールしておく。 $ pip install scikit-le

              Python: 時系列データの交差検証と TimeSeriesSplit の改良について - CUBE SUGAR CONTAINER
            • AutoTrainでテキスト分類 - Qiita

              AutoTrain🚂🚂🚂とは ノーコードでテキスト分類や要約などがstate-of-the-artできるサービスです。AutoNLPだとググラビリティが低かったので名称が変わったのだと思います。 データ準備 livedoorニュースコーパスのタイトルと本文を結合して、9つのカテゴリを分類しようと思います。 !wget https://www.rondhuit.com/download/ldcc-20140209.tar.gz !tar xf ldcc-20140209.tar.gz import glob import pandas as pd data = [] for path in glob.glob('text/**/*-*.txt'): with open(path) as f: data.append({ 'url': next(f).strip(), 'datetime

                AutoTrainでテキスト分類 - Qiita
              • 最新の Google Gemma モデルを MLX を使ってローカルでファインチューニング|alexweberk

                今回は、最新の Google Gemma モデルを Apple Silicon に最適化されたライブラリ MLX を使ってローカルで実行したり、ファインチューニングしてみましたのでその手順を紹介します。 MLX 関連の情報はドキュメンテーションが分かりづらいものも多かったので色々試した経緯も共有しながら少しでも何かの参考になれば幸いです。 実際に使った Jupyter Notebook を Gist にアップロードしていますので、そちらも参考にしてください。 →Google Gemma モデルを MLX を使ってローカルでファインチューニング 事前準備必要なライブラリをインストールします。 また Apple Silicon 搭載の Mac が必要です。今回は M3 Max 128GB 搭載の MacBook Pro で実行しました。 !pip install -U mlx mlx_lm t

                  最新の Google Gemma モデルを MLX を使ってローカルでファインチューニング|alexweberk
                • Polars

                  01FastPolars is written from the ground up with performance in mind. Its multi-threaded query engine is written in Rust and designed for effective parallelism. Its vectorized and columnar processing enables cache-coherent algorithms and high performance on modern processors. 02Easy to useYou will feel right at home with Polars if you are familiar with data wrangling. Its expressions are intuitive

                    Polars
                  • 2日目:Python 3.10新機能パターンマッチの神髄がわかる | gihyo.jp

                    先日公開した「PyCon JP 2021」1日目のカンファレンスレポートはいかがでしたでしょうか? 本レポートでは引き続き、2日目の様子をご紹介します。 PyCon JPは日本国内外のPythonユーザーが一堂に会し、互いに交流を深め、知識を分け合い、新たな可能性を見つけられる場所として毎年開催される国際カンファレンスです。 PyCon JP 2021は2021年10月15日~16日のカンファレンスと2日間の会期で開催されました。 今回は16日に行われたカンファレンスの中から、注目セッションと感想について運営スタッフがレポートします。 Day2 Keynote:A Perfect match ―Mr. Brandt Bucher (nikkie) 2021年10月、PyCon JP 2021の少し前にリリースされたPython3.10。その目玉機能といえば、Structural Patte

                      2日目:Python 3.10新機能パターンマッチの神髄がわかる | gihyo.jp
                    • プログラミングする時に知っておきたいPythonライブラリ13選

                      Pythonライブラリとは Pythonのライブラリとは、複数のパッケージをまとめたものです。パッケージは複数のモジュールをまとめたもので、モジュールは複数の関数をまとめたものです。 つまり、 のような関係性があります。 ライブラリには、標準ライブラリと外部ライブラリがあります。標準ライブラリは、Pythonをインストールした際に標準でインストールされているライブラリです。そのため、自分でインストールをする必要はありません。 対して外部ライブラリは、標準ではインストールされておらず自分でインストールが必要なライブラリです。 ではここからは、各ライブラリの紹介しましょう。 まずはこれから!標準ライブラリ3選 標準ライブラリでおさえておきたいライブラリは3つです。 pip Pythonで書かれたライブラリをインストールや管理をするためのライブラリがpip。ライブラリをインストールする場合、pi

                        プログラミングする時に知っておきたいPythonライブラリ13選
                      • Jupyter Notebookと Boto3で AWS環境定義書を作成してみる | DevelopersIO

                        Jupyter Notebook(以降 Notebook) は実行可能なプログラムコードや分析結果、グラフなどを含んだドキュメントを作成するための OSSです。 画像:https://jupyter.org/ Pythonによるデータ分析でよく利用されます。 特徴として 「Markdown セル」と「Code セル」 を Notebook内へ配置できます。 データ分析のプロセスの文脈を Markdownセルに書くことで、 プログラムのコメント以上の表現力で、プロセスを記述できることできます。 データの可視化についても、Notebookは優秀です。 Matplotlib のグラフや、Pandas のテーブルなどを Notebook内にインライン表示してくれます。 さて、Markdownセルによるドキュメンテーション、 pandas によるテーブル表記でふと思いました。 「Jupyter No

                          Jupyter Notebookと Boto3で AWS環境定義書を作成してみる | DevelopersIO
                        • 時系列分析をお手軽に!機械学習ライブラリDartsの実演 - DATAFLUCT Tech Blog

                          こんにちは! 以前にDartsという時系列分析に特化したpythonライブラリを紹介しました。 前編はこちら 今回は実際にDartsを動かしていきましょう。 Darts内にもデータセットがありますが、公式でも触れられているのであえて、外部のデータを参照してみましょう。導入編でも触れたアイスクリームの生産量の変化を推測したいと思います。 アイスクリームのデータセットはこちら 上記リンクの上部右側Downloadからcsvをダウンロードしてください。 Dartsのインストールは以下の1コマンドです。Windowsではデフォルトのコマンドプロンプトでうまくインストールが終了しなかったので、WSL環境などを推奨します。 $ pip install darts ARIMAで学習してみる バックテストでモデルの選定を行う RNNで共変量を扱ってみる まとめ ARIMAで学習してみる まずは、導入編で最

                            時系列分析をお手軽に!機械学習ライブラリDartsの実演 - DATAFLUCT Tech Blog
                          • 数学に強いエンジニアむけの機械学習勉強法

                            今年の3月から機械学習の勉強を始めて9ヶ月たったのでその振り返りと今後機械学習に入門する人の参考になればという記事です。 巷の記事だと「数学何もわからない人向けの機械学習~」みたいなものが多いので「数学チョットワカル人向け」に勉強方法をまとめてみようと思いました。 前提として筆者は大学で数学を専攻しており、社会人になってからはプログラミングを生業としております。 # 前提知識のおさらいいきなり機械学習入門~のような書籍に入る前に、基礎知識としてこの辺を抑えておくと良いと思います。 ## 線形代数:大学1年レベル機械学習の説明はほとんど行列の計算として表現されますので大前提として。手を動かして計算問題を解くのもおすすめです。 プログラミングのための線形代数 https://www.amazon.co.jp/dp/4274065782 ## 基礎統計(頻度主義):大学1年レベル正規分布や指数分

                            • 【日本株対応】Pythonで株価のローソク足データを取得する方法まとめ【CSV、ライブラリ、スクレイピング】

                              方法①はシンプルでは手軽に利用できますが、データ読み込み後のデータ整形作業が必要になります。 また、複数の銘柄の株価データを集める際には手間がかかります。 1つの銘柄で、なおかつ1度限りの分析であれば有効と思いますが、繰り返し分析したり、複数銘柄を扱いたい場合には不便です。 データ取得の手順を解説ここからは、Investing.comから株価データをCSV形式でダウンロードして、Pythonで読み込み、データ整形するまでの手順を解説します。 *無料登録が必要です。株価データを取得するには無料の会員登録が必要になります。 必要なのはこれだけです。 お金もかからないので余裕ですね。 銘柄を検索してCSVファイルをダウンロード会員登録を済ませてログインすると株価データをCSV形式でダウンロードできるようになります。 データは日足、週足、月足から選択することができます。 Investing.com

                                【日本株対応】Pythonで株価のローソク足データを取得する方法まとめ【CSV、ライブラリ、スクレイピング】
                              • Pandas で時系列データをグループ化して集計できる「Grouper」 - kakakakakku blog

                                Pandas で groupby() 関数を使うと,データセットをグループ化して集計できる.さらに Grouper オブジェクトと組み合わせると,より高機能なグループ化を実現できる.今回は groupby() 関数と Grouper オブジェクトを組み合わせて「時系列データの集計」を試す.最後に関連する resample() 関数も試す. pandas.DataFrame.groupby — pandas 1.2.4 documentation pandas.Grouper — pandas 1.2.4 documentation データセット 🪢 今回使うサンプルデータセットを準備する.まず,Pandas の date_range() 関数を使って 2020/1/1 ~ 2020/12/31 の範囲で1年間の DatetimeIndex を作る.そして DatetimeIndex をイ

                                  Pandas で時系列データをグループ化して集計できる「Grouper」 - kakakakakku blog
                                • 機械学習における解釈性について | メルカリエンジニアリング

                                  こんにちは。Merpay Advent Calendar 2019 の24日目は、メルペイ Machine Learning チームの @yuhi が機械学習における解釈性についてお送りします。 目次 機械学習における解釈性とは なぜ解釈性が必要なのか 1. サービスを提供する事業者としての説明責任 2. 推論結果に対する社内外の関係者の理解 3. モデルのデバッグ、精度改善 どのようなアプローチがあるのか SHAPについて サマリ 基本的なアイディア 問題設定 説明可能モデルに対して満たしてほしい性質 説明可能モデルを求める SHAPの実装について 最後に References 機械学習における解釈性とは 深層学習をはじめとする機械学習分野の発展に伴って、これまでにないユニークなサービスが開発され、また多くの業界において業務が効率化、高度化されつつあります。メルペイでも機械学習を用いて、

                                    機械学習における解釈性について | メルカリエンジニアリング
                                  • Kaggle Days World Championshipで優勝した話 - ABEJA Tech Blog

                                    ABEJAでデータサイエンティストをしている服部です。 2022年10月28, 29日にバルセロナにてKaggle Days World Championship Finalというデータサイエンスに関するイベント兼コンペティションが開催され、そこに参加しました。そして幸いなことに私の所属するチームが優勝することができました!! 本記事では今回のイベントそのものと、優勝に至るまでのコンペ上での過程や工夫点などについてご紹介しようと思います。 Kaggle Days World Championship Finalとは 1日目(ワークショップやプレゼンテーション等) Opening remarks by LogicAI and Kaggle HP introduction - Key note Kaggle Team - Ask Me Anything Winners team present

                                      Kaggle Days World Championshipで優勝した話 - ABEJA Tech Blog
                                    • なぜあなたのA/Bテストはうまくいくのか?A/Bテストの分析で注意すること | CyberAgent Developers Blog

                                      概要 同じ介入を比較するA/Aテストで統計的に有意な差が出てしまうケースがある その原因は、A/Bテストの指標の設計に失敗していることかもしれない この問題の対処法としてユーザベースCTR、デルタメソッド、クラスターロバスト標準誤差を紹介する これらの手法は実務で運用する上では一長一短 はじめに AI事業本部Dynalystの伊藤、小売セクターの藤田(@6km6km)です。 DynalystはReal Time Biddingと呼ばれる広告オークションにおいて広告枠の買付を行うプラットフォーム(DSP: Demand Side Platform)です。DSPでは、ユーザに広告を表示する際に複数あるクリエイティブの候補からひとつクリエイティブを選ぶ必要があり、その選択ロジックにバンディットアルゴリズムを用いています。(参考リンク1, 2) 以下では、バンディットアルゴリズムのA/Bテストをす

                                        なぜあなたのA/Bテストはうまくいくのか?A/Bテストの分析で注意すること | CyberAgent Developers Blog
                                      • Netflix社のMLOpsの事例を紹介します | 行灯Labo(アンドンラボ)|JapanTaxi採用ブログ

                                        その中で特に面白かったNetflix社の事例を紹介します! Netflix社事例「A Human-Friendly Approach to MLOps」 Netflix社では、「Metaflow」と呼ばれる独自フレームワークを開発して、データサイエンティストに提供することにより、機械学習アプリケーションの開発・運用を社内で拡大することを実現している。 Netfliexのデータ分析の目標 コンテンツの発売前に、日毎の視聴者数の予測がしたい。これにより、優先度付やリソースの配置を考えている ゴールは2つ 190カ国すべてのオフィスにて、データから一貫した洞察を得られるようにする意思決定者のために正確で即時の情報を提供する データ分析プロジェクトの進め方型と課題 データ探索(〜2週間)notebookなどを用いて、データの振る舞いを理解して、どの特徴量を使うべきか等を探索するプロトタイピング(6

                                          Netflix社のMLOpsの事例を紹介します | 行灯Labo(アンドンラボ)|JapanTaxi採用ブログ
                                        • ランサーズのデータ活用を手伝っている話 - 下町柚子黄昏記 by @yuzutas0

                                          ランサーズ Advent Calendar 2020 24日目の記事です。 昨日は まなみん さんの 「思考発話法でUXリサーチをしてみた話」 でした。 概要 社員ではなく、1人のフリーランス人材(ランサー)として、ランサーズ社を手伝っています。 「こんなことをやってきたよ!」という話を、書ける範囲で書きます。 CRM(顧客管理)x データ活用 の案件を主に担当しています。 注意 本稿は筆者個人の見解に基づく内容であり、関係組織を代表するものではありません。 不適切・考慮不足だと感じさせてしまう点があれば、それは筆者個人の責任によるものです。 どうぞ筆者個人宛てにご指摘のコメントをいただけますと幸いです。 もくじ 概要 注意 もくじ きっかけ 案件1:顧客セグメント可視化 案件2:社内システム改善 案件3:オープンデータ活用 その他:データプラットフォームのメンテナンス性向上 意識している

                                            ランサーズのデータ活用を手伝っている話 - 下町柚子黄昏記 by @yuzutas0
                                          • Pythonのスタイルガイドの確認 - めも

                                            スタイルガイド PEP-8 Google Python Style Guide django 既存のコードに対するpep8の確認 pep8 flake8 autopep8 docstringのフォーマット 各スタイルガイド要約 PEP8 Google C++ 参考文献 自分の確認用です. C++のスタイルガイド の確認も自分の勉強用です. スタイルガイド スタイルガイドは、出版物などにおいて統一した言葉遣いを規定する手引き (出典:スタイルガイド - Wikipedia) コーディングにおいても, 基本的な書き方のルールをある程度定めることで理解しやすいコードになりうる. いくつか種類が存在する. PEP-8 peps/pep-0008.txt at master · python/peps · GitHub はじめに — pep8-ja 1.0 ドキュメント Google Python

                                              Pythonのスタイルガイドの確認 - めも
                                            • ゼロからはじめるPython(53) Python vs Excel 五番勝負 - 仕事で使えるのはどちら?

                                              今回は、仕事で使うことを主眼において、PythonとExcelを比較してみよう。結論から言えば、適材適所で用途に応じて使い分けるのがベストだ。とは言え、どのような場合にPythonを使うと良いのか考察してみよう。 Python vs Excel - 五番勝負 第一回戦 - どちらが気軽に使えるか? 最初に、PythonとExcelで「どちらが気軽に使えるか」を比べてみよう。言うまでもなく、Excelを使う時は、スプレッドシートのセルにデータを入力し、マウスで操作を選んでいくというスタイルだ。これに対して、Pythonはエディタでプログラムを書いて実行するか、Jupyter NotebookやColaboratoryなどの対話実行環境を開いて、プログラムを記述していくというスタイルだ。 ExcelはGUIで操作を行う Pythonはエディタや対話環境を開いてプログラムを記述していく やはり、

                                                ゼロからはじめるPython(53) Python vs Excel 五番勝負 - 仕事で使えるのはどちら?
                                              • MLflowの使い方 - 機械学習初心者にもできる実験記録の管理 - - DATAFLUCT Tech Blog

                                                こんにちは!nakamura(@naka957)です。今回はMLflowをご紹介します。 読者の皆さんは、機械学習モデルのハイパーパラメータ調整を手作業で管理し、苦労した経験がないでしょうか。実験記録の管理は大事な一方で、なかなか大変です。 今回紹介するMLflowは、実験記録を簡単に管理できる便利なPythonライブラリです。MLflowは実験管理だけでなく、機械学習プロジェクト全体を管理する様々な機能を提供する非常に人気なライブラリです。一方で、多機能な反面で初心者が最初に導入するにはハードルが高い側面があるのも事実です。 本記事では、MLflowの実験管理の機能に絞り、簡単な例で使い方をご説明します。そのため、初めて使用する方も安心してご覧ください。 では、早速始めていきます。 実験記録の重要性 MLflowとは MLflowのインストール データセット準備 機械学習モデルの用意 M

                                                  MLflowの使い方 - 機械学習初心者にもできる実験記録の管理 - - DATAFLUCT Tech Blog
                                                • 達人に学ぶSQL徹底指南書 第2版 初級者で終わりたくないあなたへ を読みました - YOMON8.NET

                                                  この本を読みました。 達人に学ぶSQL徹底指南書 第2版 初級者で終わりたくないあなたへ (CodeZine BOOKS) 作者:ミック翔泳社Amazon 目次 1部 魔法のSQL 2部 リレーショナルデータベースの世界 自分のレベルと書籍のレベル 自分のレベル 書籍のレベル サンプル・演習の実行環境準備 実行環境 コンテナ起動 pgcliで接続 psqlで接続 コンテナ削除 SQLファイルダウンロード 所感 すぐに使える内容もいっぱい 読みやすい 2部の理論難しい 2021/11/24 所感追記 目次 まず目次から。2部構成になっていて、第1部は主に演習をしながら進めていくタイプの内容で、第2部は主に読み物としてリレーショナルデータベースの世界を覗くものになります。 1部 魔法のSQL 1 CASE式のススメ 2 必ずわかるウィンドウ関数 3 自己結合の使い方 4 3値論理とNULL 5

                                                    達人に学ぶSQL徹底指南書 第2版 初級者で終わりたくないあなたへ を読みました - YOMON8.NET
                                                  • 機械学習初心者がKaggle Masterになって昇進した話 - Qiita

                                                    この記事はKDDI Engineer&Designer Advent Calendar 2022の16日目の記事です。 はじめに はじめまして、KDDI株式会社の@kazuki_yです。 KDDIではデータサイエンティストのエキスパートとして、お客様向けサービスのデータ分析支援やAI・データ利活用の全社方針策定などの業務を行っております。 コンペ経歴は約2年半でKaggle MasterとSIGNATE Masterの称号を持っています。 本記事では、機械学習初心者がKaggleにどう取り組んで、どのようにKaggle Masterになったのか、Kaggleに取り組んで良かった点を振り返っていきたいと思います。 世の中では度々Kaggleは役に立たない論が出てきますが、私としては昇進もして、賞金も獲得して、技術力も得て、更には自信もついたので超役に立つと思います!本記事が参加への一助になれ

                                                      機械学習初心者がKaggle Masterになって昇進した話 - Qiita
                                                    • 不均衡データ分類問題をDNNで解くときの under sampling + bagging 的なアプローチ - BASEプロダクトチームブログ

                                                      はじめに こんにちは、Data Strategy所属の岡です。グループ会社BASE BANKで分析/モデリングなども兼務しています。 テキストデータを特徴量にもつ不均衡データ分類問題をDNNで解きたくなった際、下記の論文を参考にしたのでその内容を紹介します。 https://users.cs.fiu.edu/~chens/PDF/ISM15.pdf 不均衡データ分類問題ってなに? 何かしらのカテゴリを機械学習などで分類予測しようとする際、カテゴリごとのデータ件数に偏りがある、特に正例のデータが極端に少ないケースで予測精度が上がりにくい、という問題をこのように呼んでいます。 例: 不正決済と正常な注文、不正商品と健全な商品、がん患者と正常な患者 普通はどうやって対処するの? ベースとなるアプローチは下記3つにまとめられます。 アプローチ 内容 デメリット アンダーサンプリング 多数派データを

                                                        不均衡データ分類問題をDNNで解くときの under sampling + bagging 的なアプローチ - BASEプロダクトチームブログ
                                                      • ベイズ最適化で最高のコークハイを作る - わたぼこり美味しそう

                                                        はじめに コークハイとか酎ハイをお店で飲むと、割り方とかレモンが効いていたりとかでお店によって結構違いが出ますよね 自分好みの最高のコークハイの作り方を知ることは全人類の夢だと思います。 本記事は一足先にそんな夢に挑戦したという記事です。 手法としてはベイズ最適化を使用します。 実データで実験計画と絡めながらベイズ最適化を実際に行う記事はあまり見かけなかったので今回は、 最適化パラメータ 1. コーラとウイスキーの比 2. レモン汁の量 目的変数 コークハイの美味しさ という2次元入力、1次元出力で実際に実験とチューニングを並行しながら行ってみたいと思います。 目次 はじめに ベイズ最適化とは 実験系の説明 実験条件 実験で考慮しないこと(パラメータ) 実験材料 実験方法 スコアの付け方 実験をやりました(本題) 実装コード 実験開始 ARDありver. 反省点 さいごに ベイズ最適化とは

                                                          ベイズ最適化で最高のコークハイを作る - わたぼこり美味しそう
                                                        • 検索エンジンPyTerrierを使った日本語検索パイプラインの実装 - エムスリーテックブログ

                                                          エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。検索とGoが好きです。 今回は社内でPyTerrierを採用して文書検索BatchをPythonで実装したので、PyTerrierの紹介とPyTerrierで日本語検索を実装する方法を紹介します(日本語でPyTerrierを扱う記事は多分初?)。 PyTerrierとは 弊社でのPyTerrier利用 PyTerrierで日本語検索 Phrase Queryの注意点 まとめ We're hiring !!! PyTerrierとは Terrierのロゴ PyTerrierは、Pythonでの情報検索実験のためのプラットフォームです。 JavaベースのTerrierを内部的に使用して、インデックス作成と検索操作を行うことができます。基本的なQuery RewritingやBM

                                                            検索エンジンPyTerrierを使った日本語検索パイプラインの実装 - エムスリーテックブログ
                                                          • Pythonでボリンジャーバンド、売買シグナル、バックテスト - Qiita

                                                            株価は95.4%の確立でボリンジャーバンド±2σの範囲内に収まる エンジニア未経験、Qiita覚えたので初投稿 仮説 4.6%でしか負けないならボリンジャーバンドで売買すれば絶対に勝てる 条件 初期資本100万円、1ポジション100株、手数料0、副ポジション無し、25日移動平均線を基準 使用ライブラリ yfinance 株価取得 Pandas データフレーム matplotlib.pyplot グラフ tqdm プログレスバー datetime Timestampオブジェクト os csv保存 処理順序 株価取得 移動平均線、 標準偏差、ボリンジャーバンド、乖離率の算出 売買ルール制定、バックテスト リターンの算出 グラフ化 必要なライブラリのインストール

                                                              Pythonでボリンジャーバンド、売買シグナル、バックテスト - Qiita
                                                            • AWS による Jupyter の 生成系 AI の民主化とノートブック実行のスケールのための新しい拡張機能を発表 | Amazon Web Services

                                                              Amazon Web Services ブログ AWS による Jupyter の 生成系 AI の民主化とノートブック実行のスケールのための新しい拡張機能を発表 Project Jupyter は複数のステークホルダーで運営されるオープンソースプロジェクトであり、データサイエンス、機械学習、計算科学のためのアプリケーションだけでなく公開標準やツールも開発しています。なかでも、2011 年にリリースされた Jupyter Notebook は学術、研究、産業のあらゆる分野で世界で数百万人のユーザーが使用するデファクトスタンダードのツールとなりました。Jupyter ではユーザーがコードやデータをインタラクティブに実行でき、完全に再現可能な作業記録として作成、共有することが可能です。 AWS はデータサイエンティストや機械学習エンジニアにとって欠かせない Jupyter を開発する Proj

                                                                AWS による Jupyter の 生成系 AI の民主化とノートブック実行のスケールのための新しい拡張機能を発表 | Amazon Web Services
                                                              • 安定期に入っている「機械学習OSS」だからこそ貢献しやすい 実績やキャリアにつなげるために大切な、知識や実装の可視化

                                                                「つよいエンジニア」になるためのオープンソースの使い方をはじめ、OSSへの貢献を推奨している企業のエンジニア文化や、コミッター視点からみたOSSの未来について話す「TECH HILLS~まつもとゆきひろ氏と考える つよいエンジニアになるためのオープンソースの使い方~」。ここでキャディ株式会社の河合氏が登壇。機械学習OSSの現状と未来について話します。 自己紹介 河合俊典氏:「機械学習OSSの変遷と未来」と題して発表します。「ばんくし」として活動しています。今、キャディという小さい製造業向けのITベンチャーで機械学習とかデータサイエンスをやるチームを立ち上げて、そこでリーダーをやっています。 前職はM3という医療ITの会社ですが、そこのフェローをやらせてもらっています。私は“ギルド”と呼んでいますが、趣味でそういった開発が好きな人で集まって開発をするチームを組んでいて、そこの主宰もやっていま

                                                                  安定期に入っている「機械学習OSS」だからこそ貢献しやすい 実績やキャリアにつなげるために大切な、知識や実装の可視化
                                                                • 【Python】データ可視化ライブラリAltairハンズオン【基礎編】 - Qiita

                                                                  Altair のようにインタラクティブなグラフを作成できる Python の可視化ライブラリとして、他には Bokeh や Plotly などがあります。それぞれ作成可能なグラフの種類やデザインが異なるため、好みに合わせて使い分けるとよいと思います。個人的な意見としては、三次元モデルの可視化が得意なのは Plotly で、二次元モデルの可視化が得意なのは Altair です。 データ作成 今回は架空の学校で行われた期末試験の得点をデモデータとして作成します。この学校には学生が 30 人在籍し、普通、特進、理数の 3 コースが存在します。期末試験の科目は国語、数学、理科、社会、英語で各教科 100 点満点とします。 import random import pandas as pd # パラメータ N = 30 # 学生の人数 mu, sigma = 60, 18 # 学力の平均と標準偏差

                                                                    【Python】データ可視化ライブラリAltairハンズオン【基礎編】 - Qiita
                                                                  • 仕事する前に知っておくと幸せかもしれないpandasのきほん - read関数にはとりあえずURL渡しておけ - Lean Baseball

                                                                    お仕事や, (個人的には)趣味のデータ分析・開発などでpandasをよく使う人です. pandasはPythonでデータサイエンスやデータ分析(解析)をやってると必ずと言っていいほどよく使うライブラリだと思います. お仕事で同僚やインターンが書いたnotebookをよく読む(レビューする)のですが, 煩雑なことやってるけどこれ一行で書けるやで 最初からデータを整理するとそんな面倒くさいことしなくても大丈夫やで ...といったコメントを返す機会が増えてきました. これらは当人たちにフィードバックしているのですが, このフィードバックの内容が案外重要な気がしてきたのでブログに書いてみることにしました. 読んだ方の理解・生産性の向上および, 「つまらない仕事が334倍楽になる」ような感じにつながると嬉しいです🙏 TL;DR pandasのread関数にはとりあえずURLを渡しておけ &使うカラ

                                                                      仕事する前に知っておくと幸せかもしれないpandasのきほん - read関数にはとりあえずURL渡しておけ - Lean Baseball
                                                                    • お手軽で欲しい機能が揃っている実験管理ツールGuild AIの紹介 - kuromt blog

                                                                      機械学習の実験管理ツールにGuild AIというものがあります。特に大きな特徴はコード追加なしで実験管理ができるというものです。 試しに触ってみたところ、まさにコード追加なしで簡単に試せる、ちょっとした条件を変えた実行も簡単、結果の可視化はシンプルなCLIもリッチなGUIもどちらも用意されている、ローカルだけではなくS3にもデータを保存できる、しかもWebサーバを別に立てる必要がなく手元の環境で完結します。 ただ、Guild AIは一部の方にSNS上で言及されているものの日本語で書かれたドキュメントやブログは見つかりませんでした。良いツールが埋もれるのはもったいないと思いGuild AIの記事を書くことにしました。 この記事の前半では実行条件を変えながら実行して結果を可視化するまでの流れを紹介します。Guild AIのお手軽さをお伝えすることを意識しました。 後半はある程度実務での状況を想

                                                                        お手軽で欲しい機能が揃っている実験管理ツールGuild AIの紹介 - kuromt blog
                                                                      • RからPythonへのお引越しでわかること - Jupyterと世界の野球から理解する - Lean Baseball

                                                                        サムネイルがまんま結論の一部です&タイトルでビビッと来たアナタ(+野球好き)が対象読者です. ちょっとやりたいことがあって, やりたいこと⚾のサンプルがたまたまRだった このあと自分で分析したりなにか作るんやったらPythonでやりたい せや!RからPythonに移植しちゃえば良いンゴ ってことで, 粛々とRからPythonに移植した時に気がついた事をサラッと書きたいと思います. 最初に断っておくと, RよりPythonが優秀(またはその逆)だから書き換える!って意味ではありません! どっちが優秀だの, 好みは何だのといった所は(必要と思った箇所を除き)触れないのでご了承ください.*1 というわけで, 変に力んだりマウントを取ること無く, ごゆるりとおくつろぎながら読んでもらえると幸いです. TL;DR 数式を意識しながら読んだり, 統計的にいい感じにしたい時はRの方がしっくりくる. 一方

                                                                          RからPythonへのお引越しでわかること - Jupyterと世界の野球から理解する - Lean Baseball
                                                                        • Numeraiで学ぶ金融時系列モデル評価指標

                                                                          雨にも負けず 風にも負けず 冬にも 夏の過熱相場にも負けぬ ロバストな予測を持ち 強欲はなく 決して悲観せず いつも静かに利益を重ねている ... そう言うモデルを 私は作りたい by ??? (20??年) 前書き こんにちは。日本爆損防止委員会です(さっき考えた)。 さて、皆さんは今日も今日とて爆損を垂れ流していらっしゃると思います。その原因は様々あろうかと思いますが、そもそも「原因がわからない」という方がほとんどではないでしょうか。 爆損しているのに原因がわからない、というのは、言うまでもありませんが大変なストレスです。楽しい思いをしようと小さな島に遊びに行ったら殺人事件が起きて誰が犯人かわからないけど容疑者の人たちと一緒に暮らさないといけないイメージです(?)。 どうせ爆損するなら、「あーワイのモデルはこういう市況に弱いことが検証でもわかってて、今はその市況だから爆損なんやー」と原

                                                                            Numeraiで学ぶ金融時系列モデル評価指標
                                                                          • 【機械学習】機械学習を用いたin silico screening【AI創薬】~第2/5章 スクレイピングによる公共データベース(PDB)からの機械学習データを収集~ - LabCode

                                                                            AI創薬とは? AI創薬は、人工知能(AI)技術を利用して新しい薬物を発見、開発するプロセスです。AIは大量のデータを高速に処理し、薬物の候補を予測したり、薬物相互作用を評価したりします。また、AIは薬物の効果や安全性をシミュレートすることも可能で、臨床試験の前の段階でリスクを評価することができます。これにより、薬物開発のコストと時間を大幅に削減することが期待されています。AI創薬は、薬物開発の新しいパラダイムとして注目を集め、製薬企業や研究機関で積極的に研究、導入が進められています。また、バイオインフォマティクス、ケモインフォマティクス、機械学習、ディープラーニングなどの技術が組み合わされ、薬物開発のプロセスを革新しています。さらに、AI創薬は個人化医療の推進にも寄与し、患者にとって最適な治療法を提供する可能性を秘めています。 今回はAI創薬の中でも、in silico screeeni

                                                                            • NumPy Illustrated: The Visual Guide to Numpy

                                                                              Image credit: AuthorNumPy is a fundamental library that most of the widely used Python data processing libraries are built upon (pandas, OpenCV), inspired by (PyTorch), or can efficiently share data with (TensorFlow, Keras, etc). Understanding how NumPy works gives a boost to your skills in those libraries as well. It is also…

                                                                                NumPy Illustrated: The Visual Guide to Numpy
                                                                              • サイエンティストとエンジニアでつくるML ワークフロー - スタディサプリ Product Team Blog

                                                                                こんにちは、データエンジニアの@masaki925 です。 この記事はMLOps Advent Calendar 2020 の19 日目の記事です。 MLOps には、その成熟度に応じて3つのレベルがあると言われています。 MLOps レベル 0: 手動プロセス MLOps レベル 1: ML パイプラインの自動化 MLOps レベル 2: CI / CD パイプラインの自動化 私の所属するチームでは現在ここのレベルを上げるべく取り組んでいますが、その中でデータサイエンティスト(以下、DS) とデータエンジニア(以下、Dev) の協業って難しいよな〜と思う事例があったので紹介したいと思います。 想定読者は以下のような方です。 これからMLOps を始めようとしている方 既存プロジェクトがあり、ML 等を使ってエンハンスしていきたいと考えている方 異文化協業に興味がある方 ML ワークフロー

                                                                                  サイエンティストとエンジニアでつくるML ワークフロー - スタディサプリ Product Team Blog
                                                                                • LightGBMを使って競馬予想で回収率100%を超えるコードを書いた(その2) - Qiita

                                                                                  つまりモデルでは穴馬の当選も予測できているが、卍氏の賭け方では予算の金額によって賭けられる最大オッズが下がってしまい、穴馬に賭けることができなくなります。その影響によりオッズの低い人気馬しか賭けることができず、回収率が下がる要因ともなっているようです。しかしその反対に荒れなかったレースについては卍氏の賭け方のように傾斜をつける方が回収率を上げる要因になっています。 なお今考えている予算が10万円の場合、複勝のようにオッズが低い場合(せいぜい5倍前後で)はあまり影響しません。しかし単勝ではオッズが約10倍以上の場合は、最小賭け金が100円のため、特に影響が出るようです。 このあたりは賭け金の計算式の定数(今の場合0.01)と自身の予算、モデルの予測値との検討が必要となります。 コードの公開 noteにて公開します。またコードの詳細な説明は公開するnote及びnotebook内のコメントにて記

                                                                                    LightGBMを使って競馬予想で回収率100%を超えるコードを書いた(その2) - Qiita