本文「pandas」を検索 - はてなブックマーク

241 - 280 件 / 2003件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

pandasの検索結果241 - 280 件 / 2003件

OpenAI Whisper に追加学習をさせる試み | IIJ Engineers Blog
- 52 users
- eng-blog.iij.ad.jp
- テクノロジー
- 2022/12/08
地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を中心に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、トランスジェンダーとしての道を歩み始めてます。【IIJ 2022 TECHアドベントカレンダー 12/8（木）の記事です】 Whisperの追加学習に挑む2022年の冬 2022年アドベントカレンダー企画だそうです。いかがお過ごしでしょうか。私はもう興味を引くものに没頭するしか楽しみがないもんで、PCに向かってぼんやり面白いネタはないかなーと探す日々です。最近はすっかりディープラーニングにズブズブで、とうとう数式かくのが面倒なあまり手書き入力のためのペンタブレットを買いました。てへ。今回は9月から10月にかけてStabl
- AI
- IIJ
- OpenAI
- 機械学習
- ディープラーニング
- Deep Learning
- GPU
【個人開発】Qiitaの人気の記事・ユーザー・書籍を見つけられるWebサービスを作りました - Qiita
- 52 users
- qiita.com/KIYS
- テクノロジー
- 2019/09/18
*印が付いているものは初めてさわった技術です。はい、お恥ずかしながらすべて初物です。（普段はJavaとかJavaとかJavaとかさわってます） Vue.jsを使用したSPAで作成しています。当初はRuby on Railsで作り始めたのですが、作るWebサービスを考えるとバックエンドはフルスタックなものはいらない・むしろデータ加工したAPIを返すだけで良いんじゃ？と思い、一気に方針転換してSPAで作るように変更しました。バックエンドフレームワークも、Flaskに変更しました。 Flaskは一般にマイクロフレームワークと呼ばれていて、1ファイルで成り立つようなくらいなモノで小さく始められます。が、Flaskの機能自体は少ないわけではなく、ディレクトリ構成なども特に規定があるわけでもなく、自由なので初心者には結構難しいFWなのかなという感じでした。（RailsやDjangoのように規約に
- 個人開発
- あとで読む
- web
- 開発
- Qiita
- webservice
- IT
- これはすごい
2021年データサイエンスにオススメの本80冊！｜Octoparse Japan
- 52 users
- note.com/octoparsejapan
- テクノロジー
- 2019/09/07
ビッグデータの発展とともに、データサイエンスは今広く知られるようになりました。大学にデータサイエンスを学べる学部ができたり、データサイエンティストを目指している人もたくさんいるでしょう。この記事では、統計学から機械学習やマーケティングまで、初心者がデータサイエンスを学ぶのにおすすめの本を80冊紹介します！ Part I: データサイエンス概論1.『データサイエンス講義』Rachel Schutt、Cathy O'Neil 著本書では、データサイエンスを行う上で、どのようなプロセスが必要か、データサイエンティストとしてはどのようなスキルセットが必要で、どのような思考方法を選択する必要があるのかを実例を多数示しながら紹介します。 2.『戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニック』Foster Provost、Tom Fawcett著本書は、データをビジネスに活か
- データサイエンス
- あとで読む
- データ
- 学習
- 統計
- 本
- book
- まとめ
【Python実践編】ビットコインのアービトラージ（裁定取引）コード例 - Qiita
- 52 users
- qiita.com/kimukouM
- テクノロジー
- 2021/02/10
[8/27追記] 投資関連のPythonプラグラム等を自由にシェアできるサービスのベータ版を作成しました。興味がある方は覗いてみてください↓ inbaseシェア|EA・bot・プログラムのシェアサービスこの投稿では、Python3を使って仮想通貨の裁定取引を行います。今回は、コインチェックとGMOコインの価格差を利用してサヤ抜きを行うことを目指します。以前自分のブログで、【Pythonデモコード】仮想通貨のアービトラージ（裁定取引）botの作り方という記事を公開したのですが、こちらはあくまでもシュミレーションで実際に売買が作動することはありませんでした。今回は実際に取引所のAPIを操作するところまでコートに組み込んでみました。なおコインチェックと GMO コインの口座開設から API キーの発行までは下の記事で公開している手順と全く同じです。一応画像付きで解説しているので
Python: 時系列データの交差検証と TimeSeriesSplit の改良について - CUBE SUGAR CONTAINER
- 52 users
- blog.amedama.jp
- テクノロジー
- 2020/03/27
一般的に、時系列データを扱うタスクでは過去のデータを使って未来のデータを予測することになる。そのため、交差検証するときも過去のデータを使ってモデルを学習させた上で未来のデータを使って検証しなければいけない。もし、未来のデータがモデルの学習データに混入すると、本来は利用できないデータにもとづいた楽観的な予測が得られてしまう。今回は、そんな時系列データの交差検証と scikit-learn の TimeSeriesSplit の改良について書いてみる。使った環境は次のとおり。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.6 BuildVersion: 18G3020 $ python -V Python 3.8.1 下準備あらかじめ、必要なパッケージをインストールしておく。 $ pip install scikit-le
AutoTrainでテキスト分類 - Qiita
- 51 users
- qiita.com/relu
- テクノロジー
- 2022/04/09
AutoTrain🚂🚂🚂とはノーコードでテキスト分類や要約などがstate-of-the-artできるサービスです。AutoNLPだとググラビリティが低かったので名称が変わったのだと思います。データ準備 livedoorニュースコーパスのタイトルと本文を結合して、9つのカテゴリを分類しようと思います。 !wget https://www.rondhuit.com/download/ldcc-20140209.tar.gz !tar xf ldcc-20140209.tar.gz import glob import pandas as pd data = [] for path in glob.glob('text/**/*-*.txt'): with open(path) as f: data.append({ 'url': next(f).strip(), 'datetime
- 自然言語処理
- 文章
- qiita
- あとで読む
- text
- git
- AI
- サービス
最新の Google Gemma モデルを MLX を使ってローカルでファインチューニング｜alexweberk
- 51 users
- note.com/alexweberk
- テクノロジー
- 2024/02/25
今回は、最新の Google Gemma モデルを Apple Silicon に最適化されたライブラリ MLX を使ってローカルで実行したり、ファインチューニングしてみましたのでその手順を紹介します。 MLX 関連の情報はドキュメンテーションが分かりづらいものも多かったので色々試した経緯も共有しながら少しでも何かの参考になれば幸いです。実際に使った Jupyter Notebook を Gist にアップロードしていますので、そちらも参考にしてください。 →Google Gemma モデルを MLX を使ってローカルでファインチューニング事前準備必要なライブラリをインストールします。また Apple Silicon 搭載の Mac が必要です。今回は M3 Max 128GB 搭載の MacBook Pro で実行しました。 !pip install -U mlx mlx_lm t
- LLM
- LoRA
- あとで読む
- google
- AI
- 機械学習
- 学習
Polars
- 51 users
- pola.rs
- テクノロジー
- 2021/12/17
01FastPolars is written from the ground up with performance in mind. Its multi-threaded query engine is written in Rust and designed for effective parallelism. Its vectorized and columnar processing enables cache-coherent algorithms and high performance on modern processors. 02Easy to useYou will feel right at home with Polars if you are familiar with data wrangling. Its expressions are intuitive
- Rust
- python
- dataframe
- library
- pandas
- data
2日目：Python 3.10新機能パターンマッチの神髄がわかる | gihyo.jp
- 51 users
- gihyo.jp
- テクノロジー
- 2022/01/13
先日公開した「PyCon JP 2021」1日目のカンファレンスレポートはいかがでしたでしょうか？本レポートでは引き続き、2日目の様子をご紹介します。 PyCon JPは日本国内外のPythonユーザーが一堂に会し、互いに交流を深め、知識を分け合い、新たな可能性を見つけられる場所として毎年開催される国際カンファレンスです。 PyCon JP 2021は2021年10月15日～16日のカンファレンスと2日間の会期で開催されました。今回は16日に行われたカンファレンスの中から、注目セッションと感想について運営スタッフがレポートします。 Day2 Keynote：A Perfect match ―Mr. Brandt Bucher （nikkie） 2021年10月、PyCon JP 2021の少し前にリリースされたPython3.10。その目玉機能といえば、Structural Patte
プログラミングする時に知っておきたいPythonライブラリ13選
- 51 users
- aizine.ai
- テクノロジー
- 2021/01/17
Pythonライブラリとは Pythonのライブラリとは、複数のパッケージをまとめたものです。パッケージは複数のモジュールをまとめたもので、モジュールは複数の関数をまとめたものです。つまり、のような関係性があります。ライブラリには、標準ライブラリと外部ライブラリがあります。標準ライブラリは、Pythonをインストールした際に標準でインストールされているライブラリです。そのため、自分でインストールをする必要はありません。対して外部ライブラリは、標準ではインストールされておらず自分でインストールが必要なライブラリです。ではここからは、各ライブラリの紹介しましょう。まずはこれから！標準ライブラリ3選標準ライブラリでおさえておきたいライブラリは3つです。 pip Pythonで書かれたライブラリをインストールや管理をするためのライブラリがpip。ライブラリをインストールする場合、pi
Jupyter Notebookと Boto3で AWS環境定義書を作成してみる | DevelopersIO
- 50 users
- dev.classmethod.jp
- テクノロジー
- 2020/02/11
Jupyter Notebook(以降 Notebook) は実行可能なプログラムコードや分析結果、グラフなどを含んだドキュメントを作成するための OSSです。画像：https://jupyter.org/ Pythonによるデータ分析でよく利用されます。特徴として「Markdown セル」と「Code セル」を Notebook内へ配置できます。データ分析のプロセスの文脈を Markdownセルに書くことで、プログラムのコメント以上の表現力で、プロセスを記述できることできます。データの可視化についても、Notebookは優秀です。 Matplotlib のグラフや、Pandas のテーブルなどを Notebook内にインライン表示してくれます。さて、Markdownセルによるドキュメンテーション、 pandas によるテーブル表記でふと思いました。「Jupyter No
- aws
- jupyter
- Python
- あとで読む
- コマンド
- html
時系列分析をお手軽に！機械学習ライブラリDartsの実演 - DATAFLUCT Tech Blog
- 50 users
- tech.datafluct.com
- テクノロジー
- 2022/05/02
こんにちは！以前にDartsという時系列分析に特化したpythonライブラリを紹介しました。前編はこちら今回は実際にDartsを動かしていきましょう。 Darts内にもデータセットがありますが、公式でも触れられているのであえて、外部のデータを参照してみましょう。導入編でも触れたアイスクリームの生産量の変化を推測したいと思います。アイスクリームのデータセットはこちら上記リンクの上部右側Downloadからcsvをダウンロードしてください。 Dartsのインストールは以下の1コマンドです。Windowsではデフォルトのコマンドプロンプトでうまくインストールが終了しなかったので、WSL環境などを推奨します。 $ pip install darts ARIMAで学習してみるバックテストでモデルの選定を行う RNNで共変量を扱ってみるまとめ ARIMAで学習してみるまずは、導入編で最
数学に強いエンジニアむけの機械学習勉強法
- 50 users
- hayato-iida-0213.medium.com
- テクノロジー
- 2020/04/06
今年の3月から機械学習の勉強を始めて9ヶ月たったのでその振り返りと今後機械学習に入門する人の参考になればという記事です。巷の記事だと「数学何もわからない人向けの機械学習~」みたいなものが多いので「数学チョットワカル人向け」に勉強方法をまとめてみようと思いました。前提として筆者は大学で数学を専攻しており、社会人になってからはプログラミングを生業としております。 # 前提知識のおさらいいきなり機械学習入門～のような書籍に入る前に、基礎知識としてこの辺を抑えておくと良いと思います。 ## 線形代数:大学1年レベル機械学習の説明はほとんど行列の計算として表現されますので大前提として。手を動かして計算問題を解くのもおすすめです。プログラミングのための線形代数 https://www.amazon.co.jp/dp/4274065782 ## 基礎統計(頻度主義):大学1年レベル正規分布や指数分
- 機械学習
- 統計
- あとで読む
- 数学
- 勉強
【日本株対応】Pythonで株価のローソク足データを取得する方法まとめ【CSV、ライブラリ、スクレイピング】
- 50 users
- myfrankblog.com
- 暮らし
- 2021/01/04
方法①はシンプルでは手軽に利用できますが、データ読み込み後のデータ整形作業が必要になります。また、複数の銘柄の株価データを集める際には手間がかかります。 1つの銘柄で、なおかつ1度限りの分析であれば有効と思いますが、繰り返し分析したり、複数銘柄を扱いたい場合には不便です。データ取得の手順を解説ここからは、Investing.comから株価データをCSV形式でダウンロードして、Pythonで読み込み、データ整形するまでの手順を解説します。 *無料登録が必要です。株価データを取得するには無料の会員登録が必要になります。必要なのはこれだけです。お金もかからないので余裕ですね。銘柄を検索してCSVファイルをダウンロード会員登録を済ませてログインすると株価データをCSV形式でダウンロードできるようになります。データは日足、週足、月足から選択することができます。 Investing.com
- python
- データ
- あとで読む
- 株
- 調査
- 勉強
- 投資
Pandas で時系列データをグループ化して集計できる「Grouper」 - kakakakakku blog
- 50 users
- kakakakakku.hatenablog.com
- テクノロジー
- 2021/05/24
Pandas で groupby() 関数を使うと，データセットをグループ化して集計できる．さらに Grouper オブジェクトと組み合わせると，より高機能なグループ化を実現できる．今回は groupby() 関数と Grouper オブジェクトを組み合わせて「時系列データの集計」を試す．最後に関連する resample() 関数も試す． pandas.DataFrame.groupby — pandas 1.2.4 documentation pandas.Grouper — pandas 1.2.4 documentation データセット 🪢 今回使うサンプルデータセットを準備する．まず，Pandas の date_range() 関数を使って 2020/1/1 ~ 2020/12/31 の範囲で1年間の DatetimeIndex を作る．そして DatetimeIndex をイ
機械学習における解釈性について | メルカリエンジニアリング
- 50 users
- engineering.mercari.com
- テクノロジー
- 2019/12/24
こんにちは。Merpay Advent Calendar 2019 の24日目は、メルペイ Machine Learning チームの @yuhi が機械学習における解釈性についてお送りします。目次機械学習における解釈性とはなぜ解釈性が必要なのか 1. サービスを提供する事業者としての説明責任 2. 推論結果に対する社内外の関係者の理解 3. モデルのデバッグ、精度改善どのようなアプローチがあるのか SHAPについてサマリ基本的なアイディア問題設定説明可能モデルに対して満たしてほしい性質説明可能モデルを求める SHAPの実装について最後に References 機械学習における解釈性とは深層学習をはじめとする機械学習分野の発展に伴って、これまでにないユニークなサービスが開発され、また多くの業界において業務が効率化、高度化されつつあります。メルペイでも機械学習を用いて、
Kaggle Days World Championshipで優勝した話 - ABEJA Tech Blog
- 50 users
- tech-blog.abeja.asia
- テクノロジー
- 2022/11/18
ABEJAでデータサイエンティストをしている服部です。 2022年10月28, 29日にバルセロナにてKaggle Days World Championship Finalというデータサイエンスに関するイベント兼コンペティションが開催され、そこに参加しました。そして幸いなことに私の所属するチームが優勝することができました！！本記事では今回のイベントそのものと、優勝に至るまでのコンペ上での過程や工夫点などについてご紹介しようと思います。 Kaggle Days World Championship Finalとは 1日目（ワークショップやプレゼンテーション等） Opening remarks by LogicAI and Kaggle HP introduction - Key note Kaggle Team - Ask Me Anything Winners team present
- kaggle
- チーム
- 機械学習
- あとで読む
- データ
- 学習
- 勉強
- tech
なぜあなたのA/Bテストはうまくいくのか？A/Bテストの分析で注意すること | CyberAgent Developers Blog
- 50 users
- developers.cyberagent.co.jp
- テクノロジー
- 2021/12/18
概要同じ介入を比較するA/Aテストで統計的に有意な差が出てしまうケースがあるその原因は、A/Bテストの指標の設計に失敗していることかもしれないこの問題の対処法としてユーザベースCTR、デルタメソッド、クラスターロバスト標準誤差を紹介するこれらの手法は実務で運用する上では一長一短はじめに AI事業本部Dynalystの伊藤、小売セクターの藤田(@6km6km)です。 DynalystはReal Time Biddingと呼ばれる広告オークションにおいて広告枠の買付を行うプラットフォーム（DSP: Demand Side Platform）です。DSPでは、ユーザに広告を表示する際に複数あるクリエイティブの候補からひとつクリエイティブを選ぶ必要があり、その選択ロジックにバンディットアルゴリズムを用いています。（参考リンク1, 2）以下では、バンディットアルゴリズムのA/Bテストをす
- abTest
- 分析
- テスト
- あとで読む
- 統計
Netflix社のMLOpsの事例を紹介します | 行灯Labo（アンドンラボ）｜JapanTaxi採用ブログ
- 50 users
- blog.japantaxi.co.jp
- テクノロジー
- 2019/11/21
その中で特に面白かったNetflix社の事例を紹介します！ Netflix社事例「A Human-Friendly Approach to MLOps」 Netflix社では、「Metaflow」と呼ばれる独自フレームワークを開発して、データサイエンティストに提供することにより、機械学習アプリケーションの開発・運用を社内で拡大することを実現している。 Netfliexのデータ分析の目標コンテンツの発売前に、日毎の視聴者数の予測がしたい。これにより、優先度付やリソースの配置を考えているゴールは２つ 190カ国すべてのオフィスにて、データから一貫した洞察を得られるようにする意思決定者のために正確で即時の情報を提供するデータ分析プロジェクトの進め方型と課題データ探索（〜２週間）notebookなどを用いて、データの振る舞いを理解して、どの特徴量を使うべきか等を探索するプロトタイピング（６
- MLOps
- 機械学習
- あとで読む
- Python
- Netflix
- ML
ランサーズのデータ活用を手伝っている話 - 下町柚子黄昏記 by @yuzutas0
- 49 users
- yuzutas0.hatenablog.com
- テクノロジー
- 2020/12/24
ランサーズ Advent Calendar 2020 24日目の記事です。昨日はまなみんさんの「思考発話法でUXリサーチをしてみた話」でした。概要社員ではなく、1人のフリーランス人材（ランサー）として、ランサーズ社を手伝っています。「こんなことをやってきたよ！」という話を、書ける範囲で書きます。 CRM（顧客管理）x データ活用の案件を主に担当しています。注意本稿は筆者個人の見解に基づく内容であり、関係組織を代表するものではありません。不適切・考慮不足だと感じさせてしまう点があれば、それは筆者個人の責任によるものです。どうぞ筆者個人宛てにご指摘のコメントをいただけますと幸いです。もくじ概要注意もくじきっかけ案件1:顧客セグメント可視化案件2:社内システム改善案件3:オープンデータ活用その他:データプラットフォームのメンテナンス性向上意識している
Pythonのスタイルガイドの確認 - めも
- 49 users
- paper.hatenadiary.jp
- テクノロジー
- 2019/12/14
スタイルガイド PEP-8 Google Python Style Guide django 既存のコードに対するpep8の確認 pep8 flake8 autopep8 docstringのフォーマット各スタイルガイド要約 PEP8 Google C++ 参考文献自分の確認用です.　C++のスタイルガイドの確認も自分の勉強用です. スタイルガイドスタイルガイドは、出版物などにおいて統一した言葉遣いを規定する手引き (出典：スタイルガイド - Wikipedia) コーディングにおいても, 基本的な書き方のルールをある程度定めることで理解しやすいコードになりうる. いくつか種類が存在する. PEP-8 peps/pep-0008.txt at master · python/peps · GitHub はじめに — pep8-ja 1.0 ドキュメント Google Python
ゼロからはじめるPython(53) Python vs Excel 五番勝負 - 仕事で使えるのはどちら？
- 49 users
- news.mynavi.jp
- テクノロジー
- 2019/08/21
今回は、仕事で使うことを主眼において、PythonとExcelを比較してみよう。結論から言えば、適材適所で用途に応じて使い分けるのがベストだ。とは言え、どのような場合にPythonを使うと良いのか考察してみよう。 Python vs Excel - 五番勝負第一回戦 - どちらが気軽に使えるか？最初に、PythonとExcelで「どちらが気軽に使えるか」を比べてみよう。言うまでもなく、Excelを使う時は、スプレッドシートのセルにデータを入力し、マウスで操作を選んでいくというスタイルだ。これに対して、Pythonはエディタでプログラムを書いて実行するか、Jupyter NotebookやColaboratoryなどの対話実行環境を開いて、プログラムを記述していくというスタイルだ。 ExcelはGUIで操作を行う Pythonはエディタや対話環境を開いてプログラムを記述していくやはり、
MLflowの使い方 - 機械学習初心者にもできる実験記録の管理 - - DATAFLUCT Tech Blog
- 49 users
- tech.datafluct.com
- テクノロジー
- 2022/06/03
こんにちは！nakamura（@naka957）です。今回はMLflowをご紹介します。読者の皆さんは、機械学習モデルのハイパーパラメータ調整を手作業で管理し、苦労した経験がないでしょうか。実験記録の管理は大事な一方で、なかなか大変です。今回紹介するMLflowは、実験記録を簡単に管理できる便利なPythonライブラリです。MLflowは実験管理だけでなく、機械学習プロジェクト全体を管理する様々な機能を提供する非常に人気なライブラリです。一方で、多機能な反面で初心者が最初に導入するにはハードルが高い側面があるのも事実です。本記事では、MLflowの実験管理の機能に絞り、簡単な例で使い方をご説明します。そのため、初めて使用する方も安心してご覧ください。では、早速始めていきます。実験記録の重要性 MLflowとは MLflowのインストールデータセット準備機械学習モデルの用意 M
達人に学ぶSQL徹底指南書第2版初級者で終わりたくないあなたへ　を読みました - YOMON8.NET
- 49 users
- yomon.hatenablog.com
- テクノロジー
- 2019/12/22
この本を読みました。達人に学ぶSQL徹底指南書第2版初級者で終わりたくないあなたへ (CodeZine BOOKS) 作者:ミック翔泳社Amazon 目次 1部　魔法のSQL 2部　リレーショナルデータベースの世界自分のレベルと書籍のレベル自分のレベル書籍のレベルサンプル・演習の実行環境準備実行環境コンテナ起動 pgcliで接続 psqlで接続コンテナ削除 SQLファイルダウンロード所感すぐに使える内容もいっぱい読みやすい 2部の理論難しい 2021/11/24 所感追記目次まず目次から。2部構成になっていて、第1部は主に演習をしながら進めていくタイプの内容で、第2部は主に読み物としてリレーショナルデータベースの世界を覗くものになります。 1部　魔法のSQL 1 CASE式のススメ 2 必ずわかるウィンドウ関数 3 自己結合の使い方 4 ３値論理とNULL 5
機械学習初心者がKaggle Masterになって昇進した話 - Qiita
- 49 users
- qiita.com/kazuki_y
- テクノロジー
- 2022/12/16
この記事はKDDI Engineer&Designer Advent Calendar 2022の16日目の記事です。はじめにはじめまして、KDDI株式会社の@kazuki_yです。 KDDIではデータサイエンティストのエキスパートとして、お客様向けサービスのデータ分析支援やAI・データ利活用の全社方針策定などの業務を行っております。コンペ経歴は約2年半でKaggle MasterとSIGNATE Masterの称号を持っています。本記事では、機械学習初心者がKaggleにどう取り組んで、どのようにKaggle Masterになったのか、Kaggleに取り組んで良かった点を振り返っていきたいと思います。世の中では度々Kaggleは役に立たない論が出てきますが、私としては昇進もして、賞金も獲得して、技術力も得て、更には自信もついたので超役に立つと思います！本記事が参加への一助になれ
- kaggle
- 機械学習
- あとで読む
- qiita
- 学習
- 勉強
不均衡データ分類問題をDNNで解くときの under sampling + bagging 的なアプローチ - BASEプロダクトチームブログ
- 48 users
- devblog.thebase.in
- テクノロジー
- 2020/02/29
はじめにこんにちは、Data Strategy所属の岡です。グループ会社BASE BANKで分析/モデリングなども兼務しています。テキストデータを特徴量にもつ不均衡データ分類問題をDNNで解きたくなった際、下記の論文を参考にしたのでその内容を紹介します。 https://users.cs.fiu.edu/~chens/PDF/ISM15.pdf 不均衡データ分類問題ってなに？何かしらのカテゴリを機械学習などで分類予測しようとする際、カテゴリごとのデータ件数に偏りがある、特に正例のデータが極端に少ないケースで予測精度が上がりにくい、という問題をこのように呼んでいます。例: 不正決済と正常な注文、不正商品と健全な商品、がん患者と正常な患者普通はどうやって対処するの？ベースとなるアプローチは下記3つにまとめられます。アプローチ内容デメリットアンダーサンプリング多数派データを
ベイズ最適化で最高のコークハイを作る - わたぼこり美味しそう
- 48 users
- tellmoogle.hatenablog.com
- テクノロジー
- 2020/01/06
はじめにコークハイとか酎ハイをお店で飲むと、割り方とかレモンが効いていたりとかでお店によって結構違いが出ますよね自分好みの最高のコークハイの作り方を知ることは全人類の夢だと思います。本記事は一足先にそんな夢に挑戦したという記事です。手法としてはベイズ最適化を使用します。実データで実験計画と絡めながらベイズ最適化を実際に行う記事はあまり見かけなかったので今回は、最適化パラメータ 1. コーラとウイスキーの比 2. レモン汁の量目的変数コークハイの美味しさという2次元入力、1次元出力で実際に実験とチューニングを並行しながら行ってみたいと思います。目次はじめにベイズ最適化とは実験系の説明実験条件実験で考慮しないこと(パラメータ) 実験材料実験方法スコアの付け方実験をやりました（本題）実装コード実験開始 ARDありver. 反省点さいごにベイズ最適化とは
検索エンジンPyTerrierを使った日本語検索パイプラインの実装 - エムスリーテックブログ
- 48 users
- www.m3tech.blog
- テクノロジー
- 2022/04/26
エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。検索とGoが好きです。今回は社内でPyTerrierを採用して文書検索BatchをPythonで実装したので、PyTerrierの紹介とPyTerrierで日本語検索を実装する方法を紹介します(日本語でPyTerrierを扱う記事は多分初?)。 PyTerrierとは弊社でのPyTerrier利用 PyTerrierで日本語検索 Phrase Queryの注意点まとめ We're hiring !!! PyTerrierとは Terrierのロゴ PyTerrierは、Pythonでの情報検索実験のためのプラットフォームです。 JavaベースのTerrierを内部的に使用して、インデックス作成と検索操作を行うことができます。基本的なQuery RewritingやBM
Pythonでボリンジャーバンド、売買シグナル、バックテスト - Qiita
- 48 users
- qiita.com/Mituru-Kogomon
- テクノロジー
- 2023/06/07
株価は95.4%の確立でボリンジャーバンド±2σの範囲内に収まるエンジニア未経験、Qiita覚えたので初投稿仮説 4.6%でしか負けないならボリンジャーバンドで売買すれば絶対に勝てる条件初期資本100万円、1ポジション100株、手数料0、副ポジション無し、25日移動平均線を基準使用ライブラリ yfinance 株価取得 Pandas データフレーム matplotlib.pyplot グラフ tqdm プログレスバー datetime Timestampオブジェクト os csv保存処理順序株価取得移動平均線、標準偏差、ボリンジャーバンド、乖離率の算出売買ルール制定、バックテストリターンの算出グラフ化必要なライブラリのインストール
AWS による Jupyter の生成系 AI の民主化とノートブック実行のスケールのための新しい拡張機能を発表 | Amazon Web Services
- 48 users
- aws.amazon.com
- テクノロジー
- 2023/05/22
Amazon Web Services ブログ AWS による Jupyter の生成系 AI の民主化とノートブック実行のスケールのための新しい拡張機能を発表 Project Jupyter は複数のステークホルダーで運営されるオープンソースプロジェクトであり、データサイエンス、機械学習、計算科学のためのアプリケーションだけでなく公開標準やツールも開発しています。なかでも、2011 年にリリースされた Jupyter Notebook は学術、研究、産業のあらゆる分野で世界で数百万人のユーザーが使用するデファクトスタンダードのツールとなりました。Jupyter ではユーザーがコードやデータをインタラクティブに実行でき、完全に再現可能な作業記録として作成、共有することが可能です。 AWS はデータサイエンティストや機械学習エンジニアにとって欠かせない Jupyter を開発する Proj
- AWS
- あとで読む
- Jupyter
- AI
安定期に入っている「機械学習OSS」だからこそ貢献しやすい　実績やキャリアにつなげるために大切な、知識や実装の可視化
- 47 users
- logmi.jp
- テクノロジー
- 2022/05/28
「つよいエンジニア」になるためのオープンソースの使い方をはじめ、OSSへの貢献を推奨している企業のエンジニア文化や、コミッター視点からみたOSSの未来について話す「TECH HILLS～まつもとゆきひろ氏と考えるつよいエンジニアになるためのオープンソースの使い方～」。ここでキャディ株式会社の河合氏が登壇。機械学習OSSの現状と未来について話します。自己紹介河合俊典氏：「機械学習OSSの変遷と未来」と題して発表します。「ばんくし」として活動しています。今、キャディという小さい製造業向けのITベンチャーで機械学習とかデータサイエンスをやるチームを立ち上げて、そこでリーダーをやっています。前職はM3という医療ITの会社ですが、そこのフェローをやらせてもらっています。私は“ギルド”と呼んでいますが、趣味でそういった開発が好きな人で集まって開発をするチームを組んでいて、そこの主宰もやっていま
【Python】データ可視化ライブラリAltairハンズオン【基礎編】 - Qiita
- 47 users
- qiita.com/keisuke-ota
- テクノロジー
- 2022/12/05
Altair のようにインタラクティブなグラフを作成できる Python の可視化ライブラリとして、他には Bokeh や Plotly などがあります。それぞれ作成可能なグラフの種類やデザインが異なるため、好みに合わせて使い分けるとよいと思います。個人的な意見としては、三次元モデルの可視化が得意なのは Plotly で、二次元モデルの可視化が得意なのは Altair です。データ作成今回は架空の学校で行われた期末試験の得点をデモデータとして作成します。この学校には学生が 30 人在籍し、普通、特進、理数の 3 コースが存在します。期末試験の科目は国語、数学、理科、社会、英語で各教科 100 点満点とします。 import random import pandas as pd # パラメータ N = 30 # 学生の人数 mu, sigma = 60, 18 # 学力の平均と標準偏差
- Python
- プログラミング
- あとで読む
- qiita
- データ
- clip
- IT
- programming
仕事する前に知っておくと幸せかもしれないpandasのきほん - read関数にはとりあえずURL渡しておけ - Lean Baseball
- 47 users
- shinyorke.hatenablog.com
- テクノロジー
- 2021/06/21
お仕事や, （個人的には）趣味のデータ分析・開発などでpandasをよく使う人です. pandasはPythonでデータサイエンスやデータ分析（解析）をやってると必ずと言っていいほどよく使うライブラリだと思います. お仕事で同僚やインターンが書いたnotebookをよく読む（レビューする）のですが, 煩雑なことやってるけどこれ一行で書けるやで最初からデータを整理するとそんな面倒くさいことしなくても大丈夫やで ...といったコメントを返す機会が増えてきました. これらは当人たちにフィードバックしているのですが, このフィードバックの内容が案外重要な気がしてきたのでブログに書いてみることにしました. 読んだ方の理解・生産性の向上および, 「つまらない仕事が334倍楽になる」ような感じにつながると嬉しいです🙏 TL;DR pandasのread関数にはとりあえずURLを渡しておけ &使うカラ
お手軽で欲しい機能が揃っている実験管理ツールGuild AIの紹介 - kuromt blog
- 47 users
- kuromt.hatenablog.com
- テクノロジー
- 2020/09/12
機械学習の実験管理ツールにGuild AIというものがあります。特に大きな特徴はコード追加なしで実験管理ができるというものです。試しに触ってみたところ、まさにコード追加なしで簡単に試せる、ちょっとした条件を変えた実行も簡単、結果の可視化はシンプルなCLIもリッチなGUIもどちらも用意されている、ローカルだけではなくS3にもデータを保存できる、しかもWebサーバを別に立てる必要がなく手元の環境で完結します。ただ、Guild AIは一部の方にSNS上で言及されているものの日本語で書かれたドキュメントやブログは見つかりませんでした。良いツールが埋もれるのはもったいないと思いGuild AIの記事を書くことにしました。この記事の前半では実行条件を変えながら実行して結果を可視化するまでの流れを紹介します。Guild AIのお手軽さをお伝えすることを意識しました。後半はある程度実務での状況を想
RからPythonへのお引越しでわかること - Jupyterと世界の野球から理解する - Lean Baseball
- 47 users
- shinyorke.hatenablog.com
- 暮らし
- 2019/11/17
サムネイルがまんま結論の一部です&タイトルでビビッと来たアナタ（+野球好き）が対象読者です. ちょっとやりたいことがあって, やりたいこと⚾のサンプルがたまたまRだったこのあと自分で分析したりなにか作るんやったらPythonでやりたいせや！RからPythonに移植しちゃえば良いンゴってことで, 粛々とRからPythonに移植した時に気がついた事をサラッと書きたいと思います. 最初に断っておくと, RよりPythonが優秀（またはその逆）だから書き換える！って意味ではありません！どっちが優秀だの, 好みは何だのといった所は（必要と思った箇所を除き）触れないのでご了承ください.*1 というわけで, 変に力んだりマウントを取ること無く, ごゆるりとおくつろぎながら読んでもらえると幸いです. TL;DR 数式を意識しながら読んだり, 統計的にいい感じにしたい時はRの方がしっくりくる. 一方
- R
- python
- jupyter
- 野球
- あとで読む
Numeraiで学ぶ金融時系列モデル評価指標
- 46 users
- zenn.dev/katsu1110
- テクノロジー
- 2023/07/04
雨にも負けず風にも負けず冬にも夏の過熱相場にも負けぬロバストな予測を持ち強欲はなく決して悲観せずいつも静かに利益を重ねている ... そう言うモデルを私は作りたい by ??? (20??年) 前書きこんにちは。日本爆損防止委員会です(さっき考えた)。さて、皆さんは今日も今日とて爆損を垂れ流していらっしゃると思います。その原因は様々あろうかと思いますが、そもそも「原因がわからない」という方がほとんどではないでしょうか。爆損しているのに原因がわからない、というのは、言うまでもありませんが大変なストレスです。楽しい思いをしようと小さな島に遊びに行ったら殺人事件が起きて誰が犯人かわからないけど容疑者の人たちと一緒に暮らさないといけないイメージです（?）。どうせ爆損するなら、「あーワイのモデルはこういう市況に弱いことが検証でもわかってて、今はその市況だから爆損なんやー」と原
- 機械学習
- あとで読む
- finance
- dev
- ai
【機械学習】機械学習を用いたin silico screening【AI創薬】~第2/5章スクレイピングによる公共データベース（PDB)からの機械学習データを収集~ - LabCode
- 46 users
- labo-code.com
- テクノロジー
- 2024/02/01
AI創薬とは？ AI創薬は、人工知能（AI）技術を利用して新しい薬物を発見、開発するプロセスです。AIは大量のデータを高速に処理し、薬物の候補を予測したり、薬物相互作用を評価したりします。また、AIは薬物の効果や安全性をシミュレートすることも可能で、臨床試験の前の段階でリスクを評価することができます。これにより、薬物開発のコストと時間を大幅に削減することが期待されています。AI創薬は、薬物開発の新しいパラダイムとして注目を集め、製薬企業や研究機関で積極的に研究、導入が進められています。また、バイオインフォマティクス、ケモインフォマティクス、機械学習、ディープラーニングなどの技術が組み合わされ、薬物開発のプロセスを革新しています。さらに、AI創薬は個人化医療の推進にも寄与し、患者にとって最適な治療法を提供する可能性を秘めています。今回はAI創薬の中でも、in silico screeeni
NumPy Illustrated: The Visual Guide to Numpy
- 46 users
- betterprogramming.pub
- テクノロジー
- 2020/12/25
Image credit: AuthorNumPy is a fundamental library that most of the widely used Python data processing libraries are built upon (pandas, OpenCV), inspired by (PyTorch), or can efficiently share data with (TensorFlow, Keras, etc). Understanding how NumPy works gives a boost to your skills in those libraries as well. It is also…
- NumPy
- python
- あとで読む
- プログラミング
- HotEntry
- 勉強
- IT
- programming
サイエンティストとエンジニアでつくるML ワークフロー - スタディサプリ Product Team Blog
- 46 users
- blog.studysapuri.jp
- テクノロジー
- 2020/12/19
こんにちは、データエンジニアの@masaki925 です。この記事はMLOps Advent Calendar 2020 の19 日目の記事です。 MLOps には、その成熟度に応じて3つのレベルがあると言われています。 MLOps レベル 0: 手動プロセス MLOps レベル 1: ML パイプラインの自動化 MLOps レベル 2: CI / CD パイプラインの自動化私の所属するチームでは現在ここのレベルを上げるべく取り組んでいますが、その中でデータサイエンティスト(以下、DS) とデータエンジニア(以下、Dev) の協業って難しいよな〜と思う事例があったので紹介したいと思います。想定読者は以下のような方です。これからMLOps を始めようとしている方既存プロジェクトがあり、ML 等を使ってエンハンスしていきたいと考えている方異文化協業に興味がある方 ML ワークフロー
LightGBMを使って競馬予想で回収率100％を超えるコードを書いた（その2） - Qiita
- 45 users
- qiita.com/km_takao
- テクノロジー
- 2020/08/31
つまりモデルでは穴馬の当選も予測できているが、卍氏の賭け方では予算の金額によって賭けられる最大オッズが下がってしまい、穴馬に賭けることができなくなります。その影響によりオッズの低い人気馬しか賭けることができず、回収率が下がる要因ともなっているようです。しかしその反対に荒れなかったレースについては卍氏の賭け方のように傾斜をつける方が回収率を上げる要因になっています。なお今考えている予算が10万円の場合、複勝のようにオッズが低い場合（せいぜい5倍前後で）はあまり影響しません。しかし単勝ではオッズが約10倍以上の場合は、最小賭け金が100円のため、特に影響が出るようです。このあたりは賭け金の計算式の定数(今の場合0.01)と自身の予算、モデルの予測値との検討が必要となります。コードの公開 noteにて公開します。またコードの詳細な説明は公開するnote及びnotebook内のコメントにて記