[B! python] hoxo_mのブックマーク

2022年度版Python環境構築徹底解説 - Qiita

各機能とツールについて、説明していきます。エディタ Visual Studio Code エディタやIDE(統合開発環境)は好きに選んでいただければ良いとは思いますが、特に希望がないならば、Visual Studio Codeを選んでおけば間違いないでしょう。 Pythonを含む幅広い言語に対応し、豊富な拡張機能を備えている非常にリッチなエディタです。とりわけPython プロジェクトについては、これさえ有れば、特にIDEなどは必要ないと思います。インストールは↓から。バージョン管理ソフト Python3系は日夜アップデートされていて、2022年12月現在の最新verは、3.11.1が提供されています。とはいえ、プロジェクトによっては、3.7.1までしか動作が担保されていないもの、3.9.0で現在開発中のもの...などがあります。最新のPythonが常に必要、というわけでは決してなく

hoxo_m 2022/12/26

来年も環境構築がんばるぞい！

python

リンク

はじめてPyPIにPythonライブラリを登録した話

（2022年11月25日追記）私の本が株式会社インプレス R&Dさんより出版されました。この記事の内容は含まれていませんが、ライブラリは登場します。イラストは鍋料理さんの作品です。猫のモデルはなんとうちのコです！感想を書いていただけるととても嬉しいです！（2022年8月3日追記）この記事で登録したライブラリを使ったWebサービスの作り方が本になりました。ただしPyPIへの登録方法は本には載っていません。はじめに先日、生まれてはじめてPyPIにPythonライブラリを登録しました。PyPIというのはPython Package Indexの略で、ここにパッケージを登録するとpip installでインストールできるようになります。経緯は以下の通りです。もともとIMAP4をJSON化するAPIをローカルで動かすメール受信システムがあった AWS LambdaとAPI Gatewa

hoxo_m 2022/10/10

python

リンク

混ぜるな危険！ndarrayとmatrix - Qiita

TL;DR numpy.matrixは非推奨。numpy.ndarrayと@演算子を使いましょう。はじめに少し前に「大名行列を特異値分解してみる」という記事を書いたところ、元同僚さんから「numpy.matrixはdeprecatedですよ」と言われて驚きました1。調べたらStackOverflowにやたら詳しい解説が載っていたので、それをもとに説明してみようと思います。特異値分解とmatrixクラス線形代数に特異値分解(Singular Value Decomposition, SVD)という処理があります。m行n列の行列Xを、m行m列のユニタリ行列U、m行n列の対角行列S、n行n列のユニタリ行列Vの積に分けるというものです。なんか適当な行列を作ってみましょう。 import numpy as np from scipy import linalg X = (np.arange

hoxo_m 2022/10/08

python

リンク

Codable Model Optimizer: 最適化問題を気軽に解くためのPythonフレームワーク

はじめにこの記事では、当社内で開発した最適化フレームワークである「 Codable Model Optimizer 」について紹介します。リクルートでは、機械学習のビジネス活用に長く取り組んできましたが、機械学習によって将来の予測が正確にできたとしても、その予測を元に良い選択を決定できなければならない問題に直面することが増えてきています。例えば、商品に対する購入率が予測できたとしても、購入率の高い商品をたくさん表出させれば良いというわけではなく、実際には商品の在庫などを考慮してどのように表出させるのか意思決定する必要があります。膨大な選択肢からより良い選択を見つけ出す問題を"最適化問題"とよび、様々な解法があります。解法としては、数理最適化（主に厳密な最適解を見つけるのに使われる）やメタヒューリスティクス（厳密最適解ではないが、大規模な問題において良い解を見つけるのに使われる）など

hoxo_m 2022/08/03

リンク

はじめての自然言語処理 OSS によるテキストマイニング | オブジェクトの広場

前回はグラフベースのキーフレーズ抽出手法と pke での実験結果を紹介しました。今回は、spaCy, scattertext, ... 等々の OSS を用い各種のテキストマイニング手法についてコード例とサンプルプロットを交えながら説明したいと思います。 1. はじめに本記事ではテキストマイニングの概要と代表的な手法について、コード例とサンプルプロットを交えて説明します。分析対象には、この連載で何度か用いている livedoor ニュースコーパスを用い、Google Colaboratory で動かすことを想定したコードスニペットを入れていきますので、実際に動かしたり対象を変えてみたりして試して頂けると良いかと思います。 2. テキストマイニングとはテキストマイニングとは、ざっくり言うと「自然言語の文書データを対象に使用される単語の出現傾向等を分析して何らかの有益な情報を取り出すこと」

hoxo_m 2022/04/05

python
NLP

リンク

spaCyとGiNZAを使った日本語自然言語処理 - Qiita

はじめに本記事では、spaCyとGiNZAを使った日本語の自然言語処理の手順を紹介します。コードの部分ではspaCyのクラスがわかるように示していますので、ぜひ公式ドキュメントも参照ください。想定する読者以下の人を想定して書いてます。日本語の自然言語処理に興味がある人（※自然言語処理に関する知識は必要ないです。） Pythonのソースコードが読める人使用するライブラリ今回はspaCyとGiNZAという2つのライブラリを使用します。 spaCyとは spaCyは高度な自然言語処理を行うためのライブラリです。自然言語処理では対象とする言語（日本語や英語）によって必要な処理や複雑度が変わるのですが、spaCyは多言語対応を意識して設計・開発されており、そのアーキテクチャから学べることも多く非常に良くできたライブラリです。 spaCyでは訓練済みのモデルを読み込むことで多言語の自然

hoxo_m 2022/04/04

python
NLP

リンク

京都大学、Pythonの基本を解説した無料の教科書「素晴らしすぎる」「非常にわかりやすくて良い」 | Ledge.ai

Top > ラーニング > 京都大学、Pythonの基本を解説した無料の教科書「素晴らしすぎる」「非常にわかりやすくて良い」

hoxo_m 2021/10/20

今年もPythonに入門するかーʕ•̫͡•ʕ•̫͡•ʔ•̫͡•ʔ•̫͡•ʕ•̫͡•ʔ•̫͡•ʕ•̫͡•ʕ•̫͡•ʔ•̫͡•ʔ•̫͡•ʕ•̫͡•ʔ•̫͡•ʔ

リンク

「JupyterLab」のデスクトップアプリ「JupyterLab App」がリリース。Pythonなどに対応した統合開発環境

「JupyterLab」のデスクトップアプリ「JupyterLab App」がリリース。Pythonなどに対応した統合開発環境 Pythonなどに対応した統合開発環境としてWebブラウザから利用する「JupyterLab」のデスクトップアプリケーション版となる「JupyterLab App」がリリースされました。 Electronベースのマルチプラットフォーム対応となっており、Mac、Linux、Windowsに対応します。基になったWebアプリケーションのJupyterLabは、PythonやScala、Rなどのコードを打ち込んですぐに実行できるインタラクティブなデータ解析環境であった「Jupyter Notebook」をベースとし、そこにターミナル画面の機能、ファイルブラウザ、テキストエディタなどの機能を統合。さらにブレークポイントの設定や変数の確認などの機能を備えたビジュアルデバ

hoxo_m 2021/09/24

python

リンク

Pythonパッケージを公開するときに便利なツール/サービス

先日ja-timexというPythonパッケージを作成してPyPIに公開したのですが、開発に利用している便利なツールやサービスを紹介します。 Poetry Pythonのパッケージ管理/依存解決ツールとして広く利用されはじめているPoetryですが、パッケージとして公開するための機能も優れています。具体的には、以下の3ステップでPyPIにリリースすることができます。 $ poetry config pypi-token.pypi $pypi-token # 最初だけ $ poetry build $ poetry publish 従来setup.pyに記載していたパッケージ公開用の各種メタ情報はpyproject.tomlに記載します。また、PyPIのテスト環境へのリリースもサポートしています。PyPIの本番環境では同じバーション番号のファイルをリリースできないため、ちょっとでも不具合

hoxo_m 2021/08/06

python

リンク

地理空間情報を扱うなら知っておきたいPythonライブラリ、GeoPandas入門~基礎編~ | 宙畑

さまざまなデータを地理空間情報として重畳する上で有用なPythonのライブラリであるGeoPandas。前編ではGeoPandasを用いたデータの描画方法など基礎的な扱い方を紹介し、後編では衛星データと組み合わせて解析結果を可視化する方法を紹介します。 Pythonで地理空間情報を行う場合、GeoPandasの使い方を覚えておくととても便利です。例えば、都道府県別の気象データを持っていたとします。そのテーブルデータ(csv)には地理情報と言えば、都道府県の名称くらいしかありません。このような場合、これを日本地図の上に重畳して可視化することはできません。しかし、このデータに地図上に描画できる情報を与えることさえできれば、好きなデータを地図の上に重ねることができます。このようなことをしたい場合に、GeoPandasの使い方を知っておけば助けになります。今回は、簡単な例を通じて、GeoPa

hoxo_m 2021/06/14

リンク

pytest fixtureの地味だけど重要な部分について - 株式会社ホクソエムのブログ

こんにちは。ホクソエム支援部サポーターのPython担当、藤岡です。最近はデータエンジニア見習いとしてBI周りを触っています。今回はpytestのfixtureについての記事です。 pytest自体が有名で記事もたくさんあるので、今回は地味だけど重要だと個人的に思っている usefixturesとスコープについて取り上げます。地味とはいえ、pytestの初心者がfixtureを使いこなすためのステップアップに必要な内容だと思います。ぜひマスターしていただければ幸いです。 1. 前書き基礎的なことに関してはこの記事にとても簡潔にまとまっているので、こちらをまず読むのがオススメです。とても良い記事です。 pytestは独自の書き方を持ち込んでいるライブラリです。その機能を使いこなすと「綺麗」なコードにはなりますが、反面それは使われている機能を知らない人にとってはこの上なく読みにくいも

hoxo_m 2021/05/25

python

リンク

pipとpipenvとpoetryの技術的・歴史的背景とその展望 - Stimulator

- はじめに - Pythonのパッケージ管理ツールは、長らく乱世にあると言える。特にpip、pipenv、poetryというツールの登場シーン前後では、多くの変革がもたらされた。本記事は、Pythonパッケージ管理ツールであるpip、pipenv、poetryの3つに着目し、それぞれのツールに対してフラットな背景、技術的な説明を示しながら、所属企業内にてpoetry移行大臣として1年活動した上での経験、移行の意図について綴り、今後のPythonパッケージ管理の展望について妄想するものである。注意：本記事はPythonパッケージ管理のベストプラクティスを主張する記事ではありません。背景を理解し自らの開発環境や状態に応じて適切に技術選定できるソフトウェアエンジニアこそ良いソフトウェアエンジニアであると筆者は考えています。重要なポイントのみ把握したい場合は、各章の最後のまとめを読んで頂

hoxo_m 2021/03/30

リンク

numpy.arange関数におけるstepに0.1を指定したときの振る舞いとその原因を追ってみた話 - 備忘録

はじめに先日、接点QB氏による以下のツイートを見かけた： ?????? 俺の脳みそがバグってるのか？？ pic.twitter.com/zyzzdb3ijS— 接点QB (@setten_QB) February 10, 2021 興味深いので少し調べてみたというわけである（少々長い記事）。はじめに numpyのarange関数の振る舞い浮動小数点数の表現形式と演算浮動小数点数の倍精度表現 0.1の倍精度表現 1.0の倍精度表現 1.5の倍精度表現 1.6の倍精度表現倍精度表現に基づく浮動小数点数演算まとめ参考 numpyのarange関数の振る舞い numpyのarange関数のステップ数に0.1を指定したときの振る舞いについて、 np.arange(1.0, 1.5, 0.1) とすると、0.1刻みで1.0, 1.1, 1.2, 1.3, 1.4までのarrayが得られた

hoxo_m 2021/02/12

リンク

JuliaとPythonを併用したデータ処理のススメ - MNTSQ Techブログ

Pythonでデータ処理をしている際、numpyにはまらないごちゃごちゃした前処理があり、ちょっと遅いんだよなぁ。。。となること、ないでしょうか。ルーチンになっている解析であれば高速化を頑張る意味がありそうですが、新しい解析を試行錯誤している最中など、わざわざ高速化のためのコードをガリガリ書いていくのは辛いぐらいのフェーズ、ないでしょうか。こんなとき、私はJuliaを使っています。Juliaは特別な書き方をしなくても高速になる場合が多く、並列処理も簡単にできます。 julialang.org Julia、いいらしいが名前は聞いたことがあるけど使うまでには至ってない、という方がと思います。今まで使っているコードの資産を書き直すのは嫌ですよね。しかし、JuliaにはPythonの資産を活かしつつ高速にデータ処理がするための道具がそろっています。今回の記事はPythonとJuliaをいっ

hoxo_m 2020/12/07

リンク

今時のPythonはこう書く2020 - Qiita

はじめにシステム作ってるとかライブラリ作ってるみたいなある程度Pythonを綺麗に1書くことが求められる方々に向けた記事です。 (機械学習系のライブラリを使うためにPython書いてる方とか、初学者の方にはちょっとあわないかも知れません) 綺麗に書くための作法の難しさって共有が面倒なところだと思うんですよね。その書き方は間違いじゃない、間違いじゃないけどもっといい書き方があるぞみたいなやつってなかなか指摘し辛いですし、じゃあ1人に対してレビューしたら他のメンバーにはどう伝える？そもそも伝える必要？俺の工数は？みたいになりがちです。一番いいのはこういう時はこう書く！みたいなドキュメントを作って「ドキュメント違反です」ってレビューをしてあげることなんですが、まーそれもそれで超面倒じゃないですか。なのでこの記事がそのドキュメントの代わり、とまではいかなくとも礎くらいになればいいなと思って書き

hoxo_m 2020/12/06

リンク

effective python 第2版の翻訳改善点 8〜10章 - 子供の落書き帳 Renaissance

オライリー・ジャパンから発売された「Effective Python 第2版 Pythonプログラムを改良する90項目」の日本語訳の改善提案である。気になった箇所について、原文と照らし合わせて問題点を述べ、日本語訳を自分で書き直している。注意事項 8章 p.289 項目65 p.300 項目68 p.300 項目68 p.309 項目69 9章 p.357 項目78 単純な誤字脱字関連記事終わりに注意事項「Effective Python 第2版」の日本語版をAmazonで、原著（電子書籍版）をInform IT（ピアソン社の電子書籍販売サイト）で購入した。以下でそれぞれの本の文章の一部を書いているが、著作権法で定められた引用に該当する。これは訳文の批評のために必要不可欠な引用である。選んだ箇所は私が問題だと思った部分である。文章の意味が間違っているところ（誤訳）と、文意が分

hoxo_m 2020/11/28

良い取り組み

リンク

有価証券報告テキストマイニング入門 - 株式会社ホクソエムのブログ

はじめにこんにちは, ホクソエムサポーターのKAZYです｡先日猫カフェデビューをして, 猫アレルギーであることがわかりました🐈｡次はフクロウカフェに挑戦してみようかなと思っています🦉｡ところで皆様, 有価証券報告書は読んでますか？私は読んでいません｡読めません｡眺めていると眠くなります💤｡私は眠くなるんですが, 有価証券報告書ってテキストマイニングするのに向いているんです｡企業の事業や財務情報が詳細に書かれています｡ XBRL形式で構造化されています｡数千社分のテキストが手に入ります｡おまけに無料です｡どうです？興味湧いてきませんか？本記事ではPythonを使って有価証券報告書をテキストマイニングする方法を紹介します｡有価証券報告書をダウンロードするところからご紹介するのでご安心を｡こんな方が見たら役に立つかも企業分析をプログラミングでやりたいが何してい

hoxo_m 2020/10/07

NLP
python

リンク

Python 3.9の新機能 - python.jp

Python 3.9 のリリース予定日である2020年10月05日が間近に迫ってきました。 https://docs.python.org/3.9/whatsnew/3.9.html から、Python3.9の主要な新機能を紹介します。辞書のマージ演算子¶2つの辞書オブジェクトを| 演算子で併合して、一つの新しい辞書オブジェクトを作成できるようになりました。 PEP 584 -- Add Union Operators To dict 2つの辞書オブジェクトの和から、新しい辞書オブジェクトを作成します。

hoxo_m 2020/09/30

リンク

時系列予測で使えるpythonライブラリ一覧 - ざこぷろのメモ

本記事では、時系列予測に利用できるpythonのライブラリの使い方について説明をします。パッとライブラリを使うことを目指すため具体的なアルゴリズムの説明は省きます。 ※説明が間違えている場合があればご指摘いただけると助かります。目次利用データライブラリ Prophet PyFlux Pyro Pytorch Lightgbm 補足:Darts まとめソースコードこのブログで記載されているソースコードはGitHubに上げておいたのでもしよろしければ参考にしてください。 github.com 利用データ今回用いるデータはkaggleのM5 Forecasting - Accuracyと呼ばれるコンペティションで利用されたデータを用います。作成したランダムなデータよりも実データのほうが予測をしている感があるからです。予測に使うデータはwalmartの売上データです。下図はその