「dataframe」を検索 - はてなブックマーク

1 - 40 件 / 964件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

dataframeの検索結果1 - 40 件 / 964件

食べログ3.8問題に終止符を打つ
- 1001 users
- nbviewer.jupyter.org
- 暮らし
- 2019/10/15
import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import json import glob import math from pathlib import Path from collections import Counter from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score from sklearn.metrics import confusion_matrix from sklearn.metrics import roc_auc_score from sklearn.model_selection imp
- 食べログ
- 統計
- あとで読む
- python
- statistics
- food
- 資料
- tabelog
- 統計学
- webサービス
日本のウェブデザインの特異な事例
- 704 users
- okuranagaimo.blogspot.com
- テクノロジー
- 2022/11/26
sabrinas.spaceより。 8週間もかからなかったはずのプロジェクト日本のウェブデザインはどう違うのか? 2013年のRandomwireのブログ投稿で、著者(David)は、日本のデザインの興味深い相違点を強調しました。日本人はミニマリストのライフスタイルで海外に知られていますが、ウェブサイトは奇妙なほどマキシマリストです。ページには様々な明るい色(3色デザイン原則を破っている)、小さな画像、そして多くのテキストが使われています。2022年11月に撮影されたこれらのスクリーンショットで、自分の目で確かめて下さい。ブログ投稿には、文化的専門家、デザイナー仲間、そして不満を抱く市民によって支持されている、考えられる理由がいくつか挙げられていました。この理論が今でも正しいのか、また、もっと定量的なアプローチが可能なのか気になったのでやってみました。私が見つけたもの各国の最も人
- デザイン
- あとで読む
- web
- design
- ui
- 日本
- webデザイン
- webdesign
- ネット
- 文化
PythonだけでWebアプリが作れるライブラリが増えている（2024.05） - Qiita
- 697 users
- qiita.com/SFITB
- テクノロジー
- 2024/05/05
※本記事で言及しているReflexのdiscord内に日本語チャンネルをつくってもらいました。もし、興味をもった人がいたら参加してみてください。１．PythonだけでWebアプリをつくるライブラリが増えている最近（2024.05）、Python界隈ではPythonだけでWebアプリが作れるライブラリが増えています。詳しくは他の記事を参照してもらえればと思います。以下の記事がとても参考になりました。ありがとうございます。２．ライブラリの分類こうしたライブラリも大きくわけて２つの種類があるように思います。 ①データ解析の結果を表示するダッシュボードライブラリ ②汎用的なWebアプリをつくるローコードライブラリ ①ダッシュボード系ライブラリたとえば、上記の記事にも出てきますし、ネットでもかなり情報の多い、StreamlitやDashは項番1のダッシュボードライブラリに該当すると思いま
- python
- あとで読む
- web
- 開発
- ライブラリ
- プログラミング
- Streamlit
- アプリ
- programming
- Qiita
機械学習で使用する手法を全公開 - Qiita
- 572 users
- qiita.com/Saku731
- テクノロジー
- 2020/01/02
株式会社デジサクがお送りするプログラミング記事、今回はAI(機械学習)について扱っていこうと思います。 ※ 無料セミナーも開催中なので、ぜひご覧になってみて下さい。はじめに kaggleや学習サイトなど誰でも機械学習を学べる機会が増えてきました。その反面、情報量が多すぎて全体感を掴めていない人が多いと感じています。そこで、様々な参考書や記事で紹介されている機械学習で使用する手法を全公開しようと思います。細かなコーディングはリンクを貼っておくので、そちらを参照されてください。 SNS でも色々な情報を発信しているので、記事を読んで良いなと感じて頂けたら Twitterアカウント「Saku731」もフォロー頂けると嬉しいです。機械学習の一連手順まず、機械学習を習得するために必要なスキルは下記です。実務の場では数段細かな作業が必要になりますが、最初は下記を勉強するだけで十分で
【自動化】PDF内の表をPythonで抜き出す - Qiita
- 515 users
- qiita.com/konitech913
- テクノロジー
- 2020/06/28
PDFは扱いにくい PDFファイルをPythonで扱うのは大変です。表がPDFの中に埋め込まれているケースも割とあります。例えば平成30年全衛連ストレスチェックサービス実施結果報告書の中にはたくさんの表データが埋め込まれています。例えばファイルの40ページの【表14 業種別高ストレス者の割合】を抜き出したいと思ったとします。この表を選択して、Excelにコピペしてみましょう。コピーして、Excelに貼り付けます。おや？うまくいかないですね。 1つのセルの中に、全部のデータが羅列されてしまっています。実はPythonを使ってこのPDF中の表を比較的簡単にcsvやExcelに変換することができます。 PythonでPDFの表をcsvに PythonでPDF内の表(テーブル)をcsvやexcelに変換する手順は2ステップです。ステップ1. PDFから表をpandasのData
- python
- pdf
- あとで読む
- excel
- csv
- pandas
- プログラミング
- 表
- Qiita
- automation
国会議員のTweet40万件分析して支持すべき政治家を探してみた - エルの楽園
- 486 users
- lllagoon.hatenablog.com
- 政治と経済
- 2020/12/18
新型コロナ禍が我が国の政治の深刻な問題をあぶり出しています。一市民としては支持する政治家を本腰入れて検討しなければいけません。個人的な問題意識は主に「労働」と「財政」にありますので、これらの問題に積極的に取り組んでくれる方がいいです。今回のコロナ禍でこの2つは本当に切実な問題になりました。反対に「脱原発」とか「改憲」はやめてほしいかな……「財政再建」とかも当然ムリ！あ、もちろん国政の話です。そんな訳でデータの力で問題意識の合う現職国会議員を探してみました。使うのはみんな大好きPython3 on Google colab(Jupyter notebook)です。技術的な話を飛ばして結論だけ見たい方はこちらからどうぞ。やったことまずはTwitterをやっているすべての現職国会議員のTweetを一人当たり最新1000件ほど取得します。現職国会議員のアカウント一覧は国会議員いちらんリスト
- SNS
- 政治
- あとで読む
- twitter
- プログラミング
- データ
- 社会
- 国会
- 考察
- Python
各業界でのデータサイエンスの活用について調べてみた（随時追加） – かものはしの分析ブログ
- 386 users
- kamonohashiperry.com
- テクノロジー
- 2021/11/24
都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーターほしいものリスト仕事で、いろんな会社でデータサイエンスってどう使われているのですか？と聞かれることがあり、自分としてはなんとなくしか掴めていないな、知ったかぶりしたくないなと思うところがあったので、やや手厚くリサーチをしてみようと思いました。 2022/3/6の段階では11つの市場しかないですが、最終的には30市場を目指します。【2021/11/27追記】公開したところ、それなりにこの記事に関心を持ってくださった方が多かったようなので、少しずつ事例を埋めていこうと思います。業界
Bulk insertでも20時間以上かかっていたMySQLへのインサート処理を1時間以内にする - エムスリーテックブログ
- 380 users
- www.m3tech.blog
- テクノロジー
- 2022/12/30
この記事はエムスリー Advent Calendar 2022の30日目の記事です。前日は id:kijuky によるチームメンバーのGoogleカレンダーの休暇予定一覧をスプレッドシート+GASで作ったでした。 AI・機械学習チームの北川(@kitagry)です。今回はMySQLへのインサートを20倍以上高速化した話について書きます。仕事をちゃんとしてるか見張る猫 TL; DR はじめに今回のテーブルバイナリログを無効化する追試 LOAD DATA INFILE 追試テーブルの正規化インデックスを一時的に剥がすまとめ We are hiring!! TL; DR バイナリログをオフにする LOAD DATA INFILEを使うインデックスを一時的に消すはじめに AI・機械学習チームではサイトトップからアプリに至るまで多くの推薦システムがあります。そこでは推薦ロ
- mysql
- DB
- あとで読む
- SQL
- チューニング
- performance
- 技術
- ログ
- index
- 高速化
時系列予測で使えるpythonライブラリ一覧 - ざこぷろのメモ
- 361 users
- zakopilo.hatenablog.jp
- テクノロジー
- 2020/07/19
本記事では、時系列予測に利用できるpythonのライブラリの使い方について説明をします。パッとライブラリを使うことを目指すため具体的なアルゴリズムの説明は省きます。 ※説明が間違えている場合があればご指摘いただけると助かります。目次利用データライブラリ Prophet PyFlux Pyro Pytorch Lightgbm 補足:Darts まとめソースコードこのブログで記載されているソースコードはGitHubに上げておいたのでもしよろしければ参考にしてください。 github.com 利用データ今回用いるデータはkaggleのM5 Forecasting - Accuracyと呼ばれるコンペティションで利用されたデータを用います。作成したランダムなデータよりも実データのほうが予測をしている感があるからです。予測に使うデータはwalmartの売上データです。下図はその
Twitter可視化システムを作ってみたら日本に笑顔が溢れていた話 - NTT Communications Engineers' Blog
- 341 users
- engineers.ntt.com
- テクノロジー
- 2022/06/20
はじめにはじめまして。プラットフォームサービス本部データプラットフォームサービス部門の森分です。もともと私は、NTT Comのクラウドサービスをベースにした法人向けソリューションの個社別運用やインフラ関連のプロジェクトマネージャ業務を担当しておりました。最近はSmart Data Platform（以下、SDPF）アーキテクトなる、お客様課題の解決やNTT Comのビジネスの中でSDPFの活用を推進する部隊に参画しています。データ利活用を支えるSDPFのアーキテクトがデータ利活用に詳しくなければ立つ瀬がありません。そうならないように日々研鑽を積んでいるわけですが、その中で作ったTwitter分析システムっぽいもののご紹介が本稿の趣旨となります。本来のデータ利活用プロジェクトでは、課題および仮説をまず明確にして、それに応じたデータ解析を進めていくのですが、本稿では堅苦しいもの
- データ
- twitter
- あとで読む
- 統計
- NTT
- 技術
- ネット
- 日本
- システム
- SNS
Python初学者のためのPolars100本ノック - Qiita
- 337 users
- qiita.com/kunishou
- テクノロジー
- 2023/02/12
Information 2024/1/8： pandas , Polars など18を超えるライブラリを統一記法で扱える統合データ処理ライブラリ Ibis の100 本ノックを作成しました。長期目線でとてもメリットのあるライブラリです。こちらも興味があればご覧下さい。 Ibis 100 本ノック https://qiita.com/kunishou/items/e0244aa2194af8a1fee9 はじめにどうもこんにちは、kunishouです。この度、PythonライブラリであるPolarsを効率的に学ぶためのコンテンツとして「Python初学者のためのPolars100本ノック」を作成したので公開します。こちらは2020年9月に公開した「Python初学者のためのpandas100本ノック」の問題内容をPolarsのメソッドに合わせて修正、再編したものになります。本コンテン
お前らのpandasの使い方は間違っている - Qiita
- 301 users
- qiita.com/141sksk
- テクノロジー
- 2022/12/09
この記事は株式会社Nuco Advent Calendar 2022の9日目の記事です。はじめにいきなりお馴染みの「キャッチーでウィットでセンセーショナルな」タイトルで失礼します。私自身、業務の中でpandasに大変お世話になっており、自戒も込めてpandasの「アンチパターン」をまとめてみました。この記事を読んで、より快適なpandasライフを送っていただけると嬉しいです。対象読者 Pythonを使ったデータ分析や機械学習に携わる方この記事はpandasの基本的な使い方を解説するものではないので注意してください。表形式ファイルを加工する必要がある方 pandasの強みはリレーショナルなデータ全般です。必ずしもデータ分析や機械学習だけが守備範囲ではありません。 pandasとは pandasの公式ドキュメントの概要には、以下のように記載してあります。 pandas is a
- pandas
- python
- あとで読む
- 分析
- qiita
- データ
- ML
- プログラミング
- 機械学習
- 勉強
機械学習を仕事に使うには？ 03_Pythonのコーディング手順 - Qiita
- 298 users
- qiita.com/Saku731
- テクノロジー
- 2020/01/03
株式会社デジサクがお送りするプログラミング記事、今回はAI（機械学習）の具体的なコーディング手順を扱います。 ※ 無料セミナーも開催中なので、ぜひご覧になってみて下さい。はじめにこれまで「機械学習を仕事に使うには？」というテーマで記事をお届けしてきましたが、第３回の今回は「Pythonのコーディング手順」をテーマに、具体的なプログラミングを紹介します。バックナンバーも読んで頂くと機械学習の基礎からPythonのコーディングまで全体を理解できますので、ぜひご活用ください。第１回：機械学習の目的を理解する第２回：AI開発のプロジェクト全体像 SNS でも色々な情報を発信しているので、記事を読んで良いなと感じて頂けたら Twitterアカウント「Saku731」もフォロー頂けると嬉しいです。機械学習に必要なプログラミングスキルまず、機械学習を習得するために必要なスキルは下記
世界一わかりやすい機械学習プログラミングチュートリアル - Qiita
- 281 users
- qiita.com/nuco_fn
- テクノロジー
- 2022/12/05
はじめにこの記事はNuco Advent Calendar 2022の5日目の記事です対象読者 Pythonが注目されている理由のひとつは機械学習プロジェクトの主要な開発言語であるからといってもよいでしょう。多くの企業の業務システムのAIの開発言語はPythonです。そんなPythonの学習を始めてある程度文法の理解が進んできて、機械学習に触れてみたい方を対象にしています。 Pythonの基本文法を理解している機械学習を始めてみたいチュートリアル概要 Pythonは長年機械学習で使用されているので、ライブラリも豊富にあります。本記事では機械学習用ライブラリのscikit-learn(サイキット・ラーン)を使用して教師あり学習を行い住宅価格を予測してみます。何ができるようになるか機械学習で使われる基本的な用語を理解し、学習の全体像をつかめるようになります。機械学習の目的機械学
- 機械学習
- あとで読む
- AI
- python
- 学習
- プログラミング
- ライブラリ
- qiita
- 勉強
Python で大量のファイルを並列で速く読み込む - Qiita
- 276 users
- qiita.com/hoto17296
- テクノロジー
- 2019/06/02
from glob import glob files = glob('data/*.csv') len(files) # 10000 この 1万件の CSV ファイルを Pandas DataFrame として読み込みたい。ちなみに検証用のデータは以下のようにして生成した。 (3列 x 10,000行の CSV ファイル 10,000 個) import numpy as np import pandas as pd row_n = 10000 col_n = 3 columns = [f'col{i}' for i in range(col_n)] for i in range(10000): df = pd.DataFrame(np.random.randn(row_n, col_n), columns=columns) df.to_csv(f'data/{i:04}.csv',
Python ユーザでも『データ可視化入門』で練習できるようにパッケージを作った + Plotnine との互換性ガイド - ill-identified diary
- 266 users
- ill-identified.hatenablog.com
- テクノロジー
- 2021/08/07
概要 pysocviz が提供する機能 ggplot2 と同じようにできないところとその対策 aes() にクオートされてない変数を指定できない R のように改行できない ggplot2 で使えた色名が使えない ggplot2 で使えた linetype が使えない文字化けの回避 ggrepel パッケージの利用 scales::percent などの単位・スケール指定テーマや色パレットのプリセットを変更したい場合 subtitle/caption が表示されない複数のグラフを連結できない hjust/vjust が使えないグラフ内の図形やテキストの大きさのバランスがおかしい geom_smooth/stat_smooth で一般化加法モデル (GAM) による平滑化ができない geom_quantile の method 指定ができない geom_smooth/stat_smoo
Kaggleで戦いたい人のためのpandas実戦入門 - ML_BearのKaggleな日常
- 247 users
- naotaka1128.hatenadiary.jp
- テクノロジー
- 2020/04/01
はじめに自分は元々pandasが苦手でKaggleコンペ参加時は基本的にBigQuery上のSQLで特徴量を作り、最低限のpandas操作でデータ処理をしていました。しかし、あるコードコンペティションに参加することになり、pythonで軽快にデータ処理をこなす必要が出てきたので勉強しました。そこで、当時の勉強メモをもとに「これだけ知っていればKaggleでそこそこ戦えるかな」と思っているpandasの主要機能をまとめました。注記実戦入門のつもりがほぼ辞書になってしまいました orz pandasとはなんぞや的な内容は書いていません (import pandasやDataFrameとは何かなど) pandas1.0系でも動くように書いたつもりですが間違ってたらすみません目次はじめに注記目次 Options DaraFrame 読み書き CSVファイル読み込み書き出
- pandas
- kaggle
- python
- あとで読む
- dataframe
- 入門
- *機械学習
- Machine Learning
- 機械学習
- まとめ
日々のExcel管理を効率化するPythonスクリプトをChatGPTに作ってもらう - Taste of Tech Topics
- 244 users
- acro-engineer.hatenablog.com
- テクノロジー
- 2023/08/02
最近は朝型にシフトしてウォーキングを始めました。菅野です。皆さんは日々の業務でどれぐらいExcelを用いているでしょうか？表計算ソフトであるExcelですが、計算のみならず、グラフ描画や、文章を表形式でまとめたり、マニアックな使い方ではアニメーションの作成までできてしまいます。エンジニア以外の方も業務で使用することが多いのではないでしょうか？しかしながら、業務上でExcelを用いると、日々の煩雑な作業が多くなりやすい印象です。エンジニアであればVBA等を調べてマクロを作るといったことも可能ですが、一般の人にはハードルが高くなってしまいがちです。今回はそんなExcelを用いた業務をChatGPTにPythonスクリプトを作ってもらうことで効率化してみましょう。今回のテーマではGPT-4のモデルを使用します。また、CodeInterpreterで対象のExcelファイルを読み込
- Excel
- ChatGPT
- あとで読む
- AI
- python
- 人工知能
- 仕事術
- tech
- プログラミング
- 文章生成AI
「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表
- 231 users
- www.publickey1.jp
- テクノロジー
- 2023/07/04
「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表 Apache Sparkなどの開発で知られるデータブリックス社は、同社が主催したイベント「DATA+AI Summit 2023 by Databricks」で、英語をApache Sparkの問い合わせ言語にできるSDK「English SDK for Apache Spark」を発表しました。英語は新しいプログラミング言語である Databricks共同創業者兼チーフアーキテクト Reynold Xin氏。英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラであり、Pythonは新しいバイトコードだ。これが何を意味するのか。多くの方々がChatGPTを使ってSparkの問い合わせコードを
Pythonでいい感じにバッチを作ってみる - prefectをはじめよう - JX通信社エンジニアブログ
- 215 users
- tech.jxpress.net
- テクノロジー
- 2020/12/18
JX通信社シニア・エンジニアで, プロダクトチームのデータ活用とデータサイエンスのあれこれ頑張ってるマン, @shinyorke（しんよーく）です. 最近ハマってるかつ毎朝の日課は「リングフィットアドベンチャー*1で汗を流してからの朝食」です. 35日連続続いています. 話は遡ること今年の7月末になりますが, JX通信社のデータ基盤の紹介&「ETLとかバッチってどのFW/ライブラリ使えばいいのさ🤔」というクエスチョンに応えるため, このようなエントリーを公開しました. tech.jxpress.net このエントリー, 多くの方から反響をいただき執筆してよかったです, 読んでくださった方ありがとうございます！まだお読みでない方はこのエントリーを読み進める前に流して読んでもらえると良いかも知れません. 上記のエントリーの最後で, 次はprefect編で会いましょう. という挨拶で締めさせ
Qiitaのスパム狩りをしたらAutoMLに仕事を奪われた件 - Qiita
- 169 users
- qiita.com/dcm_chida
- テクノロジー
- 2019/12/01
知っている人は知っていると思うが、Qiitaではたびたび大量のスパム記事が投稿されている。深夜24~26時頃に記事一覧を確認してみて欲しい。スパム記事がわんさか出てくるはず。登録したてのQiitaユーザは不安よな。1 ———— @dcm_chida 動きます🧐 はじめにこれはNTTドコモサービスイノベーション部AdventCalendar2019の1日目の記事です。我々の部署では日頃から「KDDCUP2」や「論文読み会」に取り組んでおり、若手から中堅社員まで最先端の技術取得に励んでいます。そうした活動をもっと外部へと発信していこうと始めたのがこのAdventCalendarです。社員一人一人が書いた記事を通して、少しでも多くの方に興味を持って頂ければ幸いです。さて、僕は4年目社員ですがプログラミング初心者の頃から現在に至るまで、Qiitaにはかなりお世話になりました。自分
- 機械学習
- AutoML
- qiita
- あとで読む
- データ分析
- BERT
- spam
- lambda
- データ
- AWS
PythonでExcel作った - Qiita
- 168 users
- qiita.com/Hanjin_Liu
- テクノロジー
- 2023/01/10
はじめにデータサイエンスで誰もがまず間違いなく扱うであろうテーブルデータ。pandasや最近ではpolarsを使って解析・可視化する人も多いでしょう。一方で、データサイズがそれほど大きくないときは、インタラクティブに編集・プロットしたり、セルの中でちゃちゃっと平均とかを計算できるExcelの方が便利な場合が多いです。 pandasGUIというものもあるのですが、かなり操作性が悪いし、開発もそんなホットではないですね... テーブルデータをExcelみたくいじりながら、いつでもDataFrameでデータを回収してPythonで解析できるソフトがあったらいいなあと思ったので、tabulousというのを作りました。この記事ではこれを簡単に紹介したいと思います。名前はtabularとfabulousを掛けたものです。GUIはQtで作っています。なお、詳しいドキュメント（英語）はこちらにありま
大阪都構想の投票結果を区ごとに分析してみた - Qiita
- 166 users
- qiita.com/c60evaporator
- テクノロジー
- 2020/11/03
はじめに私は現在大阪市に住んでおり、一昨日の都構想投票はテレビにかじりつきながら見ていました。経過を見ていて思ったのが、区ごとの結果の差が顕著に出ており、分析対象として適したデータが得られそうだと感じたため、詳しく分析してみました。 ※下図はおおさか維新の会HP掲載の、都構想における新旧区分け GitHubに、使用したスクリプトやクレンジング後のデータをアップロードしています Qiitaのガイドラインにあるように、あくまで技術記事としての領分を超えないよう、政治的な深い考察は避け、得られた事実のみを列挙していこうと思います。また、私は因果推論のような高度な分析のスキルは持ち合わせていないので、「さらに深い知見を得るためにはこうしたらいい」というような手法に関するアドバイスがございましたら、コメント頂けると大変ありがたいです！結論結論に至るまでの手順は次章以降で述べますが、以下の
- 分析
- あとで読む
- 統計
- 大阪
- 政治
- 社会
- データ
- Python
WebブラウザでPythonが動作する！PyScriptの詳解 | gihyo.jp
- 164 users
- gihyo.jp
- テクノロジー
- 2023/04/12
鈴木たかのり（@takanory）です。今月の「Python Monthly Topics」では、Webブラウザ上でPythonが動作するPyScriptについて、内部構造なども含めて詳しく解説したいと思います。 PyScript公式サイト（https://pyscript.net/） Warning：PyScriptは現在非常に活発に開発が進んでいるプロダクトのため、将来的にこの記事のサンプルコードが動かなくなる可能性があります。記事執筆時点では最新バージョンであるPyScript 2023.03.1で動作確認しています。うまく動かない場合はPyScriptの公式ドキュメントなどを参照してみてください。 PyScript - PyScript documentation PyScriptとは？ PyScriptは公式サイトに「Run Python in Your HTML」と書いてあると
俺が考える最強の「麻雀点数申告練習アプリケーション」を作ってみる ~ Pythonによる麻雀点数計算問題の自動生成と音声による点数申告 ~ - エムスリーテックブログ
- 160 users
- www.m3tech.blog
- テクノロジー
- 2023/12/01
こちらはエムスリー Advent Calendar 2023 1日目の記事です。 Overview エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。趣味は麻雀でフリー雀荘で毎年200半荘以上打ちます。好きな麻雀プロは園田賢さんです。麻雀を始めるときに一番の障壁になるのは点数計算ではないでしょうか？特に符計算が初心者の関門のようです。一方私のような初中級者でも突然のレアな点数申告にまごつくことがあります。そこで、今回はその人に合った麻雀の点数計算問題(主に符計算が焦点となる問題)を生成して、自分で点数計算&点数申告の練習をする方法を探求したのでその紹介をします。麻雀用語が少しだけ登場するので、対象読者は麻雀を少しでもかじったことのあるエンジニアの方です。 Overview 麻雀の点数計算の難しさ現状の点数計算の練習
Go言語で扱えるデータフレーム厳選4つ - Qiita
- 159 users
- qiita.com/mattn
- テクノロジー
- 2019/12/18
はじめにデータサイエンティストでなかったとしても、数値データを使って様々な解析をする際には CSV ファイル等ファイルを読み込み、数値の配列としてメモリに保持して、それらをループ等で利用して解析を行っておられると思います。その際、配列は1次元目に行、2次元目に列、を格納するのが一般的です。多くのケースではこの方法で事足りるのですが、解析を行ううちに「列としてデータの固まりを扱いたい」「ラベル付けされた列を扱いたい」と感じる事が出てくると思います。これを簡単にしてくれるのが「データフレーム」です。データフレーム4種本記事では Go 言語から扱えるデータフレームを4つご紹介します。 QFrame https://github.com/tobgu/qframe QFrame は、フィルタリング、集計、およびデータ操作をサポートするイミュータブルなデータフレームです。 QFrame での
- golang
- go
- DataFrame
- あとで読む
- データ
- CSV
- Qiita
- 解析
- Go言語
- framework
時系列モデル(ARIMA/Prophet/NNなど)を統一的なAPIで扱えるPythonライブラリ「Darts」がかなり便利 - フリーランチ食べたい
- 148 users
- blog.ikedaosushi.com
- テクノロジー
- 2020/08/25
時系列モデルを扱う上でデファクトスタンダードになりそうなPythonライブラリが出てきました。時系列モデルを扱うPythonライブラリは、 scikit-learn のようなデファクトスタンダードなものがありません。そのため時系列モデルを用いて実装を行うためには、様々なライブラリのAPIなどの仕様を理解しつつ、それに合わせてデータ整形を行い、評価する必要があり、これはなかなか辛い作業でした。スイスの企業 Unit8 が今年(2020年)6月末に公開した Darts はまさにこういった課題を解決するライブラリです。時系列に関する様々なモデルを scikit-learn ベースのAPIで統一的に扱うことができます。 github.com Darts は現在、下記のモデルに対応しています。内側では statsmodels 、 Prophet(stan) 、 Pytorch などを使っていて、
Visual Studio CodeでJupyter Notebookを動かしてみた | DevelopersIO
- 145 users
- dev.classmethod.jp
- テクノロジー
- 2019/10/23
どうも、DA事業本部の大澤です。 Visual Studio CodeのPython拡張機能のJupyter Notebook用エディタを触ってみました。Jupyter Notebookと似たインターフェイスでスクリプトが実行でき、エディタのインテリセンスのサポートも受けられて便利そうだったので、今回はその内容をご紹介します。 Working with Jupyter Notebooks in Visual Studio Code やってみる Python拡張機能を有効にする Jupyter Notebookをネイティブサポートするエディタを利用するにはPython拡張機能を有効化する必要があります。有効化してなければマーケットプレイスから検索し、有効化しましょう。 Python - Visual Studio Marketplace Python の環境を選択するコマンドパレットからP
- vscode
- python
- jupyter
- あとで読む
- JupyterNotebook
- エディタ
- code
- ツール
Pandasのメモリ削減方法を整理した - Taste of Tech Topics
- 144 users
- acro-engineer.hatenablog.com
- テクノロジー
- 2022/12/12
皆さんこんにちは機械学習チーム YAMALEXチームの@tereka114です。最近、寒いので、鍋を中心に食べて生きています。検証段階でも、規模の大きなデータを扱う機会が増えてきて、Pandasのメモリ消費量が厳しいと感じてきたので、その削減や効率化のテクニックまとめたいと思いました。有名なものからマイナーなものまで、思いつく限り書いてみます。そもそもなぜ、Pandasのメモリ削減技術が必要なのか準備 Pandasのメモリ削減 1. 型修正 2. 逐次読み込み 3. 読み込み時の型指定 4. 逐次読み込み＆集約 5. 不要なものを読み込まない 6. 不要なカラム／DataFrameを消す番外編：そもそもPandasを利用しない最後にそもそもなぜ、Pandasのメモリ削減技術が必要なのか Pandasで扱うデータの多くのファイルはCSV,Parquet, JSON（JSONL
たった一文でPandasのapplyメソッドを高速化する方法（検証計算あり） - Qiita
- 142 users
- qiita.com/heisenberg_
- テクノロジー
- 2019/11/15
以下では、DaskやPandasなどと比較して、swifterがどの程度高速なのかを検証したいと思います。 swifterはベクトル化可能な場合とそうでない場合で挙動が異なるので、各々の場合を検証します。使用したPCのスペックはIntel Core i5-8350U @1.70GHz、メモリが16GBです。ベクトル化可能な場合 swifterはベクトル化可能なときはベクトル化するので、swifterの計算時間は単純にベクトル化した場合とほぼ等しくなるはずです。これを確認してみましょう。 import pandas as pd import numpy as np import dask.dataframe as dd import swifter import multiprocessing import gc pandas_time_list = [] dask_time_list
組み込みシステム向けDBであるSQLite入門 - MyEnigma
- 140 users
- myenigma.hatenablog.com
- テクノロジー
- 2022/08/11
Using SQLite: Small. Fast. Reliable. Choose Any Three. (English Edition) 目次目次はじめに SQLiteの歴史特徴トランザクションがある設定がない様々なSQL機能が利用可能クロスプラットの単一ファイルで管理高速にデータにアクセスできる大規模なデータを管理できるソフトウェアが小さいソフトウェアやファイルフォーマットが安定しているソースコードがPublic domainで公開されている。ソフトウェアとしての品質が高い使い方公式のCLIツールを使う Pythonの公式モジュールsqlite3を使う PandasのDataFrameとSQLiteをやり取りする参考資料 MyEnigma Supporters はじめに世界で最も使われているOSSってなんだろうと考えた時に、真っ先に思いつくのが
- db
- sqlite
- あとで読む
- SQL
- Python
- 組み込み
- 管理
- システム
- ソフトウェア
Python Web UIフレームワークで作るデスクトップアプリ | gihyo.jp
- 136 users
- gihyo.jp
- テクノロジー
- 2024/04/30
寺田学（@terapyon）です。2024年4月の「Python Monthly Topics」は、Python Web UIフレームワークの1つであるStreamlitを使ってWindowsやmacOSのデスクトップアプリを作る方法を解説します。目的⁠・モチベーション Pythonで自動化のスクリプトを作ったり、JupyterLabやColaboratoryでデータの可視化を行うことがあります。これらを作成者以外の多くの方に利用してもらう方法として、Webシステムやデスクトップアプリとして提供する方法が考えられます。 Webシステムの構築やデスクトップアプリの作成となると、技術的なハードルがあります。他には、時間的なコストに見合わないという状況もあり得ます。 Python Web UIフレームワークを使うことで、比較的少ないコードでWeb UIからスクリプトの実行や可視化をするアプリ
Open Interpreter - Qiita
- 129 users
- qiita.com/fuyu_quant
- テクノロジー
- 2023/09/13
text = """ SeabornのTitanicデータセットを使いLightGBM，XGBoost，CatBoostおよび3つのモデルのアンサンブルした場合でどれが最も精度が良いか検証してください．検証する際は4foldのクロスバリデーションの結果の平均値としてください．全て日本語で対応してください． """ # return_massagesは出力結果のデータを変数として保持するため引数 # 出力結果はmassagesにも保存される messages = interpreter.chat(text, return_messages=True) 了解しました。以下の手順で進めていきます。 1 必要なライブラリをインストールします。これには、seaborn（データセットの取得）、pandas（データの操作）、numpy cikit-learn（クロスバリデーションと精度評価）、lig
Rust製高速データフレームライブラリ、Polarsを試す | gihyo.jp
- 127 users
- gihyo.jp
- テクノロジー
- 2023/02/07
門脇@satoru_kadowakiです。今月のPython Monthly Topicsでは、Rust製の高速データフレームライブラリ Polars について紹介します。 Polarsとは Pythonでデータ分析に使用される主なライブラリに pandas があります。Polarsはpandasと同様にデータフレームというデータ構造オブジェクトを提供するサードパーティライブラリです。特にpandasを意識して作られており、メインページに「Lightning-fast DataFrame library for Rust and Python」とあるように、Rustによる高速処理を謳っています。 Polarsのリポジトリや関連ドキュメントは以下を参照してください。 Github: https://github.com/pola-rs/polars ユーザーガイド: https://pola
OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO
- 124 users
- dev.classmethod.jp
- テクノロジー
- 2022/09/23
こんちには。データアナリティクス事業本部機械学習チームの中村です。 2022/09/22の夕方ごろ、OpenAIが音声認識ですごいものを出したらしいというニュースが社内のSlackをにぎわせていました。個人的には、いくら認識が凄いって言っても、実際日本語は微妙なんじゃないかな…？と思っていたのですが… ですが… … … … おお！？(上記はGitHubにあるWER: Word Error Rateのグラフです) これは！？これは結構良さげな数値を出している！？(たぶん) ってことで元音声屋さんとしては、これは試すしかない！ということで動かしてみました！(投稿は翌日になってしまいましたが…) なお、本記事では論文内容の詳細などには触れませんのでご了承ください。(後日できたらがんばります) いますぐ使いたい人向け今すぐ使いたい方は、Hugging Faceでブラウザから書き起こしを試
- 音声認識
- AI
- whisper
- あとで読む
- 機械学習
- OpenAI
- python
- 音声
- api
速いと噂のPythonのVaexについて詳しく調べてみた。 - Qiita
- 123 users
- qiita.com/simonritchie
- テクノロジー
- 2020/12/28
結構前にPandasやDaskなどよりも大分高速と話題になっていたPythonのVaexライブラリについて、仕事で利用していきそうな気配がしているので事前にしっかり把握しておくため、色々調べてみました。どんなライブラリなのか Pandasと同じように行列のデータフレームなどを扱うことのできるPythonライブラリです。 Pandasと比較して膨大なデータの読み込みや計算などを高速に行えます（数十倍～数百倍といったレベルで）。計算上のメモリ効率がとても良く、無駄の少ない実装になっています。 Daskのように計算が遅延評価されたりと、通常はメモリに乗りきらないデータでも扱うことができます。 Daskのように並列処理で計算を行ってくれます。 Pandasと比較的似たインターフェイスで扱うことができます。この記事で触れること主に以下のVaexのトピックに関して本記事で触れます。インストー
「Pythonによる医療データ分析入門」は分析100本ノック後に必読な探索的データサイエンス本だった - Lean Baseball
- 123 users
- shinyorke.hatenablog.com
- テクノロジー
- 2020/07/22
今年読んだデータサイエンスおよびPython本の中でも最良の一冊でした. ホントに待ち望んでいた一冊でした. 実は密かに楽しみにしてた（待ち望んでいた）*1, 「Pythonによる医療データ分析入門」, 一通り読ませていただきましたので, Pythonによる医療データ分析入門の感想分析100本ノック後にやると良いこと探索的データサイエンスはデータサイエンスに関わる人すべてに関係する準備運動であり入り口であること的な話を綴りたいと思います. なお, 最初に断っておくと, 新型コロナウイルス含む, 感染症とか流行病の話は一切触れておりません！このエントリーは純粋に「Pythonを使ったデータサイエンス」を志向した方向けのエントリーとなります. 新型コロナウイルスだの感染症関連だのを期待されている・そう思った方はぜひ他のページなどを見ていただけると幸いです. このエントリーのダイジェスト
- python
- あとで読む
- pandas
- データサイエンス
- データ分析
- 本
- 分析
- book
- データ
Google、Python環境の「Colaboratory」にAIによる開発支援機能を搭載へ。自然言語からのコード生成、チャットボットによる質疑応答など
- 121 users
- www.publickey1.jp
- テクノロジー
- 2023/05/23
Google、Python環境の「Colaboratory」にAIによる開発支援機能を搭載へ。自然言語からのコード生成、チャットボットによる質疑応答など Googleは今月（2023年5月）に開催したGoogle I/O 2023で、同社として最新の大規模AIモデル「PaLM 2」を発表しており、今回Colaboratoryに搭載されるのも、このPaLM 2に基づいてコードの生成用に作られたモデル「Codey」です。このCodeyを用いて、Colaboratoryには数カ月以内にコード補完、自然言語によるコード生成、コード支援チャットボットなどの機能が搭載される予定です。下記は「import data.csv as a dataframe」という自然言語での入力からコードが生成されたところ。
- AI
- google
- python
- あとで読む
- 開発
- プログラミング
- 環境
【Kubernetes】1週間かかる処理を1.5時間で終わらせた【並列処理】 - ニートの言葉
- 105 users
- blog.takuya-andou.com
- テクノロジー
- 2019/10/30
こんにちはあんどう(@t_andou)です。今回はKubernetesを使って並列処理させた記録です。まだ「とりあえずそれっぽく動くまで試してみた」という段階で、kubernetesを理解できてはいないので自分用のメモを公開しているという認識でご覧ください。間違っている部分や、よりスマートなやり方がありましたらご指摘いただけると幸いです。この記事の概要機械学習に使う特徴量の作成で1週間かかりそうな処理を10分くらいで終わらせられないかと考え、GKE(=GoogleのKubernetes環境)を使い試行錯誤した記録です。今回は一部失敗して完了時間が1.5時間になったものの、設定を上手く出来れば15分程度で終わる見込みです。対象読者・Kubernetesの概要は知っているくらいのレベルの人・KubernetesのJobを使った並列処理をしたい人目次この記事の概要対象読者
- kubernetes
- 分散処理
- あとで読む
- mysql
- node
- MachineLearning
- 事例
AIはハチ=米津玄師を見破れるか ? -J-popアーティストの歌詞を分析してみた- - Qiita
- 100 users
- qiita.com/kazuya-n
- テクノロジー
- 2019/09/14
はじめに一年前にこんな記事を書きました。未だにちょくちょくいいねを頂いているので、自然言語処理の練習を兼ねて久しぶりに遊んでみた系の記事を投稿しようと思います。やったこと歌詞データのクローリング Mecabによる分かち書き tf-idfによるベクトル化ベクトル化した歌詞によるアーティストのクラスタリングとUMAPでの可視化 (おまけ) fastTextでハチ=米津玄師を見分けられるのか? 分析にはJupyter Labを用いました。歌詞データ今回用いる歌詞データについて説明します。クローリングで取得先立って歌詞データのクローリングをしました。とある人気アーティスト順に歌詞を取得できるサイトより、45人のJ-popアーティストにつき、最大50曲分の歌詞を取得しCSVに保存しました。実際にクローリングに用いたコードを公開するのもどうかと思うので、ここでは割愛します。。。Bea