並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 964件

新着順 人気順

dataframeの検索結果1 - 40 件 / 964件

  • 食べログ3.8問題に終止符を打つ

    import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import json import glob import math from pathlib import Path from collections import Counter from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score from sklearn.metrics import confusion_matrix from sklearn.metrics import roc_auc_score from sklearn.model_selection imp

    • 日本のウェブデザインの特異な事例

      sabrinas.spaceより。 8週間もかからなかったはずのプロジェクト 日本のウェブデザインはどう違うのか? 2013年のRandomwireのブログ投稿で、著者(David)は、日本のデザインの興味深い相違点を強調しました。日本人はミニマリストのライフスタイルで海外に知られていますが、ウェブサイトは奇妙なほどマキシマリストです。ページには様々な明るい色(3色デザイン原則を破っている)、小さな画像、そして多くのテキストが使われています。2022年11月に撮影されたこれらのスクリーンショットで、自分の目で確かめて下さい。 ブログ投稿には、文化的専門家、デザイナー仲間、そして不満を抱く市民によって支持されている、考えられる理由がいくつか挙げられていました。 この理論が今でも正しいのか、また、もっと定量的なアプローチが可能なのか気になったのでやってみました。 私が見つけたもの 各国の最も人

        日本のウェブデザインの特異な事例
      • PythonだけでWebアプリが作れるライブラリが増えている(2024.05) - Qiita

        ※本記事で言及しているReflexのdiscord内に日本語チャンネルをつくってもらいました。もし、興味をもった人がいたら参加してみてください。 1.PythonだけでWebアプリをつくるライブラリが増えている 最近(2024.05)、Python界隈ではPythonだけでWebアプリが作れるライブラリが増えています。詳しくは他の記事を参照してもらえればと思います。 以下の記事がとても参考になりました。ありがとうございます。 2.ライブラリの分類 こうしたライブラリも大きくわけて2つの種類があるように思います。 ①データ解析の結果を表示するダッシュボードライブラリ ②汎用的なWebアプリをつくるローコードライブラリ ①ダッシュボード系ライブラリ たとえば、上記の記事にも出てきますし、ネットでもかなり情報の多い、StreamlitやDashは項番1のダッシュボードライブラリに該当すると思いま

          PythonだけでWebアプリが作れるライブラリが増えている(2024.05) - Qiita
        • 機械学習で使用する手法を全公開 - Qiita

          株式会社デジサク がお送りするプログラミング記事、 今回はAI(機械学習)について扱っていこうと思います。 ※ 無料セミナーも開催中なので、ぜひご覧になってみて下さい。 はじめに kaggleや学習サイトなど誰でも機械学習を学べる機会が増えてきました。 その反面、情報量が多すぎて全体感を掴めていない人が多いと感じています。 そこで、様々な参考書や記事で紹介されている機械学習で使用する手法を全公開しようと思います。 細かなコーディングはリンクを貼っておくので、そちらを参照されてください。 SNS でも色々な情報を発信しているので、記事を読んで良いなと感じて頂けたら Twitterアカウント「Saku731」 もフォロー頂けると嬉しいです。 機械学習の一連手順 まず、機械学習を習得するために必要なスキルは下記です。 実務の場では数段細かな作業が必要になりますが、最初は下記を勉強するだけで十分で

            機械学習で使用する手法を全公開 - Qiita
          • 【自動化】PDF内の表をPythonで抜き出す - Qiita

            PDFは扱いにくい PDFファイルをPythonで扱うのは大変です。 表がPDFの中に埋め込まれているケースも割とあります。 例えば 平成30年 全衛連ストレスチェックサービス実施結果報告書の中にはたくさんの表データが埋め込まれています。 例えばファイルの40ページの【表14 業種別高ストレス者の割合】を抜き出したいと思ったとします。 この表を選択して、Excelにコピペしてみましょう。 コピーして、Excelに貼り付けます。 おや?うまくいかないですね。 1つのセルの中に、全部のデータが羅列されてしまっています。 実はPythonを使ってこのPDF中の表を比較的簡単にcsvやExcelに変換することができます。 PythonでPDFの表をcsvに PythonでPDF内の表(テーブル)をcsvやexcelに変換する手順は2ステップです。 ステップ1. PDFから表をpandasのData

              【自動化】PDF内の表をPythonで抜き出す - Qiita
            • 国会議員のTweet40万件分析して支持すべき政治家を探してみた - エルの楽園

              新型コロナ禍が我が国の政治の深刻な問題をあぶり出しています。一市民としては支持する政治家を本腰入れて検討しなければいけません。 個人的な問題意識は主に「労働」と「財政」にありますので、これらの問題に積極的に取り組んでくれる方がいいです。今回のコロナ禍でこの2つは本当に切実な問題になりました。反対に「脱原発」とか「改憲」はやめてほしいかな……「財政再建」とかも当然ムリ!あ、もちろん国政の話です。 そんな訳でデータの力で問題意識の合う現職国会議員を探してみました。使うのはみんな大好きPython3 on Google colab(Jupyter notebook)です。技術的な話を飛ばして結論だけ見たい方はこちらからどうぞ。 やったこと まずはTwitterをやっているすべての現職国会議員のTweetを一人当たり最新1000件ほど取得します。現職国会議員のアカウント一覧は国会議員いちらんリスト

                国会議員のTweet40万件分析して支持すべき政治家を探してみた - エルの楽園
              • 各業界でのデータサイエンスの活用について調べてみた(随時追加) – かものはしの分析ブログ

                都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト 仕事で、いろんな会社でデータサイエンスってどう使われているのですか?と聞かれることがあり、自分としてはなんとなくしか掴めていないな、知ったかぶりしたくないなと思うところがあったので、やや手厚くリサーチをしてみようと思いました。 2022/3/6の段階では11つの市場しかないですが、最終的には30市場を目指します。 【2021/11/27追記】 公開したところ、それなりにこの記事に関心を持ってくださった方が多かったようなので、少しずつ事例を埋めていこうと思います。 業界

                  各業界でのデータサイエンスの活用について調べてみた(随時追加) – かものはしの分析ブログ
                • Bulk insertでも20時間以上かかっていたMySQLへのインサート処理を1時間以内にする - エムスリーテックブログ

                  この記事はエムスリー Advent Calendar 2022の30日目の記事です。 前日は id:kijuky による チームメンバーのGoogleカレンダーの休暇予定一覧をスプレッドシート+GASで作った でした。 AI・機械学習チームの北川(@kitagry)です。 今回はMySQLへのインサートを20倍以上高速化した話について書きます。 仕事をちゃんとしてるか見張る猫 TL; DR はじめに 今回のテーブル バイナリログを無効化する 追試 LOAD DATA INFILE 追試 テーブルの正規化 インデックスを一時的に剥がす まとめ We are hiring!! TL; DR バイナリログをオフにする LOAD DATA INFILEを使う インデックスを一時的に消す はじめに AI・機械学習チームではサイトトップからアプリに至るまで多くの推薦システムがあります。 そこでは推薦ロ

                    Bulk insertでも20時間以上かかっていたMySQLへのインサート処理を1時間以内にする - エムスリーテックブログ
                  • 時系列予測で使えるpythonライブラリ一覧 - ざこぷろのメモ

                    本記事では、時系列予測に利用できるpythonのライブラリの使い方について説明をします。 パッとライブラリを使うことを目指すため具体的なアルゴリズムの説明は省きます。 ※説明が間違えている場合があればご指摘いただけると助かります。 目次 利用データ ライブラリ Prophet PyFlux Pyro Pytorch Lightgbm 補足:Darts まとめ ソースコード このブログで記載されているソースコードはGitHubに上げておいたのでもしよろしければ参考にしてください。 github.com 利用データ 今回用いるデータはkaggleのM5 Forecasting - Accuracyと呼ばれるコンペティションで利用されたデータを用います。 作成したランダムなデータよりも実データのほうが予測をしている感があるからです。 予測に使うデータはwalmartの売上データです。 下図はその

                      時系列予測で使えるpythonライブラリ一覧 - ざこぷろのメモ
                    • Twitter可視化システムを作ってみたら日本に笑顔が溢れていた話 - NTT Communications Engineers' Blog

                      はじめに はじめまして。 プラットフォームサービス本部 データプラットフォームサービス部門の森分です。 もともと私は、NTT Comのクラウドサービスをベースにした法人向けソリューションの個社別運用やインフラ関連のプロジェクトマネージャ業務を担当しておりました。 最近はSmart Data Platform(以下、SDPF)アーキテクトなる、お客様課題の解決やNTT Comのビジネスの中でSDPFの活用を推進する部隊に参画しています。 データ利活用を支えるSDPFのアーキテクトがデータ利活用に詳しくなければ立つ瀬がありません。 そうならないように日々研鑽を積んでいるわけですが、その中で作ったTwitter分析システムっぽいもののご紹介が本稿の趣旨となります。 本来のデータ利活用プロジェクトでは、課題および仮説をまず明確にして、それに応じたデータ解析を進めていくのですが、本稿では堅苦しいもの

                        Twitter可視化システムを作ってみたら日本に笑顔が溢れていた話 - NTT Communications Engineers' Blog
                      • Python初学者のためのPolars100本ノック - Qiita

                        Information 2024/1/8: pandas , Polars など18を超えるライブラリを統一記法で扱える統合データ処理ライブラリ Ibis の100 本ノックを作成しました。長期目線でとてもメリットのあるライブラリです。こちらも興味があればご覧下さい。 Ibis 100 本ノック https://qiita.com/kunishou/items/e0244aa2194af8a1fee9 はじめに どうもこんにちは、kunishouです。 この度、PythonライブラリであるPolarsを効率的に学ぶためのコンテンツとして 「Python初学者のためのPolars100本ノック」 を作成したので公開します。こちらは2020年9月に公開した「Python初学者のためのpandas100本ノック」の問題内容をPolarsのメソッドに合わせて修正、再編したものになります。本コンテン

                          Python初学者のためのPolars100本ノック - Qiita
                        • お前らのpandasの使い方は間違っている - Qiita

                          この記事は株式会社Nuco Advent Calendar 2022の9日目の記事です。 はじめに いきなりお馴染みの「キャッチーでウィットでセンセーショナルな」タイトルで失礼します。 私自身、業務の中でpandasに大変お世話になっており、自戒も込めてpandasの「アンチパターン」をまとめてみました。 この記事を読んで、より快適なpandasライフを送っていただけると嬉しいです。 対象読者 Pythonを使ったデータ分析や機械学習に携わる方 この記事はpandasの基本的な使い方を解説するものではないので注意してください。 表形式ファイルを加工する必要がある方 pandasの強みはリレーショナルなデータ全般です。必ずしもデータ分析や機械学習だけが守備範囲ではありません。 pandasとは pandasの公式ドキュメントの概要には、以下のように記載してあります。 pandas is a

                            お前らのpandasの使い方は間違っている - Qiita
                          • 機械学習を仕事に使うには? 03_Pythonのコーディング手順 - Qiita

                            株式会社デジサク がお送りするプログラミング記事、 今回はAI(機械学習)の具体的なコーディング手順を扱います。 ※ 無料セミナーも開催中なので、ぜひご覧になってみて下さい。 はじめに これまで「機械学習を仕事に使うには?」というテーマで記事をお届けしてきましたが、 第3回の今回は「Pythonのコーディング手順」をテーマに、具体的なプログラミングを紹介します。 バックナンバーも読んで頂くと機械学習の基礎からPythonのコーディングまで全体を理解できますので、ぜひご活用ください。 第1回:機械学習の目的を理解する 第2回:AI開発のプロジェクト全体像 SNS でも色々な情報を発信しているので、記事を読んで良いなと感じて頂けたら Twitterアカウント「Saku731」 もフォロー頂けると嬉しいです。 機械学習に必要なプログラミングスキル まず、機械学習を習得するために必要なスキルは下記

                              機械学習を仕事に使うには? 03_Pythonのコーディング手順 - Qiita
                            • 世界一わかりやすい機械学習プログラミングチュートリアル - Qiita

                              はじめに この記事はNuco Advent Calendar 2022の5日目の記事です 対象読者 Pythonが注目されている理由のひとつは機械学習プロジェクトの主要な開発言語であるからといってもよいでしょう。多くの企業の業務システムのAIの開発言語はPythonです。そんなPythonの学習を始めてある程度文法の理解が進んできて、機械学習に触れてみたい方を対象にしています。 Pythonの基本文法を理解している 機械学習を始めてみたい チュートリアル概要 Pythonは長年機械学習で使用されているので、ライブラリも豊富にあります。本記事では機械学習用ライブラリのscikit-learn(サイキット・ラーン)を使用して教師あり学習を行い住宅価格を予測してみます。 何ができるようになるか 機械学習で使われる基本的な用語を理解し、学習の全体像をつかめるようになります。 機械学習の目的 機械学

                                世界一わかりやすい機械学習プログラミングチュートリアル - Qiita
                              • Python で大量のファイルを並列で速く読み込む - Qiita

                                from glob import glob files = glob('data/*.csv') len(files) # 10000 この 1万件の CSV ファイルを Pandas DataFrame として読み込みたい。 ちなみに検証用のデータは以下のようにして生成した。 (3列 x 10,000行 の CSV ファイル 10,000 個) import numpy as np import pandas as pd row_n = 10000 col_n = 3 columns = [f'col{i}' for i in range(col_n)] for i in range(10000): df = pd.DataFrame(np.random.randn(row_n, col_n), columns=columns) df.to_csv(f'data/{i:04}.csv',

                                  Python で大量のファイルを並列で速く読み込む - Qiita
                                • Python ユーザでも『データ可視化入門』で練習できるようにパッケージを作った + Plotnine との互換性ガイド - ill-identified diary

                                  概要 pysocviz が提供する機能 ggplot2 と同じようにできないところとその対策 aes() にクオートされてない変数を指定できない R のように改行できない ggplot2 で使えた色名が使えない ggplot2 で使えた linetype が使えない 文字化けの回避 ggrepel パッケージの利用 scales::percent などの単位・スケール指定 テーマや色パレットのプリセットを変更したい場合 subtitle/caption が表示されない 複数のグラフを連結できない hjust/vjust が使えない グラフ内の図形やテキストの大きさのバランスがおかしい geom_smooth/stat_smooth で一般化加法モデル (GAM) による平滑化ができない geom_quantile の method 指定ができない geom_smooth/stat_smoo

                                    Python ユーザでも『データ可視化入門』で練習できるようにパッケージを作った + Plotnine との互換性ガイド - ill-identified diary
                                  • Kaggleで戦いたい人のためのpandas実戦入門 - ML_BearのKaggleな日常

                                    はじめに 自分は元々pandasが苦手でKaggleコンペ参加時は基本的にBigQuery上のSQLで特徴量を作り、最低限のpandas操作でデータ処理をしていました。 しかし、あるコードコンペティションに参加することになり、pythonで軽快にデータ処理をこなす必要が出てきたので勉強しました。 そこで、当時の勉強メモをもとに「これだけ知っていればKaggleでそこそこ戦えるかな」と思っているpandasの主要機能をまとめました。 注記 実戦入門 のつもりが ほぼ辞書 になってしまいました orz pandasとはなんぞや的な内容は書いていません (import pandasやDataFrameとは何かなど) pandas1.0系でも動くように書いたつもりですが間違ってたらすみません 目次 はじめに 注記 目次 Options DaraFrame 読み書き CSVファイル 読み込み 書き出

                                      Kaggleで戦いたい人のためのpandas実戦入門 - ML_BearのKaggleな日常
                                    • 日々のExcel管理を効率化するPythonスクリプトをChatGPTに作ってもらう - Taste of Tech Topics

                                      最近は朝型にシフトしてウォーキングを始めました。菅野です。 皆さんは日々の業務でどれぐらいExcelを用いているでしょうか? 表計算ソフトであるExcelですが、計算のみならず、グラフ描画や、文章を表形式でまとめたり、マニアックな使い方ではアニメーションの作成までできてしまいます。 エンジニア以外の方も業務で使用することが多いのではないでしょうか? しかしながら、業務上でExcelを用いると、日々の煩雑な作業が多くなりやすい印象です。 エンジニアであればVBA等を調べてマクロを作るといったことも可能ですが、一般の人にはハードルが高くなってしまいがちです。 今回はそんなExcelを用いた業務をChatGPTにPythonスクリプトを作ってもらうことで効率化してみましょう。 今回のテーマではGPT-4のモデルを使用します。 また、CodeInterpreterで対象のExcelファイルを読み込

                                        日々のExcel管理を効率化するPythonスクリプトをChatGPTに作ってもらう - Taste of Tech Topics
                                      • 「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表

                                        「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表 Apache Sparkなどの開発で知られるデータブリックス社は、同社が主催したイベント「DATA+AI Summit 2023 by Databricks」で、英語をApache Sparkの問い合わせ言語にできるSDK「English SDK for Apache Spark」を発表しました。 英語は新しいプログラミング言語である Databricks共同創業者兼チーフアーキテクト Reynold Xin氏。 英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラであり、Pythonは新しいバイトコードだ。 これが何を意味するのか。多くの方々がChatGPTを使ってSparkの問い合わせコードを

                                          「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表
                                        • Pythonでいい感じにバッチを作ってみる - prefectをはじめよう - JX通信社エンジニアブログ

                                          JX通信社シニア・エンジニアで, プロダクトチームのデータ活用とデータサイエンスのあれこれ頑張ってるマン, @shinyorke(しんよーく)です. 最近ハマってるかつ毎朝の日課は「リングフィットアドベンチャー*1で汗を流してからの朝食」です. 35日連続続いています. 話は遡ること今年の7月末になりますが, JX通信社のデータ基盤の紹介&「ETLとかバッチってどのFW/ライブラリ使えばいいのさ🤔」というクエスチョンに応えるため, このようなエントリーを公開しました. tech.jxpress.net このエントリー, 多くの方から反響をいただき執筆してよかったです, 読んでくださった方ありがとうございます! まだお読みでない方はこのエントリーを読み進める前に流して読んでもらえると良いかも知れません. 上記のエントリーの最後で, 次はprefect編で会いましょう. という挨拶で締めさせ

                                            Pythonでいい感じにバッチを作ってみる - prefectをはじめよう - JX通信社エンジニアブログ
                                          • Qiitaのスパム狩りをしたらAutoMLに仕事を奪われた件 - Qiita

                                            知っている人は知っていると思うが、Qiitaではたびたび大量のスパム記事が投稿されている。 深夜24~26時頃に記事一覧を確認してみて欲しい。 スパム記事がわんさか出てくるはず。 登録したてのQiitaユーザは不安よな。1 ———— @dcm_chida 動きます🧐 はじめに これはNTTドコモサービスイノベーション部AdventCalendar2019の1日目の記事です。 我々の部署では日頃から「KDDCUP2」や「論文読み会」に取り組んでおり、若手から中堅社員まで最先端の技術取得に励んでいます。 そうした活動をもっと外部へと発信していこうと始めたのがこのAdventCalendarです。社員一人一人が書いた記事を通して、少しでも多くの方に興味を持って頂ければ幸いです。 さて、僕は4年目社員ですがプログラミング初心者の頃から現在に至るまで、Qiitaにはかなりお世話になりました。 自分

                                              Qiitaのスパム狩りをしたらAutoMLに仕事を奪われた件 - Qiita
                                            • PythonでExcel作った - Qiita

                                              はじめに データサイエンスで誰もがまず間違いなく扱うであろうテーブルデータ。pandasや最近ではpolarsを使って解析・可視化する人も多いでしょう。一方で、データサイズがそれほど大きくないときは、インタラクティブに編集・プロットしたり、セルの中でちゃちゃっと平均とかを計算できるExcelの方が便利な場合が多いです。 pandasGUIというものもあるのですが、かなり操作性が悪いし、開発もそんなホットではないですね... テーブルデータをExcelみたくいじりながら、いつでもDataFrameでデータを回収してPythonで解析できるソフトがあったらいいなあと思ったので、tabulousというのを作りました。この記事ではこれを簡単に紹介したいと思います。 名前はtabularとfabulousを掛けたものです。GUIはQtで作っています。 なお、詳しいドキュメント(英語)はこちらにありま

                                                PythonでExcel作った - Qiita
                                              • 大阪都構想の投票結果を区ごとに分析してみた - Qiita

                                                はじめに 私は現在大阪市に住んでおり、一昨日の都構想投票はテレビにかじりつきながら見ていました。 経過を見ていて思ったのが、区ごとの結果の差が顕著に出ており、分析対象として適したデータが得られそうだと感じたため、詳しく分析してみました。 ※下図はおおさか維新の会HP掲載の、都構想における新旧区分け GitHubに、使用したスクリプトやクレンジング後のデータをアップロードしています Qiitaのガイドラインにあるように、あくまで技術記事としての領分を超えないよう、政治的な深い考察は避け、得られた事実のみを列挙していこうと思います。 また、私は因果推論のような高度な分析のスキルは持ち合わせていないので、「さらに深い知見を得るためにはこうしたらいい」 というような手法に関するアドバイスがございましたら、コメント頂けると大変ありがたいです! 結論 結論に至るまでの手順は次章以降で述べますが、以下の

                                                  大阪都構想の投票結果を区ごとに分析してみた - Qiita
                                                • WebブラウザでPythonが動作する!PyScriptの詳解 | gihyo.jp

                                                  鈴木たかのり(@takanory)です。今月の「Python Monthly Topics」では、Webブラウザ上でPythonが動作するPyScriptについて、内部構造なども含めて詳しく解説したいと思います。 PyScript公式サイト(https://pyscript.net/) Warning:PyScriptは現在非常に活発に開発が進んでいるプロダクトのため、将来的にこの記事のサンプルコードが動かなくなる可能性があります。記事執筆時点では最新バージョンであるPyScript 2023.03.1で動作確認しています。うまく動かない場合はPyScriptの公式ドキュメントなどを参照してみてください。 PyScript - PyScript documentation PyScriptとは? PyScriptは公式サイトに「Run Python in Your HTML」と書いてあると

                                                    WebブラウザでPythonが動作する!PyScriptの詳解 | gihyo.jp
                                                  • 俺が考える最強の「麻雀点数申告練習アプリケーション」を作ってみる ~ Pythonによる麻雀点数計算問題の自動生成と音声による点数申告 ~ - エムスリーテックブログ

                                                    こちらはエムスリー Advent Calendar 2023 1日目の記事です。 Overview エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。趣味は麻雀でフリー雀荘で毎年200半荘以上打ちます。好きな麻雀プロは園田賢さんです。 麻雀を始めるときに一番の障壁になるのは点数計算ではないでしょうか? 特に符計算が初心者の関門のようです。一方私のような初中級者でも突然のレアな点数申告にまごつくことがあります。 そこで、今回はその人に合った麻雀の点数計算問題(主に符計算が焦点となる問題)を生成して、自分で点数計算&点数申告の練習をする方法を探求したのでその紹介をします。麻雀用語が少しだけ登場するので、対象読者は麻雀を少しでもかじったことのあるエンジニアの方です。 Overview 麻雀の点数計算の難しさ 現状の点数計算の練習

                                                      俺が考える最強の「麻雀点数申告練習アプリケーション」を作ってみる ~ Pythonによる麻雀点数計算問題の自動生成と音声による点数申告 ~ - エムスリーテックブログ
                                                    • Go言語で扱えるデータフレーム厳選4つ - Qiita

                                                      はじめに データサイエンティストでなかったとしても、数値データを使って様々な解析をする際には CSV ファイル等ファイルを読み込み、数値の配列としてメモリに保持して、それらをループ等で利用して解析を行っておられると思います。 その際、配列は1次元目に行、2次元目に列、を格納するのが一般的です。多くのケースではこの方法で事足りるのですが、解析を行ううちに「列としてデータの固まりを扱いたい」「ラベル付けされた列を扱いたい」と感じる事が出てくると思います。 これを簡単にしてくれるのが「データフレーム」です。 データフレーム4種 本記事では Go 言語から扱えるデータフレームを4つご紹介します。 QFrame https://github.com/tobgu/qframe QFrame は、フィルタリング、集計、およびデータ操作をサポートするイミュータブルなデータフレームです。 QFrame での

                                                        Go言語で扱えるデータフレーム厳選4つ - Qiita
                                                      • 時系列モデル(ARIMA/Prophet/NNなど)を統一的なAPIで扱えるPythonライブラリ「Darts」がかなり便利 - フリーランチ食べたい

                                                        時系列モデルを扱う上でデファクトスタンダードになりそうなPythonライブラリが出てきました。 時系列モデルを扱うPythonライブラリは、 scikit-learn のようなデファクトスタンダードなものがありません。そのため時系列モデルを用いて実装を行うためには、様々なライブラリのAPIなどの仕様を理解しつつ、それに合わせてデータ整形を行い、評価する必要があり、これはなかなか辛い作業でした。 スイスの企業 Unit8 が今年(2020年)6月末に公開した Darts はまさにこういった課題を解決するライブラリです。時系列に関する様々なモデルを scikit-learn ベースのAPIで統一的に扱うことができます。 github.com Darts は現在、下記のモデルに対応しています。内側では statsmodels 、 Prophet(stan) 、 Pytorch などを使っていて、

                                                          時系列モデル(ARIMA/Prophet/NNなど)を統一的なAPIで扱えるPythonライブラリ「Darts」がかなり便利 - フリーランチ食べたい
                                                        • Visual Studio CodeでJupyter Notebookを動かしてみた | DevelopersIO

                                                          どうも、DA事業本部の大澤です。 Visual Studio CodeのPython拡張機能のJupyter Notebook用エディタを触ってみました。Jupyter Notebookと似たインターフェイスでスクリプトが実行でき、エディタのインテリセンスのサポートも受けられて便利そうだったので、今回はその内容をご紹介します。 Working with Jupyter Notebooks in Visual Studio Code やってみる Python拡張機能を有効にする Jupyter Notebookをネイティブサポートするエディタを利用するにはPython拡張機能を有効化する必要があります。有効化してなければマーケットプレイスから検索し、有効化しましょう。 Python - Visual Studio Marketplace Python の環境を選択する コマンドパレットからP

                                                            Visual Studio CodeでJupyter Notebookを動かしてみた | DevelopersIO
                                                          • Pandasのメモリ削減方法を整理した - Taste of Tech Topics

                                                            皆さんこんにちは 機械学習チーム YAMALEXチームの@tereka114です。最近、寒いので、鍋を中心に食べて生きています。 検証段階でも、規模の大きなデータを扱う機会が増えてきて、Pandasのメモリ消費量が厳しいと感じてきたので、その削減や効率化のテクニックまとめたいと思いました。 有名なものからマイナーなものまで、思いつく限り書いてみます。 そもそもなぜ、Pandasのメモリ削減技術が必要なのか 準備 Pandasのメモリ削減 1. 型修正 2. 逐次読み込み 3. 読み込み時の型指定 4. 逐次読み込み&集約 5. 不要なものを読み込まない 6. 不要なカラム/DataFrameを消す 番外編:そもそもPandasを利用しない 最後に そもそもなぜ、Pandasのメモリ削減技術が必要なのか Pandasで扱うデータの多くのファイルはCSV,Parquet, JSON(JSONL

                                                              Pandasのメモリ削減方法を整理した - Taste of Tech Topics
                                                            • たった一文でPandasのapplyメソッドを高速化する方法(検証計算あり) - Qiita

                                                              以下では、DaskやPandasなどと比較して、swifterがどの程度高速なのかを検証したいと思います。 swifterはベクトル化可能な場合とそうでない場合で挙動が異なるので、各々の場合を検証します。 使用したPCのスペックはIntel Core i5-8350U @1.70GHz、メモリが16GBです。 ベクトル化可能な場合 swifterはベクトル化可能なときはベクトル化するので、swifterの計算時間は単純にベクトル化した場合と ほぼ等しくなるはずです。これを確認してみましょう。 import pandas as pd import numpy as np import dask.dataframe as dd import swifter import multiprocessing import gc pandas_time_list = [] dask_time_list

                                                                たった一文でPandasのapplyメソッドを高速化する方法(検証計算あり) - Qiita
                                                              • 組み込みシステム向けDBであるSQLite入門 - MyEnigma

                                                                Using SQLite: Small. Fast. Reliable. Choose Any Three. (English Edition) 目次 目次 はじめに SQLiteの歴史 特徴 トランザクションがある 設定がない 様々なSQL機能が利用可能 クロスプラットの単一ファイルで管理 高速にデータにアクセスできる 大規模なデータを管理できる ソフトウェアが小さい ソフトウェアやファイルフォーマットが安定している ソースコードがPublic domainで公開されている。 ソフトウェアとしての品質が高い 使い方 公式のCLIツールを使う Pythonの公式モジュールsqlite3を使う PandasのDataFrameとSQLiteをやり取りする 参考資料 MyEnigma Supporters はじめに 世界で最も使われているOSSってなんだろうと考えた時に、 真っ先に思いつくのが

                                                                  組み込みシステム向けDBであるSQLite入門 - MyEnigma
                                                                • Python Web UIフレームワークで作るデスクトップアプリ | gihyo.jp

                                                                  寺田 学(@terapyon)です。2024年4月の「Python Monthly Topics」は、Python Web UIフレームワークの1つであるStreamlitを使ってWindowsやmacOSのデスクトップアプリを作る方法を解説します。 目的⁠・モチベーション Pythonで自動化のスクリプトを作ったり、JupyterLabやColaboratoryでデータの可視化を行うことがあります。これらを作成者以外の多くの方に利用してもらう方法として、Webシステムやデスクトップアプリとして提供する方法が考えられます。 Webシステムの構築やデスクトップアプリの作成となると、技術的なハードルがあります。他には、時間的なコストに見合わないという状況もあり得ます。 Python Web UIフレームワークを使うことで、比較的少ないコードでWeb UIからスクリプトの実行や可視化をするアプリ

                                                                    Python Web UIフレームワークで作るデスクトップアプリ | gihyo.jp
                                                                  • Open Interpreter - Qiita

                                                                    text = """ SeabornのTitanicデータセットを使いLightGBM,XGBoost,CatBoostおよび3つのモデルのアンサンブルした場合で どれが最も精度が良いか検証してください.検証する際は4foldのクロスバリデーションの結果の平均値としてください. 全て日本語で対応してください. """ # return_massagesは出力結果のデータを変数として保持するため引数 # 出力結果はmassagesにも保存される messages = interpreter.chat(text, return_messages=True) 了解しました。以下の手順で進めていきます。 1 必要なライブラリをインストールします。これには、seaborn(データセットの取得)、pandas(データの操作)、numpy cikit-learn(クロスバリデーションと精度評価)、lig

                                                                      Open Interpreter - Qiita
                                                                    • Rust製高速データフレームライブラリ、Polarsを試す | gihyo.jp

                                                                      門脇@satoru_kadowakiです。今月のPython Monthly Topicsでは、Rust製の高速データフレームライブラリ Polars について紹介します。 Polarsとは Pythonでデータ分析に使用される主なライブラリに pandas があります。Polarsはpandasと同様にデータフレームというデータ構造オブジェクトを提供するサードパーティライブラリです。特にpandasを意識して作られており、メインページに「Lightning-fast DataFrame library for Rust and Python」とあるように、Rustによる高速処理を謳っています。 Polarsのリポジトリや関連ドキュメントは以下を参照してください。 Github: https://github.com/pola-rs/polars ユーザーガイド: https://pola

                                                                        Rust製高速データフレームライブラリ、Polarsを試す | gihyo.jp
                                                                      • OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO

                                                                        こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 2022/09/22の夕方ごろ、OpenAIが音声認識ですごいものを出したらしいというニュースが社内のSlackをにぎわせていました。 個人的には、いくら認識が凄いって言っても、実際日本語は微妙なんじゃないかな…?と思っていたのですが… ですが… … … … おお!?(上記はGitHubにあるWER: Word Error Rateのグラフです) これは!? これは結構良さげな数値を出している!?(たぶん) ってことで元音声屋さんとしては、これは試すしかない!ということで動かしてみました!(投稿は翌日になってしまいましたが…) なお、本記事では論文内容の詳細などには触れませんのでご了承ください。(後日できたらがんばります) いますぐ使いたい人向け 今すぐ使いたい方は、Hugging Faceでブラウザから書き起こしを試

                                                                          OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO
                                                                        • 速いと噂のPythonのVaexについて詳しく調べてみた。 - Qiita

                                                                          結構前にPandasやDaskなどよりも大分高速と話題になっていたPythonのVaexライブラリについて、仕事で利用していきそうな気配がしているので事前にしっかり把握しておくため、色々調べてみました。 どんなライブラリなのか Pandasと同じように行列のデータフレームなどを扱うことのできるPythonライブラリです。 Pandasと比較して膨大なデータの読み込みや計算などを高速に行えます(数十倍~数百倍といったレベルで)。 計算上のメモリ効率がとても良く、無駄の少ない実装になっています。 Daskのように計算が遅延評価されたりと、通常はメモリに乗りきらないデータでも扱うことができます。 Daskのように並列処理で計算を行ってくれます。 Pandasと比較的似たインターフェイスで扱うことができます。 この記事で触れること 主に以下のVaexのトピックに関して本記事で触れます。 インストー

                                                                            速いと噂のPythonのVaexについて詳しく調べてみた。 - Qiita
                                                                          • 「Pythonによる医療データ分析入門」は分析100本ノック後に必読な探索的データサイエンス本だった - Lean Baseball

                                                                            今年読んだデータサイエンスおよびPython本の中でも最良の一冊でした. ホントに待ち望んでいた一冊でした. 実は密かに楽しみにしてた(待ち望んでいた)*1, 「Pythonによる医療データ分析入門」, 一通り読ませていただきましたので, Pythonによる医療データ分析入門の感想 分析100本ノック後にやると良いこと 探索的データサイエンスはデータサイエンスに関わる人すべてに関係する準備運動であり入り口であること 的な話を綴りたいと思います. なお, 最初に断っておくと, 新型コロナウイルス含む, 感染症とか流行病の話は一切触れておりません! このエントリーは純粋に「Pythonを使ったデータサイエンス」を志向した方向けのエントリーとなります. 新型コロナウイルスだの感染症関連だのを期待されている・そう思った方はぜひ他のページなどを見ていただけると幸いです. このエントリーのダイジェスト

                                                                              「Pythonによる医療データ分析入門」は分析100本ノック後に必読な探索的データサイエンス本だった - Lean Baseball
                                                                            • Google、Python環境の「Colaboratory」にAIによる開発支援機能を搭載へ。自然言語からのコード生成、チャットボットによる質疑応答など

                                                                              Google、Python環境の「Colaboratory」にAIによる開発支援機能を搭載へ。自然言語からのコード生成、チャットボットによる質疑応答など Googleは今月(2023年5月)に開催したGoogle I/O 2023で、同社として最新の大規模AIモデル「PaLM 2」を発表しており、今回Colaboratoryに搭載されるのも、このPaLM 2に基づいてコードの生成用に作られたモデル「Codey」です。 このCodeyを用いて、Colaboratoryには数カ月以内にコード補完、自然言語によるコード生成、コード支援チャットボットなどの機能が搭載される予定です。 下記は「import data.csv as a dataframe」という自然言語での入力からコードが生成されたところ。

                                                                                Google、Python環境の「Colaboratory」にAIによる開発支援機能を搭載へ。自然言語からのコード生成、チャットボットによる質疑応答など
                                                                              • 【Kubernetes】1週間かかる処理を1.5時間で終わらせた【並列処理】 - ニートの言葉

                                                                                こんにちはあんどう(@t_andou)です。 今回はKubernetesを使って並列処理させた記録です。 まだ「とりあえずそれっぽく動くまで試してみた」という段階で、kubernetesを理解できてはいないので自分用のメモを公開しているという認識でご覧ください。 間違っている部分や、よりスマートなやり方がありましたらご指摘いただけると幸いです。 この記事の概要 機械学習に使う特徴量の作成で1週間かかりそうな処理を10分くらいで終わらせられないかと考え、GKE(=GoogleのKubernetes環境)を使い試行錯誤した記録です。 今回は一部失敗して完了時間が1.5時間になったものの、設定を上手く出来れば15分程度で終わる見込みです。 対象読者 ・Kubernetesの概要は知っているくらいのレベルの人 ・KubernetesのJobを使った並列処理をしたい人 目次 この記事の概要 対象読者

                                                                                  【Kubernetes】1週間かかる処理を1.5時間で終わらせた【並列処理】 - ニートの言葉
                                                                                • AIはハチ=米津玄師を見破れるか ? -J-popアーティストの歌詞を分析してみた- - Qiita

                                                                                  はじめに 一年前にこんな記事を書きました。未だにちょくちょくいいねを頂いているので、自然言語処理の練習を兼ねて久しぶりに遊んでみた系の記事を投稿しようと思います。 やったこと 歌詞データのクローリング Mecabによる分かち書き tf-idfによるベクトル化 ベクトル化した歌詞によるアーティストのクラスタリングとUMAPでの可視化 (おまけ) fastTextでハチ=米津玄師を見分けられるのか? 分析にはJupyter Labを用いました。 歌詞データ 今回用いる歌詞データについて説明します。 クローリングで取得 先立って歌詞データのクローリングをしました。とある人気アーティスト順に歌詞を取得できるサイトより、45人のJ-popアーティストにつき、最大50曲分の歌詞を取得しCSVに保存しました。 実際にクローリングに用いたコードを公開するのもどうかと思うので、ここでは割愛します。。。Bea

                                                                                    AIはハチ=米津玄師を見破れるか ? -J-popアーティストの歌詞を分析してみた- - Qiita