[B! データ][python] yassan0627のブックマーク

GitHub - streamlit/streamlit: Streamlit — A faster way to build and share data apps.

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.

yassan0627 2020/07/02

リンク

データサイエンスレガシーコード - 科学と非科学の迷宮

Repro Tech Meetup #7 にて、「データサイエンスレガシーコードに立ち向かう」というタイトルで講演しました。データサイエンティスト全てというわけではありませんが、データサイエンスのコードは試行錯誤の連続であり、様々な手法を連続して試すことを考えると、最初からきちんとテストを書いた保守性の高いコードを書く、というのはそう簡単ではありません。しかし、そうした試行錯誤を経て出来上がったデータサイエンスのコードを、「動いているから」という理由でそのまま実戦投入していくケースを目にしたことある人はいるのではないでしょうか。このような状況に直面したとき、私が思い出したのは、10年前の、あるプロジェクトのことでした。当時の私はある社内システムの開発に携わったのですが、既存コードには一切テストがなく、かなりの分量の改修が必要で、そして期日が迫っている、という状況でした。このとき私

yassan0627 2019/04/23

リンク

一休のETL処理をAirflowで再構築しました - 一休.com Developers Blog

一休のデータサイエンス部に所属しています小島です。以前データ分析基盤の構築で記事を上げていましたが、今回はETL*1周りの話をしようと思います。 user-first.ikyu.co.jp 今回ETLのツールとして導入したのはAirflowというツールです。 2017年のアドベントカレンダーでも紹介させていただきました。一休のデータフローをAirflowを使って実行してみる一休のETLの現状について一休のETL周りは以下の画像のようになっていました。課題 ETLの処理時間が伸びた（出社後も処理が続いていた）エラーのリカバリ作業に時間がかかる（ログが確認しにくい, サーバーに入って作業しなければいけない）複雑な依存関係の定義がしにくい（どれとどれが依存しているかわからない）リソース負荷（全て並列で実行していた）処理毎のボトルネックが把握できないツールの問題というよりは正し

yassan0627 2018/06/27

UTCがネックで時間間隔がJSTと差異が出るのでジョブのタイミングが直感的じゃないけど、Cloud ComposerもAirflowベースだし、ありかもなぁ。

リンク

Jupyter notebook (iPython Notebook)を使う時に気をつけるべき10個のこと - MyEnigma

PythonユーザのためのJupyter[実践]入門posted with カエレバ池内孝啓,片柳薫子,岩尾エマはるか,@driller 技術評論社 2017-09-09 Amazonで検索楽天市場で検索Yahooショッピングで検索目次目次はじめに 1. 環境の独立性を保つために各プロジェクト毎にvirtualenvを使う 2. Python3を使う 3. requirements.txtを保存しておく 4. すべてのimport文とパスの設定は初めのセルに入れる 5. はじめはコードは汚くても良い 6. グローバル名前空間を汚さないために、セルの中の処理は関数とする 7. 長い計算時間の結果をキャッシュするためにJoblibを使う 8. セルの独立性をできるだけ保つ 9. 変数名は短くても良い 10. ユーティリティ関数にはアサーションを使ってテストを書く参考資料 MyE

yassan0627 2017/10/25

リンク

Efficient UD(A)Fs with PySpark

Nowadays, Spark surely is one of the most prevalent techno logies in the fields of data science and big data. Luckily, even though it is developed in Scala and runs in the Java Virtual Machine (JVM), it comes with Python bindings also known as PySpark, whose API was heavily influenced by Pandas. With respect to functionality, modern PySpark has about the same capabilities as Pandas when it comes to

yassan0627 2017/10/23

リンク

20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所

yassan0627 2017/10/01

リンク

Python's Visualization Landscape (PyCon 2017)

So you want to visualize some data in Python: which library do you choose? From Matplotlib to Seaborn to Bokeh to Plotly, Python has a range of mature tools to create beautiful visualizations, each with their own strengths and weaknesses. In this talk I’ll give an overview of the landscape of dataviz tools in Python, as well as some deeper dives into a few, so that you can intelligently choose whi

yassan0627 2017/06/01

リンク

（翻訳）2017年の展望: pandas, Arrow, Feather, Parquet, Spark, Ibis - Qiita

始めに：pandasの作者であるWes McKinneyさんがPythonのデータツール関連でとても興味深いblogを書かれているので、翻訳して日本のPyDataコミュニティに公開してもいいでしょうか、とお聞きしたところ、快諾をいただきましたので少しずつ訳して公開していこうと思っています。（原文：http://wesmckinney.com/blog/outlook-for-2017/ ） 2016/12/27 Python dataの開発に関して、2017はエキサイティングな年になりそうです。このポストでは、私から提供できそうなものについて書いていきます。それぞれのピースを全体としてどうまとめていくつもりなのか、詳しくは今後のポストで書いていきます。2016年は開発とPython for Data Analysisの第2版の作業で完全に手一杯でblogはあまり書けませんでした。2017

yassan0627 2017/05/28

リンク

さくっとトレンド抽出: Pythonのstatsmodelsで時系列分析入門 - Gunosyデータ分析ブログ

久しぶりの投稿になってしまいましたが、ニュースパス(現在CM放映中!!)開発部の大曽根です。作業中はGrover Washington Jr のWinelightを聴くと元気が出ます。参加ミュージシャンが素晴らしいですね。なぜ時系列分析をするのか季節調整実演おまけ: 時間別に見てみるまとめ今後なぜ時系列分析をするのか数値を非常に重視している弊社では、数値を知るためのツールとしてRedashやChartioおよびSlackへの通知を活用しています。現在の数値を理解する上では、長期のトレンド(指標が下がっているのか、上がっているのか)を知ることが重要です。しかし、日々変化するデータ(特に売上やKPIと言われる指標)は、ばらつきも大きく、変化を適切に捉えることが難しいこともあります。特にSlackなどへの通知を行っていると、日々の変化に囚われがちです。例えば、弊社ではニュース

yassan0627 2017/02/03

リンク

開発者がビッグデータ分析にPythonを使う時によくやる間違い | POSTD

システムの構築、新しい技術の習得、PythonやDevOpsなどに情熱を注ぐソフトウェア開発者です。現在はチューリッヒを拠点とするビッグデータのスタートアップで働いており、データ分析およびデータ管理ソリューションのためのPythonの技術を磨いています。 1 はじめに Python は開発時間を短縮できるという点で一般的に評価の高い言語です。しかし、Pythonを使って効率よくデータ分析をするには、思わぬ落とし穴があります。動的かつオープンソースのシステムであるという特徴は、初めは開発を容易にしてくれますが、大規模システムの破綻の原因になり得ます。ライブラリが複雑で実行時間が遅く、データの完全性を考慮した設計になっていないので、開発時間の短縮どころか、すぐに時間を使い果たしてしまう可能性があるのです。この記事ではPythonやビッグデータで作業をする時に、最も時間を無駄にしがちな事柄につ

yassan0627 2016/06/20

リンク

はてなブックマーク

タグ

関連タグで絞り込む (10)

データとpythonに関するyassan0627のブックマーク (10)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス