[B! データ] [8ページ] yassan0627のブックマーク

yassan0627 id:yassan0627

データに関するyassan0627のブックマーク (426)

Why monitoring your big data analytics pipeline is important (and how to get there)
yassan0627 2020/07/30
データ

監視

hadoop
リンク
位置情報を利用してサイトのアクセス元を可視化｜とくきち（tokukichi）
エンジニア｜事業サービス会社に所属｜得意領域はマーケティングオートメーション、WEB接客サービス、データ基盤、BigQuery 個人メディア→ https://tokukichi.com/
yassan0627 2020/07/28
bigquery

データ

GIS
リンク
国立国会図書館サーチ（NDLサーチ）
詳細検索「絞り込み条件」をあらかじめ表示した検索画面です。多数の条件を組み合わせた高度な検索が可能です。
yassan0627 2020/07/16
API

データ

ツール
リンク
Google CloudがBigQueryでAWS、Azure上のデータを動かさずに分析できる「BigQuery Omni」を発表
Google Cloudは2020年7月14日（米国時間）、アナリティクスサービス「BigQuery」のマルチクラウド対応を発表した。Amazon Web Services（AWS）やMicrosoft Azure上のデータを動かすことなく、BigQueryによるマルチクラウドのデータ分析ができる。 Google Cloudは同日、AWSの「Amazon S3」に対応したプライベートα版の提供を開始した。Azureへの対応は近い将来（「soon」）に行うという。 BigQuery Omniでは、Google Cloudがマルチクラウド対応を進めるマネージドKubernetesサービス、「Anthos」を活用する。BigQuery OmniとしてAWSやAzureに展開するAnthosクラスタ上で、BigQueryのクエリエンジンである「Dremel」をマネージドサービスとして動かす。その上
yassan0627 2020/07/15
bigquery

aws

gcp

データ
リンク
Spark+AI Summit 2019 セッションハイライト (Spark Meetup Tokyo #1 - Spark+AI Summit 2019)
yassan0627 2020/07/07
データ

DeltaLake

hadoop

HDFS

spark
リンク
MLflowによる機械学習モデルのライフサイクルの管理
This is a slide for Spark Meetup Tokyo #1 (Spark+AI Summit 2019)
yassan0627 2020/07/07
データ

機械学習

mlflow
リンク
「今機械学習に必要なのはデータマネジメント」5つの秘訣を実例つきで紹介 | AI専門ニュースメディア AINOW
最終更新日： 2020年8月6日データを活用する多くの企業の価値が向上しています。世界的な企業は、ユーザのデータを巻き込み広告などのビジネスを展開し、現在、多くのビジネスはデータを資本に展開されているといっても過言ではないでしょう。一方、データの活用の環境が整っている会社ばかりではありません。電子化されていないデータ、管理者がバラバラなデータ、企業によってデータに関する多くの課題があることでしょう。データの課題は、そのままAIの活用を大きく遅らせる足かせにもなってしまいます。この記事では、重要性が高まる「データマネジメント」について解説します。バズワード化するAIとデータマネジメントの必要性の高まり 2010年代に入り、今までのシステム以上の精度で画像認識することが可能になり、ディープラーニングなど機械学習への注目が高まりました。 AIの導入に少しでも興味を持った方は、AIの中でも
yassan0627 2020/07/06
データ

マネジメント

事例
リンク
え、まって。その並列分散処理、Kafkaのしくみでもできるの？ Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
Apache Sparkに手を出してヤケドしないための基本～「Apache Spark入門より」～（デブサミ 2016 講演資料）
yassan0627 2020/07/06
kafka

データ

ストリーム
リンク
Data Science Version Control System
(Not Just) Data Version ControlOpen-source, Git-based data science. Apply version control to machine learning development, make your repo the backbone of your project, and instill best practices across your team. Connect storage to repoKeep large data and model files alongside code and share via your cloud storage. Configure steps as you goDeclare dependencies and outputs at each step to build rep
yassan0627 2020/07/02
データ

機械学習
リンク
Workflow Orchestration Made Simple | Prefect
1from prefect import flow, task 2 3 4@task(log_prints=True) 5def say_hello(name: str): 6 print(f"Hello {name}!") 7 8 9@flow 10def hello_universe(names: list[str]): 11 for name in names: 12 say_hello(name) 13 14 15if __name__ == "__main__": 16 # create your first deployment to automate your flow 17 hello_universe.serve(name="your-first-deployment")
yassan0627 2020/07/02
データ
リンク
GitHub - streamlit/streamlit: Streamlit — A faster way to build and share data apps.
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.
yassan0627 2020/07/02
python

データ
リンク
データサイエンス初学者のための実践的な学習環境「データサイエンス100本ノック（構造化データ加工編）」をGitHubに無料公開 | 一般社団法人データサイエンティスト協会
一般社団法人データサイエンティスト協会（所在地：東京都港区、代表理事：草野隆史、以下データサイエンティスト協会）は、構造化データの加工について実践的に学ぶことができる無料の学習環境「データサイエンス100本ノック（構造化データ加工編）」をGitHubに公開しました。「データサイエンス100本ノック（構造化データ加工編）」は、データサイエンス初学者を対象に、データの加工・集計、統計学や機械学習を駆使したモデリングの前処理等を学べるよう、データと実行環境構築スクリプト、演習問題をワンセットにしています。近年、データ活用の重要性についての認知が広がる中で、書籍やWebサイトなど、データ分析のスキル向上に役立つ情報源も多く提供されています。一方で、実践するための「データ」や「プログラミング実行環境」を持ち合わせていないことも多く、「実践力」を身につける機会が限られていました。特に、「構造化デ
yassan0627 2020/06/16
訓練用データはPython以外でも使えるし色々遊べそう。

データ

学習
リンク
データ基盤のメタデータを継続的に管理できる仕組みを作る - Hatena Developer Blog
こんにちは。MackerelチームでCRE(Customer Reliability Engineer)をしているid:syou6162です。 CREチームではカスタマーサクセスを進めるため、最近データ分析により力を入れています(参考1, 参考2)。データ分析を正確に行なうためには、データに関する正確な知識が必要です。今回はより正確なデータ分析を支えるためのメタデータを継続的に管理する仕組みについて書いてみます。データに対する知識: メタデータデータ分析を正確に行なうためには、データ自身に関する知識(=メタデータ)が必要です。例えば、Mackerelのデータ分析タスクでは以下のような知識が必要とされることが多いです。このテーブル / カラムは何のためのテーブルなのか似たようなカラムとの違い集計条件の違い、などデータがどのような値を取り得るか SELECT column, COU
yassan0627 2020/06/13
このメタデータ管理良いなぁ。

データ

管理
リンク
Integrating Airflow with Slack for Daily Reporting | by Mandy Gu | Towards Data Science
Photo by Austin Distel on UnsplashTech Stack: Python 3.7, Airflow (1.10.10), Docker GitHub link: All of the code can be found here. Airflow + Slack Slack is an increasingly popular chat app used in the workplace. Apache Airflow is an open source platform for orchestrating workflows. One of the biggest advantages to using Airflow is the versatility around its hooks and operators. Hooks are interface
yassan0627 2020/06/12
airflow

データ
リンク
いち早く在宅勤務のデータ分析に踏み出した関西の電子機器トップメーカー【アンケート分析】
機械学習とSHAPを用いたデータビジュアライズテレワークを続けたい人はどのような人か？の探索テレワークの効率が良かった人はどのような人か？の探索機械学習とSHAPを用いたデータビジュアライズ今回はSHAPという機械学習の結果を説明するアルゴリズムを用いてアンケートの分析を行います。SHAPのsummary_plot関数は、どの説明変数が目的変数に対してどのように寄与したのかをビジュアライズしてくれます。まずはこのビジュアライズ結果の読み方から説明します。以下の画像はSHAPの公式がサンプルとして公開しているボストンの住宅価格予測問題のsummary_plotの結果です。 SHAPのsummary_plotの読み方としては次の通りです。縦軸：上から順に、目的変数に対する寄与の大きさ横軸：左側は目的変数に対して負の寄与、右側は正の寄与色：青は小さな値、赤は大きな値これらを組み合わせること
yassan0627 2020/06/05
データ

事例

在宅勤務
リンク
HashiCorp Vault 紹介
IAM Roles Anywhereのない世界とある世界（2022年のAWSアップデートを振り返ろう ~Season 4~ 発表資料）
yassan0627 2020/06/02
データ

管理

Vault

HashiCorp
リンク
Apache Hadoop のデータを BigQuery で分析するための移行手順
この記事は Google Cloud Japan Customer Engineer Advent Calendar 2019 の 2 日目の記事です。 TL;DRApache Hadoop のデータを BigQuery で分析できるようにするための移行手順をご紹介します。Google Cloud が提供する、フルマネージドでサーバレスなデータウェアハウスである BigQuery を活用することで、インフラやミドルウェアの運用保守作業を行う必要がなく、データ分析作業に専念できるようになります。（個人的な意見ですが）オンプレミスで Apache Hadoop クラスタを運用している場合、サーバの調達や、ミドルウェアのインストール、各種リソースの使用率のモニタリング、パフォーマンスチューニングなどの運用保守作業が定期的に発生し、効率的にデータ分析環境を運用することができない、といった課題が
yassan0627 2020/06/02
bigquery

hadoop

データ

google

運用
リンク
Airflow: how and when to use it (Advanced)
yassan0627 2020/05/23
データ

Airflow
リンク
MLOps: 機械学習における継続的デリバリとパイプラインの自動化を翻訳してみた - Qiita
表1(翻訳者により追加) MLOpsにおいて、DevOpsから追加された項目以下では，予測サービスとして機能するMLモデルのトレーニングと評価の代表的な手順を説明します． MLのためのデータサイエンスの手順どのMLプロジェクトでも、ビジネスユースケースを定義して成功基準を確立した後、 MLモデルを本番環境にデリバリする過程には次の手順が含まれます。これらの手順は手動で完了することも、自動パイプラインで完了することもできます。データ抽出： MLタスクのさまざまなデータソースから関連データを選択して統合します。データ分析：探索的データ分析（EDA）を実行して、MLモデルの構築に使用可能なデータを把握します。このプロセスにより、次のことが起こります。モデルが期待するデータスキーマと特性を理解します。モデルに必要なデータの準備と特徴量エンジニアリングを特定します。データの
yassan0627 2020/05/20
機械学習

データ
リンク
Building A Relational Database Using Kafka
In a previous post, I showed how Kafka can be used as the persistent storage for an embedded key-value store, called KCache. Once you have a key-value store, it can be used as the basis for other models such as documents, graphs, and even SQL. For example, CockroachDB is a SQL layer built on top of the RocksDB key-value store and YugaByteDB is both a document and SQL layer built on top of RocksDB.
yassan0627 2020/04/30
kafka

データ
リンク
前のページ 4 5 6 7 8 9 10 11 12 13 次のページ

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx