[B! データ][データ分析] yassan0627のブックマーク

yassan0627 id:yassan0627

データとデータ分析に関するyassan0627のブックマーク (25)

UI Dev in Big Data World using 'open source' | ApacheCon
yassan0627 2020/04/02
BigData向けのUIの開発について。面白かった。

データ

データ分析

ApacheCon
リンク
行政プロセスにデータ分析を取り入れるために知っておきたい知識と事例
2020年2月6日に開催された「令和元年度政策評価に関する統一研修」（埼玉会場）の講義資料です。 (2020-02-09追記) 受講者以外の方々にもたくさんご覧頂いているようでありがとうございます。注意点として、口頭での説明を前提とした資料であるため、スライド中の文章は最小限にとどめてある点ご了承下さい。
yassan0627 2020/02/10
データ

行政

データ分析
リンク
開発現場に“データ文化”を浸透させる「データ基盤」大解剖
「ゼクシィ縁結び・恋結び」の開発現場において、筆者が実際に行ったことを題材として、「データ基盤」の構築事例を紹介する連載。最終回は、「データ活用文化を、どのように組織に装着するか」についてお伝えします。
yassan0627 2018/10/27
データ

データ分析
リンク
事業のグロースを支えるDataOpsの現場 #DataOps #DevSumi #デブサミ / 20180727 - Speaker Deck
Developers Summit 2018 Summer 【C-1】の発表資料です。 https://event.shoeisha.jp/devsumi/20180727/session/1764/ データの民主化、データ基盤の構築、分析チームの立ち上げ、機械学習プロジェクト。世を見渡せばキラキラした事例に溢れています。しかし、いざ自分たちでやろうとしてもなかなか上手くいきません。理想に辿り着くためには、泥臭い過程が存在します。本セッションでは「登り方や道のりを知りたいんだ！」という方に向けて、DataOpsの観点から案件・システム・プロセス・文化・組織をエンジニアリングしてきた現場のリアルをご紹介します。データ活用に携わる全てのエンジニアが今すぐ行動するためのヒントを持ち帰っていただければ幸いです。以下のブログで補足・裏話を掲載しています。 - http://yuzutas0.
yassan0627 2018/08/01
最高に良い資料。むっっっちゃよく分かる。

データ

データ分析
リンク
探索的データ解析における正しい可視化手法の選び方と描き方 - Qiita
データ分析における関数の使い方については様々な記事が上がっています。関数を知らなかったり使い方が分からないときは調べればだいたい答えが見つかります。一方で、実際に分析を始めようとすると、たとえ関数の使い方がわかっていても、データをどのような切り口から何を分析・可視化していけば良いのか困ってしまうことがよくあります。この記事では、あんちべさんが書いたデータ解析の実務プロセス入門という本をベースに、どのようなデータから何を見たいときにどのような可視化手法を使えばよいのかを、具体例を交えながら整理していきます。探索的データ解析とはデータ解析のアプローチは、大きく分けて仮説をデータで検証する「仮説検証型」とデータから仮説を生み出す「探索型」に分けられます。実際にデータ解析を行うときは、仮説検証型と探索型を行き来しつつ知見を見出していきます。データ解析には検証すべき仮説を設定することが必
yassan0627 2018/05/08
可視化

データ分析

データ
リンク
イミュータブルデータモデルと webアプリケーションにおける現実解 - Qiita
これは第2のドワンゴ Advent Calendar 2017の5日目です 5日11時時点で2日担当の yonex がまだ記事書いてないですが、気にせず続けます。niconico(く)のリリースが来年と聞いて残念な気持ちです。おめー誰よ？ドワンゴ Advent Calendar皆勤賞っぽいですが、私はドワンゴ社員ではありません。定年をとうに過ぎたおじさんです。前置き web アプリケーションの開発において、データモデリングはとても重要です。 SIerではDBAとか言って専門の設計担当がいるみたいですが、中小webサービス企業でそこまでの分業ができるわけもなく、大体においてwebアプリケーション(サーバサイド)エンジニアが担当することになります。詳細はリンクに譲りますが、「履歴を全て残すようなデータ設計にし、 UPDATE を廃することで情報の追跡可能性を確保、堅牢な設計にする」モ
yassan0627 2018/02/09
データ

データ分析

DB

設計
リンク
オープンデータの形式は”CSV”の先にどこに向かうのか (2ページ目)
太田恒平 @kohei_ota 公共交通データをめぐる理想と現実 -それでもなんとかつなげてく-（東京大学伊藤昌毅様）「公共交通のデータが難しいと気づくまで1年かかる」みんな笑ってるけど… そうか？　NAVITIMEの新卒研修1日でわかるぞ。オープンデータ界隈の人は楽観主義者が多いだけじゃない？ #ODTALK pic.twitter.com/SCXaMIUnQg 2017-12-19 19:56:13
yassan0627 2017/12/22
データ

データ分析

オープンデータ
リンク
GitHub - supersoftware/dpp: Data Processing Platform on Rancher using Spark + Akka + Cassandra + Kafka (SMACK without the M)
yassan0627 2017/06/19
rancher

Docker

spark

terraform

データ分析

データ
リンク
【OSS情報アーカイブ】Schema Registry | マジセミ
※当記事に記載されている情報は、古くなっている場合があります。オフィシャルサイトで最新情報をご確認ください。基本情報概要 Schema Registry(スキーマレジストリ)とは、メッセージングシステム「Apache Kafka」ベースのストリームデータ基盤「Confluent Platform」の1コンポーネントです。一元的なスキーマ管理機能を提供します。ストリームデータ基盤「Confluent Platform」とは Confluent Platformとは、大量データを管理可能なストリームデータ基盤です。さまざまなITシステムから集まる構造化されていないものの価値あるデータ群に対して、統一的で容易なアクセスを可能とします。 Confluent Platformは、「Apache Kafka」をコアとして使用し、「Schema Registry」「Rest Proxy」「Cam
yassan0627 2017/06/13
Confluent Platformは、「Apache Kafka」をコアとして使用し、「Schema Registry」「Rest Proxy」「Camus(Hadoop Cluster向けMapReduce実装)」などのコンポーネントを統合し、一貫性と柔軟性を持つストリームデータ処理基盤

Apache Kafka

スキーマ

データ

シリアライズ

データ分析
リンク
整然データとは何か｜Colorless Green Ideas
整然データとは、1) 個々の変数が1つの列をなす、2) 個々の観測が1つの行をなす、3) 個々の観測の構成単位の類型が1つの表をなす、4) 個々の値が1つのセルをなす、という4つの条件を満たした表型のデータのことであり、構造と意味が合致するという特徴を持つ。R言語などを用いたデータ分析の際には非常に有用な概念である。はじめにデータ分析の際には、データが扱いやすい形式になっている必要がある。データの中身がぐちゃぐちゃになっていたり、データの形式が統一されていなかったりすれば、分析は骨の折れる作業となる。それでは、どのようなものがデータ分析において扱いやすい形式のデータになるのだろうか。この問題に対する唯一の正しい解答というものは存在しない。しかし、表の形式で表すことができるデータを考える場合、ハドリー・ウィッカム (Hadley Wickham) 氏が提唱した整然データ (tidy d
yassan0627 2017/01/24
データ分析

データ
リンク
https://www.clouderaworldtokyo.com/session-download/B3-Kudu-2FImpala-Strata-talk.pdf
yassan0627 2016/12/05
Creating real-time data applications with Impala and Kudu

Kudu

Impala

データ

データ分析
リンク
#cwt2016 Apache Kudu 構成とテーブル設計
スライド中のURI - Kuduのインストール(Cloudera Manager使用) http://www.cloudera.com/documentation/betas/kudu/latest/topics/kudu_installation.html - Impala-Kuduのインストール(CDH5.8以前) http://www.cloudera.com/documentation/betas/kudu/latest/topics/kudu_impala.html#install_impala - Apache Kudu Troubleshooting http://kudu.apache.org/docs/troubleshooting.html - Apache Kudu project page http://kudu.apache.org/ - Cloudera Eng
yassan0627 2016/12/03
あとで読む

データ分析
リンク
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
スキーマフリー SQL エンジン Apache Drill の概要、利用事例、ロードマップを紹介。オープンデータの分析を例に Drill の使い方を説明します。2015年9月15日に開催されたTokyo Apache Drill Meetupでの講演資料です。
yassan0627 2016/12/02
Apache Drill

データ

データ分析
リンク
Apache Drill で JSON 形式のオープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
つい先日バージョン1.0がリリースされたスキーマフリーSQLクエリエンジンApache Drill。Drill登場の背景と特徴、他のSQL-on-Hadoopとの違いについて解説します。また、いろいろなオープンデータを使ってJSONデータを実際に分析する実践的な内容を盛り込みます。2015年6月10〜12日に開催されたdb tech showcase Tokyo 2015での講演資料です。
yassan0627 2016/12/02
Apache Drill

データ

データ分析
リンク
HDF/CFM NIFI Best practices for setting up a high performance NiFi installation.
HDF or CFM best practices guide to configuring your system and NiFi for high performance dataflows. Note: The recommendation outlined in this article are for the NiFi service and apply whether the NiFi service is being deployed/managed via Ambari, Cloudera Manager, or neither. NiFi is pre-configured to run with very minimal configuration needed out of the box. Simply edit the nifi.properties file
yassan0627 2016/12/02
データ

Apache NiFi

データ分析
リンク
GitHub - apache/superset: Apache Superset is a Data Visualization and Data Exploration Platform
Superset is a modern data exploration and data visualization platform. Superset can replace or augment proprietary business intelligence tools for many teams. Superset integrates well with a variety of data sources. Superset provides: A no-code interface for building charts quickly A powerful, web-based SQL Editor for advanced querying A lightweight semantic layer for quickly defining custom dimen
yassan0627 2016/11/27
superset

Druid

データ分析

データ

BI
リンク
GitHub - livedoor/datasets: 研究用データセットです。
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
yassan0627 2016/11/27
データ

データ分析
リンク
Redash の次にくるのは superset!! - Airbnb 謹製の BI ツールが OSS で - Witch on the Other Shore
Redash (re:dash) 流行ってますね。 redash.io 最近 Github をにわかに賑わせている OSS が superset です。 github.com superset とは公式説明によると data exploration platform とのことですが、僕の感覚的にはこれはつまり、いわゆる Business Intelligence (以下 BI) Tool です。そう、Tableau のような。 OSS (Apache 2.0) サーバーサイドは Python で書かれている Flask や pandas、SQLAlchemy などを利用さまざまなデータソースに対応 (MySQL, Redshift、SparkSQL など) グラフ描画の種類が豊富 Role や Permission についてある程度細かく設定可能 Airbnb Engineering
yassan0627 2016/11/27
気になる

BI

データ

データ分析

superset
リンク
サイバーエージェントにおけるデータの品質管理について #cwt2016
Kubernetesでの性能解析～なんとなく遅いからの脱却～（Kubernetes Meetup Tokyo #33 発表資料）
yassan0627 2016/11/17
“https://github.com/snowplow/snowplow/wiki/canonical- event-model ”

データ

データ分析
リンク
本当にデータ分析は企業に必要なのか？【戦略的データマネジメント講座】　
EnterpriseZine（エンタープライズジン）編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。
yassan0627 2016/07/06
データ分析

データ
リンク
1 2 次のページ