[B! データ] [11ページ] yassan0627のブックマーク

yassan0627 id:yassan0627

データに関するyassan0627のブックマーク (426)

GitHub - boringPpl/data-engineer-roadmap: Learning from multiple companies in Silicon Valley. Netflix, Facebook, Google, Startups
yassan0627 2019/04/01
データ

キャリア
リンク
Getting Started with PySpark for Big Data Analytics, using Jupyter Notebooks and Docker
An updated version of this popular post is published in Towards Data Science: Getting Started with Data Analytics using Jupyter Notebooks, PySpark, and Docker IntroductionThere is little question, big data analytics, data science, artificial intelligence (AI), and machine learning (ML), a subcategory of AI, have all experienced a tremendous surge in popularity over the last few years. Behind the h
yassan0627 2019/04/01
データ

Jupyter Lab

pyspark

spark
リンク
20190314 PGStrom Arrow_Fdw
Hadoop&Spark Conference Japan 2019発表資料 Arrow_Fdw ～PostgreSQLで大量のログデータを処理するためのハードウェア最適化アプローチ～
yassan0627 2019/03/22
Arrow_Fdw – PostgreSQLで大量のログデータを処理するためのハードウェア最適化アプローチ

PostgreSQL

Spark

GPU

データ

Hadoop

hcj2019
リンク
OASIS : LINE’s Data Analysis Tool Using Apache Spark
yassan0627 2019/03/22
LINEのデータ分析ツール OASIS

hadoop

hcj2019

データ
リンク
Multiple Dimension Spreadのご紹介
yassan0627 2019/03/13
hive

データ

hadoop

yosegi
リンク
ヤフー発の OSS 、Multiple-Dimension-Spread（MDS）の紹介
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog はじめにこんにちは。ヤフー株式会社データ＆サイエンスソリューション統括本部データプラットフォーム本部データデリバリー部の井島＆大戸です。今回は、ヤフー株式会社（以下ヤフー）が OSS として公開したカラムナストレージファイルフォーマットの Multiple-Dimension-Spread について、開発の背景を交えて紹介します。 Multiple-Dimension-Spreadとは Multiple-Dimension-Spread（以下MDS）はヤフーが開発したカラムナストレージフォーマットです。大規模なデータを蓄えておく仕組みを湖として捉えたものをデータレイクといいます。 MDS はデータレイクにデータを保存、利
yassan0627 2019/03/13
ORC

データ

yosegi

hadoop
リンク
Visual Vocabulary - Vega Edition
There are so many ways to visualise data – how do we know which one to pick? Click on the coloured categories below to decide which data relationship is most important in your story, then look at the different types of chart within the category to form some initial ideas about what might work best. This list is not meant to be exhaustive, nor a wizard, but is a useful starting point for making inf
yassan0627 2019/03/07
可視化

データ
リンク
Machine Learning Environment Made by Rancher
From Spring Boot 2 to Spring Boot 3 with Java 21 and Jakarta EE
yassan0627 2019/03/05
rancher

k8s

機械学習

データ
リンク
Real-time Recommendations using Spark Comcast Labs
Databricks is the data and AI company. More than 10,000 organizations worldwide — including Comcast, Condé Nast, Grammarly, and over 50% of the Fortune 500 —...
yassan0627 2019/02/27
Sparkカンファレンスのビデオ・アーカイブ

spark

conference
リンク
750 TB のデータを使用して Amazon Redshift で Amazon Payments 分析を実行する | Amazon Web Services
Amazon Web Services ブログ 750 TB のデータを使用して Amazon Redshift で Amazon Payments 分析を実行する Amazon Payments データエンジニアリングチームは、データの取り込み、変換、計算と保管を担当しています。チームはこれらのサービスを世界で 300 社以上のビジネス顧客が利用できるようにしています。これらの顧客には、製品マネージャー、マーケティングマネージャー、プログラムマネージャー、データサイエンティスト、ビジネスアナリスト、およびソフトウェア開発エンジニアが含まれます。彼らは、ビジネス上の決定を適切に下すために、データをスケジュールされたクエリとワンタイムクエリに使用しています。このデータは、リーダーシップチームがレビューする、週次、月次、および四半期ごとのビジネスレビューメトリクスの構築にも使用されています
yassan0627 2019/02/22
あとで読む

データ

分析
リンク
機械学習システムにおける「技術的負債」とその回避策 - Qiita
はじめに空前のAIブームだった2017年、Yahooニュースでは毎日のように『〇〇が△△のAIを開発』のような見出しが目立ちました。2018年は『AIの運用』の時代になるとも言われています。しかし、AI（機械学習）を載せたシステムの開発・テスト・運用の方法は2018年4月現在、まだ確立されていない分野です。今回は、技術的負債という観点から、機械学習システム特有の課題点とその回避策のヒントまとめたGoogleの論文 Machine Learning: The High Interest Credit Card of Technical Debt (2014) を翻訳します。Google翻訳+軽い手作業ですのでご留意を。ちなみにタイトル『機械学習：技術的負債の高金利クレジットカード』の意味は、機械学習システムがまるで高金利のクレジットカードのように、気づかないうちに技術的負債を蓄積して
yassan0627 2019/02/19
技術

データ

機械学習
リンク
2019年版：データサイエンティスト・機械学習エンジニアのスキル要件、そして期待されるバックグラウンドについて - 渋谷駅前で働くデータサイエンティストのブログ
(Image by Pixabay) この記事は、以前の同様のスキル要件記事のアップデートです。正直言って内容的には大差ないと思いますが、今回は2つ新たな軸を加えることにしました。一つは「ジュニアレベル（駆け出し）」と「シニアレベル（熟練職人）」とで分けるということ、もう一つは「データ分析以外の業界知識（ドメイン知識）」にも重きを置く、ということです。というのも、空前の人工知能ブームが予想よりも長く続いていることで、人材マーケットを観察する限りではデータサイエンティスト・機械学習エンジニアとも求人数が高止まりしているように見えるのですが、その結果としてこのブログの過去のスキル要件記事で挙げたような「完成されたデータ分析人材（熟練職人）」に限らず「駆け出し」でも良いからデータ分析人材が欲しいという企業が増えているように感じられるからです。その一方で、かつては主にwebマーケティング業界
yassan0627 2019/02/19
学習

機械学習

データ
リンク
About Hue in 2018
2018年のHue Hue (Hadoop User Experience) は Hadoop エコシステムのユーザーインターフェースを提供するオープンソースのソフトウェアです。最近の Hueのプロジェクトページによると「Hue is an open source Workbench for developing and accessing Data Apps.」と書かれています。データアプリケーションを開発、アクセスする方向けのワークベンチというポジションを目指しているようです。以前より Hue の啓蒙活動をしており、過去のブログにもいくつかの記事を書いています。Hueって何？という方は以下をご覧ください。 Hue 日本語版サイト http://jp.gethue.com HUEについてのまとめ 2016年版 Hue 4.0 (slideshare) 2017 Hue Meetup
yassan0627 2019/02/19
hadoop

hue

データ

可視化
リンク
https://github.com/looker/lookerbot/blob/master/README.md
yassan0627 2019/02/16
slackから呼び出し可能なBIツール

Slack

データ

BI

Looker
リンク
エンジニアを魅了する次世代 BI ツール『Looker』を Quipper が導入した理由（わけ） - スタディサプリ Product Team Blog
こんにちは、データグループのマネージャーをやっています beniyama と申します。先の記事『プロダクトの「負債」を「機能」と呼び直す〜A/Bテストを用いた"価値"の定量化〜』でも触れられていますが、データグループではデータ分析基盤の構築（参考資料）からデータ分析、あるいは学習データを活用した研究開発までスタディサプリのデータに関わることほとんど全てを担当しています。プロダクトや事業 KPI の社内向けモニタリング環境の構築・整備も行なっているのですが、今回、既存の環境を刷新して Looker というまだ日本ではほとんど無名？のツールを導入することにしましたのでその経緯をお話ししつつ、今後国内でもユーザーが増えていくといいなという願いを込めて１エンジニアとして興奮したポイントを書き連ねていこうと思います。最初の１年間は DOMO を導入して運用スタディサプリではもともと各種 K
yassan0627 2019/02/16
slackから呼び出し可能なBIツール

Slack

データ

BI

Looker
リンク
データの民主化に向けて Lookerbot を導入した話と課題と今後 - スタディサプリ Product Team Blog
はじめまして、データエンジニアリングチームの @toohsk です。今回は、データの民主化を推進するために導入した Looker 社の Lookerbot という Slack ボットをご紹介します。 Lookerbot ってなによ Quipper では、先の記事「エンジニアを魅了する次世代 BI ツール『Looker』を Quipper が導入した理由（わけ）」でご紹介したように、BI ツールとして Looker を導入しています。 BI を導入した後、Slack などでの会話上でグラフやモニタリングした数値を共有したいと思うシーンはよくあると思いますが、Looker ではそのような用途のために Lookerbot と呼ばれるボットを公開しています。 Lookerbot が提供する主な機能は Look （Looker におけるデータを可視化するコンポーネントの最小単位）に対する、下記の二
yassan0627 2019/02/16
slackから呼び出し可能なBIツール

Slack

データ

BI

Looker
リンク
ログを集める時に気をつけたいポイント - 名前は明日つけます
どすこい！去年放置したブログに久々にログインする季節になりました！今日はCyberAgent Developers Advent Calendar 2016 - Adventarの10日目です。昨日は@shotaTsugeさんのCloud Deployment Managerを少し触ってみて感じた事でした。最近この記事を書きました。 developers.cyberagent.co.jp CyberAgentに入社してから主にログ転送基盤の構築・運用をやってきました私ですが、今回はその経験を踏まえてログ収集系のミドルウェア使う時やストリーミング処理を行う際の注意点についていくつか書きたいと思います。はじめにログ収集基盤 CyberAgentでは以前からApache Flumeを利用してログの収集システムを構築・運用しております。 Flumeを活用したAmebaにおける大規模ログ収
yassan0627 2019/02/15
ログ

データ

データ基盤
リンク
C/C++拡張されたPythonライブラリをCloudera Data Science WorkbenchとSparkクラスタで分散実行する
サンプルによるMeCabを使ったword cloudCloudera Data Science Workbench(CDSW)は、データサイエンティストに、Python、R、およびScalaを使用してエンタープライズデータにセキュアにアクセスできるようにします。前回の記事(日本語)では、お気に入りのPythonライブラリをPySparkでApache Sparkクラスタで使用する方法を紹介しました。 Pythonの世界では、データサイエンティストはC/C ++などのネイティブ拡張を含むXGBoostなどのPythonライブラリを使用したいことがよくあります。この記事では、この問題を解決してC拡張を使ってcondaレシピを作成する方法を示します。レシピ作成のサンプルリポジトリはこちら、MeCabの分散実行のサンプルはこちら。 condaパッケージの詳細については、公式ドキュメントを参照
yassan0627 2019/02/15
hadoop

cadeda

データ

docker
リンク
Sparkクラスタ上で好きなPythonライブラリをCloudera Data Science Workbenchから使う
Cloudera Data Science Workbenchはデータサイエンティストに自由を与えます。プロジェクトごとにコンテナを立ち上げることで、他のプロジェクトと独立した環境を使うことができ、root権限なしに好きなライブラリを自由に使うことが出来ます。 Sparkクラスタ上で好みのパッケージを使うのは、JavaやScalaなどのJVMの世界では簡単です。アプリケーションがパッケージを管理するため、fat JARやuber JARと呼ばれる必要なパッケージを一つにまとめたJARファイルを作ることで、アプリケーション毎に異なるパッケージをSparkクラスタに配布し利用することができます。一方で、多くのデータサイエンティストはScalaよりPythonを使うことが多いです。しかし、PythonのライブラリをSparkクラスタに配布して実行するのは、root権限を持ってクラスタの設定変更
yassan0627 2019/02/15
hadoop

cadeda

データ

docker
リンク
Cloudera Data Science WorkbenchとPySparkで好きなPythonライブラリを分散で使う #ca…
Data Engineering and Data Analysis Workshop #1 での有賀 (@chezou)の発表です。 https://cyberagent.connpass.com/event/58808/ Cloudera Data Science WorkbenchとPySparkを使い、Pythonで好きなライブラリを分散実行する方法についてです。日本語の形態素解析ライブラリMeCabをPySparkから実行します。
yassan0627 2019/02/15
hadoop

cadeda

データ
リンク
前のページ 7 8 9 10 11 12 13 14 15 16 次のページ

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx