An updated version of this popular post is published in Towards Data Science: Getting Started with Data Analytics using Jupyter Notebooks, PySpark, and Docker IntroductionThere is little question, big data analytics, data science, artificial intelligence (AI), and machine learning (ML), a subcategory of AI, have all experienced a tremendous surge in popularity over the last few years. Behind the h
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog はじめに こんにちは。 ヤフー株式会社 データ&サイエンスソリューション統括本部データプラットフォーム本部データデリバリー部の井島&大戸です。 今回は、ヤフー株式会社(以下ヤフー)が OSS として公開したカラムナストレージファイルフォーマットの Multiple-Dimension-Spread について、開発の背景を交えて紹介します。 Multiple-Dimension-Spreadとは Multiple-Dimension-Spread(以下MDS)はヤフーが開発したカラムナストレージフォーマットです。 大規模なデータを蓄えておく仕組みを湖として捉えたものをデータレイクといいます。 MDS はデータレイクにデータを保存、利
There are so many ways to visualise data – how do we know which one to pick? Click on the coloured categories below to decide which data relationship is most important in your story, then look at the different types of chart within the category to form some initial ideas about what might work best. This list is not meant to be exhaustive, nor a wizard, but is a useful starting point for making inf
Amazon Web Services ブログ 750 TB のデータを使用して Amazon Redshift で Amazon Payments 分析を実行する Amazon Payments データエンジニアリングチームは、データの取り込み、変換、計算と保管を担当しています。チームはこれらのサービスを世界で 300 社以上のビジネス顧客が利用できるようにしています。これらの顧客には、製品マネージャー、マーケティングマネージャー、プログラムマネージャー、データサイエンティスト、ビジネスアナリスト、およびソフトウェア開発エンジニアが含まれます。彼らは、ビジネス上の決定を適切に下すために、データをスケジュールされたクエリとワンタイムクエリに使用しています。このデータは、リーダーシップチームがレビューする、週次、月次、および四半期ごとのビジネスレビューメトリクスの構築にも使用されています
はじめに 空前のAIブームだった2017年、Yahooニュースでは毎日のように『〇〇が△△のAIを開発』のような見出しが目立ちました。2018年は『AIの運用』の時代になるとも言われています。 しかし、AI(機械学習)を載せたシステムの開発・テスト・運用の方法は2018年4月現在、まだ確立されていない分野です。 今回は、技術的負債という観点から、機械学習システム特有の課題点とその回避策のヒントまとめたGoogleの論文 Machine Learning: The High Interest Credit Card of Technical Debt (2014) を翻訳します。Google翻訳+軽い手作業ですのでご留意を。 ちなみにタイトル『機械学習:技術的負債の高金利クレジットカード』の意味は、機械学習システムがまるで高金利のクレジットカードのように、気づかないうちに技術的負債を蓄積して
(Image by Pixabay) この記事は、以前の同様のスキル要件記事のアップデートです。 正直言って内容的には大差ないと思いますが、今回は2つ新たな軸を加えることにしました。一つは「ジュニアレベル(駆け出し)」と「シニアレベル(熟練職人)」とで分けるということ、もう一つは「データ分析以外の業界知識(ドメイン知識)」にも重きを置く、ということです。 というのも、空前の人工知能ブームが予想よりも長く続いていることで、人材マーケットを観察する限りではデータサイエンティスト・機械学習エンジニアとも求人数が高止まりしているように見えるのですが、その結果としてこのブログの過去のスキル要件記事で挙げたような「完成されたデータ分析人材(熟練職人)」に限らず「駆け出し」でも良いからデータ分析人材が欲しいという企業が増えているように感じられるからです。 その一方で、かつては主にwebマーケティング業界
2018年のHue Hue (Hadoop User Experience) は Hadoop エコシステムのユーザーインターフェースを提供するオープンソースのソフトウェアです。 最近の Hueのプロジェクトページによると「Hue is an open source Workbench for developing and accessing Data Apps.」と書かれています。データアプリケーションを開発、アクセスする方向けのワークベンチというポジションを目指しているようです。 以前より Hue の啓蒙活動をしており、過去のブログにもいくつかの記事を書いています。Hueって何?という方は以下をご覧ください。 Hue 日本語版サイト http://jp.gethue.com HUEについてのまとめ 2016年版 Hue 4.0 (slideshare) 2017 Hue Meetup
こんにちは、データグループのマネージャーをやっています beniyama と申します。 先の記事『プロダクトの「負債」を「機能」と呼び直す 〜A/Bテストを用いた"価値"の定量化〜』でも触れられていますが、データグループではデータ分析基盤の構築(参考資料)からデータ分析、あるいは学習データを活用した研究開発までスタディサプリのデータに関わることほとんど全てを担当しています。 プロダクトや事業 KPI の社内向けモニタリング環境の構築・整備も行なっているのですが、今回、既存の環境を刷新して Looker というまだ日本ではほとんど無名?のツールを導入することにしましたのでその経緯をお話ししつつ、今後国内でもユーザーが増えていくといいなという願いを込めて1エンジニアとして興奮したポイントを書き連ねていこうと思います。 最初の1年間は DOMO を導入して運用 スタディサプリではもともと各種 K
はじめまして、データエンジニアリングチームの @toohsk です。 今回は、データの民主化を推進するために導入した Looker 社の Lookerbot という Slack ボットをご紹介します。 Lookerbot ってなによ Quipper では、先の記事「エンジニアを魅了する次世代 BI ツール『Looker』を Quipper が導入した理由(わけ)」でご紹介したように、BI ツールとして Looker を導入しています。 BI を導入した後、Slack などでの会話上でグラフやモニタリングした数値を共有したいと思うシーンはよくあると思いますが、Looker ではそのような用途のために Lookerbot と呼ばれるボットを公開しています。 Lookerbot が提供する主な機能は Look (Looker におけるデータを可視化するコンポーネントの最小単位)に対する、下記の二
どすこい!去年放置したブログに久々にログインする季節になりました! 今日はCyberAgent Developers Advent Calendar 2016 - Adventarの10日目です。 昨日は@shotaTsugeさんのCloud Deployment Managerを少し触ってみて感じた事でした。 最近この記事を書きました。 developers.cyberagent.co.jp CyberAgentに入社してから主にログ転送基盤の構築・運用をやってきました私ですが、今回はその経験を踏まえてログ収集系のミドルウェア使う時やストリーミング処理を行う際の注意点についていくつか書きたいと思います。 はじめに ログ収集基盤 CyberAgentでは以前からApache Flumeを利用してログの収集システムを構築・運用しております。 Flumeを活用したAmebaにおける大規模ログ収
サンプルによるMeCabを使ったword cloudCloudera Data Science Workbench(CDSW)は、データサイエンティストに、Python、R、およびScalaを使用してエンタープライズデータにセキュアにアクセスできるようにします。 前回の記事(日本語)では、お気に入りのPythonライブラリをPySparkでApache Sparkクラスタで使用する方法を紹介しました。 Pythonの世界では、データサイエンティストはC/C ++などのネイティブ拡張を含むXGBoostなどのPythonライブラリを使用したいことがよくあります。 この記事では、この問題を解決してC拡張を使ってcondaレシピを作成する方法を示します。 レシピ作成のサンプルリポジトリはこちら、MeCabの分散実行のサンプルはこちら。 condaパッケージの詳細については、公式ドキュメントを参照
Cloudera Data Science Workbenchはデータサイエンティストに自由を与えます。プロジェクトごとにコンテナを立ち上げることで、他のプロジェクトと独立した環境を使うことができ、root権限なしに好きなライブラリを自由に使うことが出来ます。 Sparkクラスタ上で好みのパッケージを使うのは、JavaやScalaなどのJVMの世界では簡単です。アプリケーションがパッケージを管理するため、fat JARやuber JARと呼ばれる必要なパッケージを一つにまとめたJARファイルを作ることで、アプリケーション毎に異なるパッケージをSparkクラスタに配布し利用することができます。 一方で、多くのデータサイエンティストはScalaよりPythonを使うことが多いです。しかし、PythonのライブラリをSparkクラスタに配布して実行するのは、root権限を持ってクラスタの設定変更
Data Engineering and Data Analysis Workshop #1 での有賀 (@chezou)の発表です。 https://cyberagent.connpass.com/event/58808/ Cloudera Data Science WorkbenchとPySparkを使い、Pythonで好きなライブラリを分散実行する方法についてです。日本語の形態素解析ライブラリMeCabをPySparkから実行します。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く