You’re seeing information for Japan . To see local features and services for another location, select a different city. Show more Introduction As Uber’s business grew, we scaled our Apache Hadoop (referred to as ‘Hadoop’ in this article) deployment to 21000+ hosts in 5 years, to support the various analytical and machine learning use cases. We built a team with varied expertise to address the chal
サンプルによるMeCabを使ったword cloudCloudera Data Science Workbench(CDSW)は、データサイエンティストに、Python、R、およびScalaを使用してエンタープライズデータにセキュアにアクセスできるようにします。 前回の記事(日本語)では、お気に入りのPythonライブラリをPySparkでApache Sparkクラスタで使用する方法を紹介しました。 Pythonの世界では、データサイエンティストはC/C ++などのネイティブ拡張を含むXGBoostなどのPythonライブラリを使用したいことがよくあります。 この記事では、この問題を解決してC拡張を使ってcondaレシピを作成する方法を示します。 レシピ作成のサンプルリポジトリはこちら、MeCabの分散実行のサンプルはこちら。 condaパッケージの詳細については、公式ドキュメントを参照
Cloudera Data Science Workbenchはデータサイエンティストに自由を与えます。プロジェクトごとにコンテナを立ち上げることで、他のプロジェクトと独立した環境を使うことができ、root権限なしに好きなライブラリを自由に使うことが出来ます。 Sparkクラスタ上で好みのパッケージを使うのは、JavaやScalaなどのJVMの世界では簡単です。アプリケーションがパッケージを管理するため、fat JARやuber JARと呼ばれる必要なパッケージを一つにまとめたJARファイルを作ることで、アプリケーション毎に異なるパッケージをSparkクラスタに配布し利用することができます。 一方で、多くのデータサイエンティストはScalaよりPythonを使うことが多いです。しかし、PythonのライブラリをSparkクラスタに配布して実行するのは、root権限を持ってクラスタの設定変更
HADOOP SUMMIT 2016 SAN JOSEに合わせて、RancherというDockerコンテナ管理ツールを使って、SoftLayer上にHadoop、Yarnのクラスタ環境を簡単に構築してみた記録です。 まずは、それぞれの概要を記します。 Rancherは、Dockerイメージとして配布されているコンテナやクラスタの管理をWebUIで簡単に行えるオープンソースのツールです。 SoftLayer、GCP、AWS、Azure、DigtalOcean、rackspaceといった、各種クラウドとのコンテナ連携が可能です。 2016年3月にバージョン1.0になり、Kubernetes、DockerSwarm、Mesos等のクラスタ環境管理機能が追加されました。 公式サイト:http://rancher.com/ Hadoop and Yarn
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く