サンプルによるMeCabを使ったword cloudCloudera Data Science Workbench(CDSW)は、データサイエンティストに、Python、R、およびScalaを使用してエンタープライズデータにセキュアにアクセスできるようにします。 前回の記事(日本語)では、お気に入りのPythonライブラリをPySparkでApache Sparkクラスタで使用する方法を紹介しました。 Pythonの世界では、データサイエンティストはC/C ++などのネイティブ拡張を含むXGBoostなどのPythonライブラリを使用したいことがよくあります。 この記事では、この問題を解決してC拡張を使ってcondaレシピを作成する方法を示します。 レシピ作成のサンプルリポジトリはこちら、MeCabの分散実行のサンプルはこちら。 condaパッケージの詳細については、公式ドキュメントを参照
Cloudera Data Science Workbenchはデータサイエンティストに自由を与えます。プロジェクトごとにコンテナを立ち上げることで、他のプロジェクトと独立した環境を使うことができ、root権限なしに好きなライブラリを自由に使うことが出来ます。 Sparkクラスタ上で好みのパッケージを使うのは、JavaやScalaなどのJVMの世界では簡単です。アプリケーションがパッケージを管理するため、fat JARやuber JARと呼ばれる必要なパッケージを一つにまとめたJARファイルを作ることで、アプリケーション毎に異なるパッケージをSparkクラスタに配布し利用することができます。 一方で、多くのデータサイエンティストはScalaよりPythonを使うことが多いです。しかし、PythonのライブラリをSparkクラスタに配布して実行するのは、root権限を持ってクラスタの設定変更
機械学習の実験における悩みの一つに実験の再現性があります。再現性は実験を共同研究者に引き継いたり、ソフトウェアエンジニアにモデルをデプロイしてもらう時に問題になります。残念ながら、機械学習で利用するライブラリは数も多く、アップデートも頻繁に行われます。そのため動作する開発環境を維持、共有するのは難しい問題と言えます。 そこでデータサイエンティストが実験結果を他人に引き継ぐことを容易にするテンプレート、Cookiecutter Docker Science を作ってみました。このテンプレートは機械学習の実験環境を Docker コンテナ上に爆速で構築できます。仮想環境なのでライブラリ群の不足やバージョンの不一致に悩まされず実験結果を確実にシェアできます。 また Docker でコンテナを作ったり、削除したり設定したりといった作業の煩雑さを低減するための機能を提供しています。そのため、データサ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く