[B! hadoop] oinumeのブックマーク

HDFS HA セミナー #hadoop

2013/05/30に開催した、HDFS HA(High Availability: 高可用性)セミナーの資料です。同じくご登壇頂いた、株式会社サイバーエージェントの上原誠様の資料は↓です。 http://www.slideshare.net/makotouehara39/cl-st-20130530nnha

oinume 2015/12/24

HDFSのName NodeがどうやってHAを実現しているか。スプリットブレイン問題の回避方法とか詳しい

リンク

Clouderaで作るデータ分析環境 - 科学と非科学の迷宮

wyukawaさんがデータ分析環境について書いていましたが、全部 CDH を使えば実現可能なので便乗して書いておこうと思います。 1. ETL 処理 CDH なら以下のツールがあります。 Sqoop RDBMS / DWH などに対するインポート・エクスポートツール。最近日本語の本も出版されたので皆さん買ってください。 Hue を使えば Web ブラウザ上から設定できます。デモビデオはこちら。 Pig Hive の影に隠れがちなクエリ言語ですが、特に ETL として使う場合は書きやすいです。中身は MapReduce。Java はもちろん、Python、Javascript、Ruby、そしてGroovyでUDFが書けるのが特徴。HCatalog というツールのおかげで Hive 同様スキーマを扱えるようになりました。 Hue を使えば Web ブラウザ上から実行できます。デモビデオはこちら

oinume 2014/05/16

Hadoop

リンク

Hadoopを10分で試す

ブログの総集編です。下記にあるリンクを参照してください。 Hadoopを使ってみたい！新しく何かを始めようと思った時、面倒だなぁと思うことは多いものです。書籍やブログをみて「これは役立ちそうだ」と思っても、ちょっと試すことにさえにも辿り着けず、頓挫しているものがTODOリストやPocket（旧Readitlater）に大量にあります。＃書いていて嫌な気持ちになってきた、、、 Hadoopはそんな面倒なものの一つかもしれません。書籍を読んで「よし、やってみるか」という強い決意を持ったすぐ後、「試すにはマシンを買わないといけないのかなぁ」「いや、EC2でいけそう。アカウントどうしようか」「なんか仮想マシンでもできそうって書いてある」という第一の壁があります。運良く壁を乗り越えたあと、「ソフトはどこからダウンロードすればいいだっけ？」「コマンドラインでやるの？」「設定面倒そう

oinume 2014/02/20

hadoop

リンク

CDH4 Configurations with YARN, Capacity Scheduler and Hive | 外道父の匠

CDH4 Configurations with YARN, Capacity Scheduler and Hive 前回の続きで、私がCDH4で利用している外道式設定ファイルの紹介です。非常に手間暇かけて作成したものなので墓の下まで持って行きたいところですが、某所からの圧力と社会のために、恥ずかしながら放出したいと思います。はじめに言うまでもなく、参考・利用においては自己責任でお願いしますホスト名・ファイルパスは適当に変換してください descriptionの日本語は私のメモですので怪しかったらググってください英文のみの場合はまだ未検証だったり説明するまでもないものになっています 2ヶ月以上これで運用していますが、まだまだ変わると思うので更新日付を書いておきますファイルはUTF-8です Hadoop設定 CDH3からCDH4への設定変更リスト core 公式 core-def

oinume 2012/09/03

リンク

Huahin Manager

Huahin Manager : Simple Management System for Hadoop MapReduce Job.View on GitHub Huahin Manager Simple Management System for Hadoop MapReduce Job. Download this project as a .zip file Download this project as a tar.gz file Huahin Manager is Simple Management System for Hadoop MapReduce Job. Huahin can get a list of MapReduce jobs, get status, do a kill for the job. (Job queue management will be i

oinume 2012/05/15

hadoop

リンク

Hadoopスタンドアロンモード設定 - 備忘録

日経Linux 2011.5月号最新クラウド技術 Pig/Hiveを自宅で体感 Hadoopの設定補足内容検証環境にはAmazon EC2を使います。 Basic 32-bit Amazon Linux AMI(Root Device Size: 8 GB) + EBS Volume 50GiB をマウントしてインスタンスを作成しました。検証ソフトウェアのバージョンは、hadoop-0.20.2.tar.gz、pig-0.7.0.tar.gz です。hadoop-0.21、pig-0.8が最新版としてありましたが、pigの連携が出来なかったので、この時点での最新を使えませんでした。動作的にはこれでも問題なさそうです。１.スタンドアロンモード設定 {HADOOP_HOME}/conf/core-site.xml（主要設定ファイル）HDFS実行ポート 8020に設定します。よく見るサ

oinume 2012/04/16

hadoop

リンク

GitHub - mongodb/mongo-hadoop: MongoDB Connector for Hadoop

End of Life Notice The Mongo DB Connector for Hadoop is now officially end-of-life (EOL). No further development, bugfixes, enhancements, documentation changes or maintenance will be provided by this project and pull requests will no longer be accepted. Mongo DB Connector for Hadoop Purpose The Mongo DB Connector for Hadoop is a library which allows Mongo DB (or backup files in its data format, BSON)

oinume 2012/02/04

リンク

pydoop

Analyze and gain insights into the current state of your data. Built on a modular architecture, OpenDQ scales with your enterprise data management needs. Infosolve’s Zero Based Solutions provide clients with comprehensive data solutions that leverage the power of their enterprise data to achieve their business objectives and create strategic opportunities-- without the burdens of cumbersome licens

oinume 2011/07/10

リンク

Hadoopサーバーの増やし方、減らし方

すべての地雷を踏む男leonです。 Hadoopカスタマイズをネタにブログを始めさせていただきました。前回、Hadoopセットアップ手順を紹介させていただいたので、今回からカスタマイズ話をしたいと思います。 Hadoopのincludeファイル、excludeファイルにハマった・・・。今日はそのお話をさせていただきます。話を始める前にincludeファイル、excludeファイルとはなんですかを説明しないとですね。このincludeファイルとexcludeファイルはサーバーのslave接続を終了させる際に、ノードからデータを退避して脱退させる為に使用します。 includeファイルはデータノードへの接続を許可されるデータノード、JobTrackerに接続可能なTaskTrackerのホスト名を記述するファイルです。includeファイルはdfs.hostsプロパティとmapred.

oinume 2011/07/10

hadoop

リンク

HadoopによるApacheのログ解析の実際

こんにちは、ミツバチワークス stoneです。今日は、DECOLOGで行われている、Apacheのログ解析について、ご紹介してみようかと思います。現在、DECOLOGでは、リバースプロキシが8台あって、その8台の1日のApacheのログは、全部で、200Gバイト以上になっています。これを、13台のHadoopのスレーブノードで解析を行っています。全体の流れとしては、 1) リバースプロキシからHDFSにログを転送 2) 解析用のサーバーで、HDFSにログの転送が終わるのを監視 3) ログの転送が終わったら、Hadoopを起動、解析 4) Hadoopの解析結果をデータベースに保存以下では、各々のステップを個別に見て行くことにしますね。 1. リバースプロキシからHDFSにログを転送当初、Hadoopのプロセスが立ち上がっていないと、HDFSにはアクセスできない、と思い込ん

oinume 2011/07/10

hadoop

リンク

Ziggy

Statistics View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery Ziggy provides a collection of python methods for Hadoop Streaming. Ziggy is useful for building complex MapReduce programs, using Hadoop for batch processing of many files, Monte Carlo processes, graph algorithms, and common utility tasks (e.g. sort, search). Typical usage often looks l

oinume 2010/12/25

リンク

Nosql at twitter_devoxx2010

How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow

oinume 2010/11/24

hadoop

リンク

hadoopの話とpythonでデータマイニングをする話 - gumi Engineer’s Blog

gumiの粟飯原です。データマイニングやってます。しかしながら最近はあまりデータをいじる時間がなく社内でプレゼンばかりする日々で、社内でも私がなにやってるのかわからないというもっぱらの評判。そこで今回は一応データ解析もやってはいるんだよということを内外に主張するためにもデータマイニングの話をしようと思います。アプリの基本的な日々の統計データ取得などは別の方々はやられているので、私からはhadoopを使った大規模解析の話や、そこで得られたデータを分析する環境の話をしたいと思います。コードを併記した具体例などは今回載せられないのですが、今後また紹介していければと思います。大規模データの解析日々のログ解析やDB解析はcronによる処理で毎朝レポーティングを行っているのですが、新しい情報を過去のアクセスログからまとめてどかんと取得したいと言う時はHadoopによる大規模解析を実行しています

oinume 2010/10/28

リンク

IBM Developer

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

oinume 2010/09/26

hadoop

リンク

Googleの基盤クローン Hadoopについて

JSONでメール送信 | HTTP API Server ``Haineko''/YAPC::Asia Tokyo 2013 LT Day2azumakuniyuki 🐈

oinume 2010/05/25

hadoop

リンク

Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。例えば、今まで1台でやっていた、あるログ集計処理

oinume 2010/05/07

hadoop

リンク

FrontPage - Hadoop Wiki

Apache Hadoop Apache Hadoop is a framework for running applications on large cluster built of commodity hardware. The Hadoop framework transparently provides applications both reliability and data motion. Hadoop implements a computational paradigm named Map/Reduce, where the application is divided into many small fragments of work, each of which may be executed or re-executed on any node in the cl

oinume 2008/05/13

hadoop

リンク

はてなブックマーク

タグ

関連タグで絞り込む (7)

hadoopに関するoinumeのブックマーク (17)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス