タグ

hadoopに関するoinumeのブックマーク (17)

  • HDFS HA セミナー #hadoop

    2013/05/30に開催した、HDFS HA(High Availability: 高可用性)セミナーの資料です。同じくご登壇頂いた、株式会社サイバーエージェントの上原誠様の資料は↓です。 http://www.slideshare.net/makotouehara39/cl-st-20130530nnha

    HDFS HA セミナー #hadoop
    oinume
    oinume 2015/12/24
    HDFSのName NodeがどうやってHAを実現しているか。スプリットブレイン問題の回避方法とか詳しい
  • Clouderaで作るデータ分析環境 - 科学と非科学の迷宮

    wyukawaさんがデータ分析環境について書いていましたが、全部 CDH を使えば実現可能なので便乗して書いておこうと思います。 1. ETL 処理 CDH なら以下のツールがあります。 Sqoop RDBMS / DWH などに対するインポート・エクスポートツール。最近日語のも出版されたので皆さん買ってください。 Hue を使えば Web ブラウザ上から設定できます。デモビデオはこちら。 Pig Hive の影に隠れがちなクエリ言語ですが、特に ETL として使う場合は書きやすいです。中身は MapReduce。Java はもちろん、PythonJavascriptRuby、そしてGroovyでUDFが書けるのが特徴。HCatalog というツールのおかげで Hive 同様スキーマを扱えるようになりました。 Hue を使えば Web ブラウザ上から実行できます。デモビデオはこちら

    Clouderaで作るデータ分析環境 - 科学と非科学の迷宮
  • Hadoopを10分で試す

    ブログの総集編です。下記にあるリンクを参照してください。 Hadoopを使ってみたい! 新しく何かを始めようと思った時、面倒だなぁと思うことは多いものです。書籍やブログをみて「これは役立ちそうだ」と思っても、ちょっと試すことにさえにも辿り着けず、頓挫しているものがTODOリストやPocket(旧Readitlater)に大量にあります。 #書いていて嫌な気持ちになってきた、、、 Hadoopはそんな面倒なものの一つかもしれません。書籍を読んで「よし、やってみるか」という強い決意を持ったすぐ後、 「試すにはマシンを買わないといけないのかなぁ」 「いや、EC2でいけそう。アカウントどうしようか」 「なんか仮想マシンでもできそうって書いてある」 という第一の壁があります。 運良く壁を乗り越えたあと、 「ソフトはどこからダウンロードすればいいだっけ?」 「コマンドラインでやるの?」 「設定面倒そう

    Hadoopを10分で試す
  • CDH4 Configurations with YARN, Capacity Scheduler and Hive | 外道父の匠

    CDH4 Configurations with YARN, Capacity Scheduler and Hive 前回の続きで、私がCDH4で利用している外道式設定ファイルの紹介です。 非常に手間暇かけて作成したものなので墓の下まで持って行きたいところですが、某所からの圧力と社会のために、恥ずかしながら放出したいと思います。 はじめに 言うまでもなく、参考・利用においては自己責任でお願いします ホスト名・ファイルパスは適当に変換してください descriptionの日語は私のメモですので怪しかったらググってください 英文のみの場合はまだ未検証だったり説明するまでもないものになっています 2ヶ月以上これで運用していますが、まだまだ変わると思うので更新日付を書いておきます ファイルはUTF-8です Hadoop設定 CDH3からCDH4への設定変更リスト core 公式 core-def

    CDH4 Configurations with YARN, Capacity Scheduler and Hive | 外道父の匠
  • Huahin Manager

    Huahin Manager : Simple Management System for Hadoop MapReduce Job.View on GitHub Huahin Manager Simple Management System for Hadoop MapReduce Job. Download this project as a .zip file Download this project as a tar.gz file Huahin Manager is Simple Management System for Hadoop MapReduce Job. Huahin can get a list of MapReduce jobs, get status, do a kill for the job. (Job queue management will be i

  • Hadoopスタンドアロンモード設定 - 備忘録

    日経Linux 2011.5月号 最新クラウド技術 Pig/Hiveを自宅で体感 Hadoopの設定補足内容 検証環境にはAmazon EC2を使います。 Basic 32-bit Amazon Linux AMI(Root Device Size: 8 GB) + EBS Volume 50GiB をマウントしてインスタンスを作成しました。 検証ソフトウェアのバージョンは、hadoop-0.20.2.tar.gz、pig-0.7.0.tar.gz です。hadoop-0.21、pig-0.8が最新版としてありましたが、pigの連携が出来なかったので、この時点での最新を使えませんでした。動作的にはこれでも問題なさそうです。 1.スタンドアロンモード設定 {HADOOP_HOME}/conf/core-site.xml(主要設定ファイル)HDFS実行ポート 8020に設定します。 よく見るサ

    Hadoopスタンドアロンモード設定 - 備忘録
  • GitHub - mongodb/mongo-hadoop: MongoDB Connector for Hadoop

    End of Life Notice The MongoDB Connector for Hadoop is now officially end-of-life (EOL). No further development, bugfixes, enhancements, documentation changes or maintenance will be provided by this project and pull requests will no longer be accepted. MongoDB Connector for Hadoop Purpose The MongoDB Connector for Hadoop is a library which allows MongoDB (or backup files in its data format, BSON)

    GitHub - mongodb/mongo-hadoop: MongoDB Connector for Hadoop
  • pydoop

    Analyze and gain insights into the current state of your data. Built on a modular architecture, OpenDQ scales with your enterprise data management needs. Infosolve’s Zero Based Solutions provide clients with comprehensive data solutions that leverage the power of their enterprise data to achieve their business objectives and create strategic opportunities-- without the burdens of cumbersome licens

  • Hadoopサーバーの増やし方、減らし方

    すべての地雷を踏む男leonです。 Hadoopカスタマイズをネタにブログを始めさせていただきました。 前回、Hadoopセットアップ手順を紹介させていただいたので、今回からカスタマイズ話をしたいと思います。 Hadoopのincludeファイル、excludeファイルにハマった・・・。 今日はそのお話をさせていただきます。 話を始める前にincludeファイル、excludeファイルとはなんですかを説明しないとですね。 このincludeファイルとexcludeファイルはサーバーのslave接続を終了させる際に、ノードからデータを退避して脱退させる為に使用します。 includeファイルはデータノードへの接続を許可されるデータノード、JobTrackerに接続可能なTaskTrackerのホスト名を記述するファイルです。includeファイルはdfs.hostsプロパティとmapred.

  • HadoopによるApacheのログ解析の実際

    こんにちは、ミツバチワークス stoneです。 今日は、DECOLOGで行われている、Apacheのログ解析について、 ご紹介してみようかと思います。 現在、DECOLOGでは、リバースプロキシが8台あって、 その8台の1日のApacheのログは、全部で、200Gバイト以上になっています。 これを、13台のHadoopのスレーブノードで解析を行っています。 全体の流れとしては、 1) リバースプロキシからHDFSにログを転送 2) 解析用のサーバーで、HDFSにログの転送が終わるのを監視 3) ログの転送が終わったら、Hadoopを起動、解析 4) Hadoopの解析結果をデータベースに保存 以下では、各々のステップを個別に見て行くことにしますね。 1. リバースプロキシからHDFSにログを転送 当初、Hadoopのプロセスが立ち上がっていないと、HDFSにはアクセスできない、 と思い込ん

  • Ziggy

    Statistics View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery Ziggy provides a collection of python methods for Hadoop Streaming. Ziggy is useful for building complex MapReduce programs, using Hadoop for batch processing of many files, Monte Carlo processes, graph algorithms, and common utility tasks (e.g. sort, search). Typical usage often looks l

    Ziggy
  • Nosql at twitter_devoxx2010

    How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow

    Nosql at twitter_devoxx2010
  • hadoopの話とpythonでデータマイニングをする話 - gumi Engineer’s Blog

    gumiの粟飯原です。 データマイニングやってます。しかしながら最近はあまりデータをいじる時間がなく社内でプレゼンばかりする日々で、社内でも私がなにやってるのかわからないというもっぱらの評判。そこで今回は一応データ解析もやってはいるんだよということを内外に主張するためにもデータマイニングの話をしようと思います。 アプリの基的な日々の統計データ取得などは別の方々はやられているので、私からはhadoopを使った大規模解析の話や、そこで得られたデータを分析する環境の話をしたいと思います。コードを併記した具体例などは今回載せられないのですが、今後また紹介していければと思います。 大規模データの解析 日々のログ解析やDB解析はcronによる処理で毎朝レポーティングを行っているのですが、新しい情報を過去のアクセスログからまとめてどかんと取得したいと言う時はHadoopによる大規模解析を実行しています

    hadoopの話とpythonでデータマイニングをする話 - gumi Engineer’s Blog
  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
  • Googleの基盤クローン Hadoopについて

    JSONでメール送信 | HTTP API Server ``Haineko''/YAPC::Asia Tokyo 2013 LT Day2azumakuniyuki 🐈

    Googleの基盤クローン Hadoopについて
  • Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。 今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。 例えば、今まで1台でやっていた、あるログ集計処理

    Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)
  • FrontPage - Hadoop Wiki

    Apache Hadoop Apache Hadoop is a framework for running applications on large cluster built of commodity hardware. The Hadoop framework transparently provides applications both reliability and data motion. Hadoop implements a computational paradigm named Map/Reduce, where the application is divided into many small fragments of work, each of which may be executed or re-executed on any node in the cl

  • 1