タグ

Hadoopに関するyubessyのブックマーク (8)

  • 2018年のApache Hadoopを振り返る - Qiita

    概要 そろそろApache Hadoopは終わったのでは? という話がありそうなので、ここ最近の状況を書きます。結論を言うとまだまだ終わってないですが、クラウド事業者が提供するマネージドサービスが充実してきたことにより、直接 Hadoopクラスタ上でジョブを実行したり、Hadoopクラスタを運用したりする人々は特定の企業に集中していくのかなと考えています。 Apache Hadoopとは Hadoopは、大きく分けてHDFS(Hadoop Distributed FileSystem), Hadoop MapReduce, Hadoop YARN(Yet Another Resource Negotiator)の3つのコンポーネントから構成されており、Hadoopについての発言を見たときには、それらのうち何について語られているか注意が必要です。主語がでかいのはよくないです。 Hadoop

    2018年のApache Hadoopを振り返る - Qiita
  • Dataproc | Google Cloud

    Dataproc is a fully managed and highly scalable service for running Apache Hadoop, Apache Spark, Apache Flink, Presto, and 30+ open source tools and frameworks. Use Dataproc for data lake modernization, ETL, and secure data science, at scale, integrated with Google Cloud, at a fraction of the cost.

    Dataproc | Google Cloud
    yubessy
    yubessy 2015/09/25
    Managed Hadoop & Spark !!!
  • Hadoop StreamingでHDFS上のレコード数を数える - あらびき日記

    この記事は abicky.net の Hadoop StreamingでHDFS上のレコード数を数える に移行しました

    Hadoop StreamingでHDFS上のレコード数を数える - あらびき日記
  • Cloudera Blog

    Riding the wave of the generative AI revolution, third party large language model (LLM) services like ChatGPT and Bard have swiftly emerged as the talk of the town, converting AI skeptics to evangelists and transforming the way we interact with technology. For proof of this megatrend look no further than the instant success of ChatGPT, […] Read blog post

    Cloudera Blog
  • GitHub - tomwhite/hadoop-book: Example source code accompanying O'Reilly's "Hadoop: The Definitive Guide" by Tom White

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - tomwhite/hadoop-book: Example source code accompanying O'Reilly's "Hadoop: The Definitive Guide" by Tom White
  • [Hadoop]Hadoop 擬似分散(Psuedo-distributed)モードの設定 | Nobwak's Lair

    Standaloneモードでは、複数のホストを使った処理は行わない。デーモンも動かさない。 しかしHadoopは分散処理をしてナンボである。 分散処理をする場合には、複数のホストでいくつかのデーモンを動作させる必要がある。 それはまあ当然。 ただ、いきなり複数ホストを使うのはハードルが高い。 そこで、「Hadoopは複数ホストで動いているつもりだけど実際は1台のホストで動いている」モードで設定の確認をする。 これが擬似分散(Psuedo-distributed)モード。 擬似分散モードに必要な各設定の意味 擬似分散(Psuedo-distributed)モードの動作には以下、四つの設定が必要。 完全分散(Full distributed)モードでも変わらないんだけどね。 HDFSのメタデータを格納するnamenodeの設定 データをいくつ複製(replication)するかの設定(デフォル

    [Hadoop]Hadoop 擬似分散(Psuedo-distributed)モードの設定 | Nobwak's Lair
  • 第1回 なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp

    はじめに ビッグデータ解析のためのシステム基盤として、Hadoopをはじめとするオープンソースのデータ処理ソフトウェア(データ処理系)が広く利用されつつありますが、当該データ処理系をすでに利用している、もしくは利用の検討をしている読者の方々の中には、たとえば以下のような問題を抱えている方が少なからずいらっしゃるのではないでしょうか。 データ処理系の使い方はなんとなくわかるが、その内部をあまり理解できていない。または、内部の動作原理がよくわからないので、格的に使う気にならない。 同様の目的を達成する複数のデータ処理系において、どれを使って良いかがよくわからない。または、適切に使い分けられていない気がする。たとえば、どのような場合にHadoopを用いて、どのような場合に同類のデータ処理系であるImpalaやSparkを用いれば良いかが“⁠明確に⁠”わからない。 このような問題を解決するには、

    第1回 なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • 1