[B! Hadoop] yubessyのブックマーク

2018年のApache Hadoopを振り返る - Qiita

概要そろそろApache Hadoopは終わったのでは? という話がありそうなので、ここ最近の状況を書きます。結論を言うとまだまだ終わってないですが、クラウド事業者が提供するマネージドサービスが充実してきたことにより、直接 Hadoopクラスタ上でジョブを実行したり、Hadoopクラスタを運用したりする人々は特定の企業に集中していくのかなと考えています。 Apache Hadoopとは Hadoopは、大きく分けてHDFS(Hadoop Distributed FileSystem), Hadoop MapReduce, Hadoop YARN(Yet Another Resource Negotiator)の3つのコンポーネントから構成されており、Hadoopについての発言を見たときには、それらのうち何について語られているか注意が必要です。主語がでかいのはよくないです。 Hadoop

yubessy 2018/12/19

Hadoop

リンク

Dataproc | Google Cloud

Dataproc is a fully managed and highly scala ble service for running Apache Hadoop, Apache Spark, Apache Flink, Presto, and 30+ open source tools and frameworks. Use Dataproc for data lake modernization, ETL, and secure data science, at scale, integrated with Google Cloud, at a fraction of the cost.

yubessy 2015/09/25

Managed Hadoop & Spark !!!

リンク

Hadoop StreamingでHDFS上のレコード数を数える - あらびき日記

この記事は abicky.net の Hadoop StreamingでHDFS上のレコード数を数えるに移行しました

yubessy 2015/05/05

Hadoop

リンク

Cloudera Blog

Riding the wave of the generative AI revolution, third party large language model (LLM) services like ChatGPT and Bard have swiftly emerged as the talk of the town, converting AI skeptics to evangelists and transf orming the way we interact with techno logy. For proof of this megatrend look no further than the instant success of ChatGPT, […] Read blog post

yubessy 2015/05/05

リンク

GitHub - tomwhite/hadoop-book: Example source code accompanying O'Reilly's "Hadoop: The Definitive Guide" by Tom White

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

yubessy 2015/05/05

Hadoop

リンク

[Hadoop]Hadoop 擬似分散（Psuedo-distributed）モードの設定 | Nobwak's Lair

Standaloneモードでは、複数のホストを使った処理は行わない。デーモンも動かさない。しかしHadoopは分散処理をしてナンボである。分散処理をする場合には、複数のホストでいくつかのデーモンを動作させる必要がある。それはまあ当然。ただ、いきなり複数ホストを使うのはハードルが高い。そこで、「Hadoopは複数ホストで動いているつもりだけど実際は1台のホストで動いている」モードで設定の確認をする。これが擬似分散（Psuedo-distributed）モード。擬似分散モードに必要な各設定の意味擬似分散（Psuedo-distributed）モードの動作には以下、四つの設定が必要。完全分散（Full distributed）モードでも変わらないんだけどね。 HDFSのメタデータを格納するnamenodeの設定データをいくつ複製(replication)するかの設定（デフォル

yubessy 2015/05/05

Hadoop

リンク

第1回　なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp

はじめにビッグデータ解析のためのシステム基盤として、Hadoopをはじめとするオープンソースのデータ処理ソフトウェア（データ処理系）が広く利用されつつありますが、当該データ処理系をすでに利用している、もしくは利用の検討をしている読者の方々の中には、たとえば以下のような問題を抱えている方が少なからずいらっしゃるのではないでしょうか。データ処理系の使い方はなんとなくわかるが、その内部をあまり理解できていない。または、内部の動作原理がよくわからないので、本格的に使う気にならない。同様の目的を達成する複数のデータ処理系において、どれを使って良いかがよくわからない。または、適切に使い分けられていない気がする。たとえば、どのような場合にHadoopを用いて、どのような場合に同類のデータ処理系であるImpalaやSparkを用いれば良いかが“⁠明確に⁠”わからない。このような問題を解決するには、

yubessy 2015/04/01

リンク

いまさら聞けないHadoopとテキストマイニング入門

ビッグデータ時代の救世主「Hadoop」とは「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。重い処理を複数のマシンに分散させる複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。例えば、Hadoopを使うと、1

yubessy 2014/07/10

Hadoop

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

Hadoopに関するyubessyのブックマーク (8)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス