並び順

ブックマーク数

期間指定

  • から
  • まで

321 - 360 件 / 6107件

新着順 人気順

hadoopの検索結果321 - 360 件 / 6107件

  • OSS オープン・ラボ - 「Ruby 研修用コンテンツ」の利用

    概要 「Ruby 研修用コンテンツ」は、Rubyの魅力を体験し、その特徴や利点から技術の最新動向、活用方法まで幅広く学ぶことのできる、教材と実習環境をセットとした体験型集合教育のための「OSS オープン・ラボ」のサービスです。 Rubyの集合教育を検討している研修運営者は、「Ruby研修用コンテンツ」の利用を申し込むことにより、全国各地の研修会場からインターネット経由で「Ruby研修用コンテンツ」を利用することができ、研修の準備期間を大幅に短縮して効果的な学習が可能になります。 Ruby 利用者向けコンテンツ 簡単なアプリケーション作成の体験を通し、RubyおよびRuby on Railsの魅力や特徴を理解できます。また、Rubyの新機能を利用した技術や、クラウド環境下でのRubyの活用例などの紹介を通して、Rubyを取り巻く市場動向について、半日で学べる構成となっています。Rubyに興

    • TechCrunch

      Induction cooking has the potential to liberate us to rethink the kitchen, but new designs have been slow to arrive.

        TechCrunch
      • Node.jsの仕組みはWebアプリ開発者も知っておくべき

        インターネットのサービスは、アクセスしてきたユーザーを「待たせない」ことが大前提だ。「待たせない」サービスを実現するために、新しいインフラ技術が次々と登場している。例えばJavaScriptの実行基盤を構築するサーバー用ソフト「Node.js」もその一つ。大量の同時接続ユーザーに対して高速にレスポンスできる技術として、今、大きな注目を集めている。 Node.jsは、Webサーバー構築ソフト「Apache」やWebアプリケーションサーバー構築ソフト「Tomcat」などと置き換えて使う。ただし、単純に置き換えるだけで必ずレスポンスが高速になるわけではない。Node.jsが持つ本来のパフォーマンスを引き出すには、実装するWebアプリケーションの開発に注意が求められる。 “ループ”を止めないアプリが不可欠 Apacheの場合、複数のスレッドを起動して並行処理することで、大量のアクセスに対応できるよ

          Node.jsの仕組みはWebアプリ開発者も知っておくべき
        • INTEL コード & ダウンロード

          Using Intel.com Search You can easily search the entire Intel.com site in several ways. Brand Name: Core i9 Document Number: 123456 Code Name: Emerald Rapids Special Operators: “Ice Lake”, Ice AND Lake, Ice OR Lake, Ice* Quick Links You can also try the quick links below to see results for most popular searches. Product Information Support Drivers & Software

            INTEL コード & ダウンロード
          • 高性能分散SQLエンジン「Trino」最速ガイド - NTT Communications Engineers' Blog

            こんにちは。なんの因果かNTTコミュニケーションズのエバンジェリストをやっている西塚です。 この記事は、NTT Communications Advent Calendar 2021 22日目の記事です。 5分でわかる「Trino」 「Trino」は、異なるデータソースに対しても高速でインタラクティブに分析ができる高性能分散SQLエンジンです。 以下の特徴を持っており、ビッグデータ分析を支える重要なOSS(オープンソースソフトウェア)の1つです。 SQL-on-Anything: Hadoopだけでなく従来のRDBMS(リレーショナルデータベース)やNoSQLまで、標準SQL(ANSI SQL)に準拠したアクセスをワンストップに提供 並列処理でビッグデータに対して容易にスケールアップ しかも高速(hiveの数十倍) Netflix, LinkedIn, Salesforce, Shopif

              高性能分散SQLエンジン「Trino」最速ガイド - NTT Communications Engineers' Blog
            • Google File System(GFS)技術メモ — ありえるえりあ

              * 参照した論文 + http://labs.google.com/papers/gfs-sosp2003.pdf * 特徴 + 安いPC(OSはGNU/Linux)で分散ファイルシステムを構築しています(*注1)。 + PCは壊れるという前提で設計しています(*注2)。このため、分散システムを構成するノードが壊れた時、データが失われないことと、自動で復旧できることに主眼を置いています。 + ファイルシステムを利用する側(アプリ)に、ある程度の想定を求めています。任意の利用ケースに対してそこそこのパフォーマンスを出す(=平均的に良い性能)のではなく、特定の利用ケースで性能を発揮できるように設計しています。 + 性能を発揮できる利用ケースは次のようなケースです。 ++ 主にサイズの大きいファイルを扱う(*注3)。 ++ ファイルへの書き込みは追記(append)が多い(ファイルの一部分を何度

              • Hadoopリンクまとめ(1) - 科学と非科学の迷宮

                Part1 / Part2 更新履歴 2010/06/20 リンク追加 入門、事例紹介、ニュース Part2へ移動 EC2、Pig、MapReduce、HDFS 新規追加 性能測定 公式 Welcome to Apache Hadoop! 日本語訳 Hadoopユーザー会 Welcome to Hadoop MapReduce! "大規模な計算ノード・クラスタ上において膨大なデータを高速で並列処理するアプリケーションを作成するためのプログラミングモデルおよびソフトウェアフレームワーク" Welcome to Pig! "大規模なデータセットを分析するためのプラットフォーム""Pig の言語レイヤを構成しているのは、Pig Latin と呼ばれるテキストベースの言語" wikipedia Apache Hadoop - Wikipedia, the free encyclopedia Apa

                  Hadoopリンクまとめ(1) - 科学と非科学の迷宮
                • Amazon Redshiftによるリアルタイム分析サービスの構築

                  AWS Summit Tokyo 2014「Amazon Redshiftによるリアルタイム分析サービスの構築」 COOKPADが提供している分析サービス「たべみる」のアーキテクチャ

                    Amazon Redshiftによるリアルタイム分析サービスの構築
                  • アマゾン、ウィザードだけで使えるHadoopサービス開始 - @IT

                    2009/04/02 米アマゾンの子会社、Amazon Web Services(AWS)は4月2日、多数のOSインスタンスを起動して大規模分散処理を行える「Amazon Elastic MapReduce」のベータサービスを開始した。 Amazon Elastic MapReduceは、オープンソースの分散処理フレームワークApache Hadoop 0.18.3を利用したサービスで、Webブラウザベースの管理コンソールやコマンドラインツール、APIを使ってジョブを投入することで、大量データの解析や計算量の多い科学計算、統計処理が可能。大量のログ処理や機械学習、金融計算、データマイニング、Webサイトのインデクシング処理などに使えるという。 ジョブを処理するノードは、従来からAWSが提供しているAmazon EC2で稼働し、データの入出力にはAmazon S3が使える。データの入力にはイ

                    • 分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講演資料)

                      分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講演資料)

                        分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講演資料)
                      • 「カジュアル」な規模のデータクラスター上でのデータ解析処理 « NAVER Engineers' Blog

                        今年はさだまさしさんのデビュー40周年ということで、記念コンサート「さだまつり」も絶賛開催中の折も折、残暑も厳しい中皆様いかがお過ごしでしょうか。大平です。 さだまさし氏は経験の豊富な方ですので彼の歌や発言から学ぶことは大変多いのですが、個人的に非常に感銘を受けているのは「歌はコンサートで成長する」という言葉です。歌い手として、「歌」という作品を作って公開・販売するだけが仕事ではなく、実際にコンサートなどでお客さんに届け、お客さんの反応を参考にしたり日々の演奏活動の中で試行錯誤を繰り返して、内容をブラッシュアップし洗練させていく過程を指して先の言葉があるのだと思います。実際にさだまさし氏の曲はCDに収録されているものと実際にライブで演奏されるものとでアレンジが大きく異なり、かつ作品としても質が向上しているものが少なからず存在します。 …あまりさだまさしの話を続けると本当に上長に叱られますの

                        • 日本を代表するビッグデータ技術者集団が米国で起業、米トレジャーデータがDWHクラウド開始

                          写真2●トレジャーデータのメンバー。CEOは米レッドハットなどで勤務した芳川裕誠氏。CTOの太田一樹氏はプリファードインフラストラクチャーの前CTO。楽天で分散キー・バリュー・ストアのROMAを開発した西澤無我氏、OSSのログ収集ツールFluentdやメッセージングミドルウエアMessagePackを開発した古橋貞之氏、MongoDB JPの設立メンバー井上敬浩氏などが参加している 米トレジャーデータは2012年9月27日(米国時間)、データウエアハウス(DWH)のクラウドサービスである「Treasure Data Cloud Data Warehouse(DWH) Service」を開始したと発表した。「Hadoop」をベースにしたDWHだが、Hadoop独自の「MapReduce」ではなく、SQLのクエリーや「JDBC」「ODBC」などを使って蓄積したデータを活用できることが特徴。米国

                            日本を代表するビッグデータ技術者集団が米国で起業、米トレジャーデータがDWHクラウド開始
                          • TechCrunch

                            When I reviewed the Espresso Display last year, I concluded that it would be a great addition to a mobile office setup for workers who needed additional screen real estate without taking up too much s Braid, a four-year-old startup that aimed to make shared wallets more mainstream among consumers, has shut down. Founded in January 2019 by Amanda Peyton and Todd Berman (who left in 2020), San Franc

                              TechCrunch
                            • リアルタイムなHadoop? 「Real-Time MapReduce」を実現するS4、オープンソースとしてYahoo!が公開 - Publickey

                              米Yahoo!は、大規模データの分散処理を実現するMapReduceをリアルタイムに行うソフトウェア「S4」を、オープンソースとして公開しました。 MapReduceを実行するソフトウェアとして、オープンソースの「Hadoop」がありますが、Hadoopはあらかじめジョブを定義して投入するバッチ処理を前提としていました。 S4は、データをキーとバリューのペアで構成されるストリームデータとして非同期に受け取ることができ、処理結果もキーバリューのペアで構成されたストリームデータとして出力するようになっているとのこと。 この非同期なストリームデータによる入出力が、リアルタイムなMapReduceを実現するフレームワークとしてのS4の特徴といえます。 リアルタイムなMapReduceで何ができる? リアルタイムなMapReduceにはどのような用途が考えられるのでしょうか? S4の公開を表明したY

                                リアルタイムなHadoop? 「Real-Time MapReduce」を実現するS4、オープンソースとしてYahoo!が公開 - Publickey
                              • グーグルが構築した大規模システムの現実、そしてデザインパターン(4)~デザインパターン編

                                グーグルが「Evolution and Future Directions of Large-Scale Storage and Computation Systems at Google」(グーグルにおける、大規模ストレージとコンピュテーションの進化と将来の方向性)という講演を、6月に行われたACM(米国計算機学会)主催のクラウドコンピューティングのシンポジウム「ACM Symposium on Cloud Computing 2010」で行っています。 講演の内容を4つの記事(MapReduce編、BigTable編、教訓編、デザインパターン編)で紹介しています。この記事は教訓編の続き、デザインパターン編です。 大規模システムデザインの指針 よりよく使ってもらうためのインフラのデザインと開発方法を考えてみよう。 インフラに対する機能の要望についてさまざまなグループと話すと、多くのリクエ

                                  グーグルが構築した大規模システムの現実、そしてデザインパターン(4)~デザインパターン編
                                • データ民主化の負の側面 - wyukawa's diary

                                  データの活用が当然のことのようになってエンジニア以外でもSQL書いてデータ抽出するのが一般的になってきました。さらにデータサイエンティストの登場により高度な分析もされるようになってきて、顕在化してきたのがHadoopクラスタの無法地帯化とエンジニアの疲弊なんじゃないかと最近思っております。なおHadoopに限らずElasticsearchでも言えたりします。 これって要はユーザと管理者のバランスの問題で、Hadoopエンジニアを採用するのが難しいというのが背景にあります。 SQL書ける人はそれなりにいるけど、インフラ側の人材不足ですね。この状態でデータの民主化が進むとどうなるかというと、 クエリの数が増える -> なかにも重いクエリも結構ある -> 管理者がそれをチェックするのに疲れて放置するようになる -> クラスタの負荷が増えて障害も出るようになる -> クエリ実行にも時間かかるように

                                    データ民主化の負の側面 - wyukawa's diary
                                  • Apache Mahout - Overview

                                    For Creating Scalable Performant Machine Learning Applications Download Mahout Apache Mahout(TM) is a distributed linear algebra framework and mathematically expressive Scala DSL designed to let mathematicians, statisticians, and data scientists quickly implement their own algorithms. Apache Spark is the recommended out-of-the-box distributed back-end, or can be extended to other distributed backe

                                    • Ubuntu Desktop 日本語 Remixのダウンロード | Ubuntu Japanese Team

                                      Ubuntu 22.04 LTS - 2027年4月までサポート 以下の各ミラーサイトからダウンロードしてください。ファイル名は「ubuntu-ja-22.04-desktop-amd64.iso」です。 富山大学 北陸先端科学技術大学院大学 KDDI 研究所 株式会社アプセル オリジナル版からの変更点 日本語サポートパッケージの収録 日本語をサポートするためのパッケージをすべて含んでいます。これにより、ライブセッションで利用する場合でも各メッセージが日本語化されます。また、日本語の入力も可能です。 unzipの日本語のファイル名対応 unzipで展開するファイルに日本語(シフトJIS)を含むファイル名がついていた場合に、文字化けしない対策を追加しています。 Japanese Teamリポジトリの追加 Japanese Teamのパッケージリポジトリを追加してあります。 その他のバグ対応

                                      • 第1回 レコメンドシステムと集合知 | gihyo.jp

                                        はじめに 今回から9回に渡り、Hadoopを使ったレコメンドシステムの実装について紹介させていただくことになりました。 レコメンドシステムを構築した方は少ないと思いますが、レコメンドのサービスに触れている方は多いと思います。今回の連載で、読者の皆様にレコメンドシステムの可能性とその実装の面白さをお伝えできればと思います。よろしくお願い申し上げます。 連載の予定は次の通りです。 レコメンドシステムと集合知(今回) レコメンドシステムの実装と課題 協調フィルタリング(前・後編) コンテンツベースレコメンド(前・後編) 今回の記事のポイントは以下の通りです。 レコメンドシステムの目的は気付きと驚きを与えること 理想のレコメンドはソムリエのお薦め レコメンドシステムに必要なのは嗜好と専門性 では、早速はじめましょう。 レコメンドシステムとは? レコメンドシステムは情報フィルタリングの一種で、大量の

                                          第1回 レコメンドシステムと集合知 | gihyo.jp
                                        • ITmedia エンタープライズ:矛盾を抱えつつ進化する“Java”――黒船となったRuby on Rails (1/2)

                                          インターネット全盛以前に誕生したJava。アプリケーション開発の形態が変化していく中で、Javaもまたいろいろな刺激を受けてきている。これまでのJavaと今後のJava、業界キーマンがコラムで語る。 ある年のJavaOneカンファレンスでのことである。筆者は、あるパネルディスカッションを聴いていた。ビル・ジョイ氏がパネリストとして参加していたからである。 ビル・ジョイ氏といえば、UNIXの世界にTCP/IPとページング仮想記憶をもたらした4.2BSDの開発者であり、Sun Microsystems社の創業者の一人であり、そしてジェームズ・ゴスリング氏の上司としてJavaの誕生を後押しした人物でだ。もしビル・ジョイ氏がゴスリング氏の研究開発を認めていなかったら、Javaは(当時は違う名前だったが)失敗プロジェクトの一つとして忘れ去られていただろう。 そのほかならぬビル・ジョイ氏が、会場を埋め

                                            ITmedia エンタープライズ:矛盾を抱えつつ進化する“Java”――黒船となったRuby on Rails (1/2)
                                          • グーグルとフェイスブックが「別格」たるもう1つの理由:日経ビジネスオンライン

                                            前回のコラムで、「Hulu(フールー)」などのネット映像配信の価値は、「配信」の部分でなく、検索・過去履歴・オススメ・ソーシャルなどといった「ネット独特のインテリジェンス」にある、ということを書いた。 このようにウェブの世界は、クラウドの中に存在するあらゆるデータを燃料として「インテリジェンス」を作り出す巨大な「発電所」の顔を持つ。そして、それを支える技術が、最近話題の「ビッグデータ」だ。 ビッグデータとは、膨大な量のデータを処理・分析し、その結果を業務に活用する仕組みのこと。金融など、定型的なトランザクションデータが膨大に発生する業界では、従来から自社内でそのデータを処理・分析して、株価の予測やオプション取引の価格づけなど、さまざまな目的に活用していた。 ところが、「ウェブ2.0」「クラウド」「ソーシャル」といった一連のネットの進化の中、ユーザーが生成するデータの増加、コンテンツのデジタ

                                              グーグルとフェイスブックが「別格」たるもう1つの理由:日経ビジネスオンライン
                                            • 流行りのクラウドサービスを操ってみよう!Amazon EC2/S3環境構築のすべて一覧

                                              CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

                                                流行りのクラウドサービスを操ってみよう!Amazon EC2/S3環境構築のすべて一覧
                                              • http://chikura.fprog.com/index.php?UID=1240585853

                                                • Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017

                                                  Similar to Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017(20)

                                                    Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
                                                  • O'Reilly Media - Technology and Business Training

                                                    More than 5,000 companies count on our digital courses and more to guide their teams through the tools and technologies that drive business outcomes. We can help yours too. New AI policy for O’Reilly authors and talent O’Reilly president Laura Baldwin shares the company’s ethical approach to leveraging GenAI tools and ensuring O’Reilly experts are compensated for their work. See it now It’s time t

                                                      O'Reilly Media - Technology and Business Training
                                                    • Apache Sparkがスループットとレイテンシを両立させた仕組みと最新動向を、SparkコミッタとなったNTTデータ猿田氏に聞いた(前編)

                                                      Apache Sparkがスループットとレイテンシを両立させた仕組みと最新動向を、SparkコミッタとなったNTTデータ猿田氏に聞いた(前編) 最近ビッグデータ処理基盤として急速に注目を集めているのが「Apache Spark」です。 Sparkは、Hadoopと比較されることも多く、Hadoopよりも高速かつ高機能な分散処理基盤だと言われています。Sparkとはいったい、どのようなソフトウェアなのでしょうか? 今年6月にSparkのコミッタに就任したNTTデータの猿田浩輔氏に聞きました。 以下は猿田氏から伺ったSparkの紹介をまとめたものです。また、後編では猿田氏がコミッタになった経緯などもインタビューしました。 Hadoopでは複雑な処理に時間がかかる Sparkとはなにかの前に、まずはHadoopの話から始めさせてください。 Hadoopとは、ざっくり言うと分散処理フレームワーク「

                                                        Apache Sparkがスループットとレイテンシを両立させた仕組みと最新動向を、SparkコミッタとなったNTTデータ猿田氏に聞いた(前編)
                                                      • SitePoint Blogs » JSON-P output with Rails

                                                        Enhancing DevSecOps Workflows with Generative AI: A Comprehensive Guide

                                                          SitePoint Blogs » JSON-P output with Rails
                                                        • Hadoopの現実解「バッチ処理」の常識をAsakusaで体得

                                                          Hadoopの現実解「バッチ処理」の常識をAsakusaで体得:ビッグデータ処理の常識をJavaで身につける(7)(1/4 ページ) Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク/ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載 “ビッグデータ”時代の「バッチ処理」 アプリケーション開発というと、システム利用者に一番近い画面系の開発が花形ですね。一方「バッチ処理」というと、何となく地味な感じがしますが、「バッチ処理」は縁の下の力持ち、これがないと、大概のシステムは稼働できません。 絶対に必要だけど、影の薄い「バッチ処理」でしたが、“ビッグデータ”への注目度が高まり、大量データを短時間に処理する「並列分散処理バッチ」が活躍する場面も増えてきました。 本稿では、並列分散で「バッチ処理」を行う方法につい

                                                            Hadoopの現実解「バッチ処理」の常識をAsakusaで体得
                                                          • 「データ解析の伝道師」になるため、私が参考にした書籍5選【鈴木理恵子】 - エンジニアtype | 転職type

                                                            2014.08.14 スキル 業界で名の知れたプログラマーは、今年の上半期に何を学んでいたのか? 「同業者が役に立ったものは、自分にも役に立つはず」という仮説を基に、彼らの学びlogから、2014年上半期の流れを振り返り、今後の動向を予想してみよう! トレジャーデータ株式会社 ソリューションアーキテクト/エバンジェリスト 鈴木理恵子さん(@asyoulike007) 東京女子大学へ入学するも、好きなギター製作の道へ進もうと専門学校へ。卒業後は一転、IT業界に進み、プログラマーとなる。システム開発会社、名刺管理サービス会社を経て、ミクシィに入社。プラットフォーム開発に携わる。2013年12月、トレジャーデータに入社 新しい挑戦でより専門的な知識が必要に 2013年12月、ミクシィからトレジャーデータへ転職した鈴木さん。以来、ビッグデータの活用方法についてのセミナーや講演活動を行う一方、同社の

                                                              「データ解析の伝道師」になるため、私が参考にした書籍5選【鈴木理恵子】 - エンジニアtype | 転職type
                                                            • 数百億件のデータを30秒で解析――クラウド型DWH「Treasure Data」に新サービス

                                                              クラウド型のデータウェアハウス(DWH)サービス「Treasure Data Service」を手掛けるトレジャーデータは12月9日、クエリの実行速度を従来比で10~50倍に高速化するというオプションサービス「Treasure Query Accelerator」の提供を始めた。 Treasure Data Serviceは、ユーザー企業が持つ大量のセンサーデータや購買取り引きデータ、Web閲覧データ、アプリケーションログデータなどをクラウド上に蓄積し、分析可能な形に整理して提供するサービス。有償版は月額3000ドルからのサブスクリプション制で利用でき、ビッグデータ活用基盤の構築・運用にかかる時間やコストを低減するとしている。 新サービスは、アドホックデータ解析向けに新たに構築したクエリエンジンを提供し、従来のバッチ型エンジンと比べてクエリ実行速度を高速化するもの。太田一樹CTOによれば、

                                                                数百億件のデータを30秒で解析――クラウド型DWH「Treasure Data」に新サービス
                                                              • VPN(Point To Site)接続する際の注意点 – SIOS Tech. Lab

                                                                みなさん、こんにちは。サイオステクノロジー武井です。今回は、Azure OpenAI ServiceによるRAG実装ガイドを公開しましたので、ご紹介させてください。 ※ このブログでのご紹介ととも以下のイベントでもガイド […]

                                                                  VPN(Point To Site)接続する際の注意点 – SIOS Tech. Lab
                                                                • ビッグデータ処理データベースの全体像と使い分け
2018年version

                                                                  ビッグデータ処理データベースを分類し、2018/9時点で最新のプロダクトを紹介しています。Read less

                                                                    ビッグデータ処理データベースの全体像と使い分け
2018年version
                                                                  • Twitter、数万台のHadoopクラスタとコールドストレージをGoogle Cloud Platformへ移行すると発表 - Publickey

                                                                    Twitter、数万台のHadoopクラスタとコールドストレージをGoogle Cloud Platformへ移行すると発表 Twitterは、自社で運営している大規模なHadoopクラスタをGoogle Cloud Platformへ移行すると発表しました。 A new collaboration with Google Cloud - Twitter Twitterは基本的に自社でデータセンターを保有し運用してきました。2017年1月にTwitterのブログに投稿された記事「The Infrastructure Behind Twitter: Scale」によると、Twitterのデータセンターは5つの大陸にあり、合わせて数十万台のサーバが運用されています。 同社が運用しているHadoopクラスタは世界最大級の規模として、以下のように説明されています。 Hadoop: We have

                                                                      Twitter、数万台のHadoopクラスタとコールドストレージをGoogle Cloud Platformへ移行すると発表 - Publickey
                                                                    • Hadoop MapReduceプログラムを解剖する

                                                                      オープンソース・ソフトウェア「Hadoop」のMapReduceジョブは、標準ではJavaで記述します(その他には、Pig、Hive、JAQLといったものがあります)。しかし、意外と初心者には分かりにくいと筆者は感じます。本記事では、MapReduceジョブのサンプルコードを使って、できる限り正しくコードの意味を理解し、MapReduceへの入り口を示したいと思います。 HadoopでMapReduceを記述するときに使うAPIが、0.19から0.20に変わるところで新しくなっています。実は、現時点でHadoopプロジェクト本体からでさえも、新APIを使ったサンプルが提示されていません。本記事では、新しいAPIで筆者が書き直したサンプルを使って解説しますので、このサンプルは0.19以前のHadoopでは動かないことに注意してください。この記事は、0.20.2を使って検証し、解説しています。

                                                                      • Google を支える技術 - naoyaのはてなダイアリー

                                                                        Google を支える技術 を読みました。 Google のバックエンドで動いている各種分散処理システムに関しては Google 自身から論文がいくつも発表されています。それらの論文をはじめとする比較的最近の情報ソースをベースに、ある程度かみ砕いて要所要所を紹介するという内容でした。加えて著者の西田圭介さんは OpenCobol (COBOL を C 言語に変換しコンパイルする gcc のフロントエンド) を開発された、技術的なバックグラウンドがしっかりしている方であるようで、内容は信頼できると思います。 自分はこれまで Google のバックエンドの各種ソフトウェアについては方々で耳にしていましたが、漠然と何をするものか程度のことしか知りませんでした。 Web 検索の基本的な仕組みと それにまつわる Google が直面した問題、特に大規模処理 それを支えるために開発された各種ソフトウェ

                                                                          Google を支える技術 - naoyaのはてなダイアリー
                                                                        • 仮想化:自分たち専用のクラウドを作ろう - builder by ZDNet Japan

                                                                          夏の自由研究に「Eucalyptus」でクラウドを作ってみないか? 連載「自分たち専用のクラウドを作ろう」では、Amazon EC2互換の環境構築を目指したOSSプロジェクト「Eucalyptus」の成果を利用して、「自分たち専用のクラウド」を作ることを目的に解説を行ってきた。連載終了にあたり、総目次をまとめた。 2009-08-10 12:00:00 OSSのクラウド基盤「Eucalyptus」を使う(8)--応用編〜おわりに この連載では、Amazon EC2互換のクラウド基盤であるOSS「Eucalyptus」を使い、「自分たち専用」のクラウド環境を構築することを目標に解説を行ってきました。今回は最後のまとめとして、ビルド専用環境の構築方法を考えてみましょう。 2009-08-04 15:35:01 OSSのクラウド基盤「Eucalyptus」を使う(7)--Eucalyptusでの

                                                                          • JAXenter - Java Development & Software Architecture

                                                                            Start your trial month now! Use devmio on a monthly basis REGISTER brand id {{brandid}} apploaded {{apploaded}} loading {{loading}} everLoadedData {{everLoadedData}} page {{page}} page_size {{page_size}} loadMorePossible {{loadMorePossible}}

                                                                            • [速報]「Greenplum Database」がオープンソースに。DWH向けMPPデータベース。Pivotalが発表

                                                                              Pivotalは2月17日(日本時間2月18日午前4時)にオンラインイベントを開催。同社が提供するビッグデータ関連の3つのソフトウェア「GemFire」「HAWQ」「Greenplum Database」をオープンソースにすると発表しました。 GemFireはインメモリデータベース、HAWQはHadoop上でSQLのクエリを実行できるソフトウェア。 もっとも注目されるのがGreenplum Databaseです。これはもともとEMCが買収したデータウェアハウス向けのデータベースで、その後VMwareからスピンアウトしたPivotalのラインナップに移管されました。 Greenplum Databaseは多数のマシンに分散させたデータをシェアドナッシングのアーキテクチャにより大規模並列分散処理することで、ペタバイトクラスにまでスケールアウト可能な高性能データベースとされています。 Pivot

                                                                                [速報]「Greenplum Database」がオープンソースに。DWH向けMPPデータベース。Pivotalが発表
                                                                              • Jenkinsとhadoopを利用した継続的データ解析環境の構築

                                                                                WebAssemblyとBlazor 、WebAssembly System Interfaceでコンテナライズの設計を解説Takao Tetsuro

                                                                                  Jenkinsとhadoopを利用した継続的データ解析環境の構築
                                                                                • まさかの日記:MSの某氏との会話ログ

                                                                                  コンピュータサイエンス系の人たちの間では、サーチのテクノロジーで人気があるのはリリバンシー、次はバーティカルサーチ。 他の要素としては、クローリングとインデキシング、クラウド系というところらしい。 サーバをグリッド化(やや死語だな)して、、みたいなのは、コンピュータサイエンスというよりはエンジニアリング。 昔、シックスアパートの某Perlギークの人と話をしたとき、「自分はエンジニアリング系じゃないんで、、」と言っていた。そのときはエンジニアリングという言葉の定義がよくわからなかったけど、なんとなくわかってきたかも。 あ、全文検索とかマイニングとかも面白いといっていた。まあこれは要素技術だけど。Luceneを作った人が別で作ってる奴が結構良いって。なんだろ。SolrかHadoopか。 あと、エンタープライズサーチ。例えばメール。誰がどんな単語を多用しているかをサマリーしたり、検索させたり。

                                                                                    まさかの日記:MSの某氏との会話ログ