[7ページ] hadoopの人気記事 6107件 - はてなブックマーク

241 - 280 件 / 6107件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

hadoopの検索結果241 - 280 件 / 6107件

RightScale Product Demonstration | Cloud Computing Management Platform by RightScale
- 167 users
- www.flexera.com
- テクノロジー
- 2007/06/06
Cloud Management Platform Implement an industry-leading cloud management solution for all cloud use Among the industry’s leading cloud management platform tools, Flexera’s comprehensive Cloud Management Platform (CMP) provides a rich set of capabilities for discovery, template-based provisioning, orchestration and automation; operational monitoring and management; governance; and cost optimization
- ec2
- rightscale
- aws
- cloud
- amazon
- クラウド
- hosting
- S3
- Amazon EC2
- AmazonEC2
DeNA流データエンジニアリングの極意
- 167 users
- speakerdeck.com/sonots
- テクノロジー
- 2017/02/18
Developers Summit 2017 における「DeNA の機械学習基盤と分析基盤」の発表から「データエンジニアリングの極意」のパートを抜き出したもの。「機械学習基盤」のパートについては https://speakerdeck.com/sonots/dena-aisisutemubu-niokerukuraudowohuo-yong-sitaji-jie-xue-xi-ji-pan-falsegou-zhu を参照。
- DeNA
- データ分析
- あとで読む
- etl
- bigdata
- devsumi
- sonots
- development
- data
- hdfs
blogeye.jp : ブログを通して社会をのぞく
- 167 users
- blogeye.jp
- 暮らし
- 2007/12/13
「新しいサラリーマン金太郎最悪」「金太郎・・・」「【サラリーマンなめんじゃねぇ！】」「「サラリーマン金太郎」」「金太郎」「夜中のTV。」「サラリーマン金太郎」「サラリーマン金太郎。」「サラリーマン金太郎（1）」「どうもー」「サラリーマン金太郎 1話」「初聞き♪」「なんか(笑)」「サラリーマンをなめんじゃねぇ。」「永井金太郎」「思ったよりも」「シシカバブー」
- webservice
- blog
- webサービス
- search
- service
- web
- hadoop
- ブログ
- アクセス解析
- 未踏
Twitterのリアルタイム分散処理システム「Storm」入門
- 167 users
- www.slideshare.net/AdvancedTechNight
- テクノロジー
- 2012/03/02
鈴木貴典＋木村宗太郎 TwitterのNathan Marz氏が開発している「Storm」。 2011年9月に、オープンソースとして公開されましたが、まだまだ日本で得られる情報は少なく、詳細は不明なところも多いです。そこで、日本初（たぶん）の「Storm」セッションを行います。「Storm」は、CEP（Complex Event Processing＝複合イベント処理）に属するプロダクトであり、分散リアルタイム処理を行うための基本セットを提供しています。今回のセッションでは、その概念や特性などについて解説してみます。
- storm
- 分散処理
- twitter
- hadoop
- cep
- slideshare
- java
- distributed
- 資料
- slide
素朴なBigtable、できることできないこと
- 166 users
- atmarkit.itmedia.co.jp
- 暮らし
- 2009/09/07
素朴なBigtable、できることできないこと：分散Key-Valueストアの本命「Bigtable」（2）（1/2 ページ） RDBとは別の、クラウド時代のデータベースとして注目を浴びている「分散Key-Valueストア」。その本命ともいえる、Googleの数々のサービスの基盤技術「Bigtable」について徹底解説あまりにもRDBとは異質な「Bigtable」前回の「もう1つの、DBのかたち、分散Key-Valueストアとは」では、連載第1回目として、クラウドコンピューティングにおける新しい潮流である「リレーショナルデータベース（RDB）から分散Key-Valueストア（分散KVS）への移行」が、どのようなパラダイムシフトをもたらすのかを解説しました。今回からは、グーグルが運用する代表的な分散KVS「Bigtable」の内部構造を紹介し、クラウドの本質をより深く掘り下げます。前
- bigtable
- gae
- google
- DB
- database
- Google App Engine
- データベース
- kvs
- GoogleAppEngine
- cloud
Introducing the MessagePack - Blog by Sadayuki Furuhashi
- 165 users
- frsyuki.hatenablog.com
- 暮らし
- 2010/03/24
高速なシリアライズライブラリ MessagePack の新しいWebサイトをオープンしました！ The MessagePack Project Ruby Inside でも取り上げられたようです： MessagePack: Efficient, Cross Language Binary Object Serialization 昨今、効率を重視したシリアライズライブラリが数多く登場しています。特に、大量の処理を行う大規模な基盤システム向けに開発されていることが多いようです。少し探してみるだけでも、次のような事例が見つかります： BERT（githubで採用：Introducing BERT and BERT-RPC） Thrift（Facebookが開発：Thrift: Scalable Cross-Language Services Implementation） Avro（Hado
- messagepack
- msgpack
- JSON
- serialization
- programming
- ruby
- network
- library
- プログラミング
- ProtocolBuffers
『Prestoとは何か，Prestoで何ができるか』 - トレジャーデータ（Treasure Data）ブログ
- 164 users
- treasure-data.hateblo.jp
- テクノロジー
- 2014/07/10
トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 Hadoop Conference Japan 2014 以前に告知したHadoop Conference Japan 2014で，弊社Software Architectの古橋が発表しました。テーマは，Facebookが公開した新しい分散処理基盤，Presto。実はFacebookが彼らの超大規模なデータセットに対してインタラクティブに結果を返せるようにと開発されたものです。開発が始まってまだ2年も経っておりませんが，今ではトレジャーデータを初めとして多くのハッカー達がコミッターとして参加する活発的なプロジェクトに成長しています。 PrestoはHiveやImpalaと同じ「SQL Query Engine」であり，特に数百GBを超える大規模データに対してもインタラクティブなレスポンスを（コンマ0秒以下，遅くて
- presto
- hadoop
- treasuredata
- Hive
- bigdata
- hcj2014
- hdfs
- development
- BI
- facebook
リアルタイムログ分析基盤のAWS-_GCP移行話
- 163 users
- speakerdeck.com/yuyamada
- テクノロジー
- 2020/06/26
6/26 【オンライン】ログ分析勉強会 vol.2 での登壇資料です https://loganalytics.connpass.com/event/176044/ #logben
- GCP
- aws
- あとで読む
- インフラ
- log
- ログ
- infrastructure
- slide
- analytics
- architecture
管理が困難―分散処理の常識はZooKeeperで変わる
- 160 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2012/06/22
管理が困難―分散処理の常識はZooKeeperで変わる：ビッグデータ処理の常識をJavaで身につける（8）（1/3 ページ） Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク／ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載分散処理の課題が「管理」なのは常識複数の計算機上で動作（分散）するアプリケーション、ソフトウェアが多く存在します。分散ソフトウェアは複数の計算機で動作することで大量のデータを扱えたり、高負荷な状況に対処します。本稿では、複数の計算機（クラスタ）で動作する各サーバを「インスタンス」と呼びます。本連載で紹介した分散Key-Valueデータベースである「HBase」は複数の計算機で動作する代表的なソフトウェアです。両ソフトウェアはともに「Apache ZooKeeper」（以下、Z
- zookeeper
- hadoop
- 分散
- distributed
- 分散処理
- HBase
- apache
- java
- architecture
- クラスタリング
decode17
- 159 users
- speakerdeck.com/oza
- 学び
- 2017/05/24
分散並列処理の基本に関する解説と，分散並列処理のオープンソース界隈で最近起こっていることをまとめた資料です．
- distributed
- 分散処理
- hadoop
- spark
- あとで読む
- Kafka
- slide
- 並列処理
- 資料
MapReduceのパターン、アルゴリズム、そしてユースケース - きしだのHatena
- 158 users
- nowokay.hatenablog.com
- テクノロジー
- 2012/02/24
Ilya Katsov氏による「MapReduce Patterns, Algorithms, and Use Cases」の翻訳 http://highlyscalable.wordpress.com/2012/02/01/mapreduce-patterns/ (下書きに入れて推敲するつもりが、なんか公開されてしまっていたので、あとでいろいろ修正すると思います) February 1, 2012 この記事では、Webや科学論文で見られる異なるテクニックの体系的な視点を与えるために、数々のMapReduceパターンとアルゴリズムをまとめた。いくつかの実用的なケーススタディも提供している。すべての説明とコードスニペットでは、Mapper、Reducer、Combiner、Partitionaer、ソーティングにおいてHadoopの標準的なMapReduceモデルを利用します。このフレー
- mapreduce
- hadoop
- algorithm
- アルゴリズム
- java
- programing
- 翻訳
- programming
- *あとで読む
- pattern
Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記
- 157 users
- komachi.hatenablog.com
- 暮らし
- 2010/05/22
今月中に実験の実装が終わるくらいでないと来月の投稿〆切に間に合わないので、今週から研究室のサーバに Hadoop をインストールしている。研究室にはサーバが20台弱あるのだが、そのうち10台強を使うことにして設定。これくらいの規模だと「大規模」と言うのは憚られるかもしれないが(Yahoo! や Google と比べて、という意味で。)、中規模、くらいには言ってもいいだろうし、たぶん、多くの大学や企業で使える台数もこれくらいだと思うし、大企業にいないとできない研究をするのも大変価値があるが、他の人たちがやる気になれば真似できる研究をするのも(データやインフラ勝負ではなくアイデア勝負になるので苦しくはあるのだが)重要だと考えている。たとえば、数台でも分散環境の恩恵が受けられる、というのはPFI が出した Hadoop の解析資料で知っていたので、初めて導入したときは参考になったし、こういう
- hadoop
- 自然言語処理
- mapreduce
- wikipedia
- research
- サーバ
- nlp
- java
- 研究
『仕事ではじめる機械学習』＆『前処理大全』著者対談（Part 1）
- 157 users
- www.oreilly.co.jp
- テクノロジー
- 2018/07/03
今回より4回を予定して、書籍『仕事ではじめる機械学習』著者の有賀康顕さん、『前処理大全』著者の本橋智光さんの対談をお届けいたします。ひょんなことから実現した今回の対談、今話題の機械学習を中心に、さまざまな角度からのお話しが飛び出します。まずはお二人の著書の話題から… 書籍の評判と執筆の苦労（名刺交換をするお二人…）有賀：そうか、CTOですもんね。本橋： CTOと言ってもエンジニアは僕入れて4人ですけどねｗ有賀：よくあるスタートアップのCTOって最初のエンジニアで、みたいな感じで。だから4人いるんだったら、ハイアリングがもうできるようになったという。本橋：でも、いまAndroidエンジニアがいないから僕Androidアプリ書いてますよｗ　もう少しすると入社する予定ですけれど。有賀：スタートアップのCTOはできることは何でもやるということで。いやあ。ご活躍されていて。本橋
- 機械学習
- あとで読む
- 本
- エンジニア
- book
- SQL
- pandas
- Python
物理サーバを選定する際のポイント – Eureka Engineering – Medium
- 157 users
- medium.com
- テクノロジー
- 2016/12/24
「エンジニアとしてのものづくりの楽しみ方とモバイルエンジニアとしての開発の面白さ」を論じる。スキル向上に悩めるモバイルエンジニアへの参考として価値を期待し、モバイルアプリ開発の奥深さに考えを巡らせることで強い動機を持ち、次の挑戦が見えてくる。
- 開発
- aws
- golang
- 設計
- あとで読む
- 大規模
- インフラ
- WEBサービス
- システム
Google Research Publication: MapReduce: Simplified Data Processing on Large Clusters
- 156 users
- labs.google.com
- 暮らし
- 2005/03/05
MapReduce: Simplified Data Processing on Large Clusters Jeffrey Dean and Sanjay Ghemawat Abstract MapReduce is a programming model and an associated implementation for processing and generating large data sets. Users specify a map function that processes a key/value pair to generate a set of intermediate key/value pairs, and a reduce function that merges all intermediate values associated with t
- mapreduce
- google
- algorithm
- programming
- cluster
- 論文
- paper
- research
- *google
- hadoop
IDCF テックブログ
- 156 users
- blog.idcf.jp
- テクノロジー
- 2012/09/19
こんにちは、事業推進本部SE部の山手です。今回は「Terraform」を利用してIDCFクラウド内に仮想マシンを作成し、同時にその仮想マシンにSSHでアクセスできる環境を構築する方法を紹介します。目次目次 Terraformとは実施内容作業手順 1.Terraformのインストール 2.作業用ディレクトリの作成 3.Terraform構成ファイル(以下、構成ファイル)の作成今回作成した構成ファイルの全体像今回作成した構成ファイルの詳細説明 4.コードの実行 ①構成ファイルを含む作業ディレクトリを初期化する(必須) ②構成ファイルを実行すると何が作成されるのか事前に確認する ③事前確認した内容を実行する終わりにおまけ続きを読むこんにちは、クラウドエンジニアリング本部プラットフォーム開発部の山下です。先日、東京有明で開催されたCloudNative Days Tokyo
- chef
- riak
- クラウド
- monitorix
- オープンデータ
- linux
- monitoring
- hadoop
- cloudstack
- サーバ監視
KOF2009「ウェブサービスのパフォーマンスとスケーラビリティ」 - stanaka's blog
- 156 users
- blog.stanaka.org
- 暮らし
- 2009/11/09
KOF2009にて、「ウェブサービスのパフォーマンスとスケーラビリティ」と題して発表してきました。発表資料を以下に置いておきます。 Performance and Scalability of Web ServiceView more presentations from Shinji Tanaka. 概要は、「ウェブサービスのパフォーマンスを向上させスケーラビリティを高めるために、はてなでは様々な取組みを行っています。本セッションでは、はてなで採用している具体的な技術、ノウハウ、可視化手法と、それらの効果について紹介します。」というものです。最近の、Interopやカーネル読書会あたりで話した内容をまとめつつ、レスポンスタイムの可視化という最近の取り組みについて話しました。最近、レスポンスタイムについては、以下のようなグラフを使っています。 x軸がレスポンス時間、y軸がその時間内に収
第31回　RubyistのためのMongoDB入門（1） | gihyo.jp
- 156 users
- gihyo.jp
- 暮らし
- 2010/02/15
はじめにここ最近、NoSQLというキーワードが注目を集めています。リレーショナルデータベースは、一般的にスケールアウト（サーバの台数を増やして性能向上を図る手法）が難しく、特に大規模サービスにおいてパフォーマンス上のボトルネックとなりえます。また、タグやグラフ構造のようなデータは関係モデルに馴染みにくいため、それらを扱う際にはアプリケーションコードもぎこちないものになりがちです。これらの問題を背景に、何にでもリレーショナルデータベースを使うのではなく、用途に応じてKVSなど他のデータストアを選択する流れが広まりつつあります。このムーブメントがNoSQL（Not Only SQL）と呼ばれているものです。今回は、NoSQLなデータベースの1つであるMongoDBをご紹介します。 MongoDBとは MongoDBは高いパフォーマンスとスケーラビリティを特徴とするドキュメント指向型デー
- mongodb
- ruby
- nosql
- kvs
- db
- database
- データベース
- ursm
- mongo
- programming
Loading...
- 156 users
- www.yoshimov.com
- テクノロジー
- 2006/02/21
- git
- hadoop
- mysql
- ubuntu
- deb
- CentOS
- linux
- csv
- yum
- proxy
BigQuery と Snowflake を徹底比較
- 156 users
- speakerdeck.com/fetaro
- テクノロジー
- 2022/12/21
最初にBigQueryとSnowflakeの概要と、登場の背景を説明します。その後、ユーザにとっての使い勝手と、管理者にとっての使い勝手を、ベンダーフリーな立場でそれぞれします。最後に、BigQueryとSnowflakeどっちが速いのか？といった疑問に対して、アーキテクチャをもとに考察します。
ついに国内でも普及し始めたプログラミング言語「Scala」、誕生から10周年
- 156 users
- xtech.nikkei.com
- テクノロジー
- 2014/11/20
2014年9月6日、オブジェクト指向の関数型プログラミング言語「Scala」に関する大規模カンファレンス「ScalaMatsuri 2014」が開催され、筆者も参加した（写真1）。当日の様子をレポートしたい。 Scalaについては、名前は聞いたことがある方も多いと思う。2003年に生まれたオープンソースのプログラミング言語で、コンパイル後はJava VM上で動作する。Javaの既存資産を引き継ぎつつ、Javaにはない新たな言語の特徴を生かせることから、今後が期待されている言語の一つである。 Scalaは海外では、米Twitterや米LinkedInなどが利用していることで知られ、ネット企業を中心に普及しつつあるが、今年の同カンファレンスでの発表を聞いて、国内のネット企業でも、もはや当たり前のように使われる状況になったのだと実感した。国内でのScalaのユーザーとしては、ドワンゴ、エムスリ
Home | Hypertable - Big Data. Big Performance
- 155 users
- hypertable.com
- テクノロジー
- 2008/02/08
Big Data. Big Performance. Hypertable delivers scalable database capacity at maximum performance to speed up your big data application and reduce your hardware footprint. 100% Hadoop Compatible Hypertable seamlessly overlays on top of Hadoop to provide supercharged scalable database infastructure for your big data application. Less Hardware, Lower Cost Hypertable delivers maximum efficiency and su
- bigtable
- db
- database
- hypertable
- google
- oss
- データベース
- distributed
- hadoop
- 分散処理
MPP on Hadoop, Redshift, BigQuery - Go ahead!
- 155 users
- repeatedly.github.io
- テクノロジー
- 2014/07/23
Twitterで「早く今流行のMPPの大まかな使い方の違い書けよ！」というプレッシャーが半端ないのでてきとうに書きます．この記事は俺の経験と勉強会などでユーザから聞いた話をもとに書いているので，すべてが俺の経験ではありません(特にBigQuery)．各社のSAの人とかに聞けば，もっと良いアプローチとか詳細を教えてくれるかもしれません．オンプレミスの商用MPPは使ったことないのでノーコメントです． MPP on HadoopでPrestoがメインなのは今一番使っているからで，Impalaなど他のMPP on Hadoop的なものも似たような感じかなと思っています．もちろん実装の違いなどがあるので，その辺は適宜自分で補間してください．前提アプリケーションを開発していて，そのための解析基盤を一から作る．簡単なまとめデータを貯める所が作れるのであれば，そこに直接クエリを投げられるPre
- BigQuery
- RedShift
- Presto
- mpp
- hadoop
- Impala
- fluentd
- database
- AWS
- ストレージ
Apache Hadoop - Wikipedia
- 154 users
- ja.wikipedia.org
- テクノロジー
- 2009/09/16
Apache Hadoopは大規模データの分散処理を支えるオープンソースのソフトウェアフレームワークであり、Javaで書かれている。Hadoopはアプリケーションが数千ノードおよびペタバイト級のデータを処理することを可能としている。HadoopはGoogleのMapReduceおよびGoogle File System(GFS)論文に触発されたものである。 HadoopはApacheのトップレベルプロジェクトの1つであり、世界規模の開発貢献者コミュニティによって開発され、使用されている。[2] アーキテクチャ[編集] Hadoopは、以下の4つのモジュールによって構成されている。 Hadoop Common: 他のモジュールから共通して利用されるライブラリ群。 Hadoop Distributed File System (HDFS): Hadoop独自の分散ファイルシステム。 Hadoo
- Hadoop
- apache
- Java
- 分散
- Wikipedia
- クラウド
- framework
- google
- IT用語集
- facebook
MapReduce on Tyrant - mixi engineer blog
- 153 users
- mixiengineer.hatenablog.com
- 暮らし
- 2009/04/06
先日、隅田川の屋形船で花見と洒落込んだのですが、その日はまだ一分咲きも行ってなくて悲しい思いをしたmikioです。今回はTokyo Tyrant（TT）に格納したデータを対象としてMapReduceのモデルに基づく計算をする方法について述べます。 MapReduceとは Googleが使っているという分散処理の計算モデルおよびその実装のことだそうですが、詳しいことはググってください。Googleによる出自の論文やApacheプロジェクトによるHadoopなどのオープンソース実装にあたるのもよいでしょう（私は両者とも詳しく見ていませんが）。今回の趣旨は、CouchDBがMapReduceと称してJavaScriptで実現しているデータ集計方法をTTとTCとLuaでやってみようじゃないかということです。簡単に言えば、以下の処理を実装します。ユーザから計算開始が指示されると、TTは、DB内の
- mapreduce
- tokyotyrant
- mixi
- tokyocabinet
- lua
- algorithm
- db
- performance
- programming
- couchdb
Hive (SQL-style) Query Language | Treasure Data
- 153 users
- tddocs.atlassian.net
- テクノロジー
- 2012/07/05
{"serverDuration": 35, "requestCorrelationId": "b45a8231fbaabbfb"}
- treasuredata
- td
- cookpad
- fluentd
- Treasure Data
- presto
- r-lang
- Luigi
- analytics
- Hive
google/protobuf · GitHub
- 152 users
- github.com/protocolbuffers
- 暮らし
- 2008/07/08
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- google
- Protocol Buffers
- c++
- protobuf
- protocolbuffers
- RPC
- library
- java
- python
- programming
Run Kubernetes on a Mac with Kube Solo
- 152 users
- azure.microsoft.com
- テクノロジー
- 2013/08/07
Explore Azure Get to know Azure Discover secure, future-ready cloud solutions—on-premises, hybrid, multicloud, or at the edge Global infrastructure Learn about sustainable, trusted cloud infrastructure with more regions than any other provider Cloud economics Build your business case for the cloud with key financial and technical guidance from Azure Customer enablement Plan a clear path forward fo
- paas
- docker
- deis
- heroku
- kubernetes
- chef
- CoreOS
- k8s
- container
- open source
富士通クラウドテクノロジーズ株式会社 aka ニフティ株式会社を退職します - PolyPeaceLight
- 151 users
- muddydixon.hatenablog.com
- テクノロジー
- 2017/06/27
2017/06/28 14:00 追記「富士通」が冠についたことは何一つ退職の原因ではありません(そうでなければ「面白い会社です！」とか書きません)。クラウドを作る側に回りたいヒト、クラウドをもっと便利に使うための機能を作りたいヒトは引き続きおすすめの会社の1つです退職エントリを見るたびに「知らんがな」という思いと「全員に直接いうのも変だから便利そう」という思いの両方がありましたが、いざ、自分が退職することになると「全員と飲みましょう」とか無理だと気が付き「便利」となったので書くことにしました。正確には「富士通クラウドテクノロジーズ株式会社」を退職するのですが、正直2ヶ月しか働いておらず「遅れたニフティ株式会社の卒業生」という気持ちしかないので以降「ニフティ」と記載します。このエントリも消されるかもしれませんが、そのときは社会の闇だと思って下さい。就職してからここまで博士課程満
- 退職
- ニフティ
- あとで読む
- Nifty
- engineer
- 仕事
- 転職
- エンジニア
- AWS
TechCrunch
- 150 users
- jp.techcrunch.com
- テクノロジー
- 2013/03/11
Identity and access giant Okta said a hacker broke into its customer support ticket system and stole sensitive files that can be used to break into the networks of Okta’s customers. Okta chief s
- Redshift
- aws
- hadoop
- amazon
- ビッグデータ
- bigdata
- データマイニング
- database
- 分析
- データ分析
TechCrunch | Startup and Technology News
- 149 users
- jp.techcrunch.com
- 暮らし
- 2010/11/16
Hello and welcome back to Equity, a podcast about the business of startups, where we unpack the numbers and nuance behind the headlines. This is our Wednesday show where we niche down to a single top
Presto: Free, Open-Source SQL Query Engine for any Data
- 149 users
- prestodb.io
- テクノロジー
- 2013/11/07
Calling our Presto community speakers – we want to hear from you! Fill out out community call for papers to speak at upcoming meetups and conferences. What is Presto?Presto is an open source SQL query engine that’s fast, reliable, and efficient at scale. Use Presto to run interactive/ad hoc queries at sub-second performance for your high volume apps.
- presto
- facebook
- sql
- bigdata
- distributed
- hive
- hadoop
- database
- databases
- Analytics
Tornado Web Server — Tornado 6.4 documentation
- 149 users
- www.tornadoweb.org
- 暮らし
- 2009/09/11
¶ Tornado is a Python web framework and asynchronous networking library, originally developed at FriendFeed. By using non-blocking network I/O, Tornado can scale to tens of thousands of open connections, making it ideal for long polling, WebSockets, and other applications that require a long-lived connection to each user. Quick links¶ Current version: 6.4 (download from PyPI, release notes) Source
- python
- tornado
- framework
- friendfeed
- server
- facebook
- httpd
- web
- http
- webserver
LSH (Locality Sensitive Hashing) を用いた類似インスタンスペアの抽出 - mixi engineer blog
- 148 users
- mixiengineer.hatenablog.com
- テクノロジー
- 2010/05/06
GW 中の長距離移動のために体調が優れない takahi-i です. 今回は巨大なデータをマイニングする一つの技術として LSH (Localtiy Sensitive Hashing) を紹介させていただきます. LSH とは LSH は大量なデータから類似度が高いインスタンスのペアを高速に抽出してくれるアルゴリズムです. ここでインスタンスはデータ集合の一つの要素を表します. たとえば扱うデータが E-コマースサイトの購買ログであれば, インスタンスは各ユーザですし, 画像データ集合であれば, インスタンスは個々の画像データです. LSH の詳しい解説については以下のサイトがあります. Wikipedia のエントリ LSH に関する論文がまとめられているページ本稿ではE-コマースサイトの購買履歴データを基に LSH の機能について述べてゆきます. 以下のような E-コマースサイトの
楽天テクノロジーカンファレンス 2008にいってきました - d.hatena.zeg.la
- 148 users
- zegenvs.hatenadiary.org
- 暮らし
- 2008/11/29
1000人以上のエンジニア、全国各地に開発拠点をもっている楽天のテクノロジーカンファレンスにいってきました。分散並列処理フレームワークfaily,P2PオンメモリストレージROMAが 2009年にOpenSource化されるとのことでした。楽天ウェブサービス APIの紹介 16種類のAPI 直近だと楽天ランキングAPI 1500万件,2万件の宿泊施設 Affiriateと連動可能 REST,JSON,SOAPのフォーマットをサポート楽天ダイナミックアド楽天版アドセンス記事の内容にマッチした楽天の商品を出す楽天経済圏 APIを使ったアプリが入り込めるマッシュアップブームおちちている ALL 35,000ID Active 5,000ID Webサービス経由の流通金額は7.24% 3,500万request/day ItemSearch,GenreSearch,Itemcode
- 楽天
- event
- rakuten
- ruby
- server
- 勉強会
- oss
- 負荷分散
- report
- hadoop
Yahoo! JapanのHadoopクラスタは6000ノードで120PB。指数関数的に増大するデータ需要を技術で解決していく。Hadoop Spark Conference Japan 2016
- 146 users
- www.publickey1.jp
- テクノロジー
- 2016/02/09
Yahoo! JapanのHadoopクラスタは6000ノードで120PB。指数関数的に増大するデータ需要を技術で解決していく。Hadoop Spark Conference Japan 2016 日本を代表する規模のビッグデータ処理基盤を持つ企業の1つがYahoo! Japan（以下Yahoo!）です。同社は2月8日に開催された「Hadooop Spark Conference Japan 2016」において、現在運用中のビッグデータ処理基盤の規模、そして同社が抱えている課題と、それをどう解決していくのかを基調講演の中で示しました。同社が示した解決方法は、Hadoopなどのビッグデータ処理基盤を使い倒す側から、作る側へ向かうという大胆なものです。同社の貢献はオープンソースとなり、今後さらに多くの課題解決に役立つことになりそうです。同社データインフラ本部遠藤禎士（えんどうただし）氏
- hadoop
- Yahoo
- あとで読む
- Yahoo!
- BigData
- ビッグデータ
- spark
- Publickey
- 事例
ヤフーを変え始めたHadoop
- 146 users
- xtech.nikkei.com
- 暮らし
- 2010/06/14
ヤフーが日本独自の検索関連サービスの開発で、オープンソースの分散処理ソフトである「Hadoop」の活用を進めている。Hadoopを使うことで、従来は6時間以上かかった処理がわずか5分半で済むようになった例もある。2009年秋には組織を整備し、適用範囲を全社に広げている。 Hadoopは、米グーグルが開発した分散処理ソフト「Google File System（GFS）」と「MapReduce」を模したオープンソースソフトである（図）。GFSとMapReduceは、グーグルのクラウドを支える基盤技術。Hadoopを使うと、複数台の安価なPCサーバーを連携させ、数十テラ～数ペタバイトに及ぶデータを高速に処理できる。 Hadoopを日本国内で最も積極的に利用している企業はヤフーだ。2008年ごろから部署単位でHadoopの導入を進め、Hadoopを使う事例が10件を超えるようになった（表）。
- hadoop
- yahoo
- Yahoo!
- クラウド
- MapReduce
- 高速化
- cloud
- google
- db
- オープンソース
楽天、分散キー・バリュー型データストア「ROMA」のソースコードを公開
- 145 users
- xtech.nikkei.com
- 暮らし
- 2009/10/24
写真1●楽天テクノロジーカンファレンスでソースコード公開を発表するROMAの開発者西澤無我氏（左）と、Rubyの開発者で楽天技術研究所フェローのまつもとゆきひろ氏（右）楽天は2009年10月24日、同社が独自開発した分散キー・バリュー型データストア「ROMA」をオープンソース・ソフトウエアとして公開した。ROMAはスケールアウトが容易で、耐障害性の高いデータストア。「楽天市場」と「楽天トラベル」で、ユーザーによる閲覧履歴の保存にROMAを使用している。同日に開催した「楽天テクノロジーカンファレンス」に合わせて、「github」でソースコードを公開した。 ROMAは、楽天技術研究所フェローのまつもとゆきひろ氏（プログラミング言語「Ruby」の開発者）と協力して、2007年から開発してきた分散キー・バリュー型データストアである（写真1）。Rubyを使った大規模システムを実現するための分散処
- roma
- ruby
- kvs
- 楽天
- memcached
- DB
- database
- オープンソース
- opensource
- oss
ストリームデータ分散処理基盤Storm
- 144 users
- www.slideshare.net/hadoopxnttdata
- テクノロジー
- 2013/04/22
2012年12月10日 NTTデータオープンソースDAY 2012 講演資料『ストリームデータ分散処理基盤 Storm』 NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス岩崎正剛 http://oss.nttdata.co.jp/hadoop/
- storm
- hadoop
- データ分析
- OSS
- slideshare
- database
- 分散処理
- 分散
- distributed
- *reference
Jubatusを公開しました - Preferred Networks Research & Development
- 144 users
- tech.preferred.jp
- テクノロジー
- 2011/10/28
先日、NTTと共同研究開発したJubatusを公開しました。 OSSで公開されてますので、興味がある方は使ってみるなり、ソースコードを眺めるなり、できればプロジェクトに参加していただけたらと思います。 Jubatus（ユバタス）は、大規模分散上でリアルタイムで機械学習を行うためのフレームワークです。このプロジェクトは元々、機械学習やデータ解析が好きなPFIと、ネットワークやシステム運用実績が豊富で技術力があるNTT情報流通プラットフォーム研究所と組んで何かできないかということで始めました。「大規模分散」＋「リアルタイム」＋「深い解析」という三つの特徴を持った上でデータを分析するためにどのようなアーキテクチャが考えられて、その上でどのような解析ができるのかというのを日々試行錯誤して作っています。今回はリリース第１段ということで、手法としては分類（教師有学習の多クラス分類）に絞ってOSS