hadoopの最新人気記事 76件 - はてなブックマーク

1 - 40 件 / 76件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

hadoopの検索結果1 - 40 件 / 76件

Apache Sparkとは何か - Qiita
- 22 users
- qiita.com/taka_yayoi
- テクノロジー
- 2023/08/16
使い始めて3年くらい経ちますが、改めて振り返ってみます。こちらの記事を書いたりしていますが復習も大事なわけで。 2024/4/12に翔泳社よりApache Spark徹底入門を出版します！その他のDatabricksコアコンポーネントの記事はこちらです。 Apache Sparkプロジェクトの歴史 SparkはDatabricksの創始者たちがUC Berkeleyにいるときに誕生しました。Sparkプロジェクトは2009年にスタートし、2010年にオープンソース化され、2013年にApacheにコードが寄贈されApache Sparkになりました。Apache Sparkのコードの75%以上がDatabricksの従業員の手によって書かれており、他の企業に比べて10倍以上の貢献をし続けています。Apache Sparkは、多数のマシンにまたがって並列でコードを実行するための、洗練され
データレイクの新しいカタチ：Open Table Formatの紹介 - 流沙河鎮
- 21 users
- bering.hatenadiary.com
- テクノロジー
- 2023/07/18
はじめに Open Table Formatは次世代のデータレイクの基盤となり得る技術で、徐々に導入事例(末尾に列挙)が増えてきているものの、日本での認知度は発展途上な印象がある。本記事ではOpen Table Format登場の背景を紹介する。執筆にあたって、Apache Iceberg: An Architectural Look Under the CoversとAWSにおける Hudi/Iceberg/Delta Lake の使いどころと違いについてを特に参考にした。 Open Table Formatとは？ Open Table Formatとは、従来のデータレイクの技術的な課題&ユースケースの要請に応える形で登場した、データレイクに最適化されたテーブルフォーマットを指す概念で、上手く活用することでクエリプランニング、実行性能の最適化、効率的なUpdateやDelete、タイム
GitLabがGoogle CloudとAI分野で提携、AIをGitLabツール群に統合。コードの自動生成、コードにある脆弱性の説明、コードレビュアーの推薦など実現
- 82 users
- www.publickey1.jp
- テクノロジー
- 2023/05/10
GitLabがGoogle CloudとAI分野で提携、AIをGitLabツール群に統合。コードの自動生成、コードにある脆弱性の説明、コードレビュアーの推薦など実現 GitLabとGoogle CloudはAI分野での提携を発表し、Google Cloudが提供するAI機能のVertex AIなどにより、GitLabのツール群にAIによる開発者の支援機能を組み込んでいくとしました。そしてGitLabは5月3日付けのブログ「GitLab details AI-assisted features in the DevSecOps platform」で、今後どのようなAI関連の機能をGitLabに実装していくのかについて説明しています。 Check out our blog series to keep up with our AI/ML work and announcements. htt
- gitlab
- AI
- あとで読む
- google
- git
- cloud
- techfeed
- GitHub
この10年のプログラミング言語の変化 - 西尾泰和のScrapbox
- 424 users
- scrapbox.io/nishio
- テクノロジー
- 2023/01/12
@nishio: あ、そうか、10年前からあったけど10年間の間に勢力を拡大したケースがあるからあんまり厳しく切らない方がいいのか(TypeScriptの登場が2012年、Rustの登場が2010年だった)
BigQuery と Snowflake を徹底比較
- 156 users
- speakerdeck.com/fetaro
- テクノロジー
- 2022/12/21
最初にBigQueryとSnowflakeの概要と、登場の背景を説明します。その後、ユーザにとっての使い勝手と、管理者にとっての使い勝手を、ベンダーフリーな立場でそれぞれします。最後に、BigQueryとSnowflakeどっちが速いのか？といった疑問に対して、アーキテクチャをもとに考察します。
続・Apache Ozone をやっていた一年 - Preferred Networks Research & Development
- 4 users
- tech.preferred.jp
- テクノロジー
- 2022/11/11
PFN では HDFS から Apache Ozone への移行を進めています。Ozone クラスタは順調に社内のプロジェクトで採用が進んでデータが増加しており、これまでの 2 年間は数度にわたってクラスタを拡張しました。ところが、段階的にクラスタを拡張したことでデータノード間でのディスク使用量の不均衡が問題になってきました。例えば、全てのディスクが 8 割埋まっている Ozone クラスタにまったく空のデータノードを追加すると、データ使用量に大きな不均衡が生じます。新規追加した空のサーバにデータを移動することをリバランスといいますが、運用しやすいようにリバランスを実装する方法は自明ではありません。HDFS ではノード単位でディスク使用量を規定の範囲内に均すように移動する Balancer やデータノード内のディスクを同様に移動する Disk Balancer があります。一方で Ozon
- データ
Delta Lake とは何か - connecting the dots
- 128 users
- ktksq.hatenablog.com
- テクノロジー
- 2022/09/14
はじめに環境情報 Delta Lake (デルタレイク) とは Delta Lake の実体 Delta Lake の構造 Parquet と Delta の相違点 Parquetとは何か Parquetの構造 Parquet と Delta の違い Delta Lake が生まれた経緯: データレイクと Delta Lake の違いデータレイクのメリットデータレイクの課題 *Parquetで構築した場合 Delta Lake の特徴 ACIDトランザクションの担保スケーラブルなメタデータ管理バッチとストリーミングワークロードの統合タイムトラベル (バージョン管理) CONSTRAINT句のサポート DML (データ操作言語) のフルサポート UPDATE DELETE MERGE 柔軟なスキーマ管理 1. スキーマエンフォースメント 2. スキーマエボリューションストレ
- deltalake
- あとで読む
- データ
- Databricks
- 機械学習
- db
- hadoop
- 開発
- プログラミング
- programming
Deep Dive: Delta Log について理解する - connecting the dots
- 3 users
- ktksq.hatenablog.com
- テクノロジー
- 2022/09/04
はじめに環境情報前提: Delta Lakeとは何か Delta Log とは何か _delta_logディレクトリの構成 1. JSONトランザクションログ: 2. Checkpoint ファイル: 3. Last Checkpoint ファイル: 4. CRC (Cyclic Redundancy Check) ファイル: JSONトランザクションログ JSONトランザクションログのスキーマアトミックコミットを構成するアクション metaData: メタデータの更新 add: ファイルの追加 remove: ファイルの削除 txn: トランザクションの設定 protocol: プロトコルの変更 commitInfo: コミット情報 Checkpoint ファイル Last Checkpoint ファイル CRC (Cyclic Redundancy Check) ファイル CRC
- データ
AWS Outpostsで実現するオンプレデータレイク - NTT Communications Engineers' Blog
- 36 users
- engineers.ntt.com
- テクノロジー
- 2022/08/09
はじめにこんにちは、イノベーションセンターの鈴ヶ嶺です。普段はクラウドサービスをオンプレ環境でも同様のUI/UXで使用を可能とするハイブリッドクラウド製品の技術検証をしています。 NTT Comでは以下の過去の記事のように、AWSのハイブリッドクラウドソリューションAWS Outposts ラックの導入や技術検証を進めています。 engineers.ntt.com engineers.ntt.com engineers.ntt.com 本記事では、AWS Outpostsで実現するオンプレ環境におけるデータレイクのユースケースについて紹介します。データレイクとは構造化データ、非構造化データに関わらず全てのデータを一元的に保存可能なストレージを意味しています。このユースケースにより、低遅延性が求められる、もしくは秘匿性の高い大規模なデータをオンプレ環境で一元的に取り扱うことが可能となり
- aws
- データ
- CSV
- NTT
- blog
LINEの大規模なData PlatformにData Lineageを導入した話
- 58 users
- engineering.linecorp.com
- テクノロジー
- 2022/05/22
LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog はじめにこんにちは、Data Platform室IU Devチームの島村です。 Data Platform室では、約400ペタバイトのデータ分析基盤を運用しております。このData Platformは、「Information Universe」(以下、IU) と呼ばれており、LINEの様々なアプリケーションから生成されるデータをLINE社員が活用できるように、データの収集、処理、分析、可視化を提供しています。私が所属するIU Devチームでは、「IU Web」を開発しています　IU Webは、IUのデータを安全にかつ効率的に活用できるようにするData Catalog機能を提供しており、LINEグループのあらゆるサービスか
LINEがApache Software FoundationのSilver Sponsorになりました
- 6 users
- engineering.linecorp.com
- テクノロジー
- 2022/03/29
LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは。Open Source Program Office TF (タスクフォース)です。私たちはLINEのエンジニア組織とオープンソースエコシステムを融合し、より密接な関係を築いてコミュニティと共に成長できる文化を作るために様々な取り組みを行っています。今回は、この3月にLINEがApache Software FoundationのSilver Sponsorに加わることになった背景について紹介します。 Apache Software Foundationについて Apache Software Foundation (ASF)は、オープンソースプロジェクト開発に必要な資源を支援するために1999年に米国で設立された
- LINE
- OSS
- Apache
- Java
- Security
- あとで読む
Delta LakeのACIDトランザクションについて - Qiita
- 3 users
- qiita.com/toshimitsuk
- テクノロジー
- 2021/12/25
この記事は、Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2021 の12/25のエントリです。はじめにビッグデータにおける分散型ストレージと聞いて、皆さんは何を思い浮かべますか。例として、Apache Hadoop HDFSがあげられるでしょう。HDFSなどの分散型ストレージの誕生によって、大量のデータを保存・活用ができるようになったわけです。これらの分散型ストレージはスケーラビリティや耐故障性の面で優れています。一方、データ処理や分析のデータストアとして比較に挙げられがちなのはRDBMSですが、RDBMSと比べると特徴が一部失われていることもあります。例えば、並列分散化に加えてある程度の塊で書き込む工夫のトレードオフとして読み込み・書き込みを低レイテンシで行うことが難しくなった、書き
高性能分散SQLエンジン「Trino」最速ガイド - NTT Communications Engineers' Blog
- 124 users
- engineers.ntt.com
- テクノロジー
- 2021/12/22
こんにちは。なんの因果かNTTコミュニケーションズのエバンジェリストをやっている西塚です。この記事は、NTT Communications Advent Calendar 2021 22日目の記事です。 5分でわかる「Trino」「Trino」は、異なるデータソースに対しても高速でインタラクティブに分析ができる高性能分散SQLエンジンです。以下の特徴を持っており、ビッグデータ分析を支える重要なOSS(オープンソースソフトウェア)の1つです。 SQL-on-Anything: Hadoopだけでなく従来のRDBMS(リレーショナルデータベース)やNoSQLまで、標準SQL(ANSI SQL)に準拠したアクセスをワンストップに提供並列処理でビッグデータに対して容易にスケールアップしかも高速(hiveの数十倍) Netflix, LinkedIn, Salesforce, Shopif
- trino
- sql
- OSS
- database
- あとで読む
- presto
- データ
- hadoop
- 開発
- NTT
2021年のApache Hadoop振り返り - Memo
- 4 users
- aajisaka.hatenablog.com
- テクノロジー
- 2021/12/14
Calendar for Distributed computing (Apache Spark, Hadoop, Kafka, ...) | Advent Calendar 2021 - Qiita の12月13日の記事です。昨年の記事 aajisaka.hatenablog.com さて、今年もApache Hadoopを振り返ろうと思います。リリース数の減少今年もリリースが少ない年でした。本記事を執筆している時点では1月に3.2.2、6月に3.3.1がリリースされただけです。現在3.3.2のrelease voteが行われており、うまく行けば3.3.2がリリースされるような気がします。また、3.2.3についてもrelease branchが切られており、release voteが近いうちに始まると思われます。ところで、2020年には新しいminor versionの3.3.0が
Apache Ozoneをやっていた一年 - Preferred Networks Research & Development
- 29 users
- tech.preferred.jp
- テクノロジー
- 2021/12/10
Why Apache Ozone? これまでPFNでは増え続けるデータやユースケースに対応するために、スケールアウト可能なストレージシステムをずっと模索し続けてきました。シミュレーションを基軸とした戦略を採用した[1]ことによりデータ量はさらに増加し、データ保管システムの重要性は高まっています。 Preferred Networks におけるHadoop – Preferred Networks Research で解説した基本的な要件は今でも変わっていませんが[2]、現在メインのシステムとして運用している Hadoop (HDFS) にはいくつかのシステム運用上の課題があります。たとえば、一番大きなHadoopクラスタは現時点で物理的に10PB近くのディスク容量を持っていますが、Ubuntu 16.04で動作しています。OSのバージョンアップを伴うクラスタのIn-placeなアップグレー
更新できるデータレイクを作る〜Apache Hudiを用いたユーザデータ基盤の刷新〜 - Gunosy Tech Blog
- 12 users
- tech.gunosy.io
- テクノロジー
- 2021/12/04
広告技術部のUT@mocyutoです。こちらの記事はGunosy Advent Calendar 2021の4日目の記事です。昨日は内田さんのその設定、pyproject.tomlに全部書けます - Gunosyデータ分析ブログでした今回はApache Hudiを用いたユーザデータ基盤の刷新を紹介します。背景仕組み課題対応策データの持ち方を変える Apache Hudiとは構成 Glue + PySpark Athenaによる抽出移行し終えて背景 Gunosyの広告システムではユーザに対して最適な広告を届けるために、接触済みのユーザに対して何度も同じ広告を出さないようにする仕組みを提供しています。例えば、すでにある広告Aをクリックしたユーザには広告Aは再度配信しないのような設定です。仕組みこの仕組みを実現するためには以下のようなアーキテクチャになっていました
よりセキュアなHadoopの作り方〜 ApacheCon Asia 2021登壇報告
- 7 users
- techblog.yahoo.co.jp
- テクノロジー
- 2021/12/02
HDFSのブロックデータ転送の暗号化 HDFSの実データに相当するブロックデータの転送に対する暗号化はRPC暗号化とはさらに別のパラメータで管理されています。 hdfs-siteの dfs.encrypt.data.transfer を true に、 dfs.encrypt.data.transfer.cipher.suites を AES/CTR/NoPadding にそれぞれ指定することで有効化します。この設定を無停止で反映するにあたっては、転送の暗号化設定の反映済/未反映を判別する dfs.trustedchannel.resolver.class によるノードの動的な管理、場合によっては拡張による独自実装が必要となります。 HDFSクライアントおよびNameNode・DataNode間で dfs.encrypt.data.transfer の真偽が一致していない場合はブロックデ
CDH (Hadoop) 入門 - MicroAd Developers Blog
- 19 users
- developers.microad.co.jp
- テクノロジー
- 2021/09/21
はじめに初めまして。マイクロアド21年新卒インフラ担当の森( id:bosq )と申します。 7月に新卒研修を終えてからは、基盤開発グループにて日々勉強しています。配属後は新しいことのインプットが多いため、今回は学んだことの整理とアウトプットを兼ねて、マイクロアドのデータ基盤で利用しているHadoopについて紹介したいと思います。はじめに分散処理基盤 Hadoop / CDH とは Hadoop エコシステムデータストレージ (HDFS) とリソース管理 (YARN) HDFS (Hadoop Distributed File System) YARN (Yet Another Resource Negotiator) ノードの役割分散処理エンジン (MapReduce, Tez, Spark) MapReduce Apache Tez Apache Spark クエリエンジ
Snowflakeプラットフォームが支える６ワークロード(5) データレイクの過去と現在、そして未来
- 4 users
- news.mynavi.jp
- テクノロジー
- 2021/09/17
DXが声高に叫ばれる昨今、デジタル化された業務の結果、生成されるデータをいかにして活用するかが企業の命運を分けるようになってきた。ここ十数年を振り返ると、突如として量も形式も増えたデータに翻弄されることも少なくなかったが、その間にビッグデータを味方につけようと工夫がこらされた技術の一つがデータレイクである。今回は、Snowflakeのサービスパートナーであり、各種先端技術ブログでも有名なクラスメソッド株式会社でデータアナリティクス事業本部プリセールスアーキテクトとして活躍しており、個人としてもこのテクノロジーの歴史をつぶさに見つめてきた甲木洋介氏に、過去から紐解くデータレイクと、未来を担うSnowflakeの役割をご紹介いただこう。解説者：クラスメソッド株式会社データアナリティクス事業本部プリセールスアーキテクト甲木洋介氏 Twitter：@yokatsuki はじめにデー
- データ
- あとで読む
Apache Hadoop 3.3.1がリリースされました - Memo
- 11 users
- aajisaka.hatenablog.com
- テクノロジー
- 2021/08/01
2021/6/15にApache Hadoop 3.3.1がリリースされたので、リリースしてからしばらく時間が経つけどまとめておきます。 Hadoop 3.3.1に対する個人的な所感 Hadoop 3.3.1はHadoop 3.3.0からおよそ1年後にリリースされました、1年も経っているので、普段のbug fix releaseでは考えられないほどの修正がされ、もはやHadoop 3.2.0とHadoop 3.3.0との差分よりもHadoop 3.3.0とHadoop 3.3.1との差分のほうが大きいのではないかと思っています。Hadoop CommonとHDFSを中心に、その大きな差分についてこれから紹介していこうと思います。 NameNodeLayoutVersionの更新 Hadoop 3.3.1では、なんとNameNodeLayoutVersionが上がっています。普通のbug f
- あとで読む
Containerizing Apache Hadoop Infrastructure at Uber
- 3 users
- eng.uber.com
- テクノロジー
- 2021/07/23
You’re seeing information for Japan . To see local features and services for another location, select a different city. Show more Introduction As Uber’s business grew, we scaled our Apache Hadoop (referred to as ‘Hadoop’ in this article) deployment to 21000+ hosts in 5 years, to support the various analytical and machine learning use cases. We built a team with varied expertise to address the chal
- hadoop
- apache
- docker
「まさに逆転の発想だ！」福岡県宇美町が新型コロナウイルスワクチン接種会場で動きの遅い高齢者のために導入した方法が画期的で全国で広まって欲しい！
- 564 users
- togetter.com
- 世の中
- 2021/05/16
知念実希人　物語り @MIKITO_777 やはり、1日100万回の接種を何とか達成しないといけませんね。現在は30万回強。まだまだ、大規模接種会場やかかりつけ医での接種が十分に始まっていない状態なので、目標は十分に達成可能だと思います。頑張りましょう！ a.msn.com/01/ja-jp/BB1gM… 2021-05-16 20:22:01
- COVID-19
- 医療
- あとで読む
- ワクチン
- togetter
- 行政
- 福岡
- コロナ
- 仕事術
- medical
Spark on k8s を EKS 上で動かす - Gunosyデータ分析ブログ
- 14 users
- data.gunosy.io
- テクノロジー
- 2021/04/28
はじめに DRE Team の hyamamoto です．皆さん，Spark は利用されていますか？ Gunosy では Digdag + Athena によるデータ整形が増えてきており，徐々に Spark の利用は減ってきています．思い返すと，昨年入社後の OJT も Spark から Digdag + Athena への書き換えタスクでした．一方で，決して多くはないものの，この構成ではカバーし切れない処理もあり，そういったものに関しては Spark を用いています．話は少し飛びますが，DRE Team では Digdag や派生するバッチ処理を実行するための Kubernetes Cluster を EKS 上に構成しています．また，一部のタスクは Kubernetes の Job として Digdag から投げることで，リソースをスケールさせつつ様々な処理が可能となっていま
- kubernetes
- spark
- k8s
- hadoop
- データ
日本人CTOがシリコンバレーで25歳で起業し、660億円で買収されるまでの道のり
- 690 users
- techblitz.com
- テクノロジー
- 2021/03/30
大学時代に日本屈指の技術系スタートアップCTOを経験。25歳で日本から飛び出して、シリコンバレーで起業した ――まず太田さんがシリコンバレーで起業するまでの経緯を聞かせてください。高校生の時に初めて携帯電話を買ってもらいました。その携帯がiアプリといって、Javaのプログラムが動作する端末でした。そこで近くの書店でプログラミングの本を買って、簡単なシューティングゲームを作りました。すると、それが40万件以上ダウンロードされたんです。塾の帰りなど、隣にいる人が自分の作ったゲームをプレイしているのを見て驚きました。それが最初のコンピュータ、インターネットの原体験で、そこからプログラミングにのめり込んでいきました。太田一樹（Treasure Data 共同創業者取締役） 1985年生まれ。東京大学大学院情報理工学研究科修士課程修了。学部課程在学中の2006年、自然言語処理と検索エンジン
- 起業
- あとで読む
- CTO
- ビジネス
- 投資
- 企業
- startup
- business
- hadoop
- IT
Multi-Raft: Apache Hadoop Ozoneの書き込みパフォーマンスを加速する
- 3 users
- blog.cloudera.co.jp
- テクノロジー
- 2021/01/19
2020/06/24 に公開された「Multi-Raft — Boost up write performance for Apache Hadoop-Ozone」の翻訳です。関連リンク Apache Hadoop Ozone: Apache Hadoop 用のオブジェクトストアの紹介 Apache Hadoop Ozone: オブジェクトストアの概要 Apache Hadoop Ozone — オブジェクトストアのアーキテクチャー Ozoneのベンチマーク: CDP用Clouderaの次世代ストレージ Apache Hadoop Ozone セキュリティ — 認証この記事は、Li Cheng, Software Engineer, Tencent Inc.による寄稿です本番環境で Hadoop-Ozone を利用するApache Hadoop Ozone は、ビッグデータプラットフ
- データ
2020年のApache Hadoop振り返り - Memo
- 7 users
- aajisaka.hatenablog.com
- テクノロジー
- 2020/12/30
Apache Hadoopについて、2020年にどんなことがあったのかざっくりと振り返りたいと思います。Advent Calendar枠です(大遅刻)。 Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2020 - Qiita Apache Ozoneが分離オブジェクトストレージを担当するOzoneはすでにHadoop本体のソースコードからは分離されていましたが、新規のTLP(Top-Level Project)としてスピンオフしました。2019年にApache SubmarineがTLPになったのを見て、Ozoneもいずれそうなると思っていたので個人的には特に驚きはないです。プロジェクトが分離すると具体的に何が起こるかというと、committerやPMCなどが別々になります(他にもあるけど
- Hadoop
ZooKage: Hadoop on Kubernetes on Docker Desktop - おくみん公式ブログ
- 6 users
- blog.okumin.com
- テクノロジー
- 2020/12/25
Kubernetes上にHadoopサンドボックス環境をコマンド一発で構築するツール、ZooKageをリリースしました。本記事では開発に至った経緯と基本的な使い方を紹介します。「Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2020」にエントリーするつもりでいましたが、開発中に枠が埋まってしまったので過去の日付を埋める形で参加させていただきます。遅くなってすみません…… モチベーション Hadoopエコシステムは大量のコンポーネントから成り立っており、その混沌はしばしば動物園に例えられます。手軽に起動する手段が用意されているプロジェクトもありますが、それでもローカルマシンで満足な検証をするには困難を伴います。公私ともに様々なバージョンのHive/Hadoopやそれらへのパッチを検証すること
Bigtop が提供するパッケージを使って Hadoop クラスタを構築する
- 3 users
- sekikn.github.io
- テクノロジー
- 2020/12/22
本記事は, Distributed computing (Apache Spark, Hadoop, Kafka, …) Advent Calendar 2020 19日目の記事です。この記事では, Apache Bigtop (以下 Bigtop) が提供する deb や rpm 形式のパッケージを使って、 Hadoop クラスタを構築する方法を紹介します。想定する環境 1台のマスターノードと複数台のワーカーノードが存在し、全台に CentOS 7 がインストールされていることノード間で相互に名前解決が可能になっていること説明を単純にするため, iptables や firewalld は無効化されていること Bigtop リポジトリの追加まず最初に、パッケージマネージャ (今回は CentOS 7 なので yum) の設定に、Bigtop のリポジトリを追加します。 Bigt
Apache Bigtop の概要と最新動向
- 3 users
- sekikn.github.io
- テクノロジー
- 2020/12/19
本記事は, Distributed computing (Apache Spark, Hadoop, Kafka, …) Advent Calendar 2020 18日目の記事です。この記事では, Apache Bigtop (以下 Bigtop) という OSS プロジェクトの概要と、 2020年12月時点の最新動向について紹介します。 Bigtop の概要と歴史 Bigtop は, Apache Hadoop エコシステムの環境構築やテストを容易にするための Apache Software Foundation 傘下のプロジェクトで、以下のような機能を提供します。 Hadoop や Spark などのビッグデータ関連 OSS を, deb や rpm 形式にビルドしたバイナリパッケージ。パッケージのインストールとその後の環境設定 (以下、併せてデプロイと呼びます) を自動化するた
- aws
HDFS Erasure Codingを大規模本番環境で運用するには　LINEエンジニアによるトラブルシューティング
- 5 users
- logmi.jp
- テクノロジー
- 2020/12/14
LINEが定期的に開催する技術者向けミートアップ「LINE Developer Meetup」の68回目のテーマは「Big Data Platform」。LINEのサイトリライアビリティエンジニアである内田早俊氏が、Hadoop3にアップグレードした際に起きたErasure Codingのトラブルシューティングについて共有しました。関連資料はこちら。 2019年にクラスタをHadoop 3にアップグレード内田早俊氏（以下、内田）：LINEのData Platform室の内田です。本日は忙しい中ご参加いただき、ありがとうございます。 LINEでは10年近く大規模なHadoopクラスタを運用していますが、昨年（2019年）クラスタをHadoop 3にアップグレードしました。ディスク使用量を削減するためにHadoop 3で新しく追加されたHDFSのErasure Coding（EC）を、約1
HDFSをメジャーバージョンアップして新機能のRouter-based Federationを本番導入してみた
- 5 users
- techblog.yahoo.co.jp
- テクノロジー
- 2020/12/14
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、「Hadoop」黒帯（ヤフー内のスキル任命制度）の鯵坂（@ajis_ka）です。ヤフーでは、およそ2年間の調査・検証期間を経てヤフーで利用している本番環境のHDFS（Hadoop Distributed FileSystem）をHDP（Hortonworks Data Platform）2.6系（Apache Hadoop 2.7.x相当）からApache Hadoop 3.3.0にメジャーバージョンアップし、HDFSの新機能であるRouter-based Federation（RBF）を導入しました。本記事では、これまでの2年間で何をしてきたのかについて振り返っていきます。バージョンアップの経緯ヤフーでは、提
- Hadoop
Amazon S3 Update – Strong Read-After-Write Consistency | Amazon Web Services
- 106 users
- aws.amazon.com
- テクノロジー
- 2020/12/02
AWS News Blog Amazon S3 Update – Strong Read-After-Write Consistency When we launched S3 back in 2006, I discussed its virtually unlimited capacity (“…easily store any number of blocks…”), the fact that it was designed to provide 99.99% availability, and that it offered durable storage, with data transparently stored in multiple locations. Since that launch, our customers have used S3 in an amazin
- aws
- s3
- あとで読む
- object-storage
- consistency
- amazon
- data
並列分散処理基盤のいま～45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門～ - セミナープログラム - オープンソースカンファレンス2020 Online/Kyoto
- 7 users
- event.ospn.jp
- テクノロジー
- 2020/08/29
並列分散処理基盤のいま～45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門～ 2020年8月28日(金) 17:15 〜 18:00 OSSベースの分散処理基盤としてApache Hadoopが誕生して10余年が経ち、大規模並列分散処理の領域において、これまでに多種多様なソフトウェアが開発されてきました。本セッションでは、それらのソフトウェアがどのような経緯で誕生し、どのように使われるのかをお話ししつつ、近年注目を集めているデータ分析を指向したストレージレイヤSWであるDelta Lakeについてもご紹介します。
- spark
- hadoop
- kafka
- ソフトウェア
並列分散処理基盤のいま 45分で学ぶHadoop／Spark／Kafka／ストレージレイヤSW入門（Open Source Conference 2020 Online/Kyoto 2020年8月28日講演資料）
- 6 users
- www.slideshare.net/nttdata-tech
- テクノロジー
- 2020/08/29
並列分散処理基盤のいま 45分で学ぶHadoop／Spark／Kafka／ストレージレイヤSW入門 Open Source Conference 2020 Online/Kyoto 2020年8月28日講演資料 https://event.ospn.jp/osc2020-online-kyoto/ 株式会社NTTデータシステム技術本部利光宏平Read less
- architecture
ダウンタイムなしでHadoopクラスタを移行した時の話
- 4 users
- engineering.linecorp.com
- テクノロジー
- 2020/08/25
こんにちは、Data Platform室の小野です。Data Platform室では、昨年のLINE DEVELOPER DAYでも発表があったように、大規模なHadoopクラスタを運用しています。先日、分析基盤に特化したデータセンターのルームが構築され、ここへクラスタの移行作業を行いました。このクラスタは全社的に使われており、毎日10万個以上のジョブが走っています。そのため、クラスタを止めずに移行することが求められました。この記事では、そのときどのようにHadoopクラスタを移行したのか、そしてどのような問題が起こったのかについて、ご紹介します。今回は、以下の4つのコンポーネントに絞って、ご紹介します。 ResourceManager NameNode JournalNode Zookeeper 現在使用しているソースのバージョンについては、LINE独自でパッチをあてたり、いくつか
LINEの多様なサービスを支える機械学習のプラットフォームと開発事例
- 50 users
- logmi.jp
- テクノロジー
- 2020/07/22
2020年6月24日に、LINEの「Data Labs」のオンライン採用説明会が開催されました。Data Labsは、データ分析や機械学習の活用によって、LINEのすべてのサービスの価値向上を目指す、データの分析・研究を行う専門の開発組織です。説明会の後半は、Machine Learning1チーム/マネージャーの菊地悠氏とフェローの並川淳氏が登壇し、機械学習エンジニアチームの仕事内容や事例を紹介しました。1記事目はこちら Machine Learningチームのミッション菊地悠氏：Machine Learning1チームの菊地と申します。よろしくお願いします。今日の内容は以下のような順で話をしていきたいと思います。まず最初にミッションです。多種多様なサービスがあるので、機械学習を適用する領域はいろいろあります。そういう中で、我々のチームは各事業組織から独立しています。LINEのさまざ
Hadoop DistCp実践ガイド2020年版 - 科学と非科学の迷宮
- 11 users
- shiumachi.hatenablog.com
- テクノロジー
- 2020/07/20
Hadoop DistCp (distributed copy, でぃすとしーぴー、でぃすとこぴー) は、MapReduceを用いてHadoopクラスタ間でデータコピーするためのツールです。保守運用している場合を除き、おそらく2020年においても運用上の選択肢として残っている最後のMapReduceのツールです。この記事では、DistCpの紹介と実践的な使い方の基本について説明していきます。内容としては以下の通りです。 Distcpの概要と原理実践DistCp DistCpにドライランはないコピーとアップデートの挙動の違いを押さえるスナップショットを取得するソースと宛先、どちらのクラスタでDistCpを実行するか異なるメジャーバージョン間でのデータ転送にwebhdfsを使う -p オプションの挙動 2つのコピー戦略: uniformizeとdynamic map数の調整転送帯域
- Hadoop
- あとで読む
The History of Distributed Databases - Google, Amazon, Facebook など巨大企業による分散データベース技術の発展 | Wantedly Engineer Blog
- 69 users
- www.wantedly.com
- テクノロジー
- 2020/07/15
こんにちは、Wantedly の Infrastructure Team で Engineer をしている南（@south37）です。今日は、WANTEDLY TECH BOOK 5 から「巨大企業による分散データベース技術の発展」という章を抜粋して Blog にします。「WANTEDLY TECH BOOK 1-7を一挙大公開」でも書いた通り、Wantedly では WANTEDLY TECH BOOK のうち最新版を除いた電子版を無料で配布する事にしました。Wantedly Engineer Blogでも過去記事の内容を順次公開予定であり、この Blog もその一環となっています。 Wantedly における Go 導入にまつわる技術背景 | Wantedly Engineer Blog （本記事は Go Conference 2019 Autumn にて無料配布した冊子『WANT
- database
- データベース
- あとで読む
- AWS
- DB
- study
ストリーム処理におけるApache Avroの活用について（NTTデータテクノロジーカンファレンス 2019 講演資料、2019/09/05）
- 4 users
- www.slideshare.net/nttdata-tech
- テクノロジー
- 2020/07/06
ストリーム処理におけるApache Avroの活用について（NTTデータテクノロジーカンファレンス 2019 講演資料、2019/09/05）株式会社NTTデータ技術開発本部関堅吾（Apache Bigtopコミッタ, Apache Yetus PMC/コミッタ） https://oss.nttdata.com/techconf2019/Read less
- tutorial
- Apache Avro
hive.server2.enable.doAs がよく分からなかったので Apache Bigtop で調べてみた - memo486
- 3 users
- memo88.hatenablog.com
- テクノロジー
- 2020/06/30
hive.server2.enable.doAs の設定によって何がどう変わるかよく分からなかったので Apache Bigtop を使って調べてみました。 hive.server2.enable.doAs だと長くて煩雑なので以下では適宜 doAs と略しています。まとめバージョンなど一応公式の説明調査1: doAsの設定による違い準備接続 create databse doAs=true の場合 doAs=false の場合 create table + insert doAs=true の場合 doAs=false の場合 create external table + insert doAs=true の場合 doAs=false の場合調査2: OSのユーザとproxy userの関係 OSユーザあり、proxy user 設定なし OSユーザなし、proxy us
- Hive