タグ

ブックマーク / techblog.yahoo.co.jp (20)

  • Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。データ統括部でYahoo!広告のデータエンジニアをしている江島です。 記事では、Yahoo!広告のデータ分析環境であるデータレイク上のデータを、Apache Hudi を用いてレコード単位で削除可能にした事例を紹介します。 Yahoo!広告のデータ分析環境 Yahoo!広告における データマーケティングソリューション では、ヤフーの持つ圧倒的な量と質のデータを活用し、消費者理解や広告効果分析を目的としたさまざまな商品を提供しています。 これらの商品を提供するための裏側には広告に関する膨大なログや多種多様なサービスのログを使ってデータ分析機械学習を行うためのデータ基盤が必要です。データマーケティングソリューションで

    Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話
  • よりセキュアなHadoopの作り方 〜 ApacheCon Asia 2021登壇報告

    HDFSのブロックデータ転送の暗号化 HDFSの実データに相当するブロックデータの転送に対する暗号化はRPC暗号化とはさらに別のパラメータで管理されています。 hdfs-siteの dfs.encrypt.data.transfer を true に、 dfs.encrypt.data.transfer.cipher.suites を AES/CTR/NoPadding にそれぞれ指定することで有効化します。 この設定を無停止で反映するにあたっては、転送の暗号化設定の反映済/未反映を判別する dfs.trustedchannel.resolver.class によるノードの動的な管理、場合によっては拡張による独自実装が必要となります。 HDFSクライアントおよびNameNode・DataNode間で dfs.encrypt.data.transfer の真偽が一致していない場合はブロックデ

    よりセキュアなHadoopの作り方 〜 ApacheCon Asia 2021登壇報告
  • Java11対応ほか、Apache Hadoop 3.3.0の新機能を紹介

    こんにちは、「Hadoop」黒帯の鯵坂(@ajis_ka)です。記事では、Apache Hadoopで次にリリースされるマイナーバージョンである3.3.0で追加される新機能について紹介します。記事では、特にHadoop CommonとHDFS(Hadoop Distributed FileSystem)の新機能を重点的に紹介しつつ、それらの機能に対するヤフーの貢献についても触れていきます。 Hadoop 3.3.0 概要 Hadoop 3.3.0はおそらく2019年の年末までにリリースされる予定で、この記事を執筆している10月23日時点ですでに1500件以上の修正が入っています(Hadoop 3.2.0は1089件)。つまり、非常に多くの新機能が追加されています。また、ヤフーではHadoop 2系から3系へのバージョンアップをこれから予定しており、バージョンアップ後のバージョンは3.3

    Java11対応ほか、Apache Hadoop 3.3.0の新機能を紹介
  • Kubernetesで管理するヤフーの次世代IaaS基盤

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。ヤフーの相良と言います。クラウドプラットフォーム部で、ヤフーの次世代IaaS基盤を検討しています。 12月24日、クリスマスイブの日の記事では、ヤフーの次世代IaaS基盤の取り組みをご紹介したいと思います。最初に次世代IaaS基盤の取り組み背景をご紹介し、検証・評価中のKubeVirtという技術について、IaaS基盤の代表的ソフトであるOpenStackと比較することで、その特徴を説明します。最後に、大規模環境を扱うヤフーならではの課題についても触れたいと思います。 なお、記事では2020年12月時点の最新版(v0.36.0)のKubeVirtを前提にご説明します。 ヤフーの次世代IaaS基盤の取り組み ヤフーで

    Kubernetesで管理するヤフーの次世代IaaS基盤
  • 大規模オンプレミスなヤフーのサーバーインフラの裏側 ~ サーバーインフラエンジニアの視点

    物理サーバーの評価 物理サーバーを導入する前にヤフーでは、必ずサーバーの評価を実施します。 評価項目は大まかに分けると下記です。 物理運用性の評価 パフォーマンスの評価 自社ツールの動作を評価 ヤフーの評価で特徴的なのは「物理運用性」の評価だと考えています。 オンプレミス環境で運用しており、物理作業の「簡単さ」「分かりやすさ」も全体の工数へ影響するため、注意している点です。 ラッキングレールの評価 ボタン、インジケーターの評価 他の評価にボタン、インジケーターの評価があります。 データセンターの中で物理サーバーに対して物理的な作業する際には、 持ち込める物、参照できる情報が限定されています。 また、大量のサーバーがある中でピンポイントで作業する必要があるため、 現地作業者が目視で直感的に、かつリモートから作業指示者と認識を共有しやすいことが重要です。 下記はボタン評価の際に注意しているポイ

    大規模オンプレミスなヤフーのサーバーインフラの裏側 ~ サーバーインフラエンジニアの視点
  • ヤフーの広告配信で機械学習の改善サイクルを高速化した話 〜 TensorFlow Serving導入

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。Yahoo!広告 ディスプレイ広告エンジニアの川崎です。 ユーザーに最適な広告を配信するプラットフォームの開発をしています。 この記事では、広告配信にTensorFlow Servingを導入して生産性改善した事例をご紹介します。 Yahoo!広告 ディスプレイ広告とは? Yahoo!広告では、Yahoo! JAPANのさまざまなサービスや提携パートナーサイトに広告を掲載できます。Yahoo!広告は、検索広告とディスプレイ広告に大別されます。記事で扱うディスプレイ広告は、例えば以下の図ようにYahoo! JAPAN トップページなどに掲載される広告です。 広告配信の仕組み 広告配信システムの概略図を以下に示します。

    ヤフーの広告配信で機械学習の改善サイクルを高速化した話 〜 TensorFlow Serving導入
  • Apache Hadoop Contributors Meetup出張報告(前編)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog 記事では最初にYahoo! JAPANでApache Hadoop(以下Hadoop)コミッタが普段どのような活動をしているか紹介します。また、1月末にシリコンバレーで開催されたApache Hadoop Contributors Meetupに参加してきたので、meetupで発表があった新機能のうち特に注目している機能を2件紹介します。記事は前編と後編に分かれており、データプラットフォーム部でHadoopコミッタとして活動している鯵坂(@ajis_ka)が前編を担当します。 Hadoopコミッタの活動 社内での活動 Yahoo! JAPANでは、自社が提供している多種多様なサービスのログを分析してサービスの強化に役立てるた

    Apache Hadoop Contributors Meetup出張報告(前編)
  • 社内勉強会で専門的技術力を高めるには

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog サイトオペレーション部に所属している大津と申します。普段CDNとNode.jsサポートの仕事をしていて、第9代黒帯(ヤフー内のスキル任命制度/ネットワーク・セキュリティ)に任命していただいています。1 先日ヤフー社内で黒帯LT会が開催されました。お題目は事前に指定された「専門的技術力を極めるための極意」ということで、10分ほど話をしました。しかし、これまでみたいにセミナールームで大勢の前で話すわけではなく、最近代わり映えしない自宅デスクからのオンラインLTは、正直勝手が違いました。時間配分もミスって中途半端に終了です。と思いきや数日前、このYahoo! JAPAN Tech Blog担当者から「いやー、よかったですよ。そのネタ書

    社内勉強会で専門的技術力を高めるには
  • ヤフーのデータパイプライン設計 〜 Kafkaでデータ欠損防止と可用性を両立するために

    Yahoo! JAPAN Advent Calendar 2019の16日目の記事です。一覧はこちら(外部リンク) こんにちは。ヤフーの橘(@moja_0316)です。 私は2018年に新卒でデータ統括部に入社し、データパイプライン領域でエンジニアとして働いています。 今日は皆さんにヤフーのデータパイプラインの役割と、私たちが取り組んだデータパイプラインの信頼性を高める取り組みについてご紹介します。 ヤフーのデータパイプライン ヤフーは検索やEコマース、ニュースをはじめとした多くのサービスを運営しています。それらのサービスが保持するデータは非常に量が多く、かつ価値の高いものです。特に近年はデータソリューションサービスをはじめとして、さまざまなサービスのデータを横断して適切に利活用することで皆様の生活をより便利にする取り組みを多く始めています。 さて、サービスのデータを横断的に利活用するた

    ヤフーのデータパイプライン設計 〜 Kafkaでデータ欠損防止と可用性を両立するために
  • Hadoopのバージョン混用は可能? HDP 2.6.4 とコミュニティ版 Hadoop 3.2.1 におけるHDFSの互換性調査結果 

    Home テクノロジー Blog Hadoopのバージョン混用は可能? HDP 2.6.4 とコミュニティ版 Hadoop 3.2.1 におけるHDFSの互換性調査結果 (English translation is available here) ヤフーで Hadoop の運用・開発をしている李 燮鳴です。私たちのチームでは Hadoop 3.2.1 に含まれる Router Based Federation (RBF) で Hadoop のスケーラビリティ問題の解決を試みています。この記事では RBF を導入する背景と Hadoop 3.2.1 と既存の実行系の互換性を紹介します。 背景および目的 Hadoopクラスタ@ヤフー ヤフーでは、自社が提供している多種多様なサービスのログを分析してサービスの改善に役立てるため、Hadoop クラスタを複数運用しています。ソフトウェアスタックで

    Hadoopのバージョン混用は可能? HDP 2.6.4 とコミュニティ版 Hadoop 3.2.1 におけるHDFSの互換性調査結果 
  • Kubernetes as a Serviceを2年稼働させて、行ってきた改修と知見紹介 #k8s

    こんにちは、ヤフーのKubernetes as a Service(以下KaaS)を担当している勝田です。 今回、KaaSをProduction環境で2年活用してきた中でどのような変化がおき、ヤフーの開発環境がどう変化してきたかをご紹介いたします。 ※ 記事はYahoo JAPAN Tech Conference 2019 in Shibuya(以下YJTC2019 in Shibuya)のセッション「Kubernetes as a ServiceをProduction環境で2年活用し、直面してきた課題と解決策」をベースに、よりヤフーのKubernetes事情にスポットを当ててお話させていただきます。YJTCのスライドも下記リンクから見られますので、こちらもご参照ください。 Kubernetes as a ServiceをProduction環境で2年活用し、直面してきた課題と解決策 始

    Kubernetes as a Serviceを2年稼働させて、行ってきた改修と知見紹介 #k8s
  • ヤフー社内のデータ連携を爆速で構築する方法 #ApacheNiFi

    Yahoo! JAPAN Advent Calendar 2019の24日目の記事です。一覧はこちら(外部リンク) こんにちは。寺田晃太朗 (@kotarotrd) です。 2018年4月に新卒でヤフーに入社し、データエンジニアとして働いています。 2019年10月に Apache NiFi Committer になりました。 私は昨年のAdvent Calendarで、注目するデータソリューション技術として「量子アニーリングがチョットワカルようになる記事」を書きました。 今年のAdvent Calendarの記事では、例えばそんなデータサイエンスを最大限に活用するために、データプラットフォームとしてデータ連携をどのように効率化できるかというテーマについて記事を書きます。 この記事では、Yahoo! JAPANのデータフロープラットフォームの役割とどのように活用されているかをご紹介します。

    ヤフー社内のデータ連携を爆速で構築する方法 #ApacheNiFi
  • 40,000コンテナのPrivate PaaSを実現するために必要だったこと

    Yahoo! JAPAN Advent Calendar 2019の22日目の記事です。一覧はこちら(外部リンク) こんにちは、システム統括部でPrivate PaaSを担当している増田彬(@Go_zen_chu)と水落啓太(@keitam913)です。 僕たちはPaaSチームとして3年半ほど、ヤフー社内で利用されるPrivate PaaSの運用と関連システムの開発に携わってきました。 その中でどのようにPaaSを通じて利用者へ利便性を提供し、安定して稼働する体制作りをしてきたのかをお話しします。 PaaSとは? PaaS(Platform as a Service)という単語はさまざまな用途で利用されますが、その中で僕たちが提供しているのは、「社内のエンジニアが簡単にアプリケーションを動作することができるプラットフォーム」です。 この「簡単に」というのがポイントで、具体的にはHerok

    40,000コンテナのPrivate PaaSを実現するために必要だったこと
  • ヤフー発の OSS 、Multiple-Dimension-Spread(MDS)の紹介

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog はじめに こんにちは。 ヤフー株式会社 データ&サイエンスソリューション統括部データプラットフォーム部データデリバリー部の井島&大戸です。 今回は、ヤフー株式会社(以下ヤフー)が OSS として公開したカラムナストレージファイルフォーマットの Multiple-Dimension-Spread について、開発の背景を交えて紹介します。 Multiple-Dimension-Spreadとは Multiple-Dimension-Spread(以下MDS)はヤフーが開発したカラムナストレージフォーマットです。 大規模なデータを蓄えておく仕組みを湖として捉えたものをデータレイクといいます。 MDS はデータレイクにデータを保存、利

    ヤフー発の OSS 、Multiple-Dimension-Spread(MDS)の紹介
  • Yahoo!ショッピングのレポート機能にApache Kylinを導入した事例紹介

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog はじめに こんにちは。データ&サイエンスソリューション統括部データプラットフォーム部の蔵元&古山です。今回は、Apache KylinをYahoo!ショッピングのレポート機能に適用した事例を紹介します。 なお、この事例はApache KylinのPowered Byページに以下のように記載しているものの詳細版です。 Yahoo! JAPAN uses Apache Kylin to generate tailored report for Yahoo! Shopping. Apache Kylin contributes to minimize the latency for viewing the report. Conse

    Yahoo!ショッピングのレポート機能にApache Kylinを導入した事例紹介
  • Apache Hadoop Contributors Meetup出張報告(後編)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog 記事は前編に続いて出張報告の後編です。後編はデータプラットフォーム部の浅沼が担当します。この記事ではMeetUpの様子と、MeetUpで発表があった新機能のRouter-based Federationについて詳しく紹介します。 MeetUpの様子 今回のMeetUpはシリコンバレーにあるLinkedInのオフィスで開催されました。シリコンバレーでは南北にわたってフリーウェイと呼ばれる無料の高速道路が伸びています。片道5車線もあるのですが、通勤ラッシュ時は渋滞になるほど大量の車が引っ切り無しに走っています。ホテルからLinkedInのオフィスまで結構離れていたのですが、この道路のおかげで数十分でたどり着くことができました。(前

    Apache Hadoop Contributors Meetup出張報告(後編)
  • HDFS Erasure Codingの紹介とYahoo! JAPANにおける運用事例

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog はじめに こんにちは。Yahoo! JAPANでHadoopに携わっているエンジニアの浅沼です。Hadoopは大量のデータを分散処理するためのオープンソースソフトウエアです。この夏にリリース予定のバージョン3.0系には、HDFSの新機能であるErasure Codingが導入されます。Yahoo! JAPANではHadoopコミュニティーでErasure Codingの実装に参加してきました。記事ではErasure Codingの仕組みを詳しく解説し、弊社での運用事例を紹介します。 既存のHDFSの課題 Hadoopの中核をなす分散ファイルシステムのHDFS(Hadoop Distributed File System)は、マス

    HDFS Erasure Codingの紹介とYahoo! JAPANにおける運用事例
    yassan0627
    yassan0627 2017/06/25
    すごく良い紹介。参考になる(∩´∀`)∩ワーイ
  • 分散プログラミングモデルおよびデザインパターンの考察

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog 写真:アフロ データ&サイエンスソリューション統括部、データインフラ部、今野です。 早速ですが、今月開催の「Developers Summit 2016 (以下、デブサミ2016)」で当方が登壇する運びとなりました。気がつけば、前回の記事「分散システム処理モデルに関する動向について」から随分と日がたってしまいましたので、今回は、より広範囲な内容を整理してみたいと思います。 デブサミ2016の当方の講演テーマは「温故知新」です。今回は、このテーマにもつながる話題として、クラウド環境の代表的な分散プログラミングモデルやデザインパターンについて、一般的な考察をしてみたいと思います。 古典的なプログラミングモデルによる分類 まず最初に

    分散プログラミングモデルおよびデザインパターンの考察
  • 分散システム処理モデルに関する動向について(MapReduceからBorgまで)

    詳細については後述しますが、MapReduceの処理モデルは、上記の通り各区分ごとにそれぞれ単純化(限定)されたモデルであったと言えます。 また、MapReduceの関数プログラミングおよびグラフ的な特徴も合わせて以下に整理してみます。 関数プログラミング的な特徴 MapおよびReduceフェーズは、それぞれ関数型プログラミングのMapおよびReduce処理をモデル化したものです。MapReduceは、参照透過性がある純粋な関数処理と言えます。参照透過性とは入力により出力が一意に決まる性質のことです。言い換えればMapReduceの処理は、大域などの処理に影響する外部の環境は持たず、内部的にも静的な一時変数などの状態も持たないことを意味します。 純粋な関数処理は複数の処理が同時に実行されても他の並列に動作している処理の状態には左右されないため、この参照透過性は並列化に向いている性質がありま

    分散システム処理モデルに関する動向について(MapReduceからBorgまで)
    yassan0627
    yassan0627 2016/02/07
    すごく良いまとめだった(´▽`)
  • デザイナーのためのSubversion/TortoiseSVN入門2 -Subversionでのフォルダーの命名・構成とTortoiseSVNの便利な使い方-

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog はじめに Yahoo!検索のデザイナー担当の竹内美帆です。前回の記事「もうファイル管理で困らない! デザイナーのためのSubversion/TortoiseSVN入門」では、「Suvbersionの概要」と「TortoiseSVNのインストールから基操作」を解説いたしました。今回はさらに一歩踏み込んで、Subversion初心者の多くが疑問を持つ「Subversionのフォルダーの命名と構成」と「TortoiseSVNの便利な使い方」をご紹介します。 目次 Subversionのフォルダーの命名と構成 基的なフォルダーの命名と構成 柔軟な構成を考えてみる TortoiseSVNの便利な使い方 変更履歴を見る 前回のリビジョンと

    デザイナーのためのSubversion/TortoiseSVN入門2 -Subversionでのフォルダーの命名・構成とTortoiseSVNの便利な使い方-
  • 1