並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 754件

新着順 人気順

hadoopの検索結果121 - 160 件 / 754件

  • AIシステムが成熟する今「MLOps」が必要とされる理由とは? MLOpsを推進するために大切なこと

    近年、機械学習(ML)やディープラーニング(DL)といったAI関連技術をプロダクトへ応用し、新たな価値を生みだそうという動きが加速しています。その中で、従来の「DevOps」の考え方を、機械学習向けに発展させた「MLOps」という新しい概念が生まれ、注目を浴びています。MLOpsが注目される背景には、どのような課題があるのか。そして、実際に現場でMLOpsに携わる人々は、何を目指し、どんな取り組みを行っているのか。ヤフーとLaunchableで、それぞれMLOpsをリードしている2人のエンジニアに語っていただきました。 機械学習システムの普及を契機に関心が高まる「MLOps」 黒松:ヤフーの黒松です。私は大学時代に、ビッグデータを研究テーマにしており、OSSとして当時注目されていたHadoopなどを扱っていました。卒業後は富士通研究所に入り、基盤研究の一環として、機械学習のための基盤を作り

      AIシステムが成熟する今「MLOps」が必要とされる理由とは? MLOpsを推進するために大切なこと
    • トレジャーデータはなぜシリコンバレーで創業したのか

      米シリコンバレーの地でトレジャーデータを起業して10年。2018年に英Arm(アーム)に買収されましたが再び独立。現在、私はトレジャーデータの取締役会長を務めています。 「どうしてシリコンバレーで創業したのか?」。しばしば、こう尋ねられます。基本的には米国を拠点として活動しているため、日本のメディアでお話しする機会はあまり多くありませんでした。この連載では、あえて日本国外からの視点をもって、日本の読者の皆さまへ、何かしらの気付きになるようなことをつづっていければと思っています。 先の問いにお答えする前に、簡単に「私の履歴書」をご紹介させてください。 作家志望なのにオープンソースソフトウエアの世界へ 私のキャリアは、大学在学中、オープンソースのOS(基本ソフト)である「Linux」の商用パッケージを展開していた米Red Hat(レッドハット)の日本拠点でアルバイトをしたことから始まります。い

        トレジャーデータはなぜシリコンバレーで創業したのか
      • Keeping clients of OpenSearch and Elasticsearch compatible with open source | Amazon Web Services

        AWS Open Source Blog Keeping clients of OpenSearch and Elasticsearch compatible with open source The OpenSearch project is a long-term investment in a secure, high-quality, Apache-2.0 licensed search and analytics suite with a rich roadmap of innovative functionality. OpenSearch aims to provide wire compatibility with open source distributions of Elasticsearch 7.10.2, the software from which it wa

          Keeping clients of OpenSearch and Elasticsearch compatible with open source | Amazon Web Services
        • Google to Acquire Looker | Google Cloud Blog

          We’re very excited to announce that Google has entered into a definitive agreement to acquire Looker, a unified platform for business intelligence, data applications, and embedded analytics. The acquisition of Looker is expected to be complete later this year and is subject to customary closing conditions, including the receipt of regulatory approvals. Upon the close of the acquisition, Looker wil

            Google to Acquire Looker | Google Cloud Blog
          • LINE社内でのサービス横断データ活用の取り組み「Feature as a Service」の全体像

            LINE社内でのサービス横断データ活用の取り組み「Feature as a Service」の全体像 Feature as a Service at Data Labs #1/2 2019年11月20、21日、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2019」が開催されました。20日は「Engineering」をテーマに技術的な内容のセッション、21日は「Production」をテーマに実践的な内容のセッションを多数取り揃え、LINEのエンジニアリングにおける知見を各プロダクトのキーマンがシェアします。「Feature as a Service at Data Labs」に登壇したのはLINE Machine LearningチームのChaerim Yeo氏。データ専門研究開発組織「LINE Data Labs」での機械学習の特徴量

              LINE社内でのサービス横断データ活用の取り組み「Feature as a Service」の全体像
            • 効率的なダッシュボードの作成 - MicroAd Developers Blog

              京都研究所・TechLabの田中です。 マイクロアドでは、主にエンジニア以外のメンバーが広告配信実績などの各種データにアクセスする際にRedashを利用しています。 Redashから接続しているデータソースには、以前このブログでも紹介した分析用Hadoopクラスタ*1に加えて、MySQLのレプリやBigQueryなどがあります。 これらの異なるデータソースに対してRedashからは同じインターフェースでアクセスでき、手軽にデータの抽出や可視化・分析などが可能です。 また、クエリで抽出したデータを利用して、Redash上にダッシュボードを作成することもできます。 本稿では、そんなRedashの活用方法の1つとして、 スケジューリング機能とキャッシュ機能を利用した簡易的なデータパイプラインを使ってダッシュボードを作成する例をご紹介します。 なお、この記事で扱うRedashの説明はバージョンv1

                効率的なダッシュボードの作成 - MicroAd Developers Blog
              • AWS AthenaでALBのログを過去分も検索する - クラウドワークス エンジニアブログ

                こんにちは。SREチームの田中 (@kangaechu)です。リモートワークで座ってばかりの生活に危機感を感じ、昨年11月頃からランニングを始めました。最初は1キロ走っただけでヒイヒイ言っていたのですが、最近は10キロくらい走れるようになりました。運動は嫌いな方だったのですが、走るのが楽しいと思えるようになったのが一番の収穫かなと思っています。 今回はALB(Application Load Balancer)のログ検索について紹介します。 3行で説明するよ AWSの公式ドキュメントの通りAthenaの設定をするとALBの過去ログが検索できない 正規表現をいい感じにすることで過去ログも検索できるようになった Athenaのテーブル作成、Terraformでできるよ crowdworks.jpのシステムログ検索: Athena システムのイベントを適宜記録し、利用状況の把握や障害時の調査、シ

                  AWS AthenaでALBのログを過去分も検索する - クラウドワークス エンジニアブログ
                • Next.jsとVercelの出口はどこにあるのか

                  # Next.jsとVercelの出口はどこにあるのか 趣味でも仕事でもガッツリNext.jsを使っているという方による『Next.js 4年目の知見:SSRはもう古い、VercelにAPIサーバを置くな』 という記事を読んで、技術的には色々なことが腹落ちした感があるものの、職業柄というか今働いているところとビジネス的にも近いというかっていう感じで、Vercelが今後どうなっていくのか?っていうのが気になってしまいました。 # VercelのEnterpriseプラン VercelのPricingページにいくと、2020年11月現在、ProとEnterpriseという形で分かれていて、Qiitaの記事によると『最低でも年間数万ドルと、個人開発者やベンチャー企業が手軽に支払える額ではありません。』とのことでした。 確かに、そんなにお安いものではないかもしれないのですが、例えば年間500万円と

                    Next.jsとVercelの出口はどこにあるのか
                  • BigQuery のアーキテクチャの変遷を論文 Dremel: A Decade of Interactive SQL Analysis at Web Scale から読み解いてみた

                    はじめに皆様、こんにちは。Google Cloud Japan Customer Engineer Advent Calendar 2020 の 8 日目は 今年公開された BigQuery のリサーチペーパーを読んでみて個人的に興味があった点をまとめてみようと思います。2020 年で 10 周年を迎えた BigQuery の進化の過程が理解できるので皆様もお時間あればご一読を! TL;DRこのホワイトペーパーは、Dremel (BigQuery のクエリエンジン) が採用している主要なアーキテクチャや考え方(これらのいくつかはクラウドネイティブなデータウェアハウスではトレンドとなりつつあります)がこの10 年間でどのような進化を経て現在の BigQuery になったのかを、Seattle Report on Database Research というレポート内で述べられている主要な 5

                      BigQuery のアーキテクチャの変遷を論文 Dremel: A Decade of Interactive SQL Analysis at Web Scale から読み解いてみた
                    • NVIDIA×滋賀大学、1000ページ超の機械学習教育用資料の日本語版を公開

                      NVIDIAは9月8日、デジタルスキル育成プログラム「DLI(Deep Learning Institute)」より、「DLI データサイエンス教育キット」の日本語版の提供を開始したことを発表した。このキットは日本のデータサイエンス教育の普及を目的としており、滋賀大学と共同で翻訳を進めたとのこと。教育機関に所属する教員は無償でダウンロード可能。 DLI データサイエンス教育キットの英語版は、ジョージア工科大学およびプレイリー ビュー A&M 大学の研究チームがNVIDIAと共同開発した。キット内容には、講義用のスライドや演習課題、DLI オンライン トレーニングへのアクセス権、クラウドの GPU インスタンスのクレジットなどを含む。 この教材ではデータサイエンスのさまざまな領域の基礎と応用の学習が可能だとしており、データ収集、前処理、NVIDIA RAPIDSによるアクセラレーテッド デー

                        NVIDIA×滋賀大学、1000ページ超の機械学習教育用資料の日本語版を公開
                      • HBaseとKafkaによるデータパイプライン構築。LINE Messaging Platformにおける活用法

                        LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog 2021年11月10日・11日の2日間にわたり、LINEのオンライン技術カンファレンス「LINE DEVELOPER DAY 2021」が開催されました。特別連載企画「 DEVDAY21 +Interview」では、登壇者たちに発表内容をさらに深堀り、発表では触れられなかった関連の内容や裏話についてインタビューします。今回の対象セッションは「LINE Messaging Platform におけるHBaseとKafkaのデータパイプラインと活用例」です。 LINEでは、Messaging Platformのストレージミドルウェアの1つとしてApache HBase(以下、HBase)を使用しています。HBaseのレプリケーショ

                          HBaseとKafkaによるデータパイプライン構築。LINE Messaging Platformにおける活用法
                        • Google Cloud を使用した、運用効率を高めコスト削減を実現する 11 のベスト プラクティス | Google Cloud 公式ブログ

                          Google Cloud を使用した、運用効率を高めコスト削減を実現する 11 のベスト プラクティス ※この投稿は米国時間 2020 年 7 月 2 日に、Google Cloud blog に投稿されたものの抄訳です。 事業の今後の方向性を考えるとき、多くの企業でプロジェクトの取捨選択やリソースの割り当て方など、厳しい決断を余儀なくされています。新型コロナウイルス感染症(COVID-19)に対応するうちに、自社の IT 環境の利点が明確になった反面、限界に気づいてしまったという企業も少なくありません。こうした企業の多くは、今後の方向性を検討するうえで、限られたリソースを使って自社のビジネスが直面する新しい現実で求められるニーズにいかに対応していくかを考えなくてはいけません。 これが、特にレガシー インフラストラクチャに大きく依存する企業の IT 部門が、まさに今、直面している課題です。

                            Google Cloud を使用した、運用効率を高めコスト削減を実現する 11 のベスト プラクティス | Google Cloud 公式ブログ
                          • データドリブンなサービスを支えるネットワークの作り方〜 ヤフーのデータセンターネットワーク紹介

                            ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog ヤフーのプロダクションネットワークの設計・構築・運用を担当している津秦です。 ヤフーではオンプレミスで大量に物理サーバーを導入し、社内向けプライベートクラウドや、データ分析基盤などに利用しております。もちろんそのサーバーを接続するためのネットワークも、自分たちで設計・構築・運用を行っております。 今回はデータセンター内ネットワークの中でも、最近取り入れているClosネットワークというものに着目して、ヤフーのデータセンターネットワークをご紹介したいと思います。 なお、大量に物理サーバーを導入する点では、昨年末に同じくインフラを担当する藤見から、サーバーの調達に関する取り組みを紹介しました。合わせて参照いただければ、ヤフーのインフラ部

                              データドリブンなサービスを支えるネットワークの作り方〜 ヤフーのデータセンターネットワーク紹介
                            • 詳説 Deep Learning

                              エンタープライズ向けのディープラーニングの解説書。企業でディープラーニングアプリケーションを開発、運用するための実践的な手法を紹介します。対象読者はソフトウェア開発の現場で活躍する実務者。前半はディープラーニング初心者、後半はJavaエンジニア向けの構成です。機械学習、ニューラルネットワークの基礎から始め、ディープラーニングの基本的な概念、実際にチューニングを行う際のベストプラクティス、データのETL(抽出・変換・ロード)の方法、Apache Sparkを用いた並列化について、JavaライブラリDeep Learning4J(DL4J)の開発者でもある著者がわかりやすく丁寧に解説します。 日本のAIコミュニティの方々へ 監訳者まえがき まえがき 1章 機械学習の概要 1.1 学習する機械 1.1.1 機械が学習するには 1.1.2 生物学というヒント 1.1.3 ディープラーニングとは 1

                                詳説 Deep Learning
                              • 【書評】データレイク構築・運用のノウハウを網羅的に学び始められる! 『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』 | DevelopersIO

                                先日2020年07月09日、書籍『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』が発売されました!個人的に興味関心の強いテーマを取り上げた内容がてんこ盛りの書籍でしたので、簡単ではありますが書籍の内容について紹介させて頂きたいと思います。 「AWSではじめるデータレイク」がついに https://t.co/FvuHWrYlwH 上で予約可能になりました!7月9日発売予定です。どうかよろしくお願いいたします。 - https://t.co/do0ZeLrlrn #aws #datalake — Akira Shimosako (@simosako) June 23, 2020 テッキーメディア - BOOTH 【電子書籍版】AWSではじめるデータレイク - テッキーメディア - BOOTH AWSではじめるデータレイク - テッキーメディア - BOOTH 目

                                  【書評】データレイク構築・運用のノウハウを網羅的に学び始められる! 『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』 | DevelopersIO
                                • Twitter、Google Cloud 用 API でツイートからインサイトを獲得 | Google Cloud 公式ブログ

                                  ※この投稿は米国時間 2022 年 6 月 28 日に、Google Cloud blog に投稿されたものの抄訳です。 編集者注: Twitter はデータの宝庫と言われています。しかし、世の中で何が起きているのか、人々は今何を話しているのか、その情報をどのようにビジネスのユースケースに活かすのかを理解するために、ツイートを分析する作業には、これまで高度な技術と時間が必要でした。今はそうではありません。Twitter は最近、Google Cloud 向けの API ツールキットを発表し、デベロッパーが数分以内にツイートから大規模にインサイトを獲得できるよう支援しています。このブログは、これを実現した Twitter チームとの対話をもとに書かれています。このブログに貢献してくだった、Twitter の Prasanna Selvaraj 氏と Nikki Golding 氏に謝意を表し

                                    Twitter、Google Cloud 用 API でツイートからインサイトを獲得 | Google Cloud 公式ブログ
                                  • Apache Sparkコミッターが教える、Spark SQLの詳しい仕組みとパフォーマンスチューニング Part1

                                    2019年3月19日、Data Engineering Meetupが主催するイベント「Data Engineering Meetup #1」が開催されました。データの収集や管理、処理、可視化など、データエンジニアリングに関する技術の情報を共有する本イベント。データエンジニアリングの最前線で活躍するエンジニアたちが集い、自身の知見を共有します。プレゼンテーション「Deep Dive into Spark SQL with Advanced Performance Tuning」に登壇したのは、Databricks Inc.の上新卓也氏。講演資料はこちら Spark SQLの仕組みとパフォーマンスチューニング 上新卓也氏:それでは発表を始めます。『Deep Dive into Spark SQL with Advanced Performance Tuning』ということで、Spark SQ

                                      Apache Sparkコミッターが教える、Spark SQLの詳しい仕組みとパフォーマンスチューニング Part1
                                    • アリババ、MLアルゴリズムプラットフォームをGitHubで公開

                                      印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 阿里巴巴集団(アリババグループ)のクラウド事業を担当するアリババクラウドは、同社のアルゴリズムプラットフォーム「Alink」の「中核コード」をGitHub上で公開したと発表した。同社によると、アップロードしたさまざまなアルゴリズムライブラリーは、バッチ処理とストリーム処理の双方をサポートするという。これらライブラリーは、オンラインでの製品レコメンデーションや、スマート顧客サービスといった機械学習(ML)のタスクに必要不可欠なものとなっている。 アリババクラウドによるとこれらのコードは、開発者やデータアナリストが統計解析やML、リアルタイム予測、パーソナライズドレコメンデーション、異常検知といったソフトウェア機能を構築する際に活用できると

                                        アリババ、MLアルゴリズムプラットフォームをGitHubで公開
                                      • 【開催報告】Amazon Analytics 事例祭り – データウェアハウスマイグレーション | Amazon Web Services

                                        Amazon Web Services ブログ 【開催報告】Amazon Analytics 事例祭り – データウェアハウスマイグレーション こんにちは。アマゾン ウェブ サービス ジャパン株式会社 ソリューションアーキテクトの平間です。 9月24日に、「Amazon Analytics 事例祭り – データウェアハウスマイグレーション」を開催いたしました。今回は既存のデータウェアハウス(DWH)環境から、AWSの高速かつ完全マネージド型のDWHであるAmazon Redshiftへ移行されたお客様に、移行の決め手や移行後の効果について「本音」でお話ししていただきました。セミナーは前半がAWSソリューションアーキテクトからAWSのデータレイク及びアナリティクスサービスの概要と、DWHの移行をどのように検討すればよいかの方法をお話させていただき、後半はお客様より移行時の体験談をお話しいただ

                                          【開催報告】Amazon Analytics 事例祭り – データウェアハウスマイグレーション | Amazon Web Services
                                        • Apache Ozoneをやっていた一年 - Preferred Networks Research & Development

                                          Why Apache Ozone? これまでPFNでは増え続けるデータやユースケースに対応するために、スケールアウト可能なストレージシステムをずっと模索し続けてきました。シミュレーションを基軸とした戦略を採用した[1]ことによりデータ量はさらに増加し、データ保管システムの重要性は高まっています。 Preferred Networks におけるHadoop – Preferred Networks Research で解説した基本的な要件は今でも変わっていませんが[2]、現在メインのシステムとして運用している Hadoop (HDFS) にはいくつかのシステム運用上の課題があります。たとえば、一番大きなHadoopクラスタは現時点で物理的に10PB近くのディスク容量を持っていますが、Ubuntu 16.04で動作しています。OSのバージョンアップを伴うクラスタのIn-placeなアップグレー

                                            Apache Ozoneをやっていた一年 - Preferred Networks Research & Development
                                          • モデリング施策を高速・安全に回せる、MLOpsの仕組みづくり

                                            こんにちは。サイエンス統括本部で機械学習エンジニアをしている芹沢です。ヤフー全社で使われているレコメンドプラットフォームを担当するプロジェクトに所属し、ログ収集・学習ジョブの開発/運用やMLOpsに関連する業務を行っています。 本記事ではそのMLOps業務の中からモデリング業務の効率化の取り組み事例を紹介します。新しいモデルを本番採用するまでにはA/Bテストの準備などをする必要がありますが、それにかかる工数が多いことが課題となっていました。そこで、検証段階からA/Bテスト実施までの実装の負担を軽減し、より早く安全にモデル改善の試行錯誤を行える仕組みを提供しました。 ※ レコメンドシステムの開発はプライバシーポリシーの範囲内で取得したデータを用いて、個人を特定できない形で行っています。 全社共通レコメンドプラットフォームの紹介 レコメンドとは、サービスを利用するユーザーにおすすめのアイテムを

                                              モデリング施策を高速・安全に回せる、MLOpsの仕組みづくり
                                            • 元シリコンバレーCTOが日本のヘルスケアベンチャーを選んだ理由 - JMDC VOICE

                                              医療ビッグデータを活かした事業を幅広く展開しているJMDCには、魅力的な経歴や豊富な経験を持ったメンバーが所属しています。今回は、シリコンバレーのスタートアップ企業でCTOを務めた小原さんにインタビューを実施。JMDCへの転職を決断した理由やシリコンバレー行きを目指す人に向けてのアドバイスを聞きました。 <プロフィール> 小原 大樹(こはら だいき) 新卒でITコンサルティング事業を行うフューチャーアーキテクトに入社。その後、アメリカに渡り、シリコンバレーのスタートアップ2社でCTOを経験。ゼロからのプロダクト開発や多国籍メンバーのマネジメントに奔走した。2021年9月にJMDCに入社し、2022年4月からユーザープラットフォーム開発部の部長に就任した。 新卒で入社した会社を辞めてシリコンバレーに挑戦 ーー新卒で入社したフューチャーアーキテクトでは、どのような業務に取り組んだのでしょうか?

                                                元シリコンバレーCTOが日本のヘルスケアベンチャーを選んだ理由 - JMDC VOICE
                                              • 「Data Gateway Talk vol.5」に参加しました&全発表まとめ #dgtalk - u++の備忘録

                                                データアナリスト/データサイエンティストの登竜門 (Gateway to Success) となることを目指した勉強会「Data Gateway Talk vol.5」に参加しました。 data-gateway-talk.connpass.com 対象を絞った勉強会で以前から関心はあり、今回が初参加です。 本記事では、全発表について概要と所感を述べます。 データ分析業務を1年間やって実感したこと 発表資料 概要 所感 「データ分析」の解像度を上げたい 発表資料 概要 所感 GBDTアルゴリズム Gradient Boost Decision Tree with Iris Data 発表資料 概要 所感 Hivemallを使ってSQLで機械学習 発表資料 概要 所感 SHAP(SHapley Additive exPlanations)で機械学習モデルを解釈する 発表資料 概要 所感 リサー

                                                  「Data Gateway Talk vol.5」に参加しました&全発表まとめ #dgtalk - u++の備忘録
                                                • AWS CDKで各種ログに対するAmazon AthenaのPartition Projectionを実装する - mazyu36の日記

                                                  Amazon AthenaにPartition Projection(パーティション射影)という機能があります。 dev.classmethod.jp ざっくりいうとパーティション管理を自動化して、高速にクエリが実行でき、お財布にも優しいというものです。個人的にはめちゃくちゃ便利だなと思い、特にログの調査に活用しています。 ログ調査対象のサービスの内、大体どのプロジェクトでも使っているものがいくつかあります(ALB、VPCフローログ、CloudTrail....)。 これまではPartition Projectionの設定を行うCREATE文を毎回実行していたのですが、少し面倒なのでAWS CDKで実装し使いまわせるようにしました。 今回の実装の全体像は以下です。 1. 概要 対象のログ 実装方法 2. 実装詳細 プロジェクト構成 実装の流れ 入力のインタフェース Glue データベースを

                                                    AWS CDKで各種ログに対するAmazon AthenaのPartition Projectionを実装する - mazyu36の日記
                                                  • LINEがApache Software Foundationのシルバースポンサーになったと発表

                                                    Zホールディングス傘下のLINEは、オープンソースソフトウェアの開発や普及を推進する非営利団体Apache Software Foundationのシルバースポンサーになったことを発表しました。 LINEは、この3月にApache Software FoundationのSilver Sponsorになりました。 その背景や、LINEのその他のOSSの取り組みなどについてまとめた記事を公開しました。 #LINE_OSS https://t.co/6N2PWKuFp0 — LINE Developers (@LINE_DEV) March 29, 2022 Apache Software Foundationのスポンサーには、上からプラチナ、ゴールド、シルバー、ブロンズの4つのレベルがあります。年間のスポンサー料金は、プラチナが12万5000ドル(1ドル120円換算で1500万円)、ゴールド

                                                      LINEがApache Software Foundationのシルバースポンサーになったと発表
                                                    • Hadoop環境のクラウド移行 | BLOG - DeNA Engineering

                                                      IT基盤部の nodoka です。 私の業務はWebサービスの運用が中心でしたが、数年前からHadoopを中心とした分散基盤環境のインフラも見るようになりました。 当初は巨大なHadoop環境の管理を体系化して引き継ぐことと、運用における属人性を排除することが喫緊の課題でした。 それが落ち着くと、ご多分に漏れずクラウド化を検討・推進するようになったので、その流れをまとめてみようと思います。 DeNAのHadoop環境と改善策 Hadoopが抱える課題 GCPへの移行 embulk利用におけるTips DeNAのHadoop環境と改善策 DeNAにおけるHadoop環境の歴史は古く、DeNAのほとんどのサービスが利用しています。 各サービスでは分析したいログやDBのスナップショットをHadoopのファイルシステムであるHDFSに一旦置きます。 そのHDFSに置かれたファイル群をHadoopを

                                                        Hadoop環境のクラウド移行 | BLOG - DeNA Engineering
                                                      • Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話

                                                        ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。データ統括本部でYahoo!広告のデータエンジニアをしている江島です。 本記事では、Yahoo!広告のデータ分析環境であるデータレイク上のデータを、Apache Hudi を用いてレコード単位で削除可能にした事例を紹介します。 Yahoo!広告のデータ分析環境 Yahoo!広告における データマーケティングソリューション では、ヤフーの持つ圧倒的な量と質のデータを活用し、消費者理解や広告効果分析を目的としたさまざまな商品を提供しています。 これらの商品を提供するための裏側には広告に関する膨大なログや多種多様なサービスのログを使ってデータ分析や機械学習を行うためのデータ基盤が必要です。データマーケティングソリューションで

                                                          Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話
                                                        • 約3年ぶりに転職しました - Memo

                                                          10年ほど前は、ビッグデータを蓄積し分析するといえばApache Hadoopという状況でした。ところが近年では多種多様なツールが次々に登場し、必ずしもHadoopを利用する時代ではなくなってきています。そんな状況において今一体どれだけの人々がどのようなユースケースでHadoopを活用しているのだろうか? また、Big Techと呼ばれる会社の中ではどのようなことが起こっているのか? その謎を解明するため、私はAmazonの奥地へ向かった。 Day 1 pic.twitter.com/WBVsfFW5Of— Akira Ajisaka (@ajis_ka) November 8, 2021 ... というわけで、アマゾンウェブサービスジャパン合同会社に2021/11/8付で入社しました。"Senior Software Development Engineer - Big Data, AW

                                                            約3年ぶりに転職しました - Memo
                                                          • Project Tsurugi(劔)とAsakusaについて   - 急がば回れ、選ぶなら近道

                                                            Project Tsurugi(劔)とAsakusaについて ついでにAsakusa advent calendarの分も ■Tsurugiの特にNEDOプロ部分について 日経の記事はこちら https://tech.nikkeibp.co.jp/atcl/nxt/column/18/00001/03044/ 本紙はこちらからかな? https://www.nikkei.com/article/DGXMZO51692890R01C19A1000000/ ・NEDOのサイト https://www.nedo.go.jp/content/100891996.pdf ・スライドはここ drive.google.com ・togetterはここ https://togetter.com/li/1430683 本来であれば、あまり外向きに書く話ではないのですが、仮にも公金が入っていて、日経の方にも「

                                                              Project Tsurugi(劔)とAsakusaについて   - 急がば回れ、選ぶなら近道
                                                            • 株式会社オープンコレクターに転職しました - 科学と非科学の迷宮

                                                              2020年4月6日付で、株式会社オープンコレクターのシステムアーキテクトとして勤務を開始しました。 https://open-c.jp/ この会社は、PythonやGo、React Native などの技術を中心として、認証基盤や決済システム、大規模データ処理アプリケーションやチャットボットアプリケーションなどについて、フロントエンドからバックエンドまでの幅広い開発、アーキテクチャ設計からシステムコンサルティング、さらにはCTOレベルの戦略的な技術コンサルティングまでをカバーする、少数精鋭の技術者集団です。 フィンテック関連企業でのプロジェクトを中心に、製造業、小売業、インターネットサービス業など、幅広い業界で実績を持っています。 オープンコレクターに所属するメンバーは、一流のエンジニアばかりです。 会社代表のmoriyoshiは、上記の技術を始めとして、文字通りあらゆるレイヤーの技術に精

                                                                株式会社オープンコレクターに転職しました - 科学と非科学の迷宮
                                                              • 【初データレイク体験】AWS Loft Osakaで DataLake ハンズオンを受けてきた(公開資料URLあり) | DevelopersIO

                                                                大阪オフィスのちゃだいんです。 本日はAWS Pop-Up Loft Osakaにて、ハンズオンに参加してきました。 今回はそのハンズオンの内容をご紹介したいと思います。 その前に、 AWS Pop-Up Loft Osakaは期間限定でオープンしており、本日が最終日でした...(涙) 大阪のど真ん中一等地に、無料でコーヒーももらえるコワーキングスペース。中之島の高層ビル26階からの眺めを楽しみながら、優雅にパソコンパチパチできる稀有な場所でした。 どんな場所だったのかは、このブログをご覧ください。 【AWS Loftが大阪に期間限定オープン!】オープンしたてのAWS Pop-Up Loft Osakaで早速リモートワークしてみた #awsloft ハンズオン概要 DataLake ハンズオン OCT 31,2019 About the event(上記ページより抜粋) 幅広いデータソース

                                                                  【初データレイク体験】AWS Loft Osakaで DataLake ハンズオンを受けてきた(公開資料URLあり) | DevelopersIO
                                                                • Democratizing data analysis with Google BigQuery

                                                                  Infrastructure Democratizing data analysis with Google BigQuery Every day, over a hundred million people come to Twitter to find out what’s happening in the world and talk about it. Every Tweet and user action generates an event that we make available for internal data analysis at Twitter. Hundreds of employees analyze and visualize this data, and improving their experience is a top priority for t

                                                                    Democratizing data analysis with Google BigQuery
                                                                  • ヤフーの広告配信で機械学習の改善サイクルを高速化した話 〜 TensorFlow Serving導入

                                                                    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。Yahoo!広告 ディスプレイ広告エンジニアの川崎です。 ユーザーに最適な広告を配信するプラットフォームの開発をしています。 この記事では、広告配信にTensorFlow Servingを導入して生産性改善した事例をご紹介します。 Yahoo!広告 ディスプレイ広告とは? Yahoo!広告では、Yahoo! JAPANのさまざまなサービスや提携パートナーサイトに広告を掲載できます。Yahoo!広告は、検索広告とディスプレイ広告に大別されます。本記事で扱うディスプレイ広告は、例えば以下の図ようにYahoo! JAPAN トップページなどに掲載される広告です。 広告配信の仕組み 広告配信システムの概略図を以下に示します。

                                                                      ヤフーの広告配信で機械学習の改善サイクルを高速化した話 〜 TensorFlow Serving導入
                                                                    • LINEの開発現場を支えるCI/CD DevOps推進のために大切にしていること

                                                                      2020年01月29日、DevOpsについての知見を共有する「うちのDevOps事情〜大規模サービスのモニタリングあれこれ〜」が開催されました。DevOpsを推進していく際のさまざまな事例を紹介します。「LINEにおけるCI/CDとMonitoring」に登壇したのはLINE Growth Technology株式会社・黒木 亮太氏。登壇資料はこちら LINEにおけるCI/CDとMonitoring 黒木亮太氏(以下、黒木):「LINEにおけるCI/CDとMonitoring」というお話をさせていただこうかなと思ってます。 まずは私のプロフィールです。私は黒木亮太と言います。2019年にLINE Growth Technologyに移って、LINE Growth Technology株式会社の東京開発室の室長をやっています。 もともとWeb系の会社にずっといて、こういう業界にはけっこう

                                                                        LINEの開発現場を支えるCI/CD DevOps推進のために大切にしていること
                                                                      • CPU使用率90%を超える高負荷がLNEのHive Metastoreで発生 Hive table formatの課題はApache Icebergで解消

                                                                        2021年11月10日と11日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2021」がオンラインで開催されました。そこで齋藤氏と尾野氏が「LINEデータプラットフォームにおけるApache Icebergの導入」というテーマで、データ処理とデータのインジェスチョンパイプラインについて紹介しました。まずはLINEで実施しているデータ処理について。 自己紹介と発表前半のアジェンダ 齋藤智之氏:LINE Data Platform室の齋藤智之です。現在私は、データプラットフォーム開発組織のシニアソフトウェアエンジニアとして、研究開発や開発プロジェクトのリードをしています。今日の発表では、データプラットフォームを開発運用する中で直面してきた課題と、その解決に向けた取り組みの一部を紹介しようと思います。 発表は前半と後半の2部に分かれて

                                                                          CPU使用率90%を超える高負荷がLNEのHive Metastoreで発生 Hive table formatの課題はApache Icebergで解消
                                                                        • 商品検索の並び順を機械学習でつくる 〜 Yahoo!ショッピングの学習基盤事例紹介 #機械学習

                                                                          ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、サイエンス統括本部で検索サービスの改善を担当している鈴木です。 ヤフーが運営するECサイトであるYahoo!ショッピングでは、ユーザーが探している商品をキーワードで検索できる仕組みを提供しています。 検索結果には下図のようにキーワードに合致した商品が掲出されますが、その並び順はいったいどのように決まるのでしょうか? Yahoo!ショッピングでは、機械学習を用いて検索結果中の商品を並び替えています。この記事ではYahoo!ショッピングの検索を例に、検索サービスにおける機械学習の活用事例を紹介したいと思います。 ※本記事はSearch Engineering Tech Talk 2019 Autumnでの発表「ヤフーにおけ

                                                                            商品検索の並び順を機械学習でつくる 〜 Yahoo!ショッピングの学習基盤事例紹介 #機械学習
                                                                          • 「グーグル方式の科学」

                                                                            著者:ケヴィン・ケリー ( Kevin Kelly ) 訳 :堺屋七左衛門 この文章は Kevin Kelly による "The Google Way of Science" の日本語訳である。 グーグル方式の科学  The Google Way of Science ペタバイトレベル以上のきわめて大規模なデータベースができると、人間の学習方法が変わってしまいそうな予感がある。今までの科学の方法では、仮説を構築して観察したデータに合致させる、あるいは新しいデータを集めるということをしていた。そこには数多くの観察がある。どのような理論であれば、今までのデータをうまく説明することができて、そこから次の観察結果を予想できるのか? きわめて大量のデータがあれば、理論の部分は省略して、いきなり観察結果を予想できるかもしれない。グーグルは早くからそのことに気づいていた。たとえば、グーグルのスペルチェッ

                                                                              「グーグル方式の科学」
                                                                            • GCPのデータ処理・ETL系サービスの使い分け - Qiita

                                                                              本記事は Classi Advent Calendar 2020 15日目の記事です。 こんにちは。データAI部でデータエンジニアをしている@tomoyanamekawaです。 GCPにはデータ処理関連のサービスが複数あり、「Aにあるデータを加工してBに置きたい」といった処理(ETL処理)の実現方法がGCP内のサービスに限っても様々な選択肢があります。 また、data*といった似た名前のサービスが多く、初見だとわかりづらい部分があります。 そこでそれらサービスの使い分けの参考になればと思ってまとめます。 GCPにあるETL処理関連のサービス紹介 ETL処理に関連するサービスだけでも下記のように複数あります。 Cloud Composer Apache Airflowをベースにしたワークフロー管理サービス。 裏でGKEが立っていてユーザーからクラスターやインスタンスも見えて、少し管理が必要な

                                                                                GCPのデータ処理・ETL系サービスの使い分け - Qiita
                                                                              • Apache Sparkとは何か - Qiita

                                                                                使い始めて3年くらい経ちますが、改めて振り返ってみます。 こちらの記事を書いたりしていますが復習も大事なわけで。 2024/4/12に翔泳社よりApache Spark徹底入門を出版します! その他のDatabricksコアコンポーネントの記事はこちらです。 Apache Sparkプロジェクトの歴史 SparkはDatabricksの創始者たちがUC Berkeleyにいるときに誕生しました。Sparkプロジェクトは2009年にスタートし、2010年にオープンソース化され、2013年にApacheにコードが寄贈されApache Sparkになりました。Apache Sparkのコードの75%以上がDatabricksの従業員の手によって書かれており、他の企業に比べて10倍以上の貢献をし続けています。Apache Sparkは、多数のマシンにまたがって並列でコードを実行するための、洗練され

                                                                                  Apache Sparkとは何か - Qiita
                                                                                • “超”大規模データを扱うからこそ直面した事象。HDFS Erasure Codingの不具合を解消するまで

                                                                                  LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog 2021年11月10日・11日の2日間にわたり、LINEのオンライン技術カンファレンス「LINE DEVELOPER DAY 2021」が開催されました。特別連載企画「DEVDAY2021 アフターインタビュー」では、発表内容をさらに深堀りし、発表では触れられなかった内容や裏話について登壇者たちにインタビューします。今回の対象セッションは「大規模なHDFS Erasure Codingにおける技術的課題」です。 LINEのData Platform室では、LINEのさまざまなサービスのデータをApache HDFS(以下、HDFS)に格納しています。HDFSクラスターに保存されているデータ量は、合計で数百ペタバイトと極めて膨大

                                                                                    “超”大規模データを扱うからこそ直面した事象。HDFS Erasure Codingの不具合を解消するまで