並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 55件

新着順 人気順

hadoopの検索結果1 - 40 件 / 55件

  • AWSでの法令に則ったログ設計及び実装/分析 - Adwaysエンジニアブログ

    エージェンシー事業でリードアプリケーションエンジニアを行なっている大窄 直樹 (おおさこ)です. AWSのログ, サーバーのログってたくさん種類があって難しいですよね... 同じようなログがたくさんあるので, 何を取れば良いのかとか どのくらいの期間保持すれば良いのかとか またその後の, ログの実装や, 分析方法する方法も難しいですよね... 今回AWSに構築した商用アプリケーションのログを整備する機会があったので, このことについて書こうかなと思います. 概要 本題に入る前の準備 今回ログ実装するアーキテクチャ ログに関する法令 ログの取得箇所 設計 保管するログの決定 インフラのログ OSのログ アプリケーションのログ ログの保管 保管場所について 保管期間について バケット構造 アプリケーション, OSのログの転送 実装 アプリケーション, OSのログをfluentbitを用いてS3

      AWSでの法令に則ったログ設計及び実装/分析 - Adwaysエンジニアブログ
    • プログラミング文体練習

      レーモン・クノーの『文体練習』から着想を得て執筆された本書は、1つの課題を異なるプログラミングスタイルで実装し、さまざまなスタイルの特性やスタイルが生まれた歴史的経緯などを解説します。本家の『文体練習』は、「バスの中で起きた諍いと、その張本人を後で目撃した」という内容を、公的文書風、宣伝風、業界用語風など、99の異なる文体で表現したものですが、本書は、「単語の出現頻度をカウントして多いものから出力する」という課題を、40のスタイルで実装しています。リソース制約が大きかった時代の方法から、オブジェクト指向、純粋関数型、リフレクション、並行処理、ニューラルネットワークまで幅広いスタイルを扱い、マルチパラダイム言語Pythonの威力と魅力を感じられる構成となっています。 訳者まえがき 第2版 まえがき 第1版 まえがき 序章 第Ⅰ部 歴史的スタイル 1章 古き良き時代:アセンブリ言語 2章 Fo

        プログラミング文体練習
      • 新しいデータ処理ライブラリの学習はもう不要! Python 初学者のための Ibis 100 本ノック - Qiita

        新しいデータ処理ライブラリの学習はもう不要! Python 初学者のための Ibis 100 本ノックPython機械学習pandasデータ分析ibis-framework Information 2024/1/14: Kaggle notebook for Ibis Kaggle で Ibis を使用するための Sample Notebook を用意しました。Kaggle でもぜひ Ibis をご活用下さい。 🦩 [Ibis] Kaggle-Titanic-Tutorial Ibis 100 本ノック補足記事 Ibis 100 本ノックについて、よりスマートな書き方等について @hkzm さんが補足記事を書いてくれました(この記事を参考にコンテンツのほうもブラッシュアップしたいと思います)。 Ibis 100 本ノックの記事を受けて はじめに どうもこんにちは、kunishou です。

          新しいデータ処理ライブラリの学習はもう不要! Python 初学者のための Ibis 100 本ノック - Qiita
        • 次世代データ基盤:データレイクハウスを Google Cloud で実現する

          はじめに こんにちは、クラウドエース データソリューション部の松本です。 普段はデータ基盤や MLOps の構築をしたり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。また、昨年は Google Cloud Partner Top Engineer 2024 に選出されました。今年も Goodle Cloud 界隈を盛り上げていけるよう頑張っていきたいと思います。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのが データソリューション部 です。 弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があれば エントリー をお待ちしております! 今回は、次世代データ基盤であるデ

            次世代データ基盤:データレイクハウスを Google Cloud で実現する
          • 10年経ってもついに消えずに残った、データサイエンティストという職業 - 渋谷駅前で働くデータサイエンティストのブログ

            このブログでも何度か引用しているこちらの記事で、「データサイエンティストという職業は10年以内に消える」という趣旨の議論がされていたのがちょうど10年前の2013年でした。ちなみにこの記事はついているブックマーク数に比して当時は結構注目を集めたという記憶があり、割と業界内では「確かにこんな中途半端な職業が10年後もあるわけないよね」と言われていたのを思い出します。 実際には皆さんもご存知のように、2023年になってもデータサイエンティストという職業はついに消えることなく、現在に至るまで残り続けています。その経緯がどんなものであったかは、業界10年史記事でもある程度触れた通りです。 しかし、同時に現在では「生成AIの普及でデータサイエンティストの仕事がなくなる」という風説も出回っており、改めてデータサイエンティストという職業の将来性に不透明感が漂いつつあるのもまた事実です。そこで、今回の記事

              10年経ってもついに消えずに残った、データサイエンティストという職業 - 渋谷駅前で働くデータサイエンティストのブログ
            • データエンジニアリングの基礎

              データエンジニアリングとは、組織内外で日々生成されるデータを蓄積し分析するためのデータシステムを構築し維持管理することであり、急速に注目を集めている分野です。近年ではデータエンジニアリングを支えるツールやクラウドサービスが成熟し、組織へのデータ利活用の導入は容易になりましたが、明確な指針のないままデータシステムの構築を進めると費用と時間を無駄に費やすことになります。本書は「データエンジニアリングライフサイクル」を軸にデータシステムの要件を整理することで、組織の「データ成熟度」に応じたデータシステム構築の指針を与えます。またデータエンジニアの立ち位置を明確にし、組織内でデータエンジニアが果たすべき役割を示します。 まえがき Ⅰ部 データエンジニアリングの基礎と構成要素 1章 データエンジニアリング概説 1.1 データエンジニアリングとは何か 1.1.1 データエンジニアリングの定義 1.1.

                データエンジニアリングの基礎
              • 本当にDropboxはオンプレ回帰なのだろうか? - 256bitの殺人メニュー

                おはようございます。やっぱヒノキっぽいんだよなぁ、、、(花粉 ということで鼻ズルズルマンです。 Dropboxはオンプレ回帰した? 最近良く聞きます、Dropboxはオンプレ回帰した、クラウドはコストが高いから最近オンプレに戻る企業が増えている、とか。 一つ一つの記事やツイートをイチイチピックアップはしないですが、とにかくよく聞くわけです。 でも思うんですよね、「そんなわけないのでは?」だってよく考えてみてください、テックが強い組織であればあるほど適材適所でクラウドを使ったほうがいい所も見えてきます。 現代のアーキテクチャでクラウドがハマる部分が全くないシステムはありません。一時的なリソース確保と開放、管理のいらないインフラ、様々なサービス。これを利用しないなんてことあるのかな?ってことなわけです。無理にオンプレのみで頑張るのが論理的か?という話かもしれません Dropboxがオンプレに移

                  本当にDropboxはオンプレ回帰なのだろうか? - 256bitの殺人メニュー
                • 【2024年】AWS全サービスまとめ | DevelopersIO

                  こんにちは。サービス開発室の武田です。このエントリは、2018年から毎年公開しているAWS全サービスまとめの2024年版です。 こんにちは。サービス開発室の武田です。 このエントリは、2018年から毎年公開している AWS全サービスまとめの2024年版 です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの?」という疑問を自分なりに理解するためにまとめました。 今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2023年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 247個 です。 まとめるにあ

                    【2024年】AWS全サービスまとめ | DevelopersIO
                  • プログラミング言語 Ruby30 周年記念イベント レポート

                    プログラミング言語 Ruby30 周年記念イベント 2023 年 2 月 25 日、Ruby 誕生 30 年を記念したイベントが開催されました。 2020 年から流行した新型コロナウィルス感染症の影響で、一時期のイベントはすべてオンラインでの開催が主流となっていました。 本イベントも当初はオンライン形式で予定されていましたが、当日は松江オープンソースラボをメイン会場としてオフラインとオンラインのハイブリッドで開催されました。 開催日 2023-02-25 (土) 13:40 - 17:30 開催場所 松江オープンソースラボ / YouTube 配信 主催 一般財団法人 Ruby アソシエーション / 一般社団法人 日本 Ruby の会 公式ページ プログラミング言語 Ruby30 周年記念イベント 進行 :前田修吾 公式ハッシュタグ #ruby30th 動画 アーカイブ動画 オープニング

                    • AWSエンジニアから見たGCP(データ分析編)

                      こんにちは、GMOアドマーケティング インフラ開発部のhakumaiです。前回の記事「AWS SAPを取得したら視野が広がった話」を読んでいただいた方々、ありがとうございます。今回のテーマは「AWSエンジニアから見たGCP」第2弾として、代表的なGCPのコンピューティング系サービスについてAWSと比較し感じた点についてお話いたします。 (第1弾の記事はこちら↓)IaaSCompute EngineAWSではEC2に相当するサービス。各種インスタンスタイプや提供OSイメージ、インスタンス向けのストレージ機能、オートスケール機能など、インスタンスのアーキテ... DWH BigQuery BigQueryはフルマネージドなサーバレスDWHサービスで、Googleが開発した大規模データ向けの分散システムであるDremelを基にしておりSQLクエリを使用して大規模データの分析を行うことができる。さ

                        AWSエンジニアから見たGCP(データ分析編)
                      • エンジニアなら気の向くまま「縦へ深化、横へ探索」してみよう 自由に楽しみながらキャリアを作り上げるコツ

                        技育祭は「技術者を育てる」ことを目的としたエンジニアを目指す学生のための日本最大のオンラインカンファレンスです。「技育祭2023【春】」に登壇したのは、株式会社CARTA HOLDINGS・CTOの鈴木健太氏。エンジニアが圧倒的に成長するためのコツを話しました。1回目は「好奇心」について。 CARTA HOLDINGS社・CTOの鈴木健太氏 鈴木健太氏:それでは「新卒入者から1500人規模のCTOに、エンジニアが圧倒的に成長する3つのコツ」というテーマで、これからの未来をつくる学生エンジニアのみなさんに向けて、CARTAのCTOの鈴木健太こと、すずけんが話をしようと思っています。よろしくお願いします。 簡単に自己紹介をしていきます。僕は2011年の頃、学生の時にスタートアップのCTOをしていたのですが、2012年にVOYAGE GROUP、今のCARTA HOLDINGSに入社して、それか

                          エンジニアなら気の向くまま「縦へ深化、横へ探索」してみよう 自由に楽しみながらキャリアを作り上げるコツ
                        • AS59128 のフロー情報収集と Amazon Athena での分析 - KMC活動ブログ

                          こんにちは、 id:sora_h です。これは KMC Advent Calendar 2023 12 日目の記事です (大遅刻)。 KMC ではインターネット接続手段の 1 つとして AS59128 を 2017 年頃より運用して、部室内のサーバーや一部の部員が利用しています。これまでフロー情報の収集は行ってきませんでしたが、今年、フロー情報の統計を収集して分析を可能にしたため、その実装を軽く紹介します。地味に pmacctd のドキュメントが難解だったので…。 経緯 AS59128 は運用初期から複数のトランジットやピア、東西に跨った複数拠点が存在していますが、外部の経路由来の障害や性能劣化についての調査はフロー情報なしで実施していて、特に変化前のトラフィックを確認することがそれなしでは難しくエスパーを繰り返してました。 このままでは障害時の対応が手探りで安定運用に支障がある、また (

                            AS59128 のフロー情報収集と Amazon Athena での分析 - KMC活動ブログ
                          • Rustによる並列処理でDynamoDBへのデータ投入を20倍高速化してみた

                            はじめに 言語として高速だと謳われているRust。そのRustを使用してDynamoDBへのデータ登録処理を直列処理と複数の並列アルゴリズム処理で速度比較してみました。 DynamoDB DynamoDBは公式で以下のように謳われています。 Amazon DynamoDB の応答時間は 1 桁ミリ秒で、最も要求の厳しいアプリケーションでも一貫してこのパフォーマンスを発揮できます。例を挙げると、2022 年の Amazon プライムデーに Amazon DynamoDB は、1 桁ミリ秒のパフォーマンスで、数兆回の API コールに対して 1 秒あたり 1 億 520 万件のリクエストを確実に処理しました。 上記だけみると爆速のようにも思われますが、読み込みと書き込み双方に以下の制限があります。 BatchWriteItemのデータ投入は1回で25リクエストまで、Queryのデータ取得は1回

                              Rustによる並列処理でDynamoDBへのデータ投入を20倍高速化してみた
                            • チームのデータ基盤技術の審美眼を育てるために取り組んでいること - ann-toque’s diary

                              前提と想定読者 本記事の私見以外の情報に関しては、一般に公開されている資料のリンク集のようになっています。 取り組んでいる内容は、私が現在勤務している会社に関連していますが、その詳細には触れません。 以下に類する方は参考になるかもしれません。 データエンジニアやBIエンジニアのように、データ基盤を構築しようとしている方 データアナリスト、データサイエンティスト、マーケッターなど、データ基盤を利用する方々で、なぜそのシステムが選ばれているのか考えられるようになりたい方 データエンジニアリングチームをマネジメントしており、チームメンバーのスキル向上のための教材を探している方 背景 WEB業界で新卒からデータエンジニアとしてキャリアをスタートし、現在はデータストラテジスト/BIエンジニアとして活動中のやすです。 現在、私は5-10名規模のチームをマネジメントしており、チームメンバーのほとんどは2

                                チームのデータ基盤技術の審美眼を育てるために取り組んでいること - ann-toque’s diary
                              • Apache Sparkとは何か - Qiita

                                使い始めて3年くらい経ちますが、改めて振り返ってみます。 こちらの記事を書いたりしていますが復習も大事なわけで。 2024/4/12に翔泳社よりApache Spark徹底入門を出版します! その他のDatabricksコアコンポーネントの記事はこちらです。 Apache Sparkプロジェクトの歴史 SparkはDatabricksの創始者たちがUC Berkeleyにいるときに誕生しました。Sparkプロジェクトは2009年にスタートし、2010年にオープンソース化され、2013年にApacheにコードが寄贈されApache Sparkになりました。Apache Sparkのコードの75%以上がDatabricksの従業員の手によって書かれており、他の企業に比べて10倍以上の貢献をし続けています。Apache Sparkは、多数のマシンにまたがって並列でコードを実行するための、洗練され

                                  Apache Sparkとは何か - Qiita
                                • データレイクの新しいカタチ:Open Table Formatの紹介 - 流沙河鎮

                                  はじめに Open Table Formatは次世代のデータレイクの基盤となり得る技術で、徐々に導入事例(末尾に列挙)が増えてきているものの、日本での認知度は発展途上な印象がある。本記事ではOpen Table Format登場の背景を紹介する。執筆にあたって、Apache Iceberg: An Architectural Look Under the CoversとAWSにおける Hudi/Iceberg/Delta Lake の 使いどころと違いについてを特に参考にした。 Open Table Formatとは? Open Table Formatとは、従来のデータレイクの技術的な課題&ユースケースの要請に応える形で登場した、データレイクに最適化されたテーブルフォーマットを指す概念で、上手く活用することでクエリプランニング、実行性能の最適化、効率的なUpdateやDelete、タイム

                                    データレイクの新しいカタチ:Open Table Formatの紹介 - 流沙河鎮
                                  • EC2インスタンスタイプの整理 - NRIネットコムBlog

                                    本記事は 【Advent Calendar 2023】 4日目の記事です。 🎄 3日目 ▶▶ 本記事 ▶▶ 5日目 🎅 こんにちは、西内です。 突然ですが、皆さんはAmazon Elastic Compute Cloud(EC2)のインスタンスタイプが何を表しているかご存知でしょうか?(t2.microとかのアレ) 私は今年9月からTECH AND DESIGN STUDYのサービスアップデート担当していて、その中で新たにリリースされたインスタンスをご紹介しているのですが、種類が多すぎてよく頭がこんがらがります。 今回の記事ではインスタンスタイプについてご説明しつつ、最後に現行のインスタンスタイプの一覧を掲載したいと思います。 インスタンスタイプに関しては佐々木さんも過去に記事を書かれていますが、今回はインスタンスファミリー部分をより詳細に調査いたしました。 また、記事の最後にインスタ

                                      EC2インスタンスタイプの整理 - NRIネットコムBlog
                                    • ITスキルロードマップ roadmap.sh がすごい。Data Analyst について対応する本をまとめた - Qiita

                                      ITスキルロードマップ roadmap.sh がすごい。Data Analyst について対応する本をまとめた機械学習データ分析キャリアデータアナリティクスデータアナリスト Developer Roadmapsというサイトがすごいです。ITエンジニアの分野別にスキルアップのロードマップが示されています。 言語、基盤、アプリ、かなり網羅されています。 ということで、AI and Data Scientist Roadmap について書きましたが 今回は Data Analyst Roadmap です。 雑感 このロードマップの続きにAI and Data Scientistがあり、Data AnalystをData Scientistの前段階的に位置付けているのが疑問。Data AnalystとData Scientistは並ぶものではないでしょうか。 そして、ビジネス、ドメイン知識や分析目

                                        ITスキルロードマップ roadmap.sh がすごい。Data Analyst について対応する本をまとめた - Qiita
                                      • S3+Athena構成の弊社データ基盤の限界が近い - Qiita

                                        こちらのアドベントカレンダーの記事です。 近々書くような気がするので、先駆けてアドベントカレンダー駆動で書いていきます。 スタートアップのデータ基盤に興味がある人には刺さるかもしれません。 TL;DR 2020年に構築した弊社のS3+Athena構成のデータ基盤の限界が近い 構築当時に比べてデータ基盤の選択肢色々増えて嬉しい 2024/1~3にかけてSnowflake or Redshift Serverlessの検証をします 現在のデータ基盤の構成 タイトルの通りS3 + Athenaを中心にAWSの細かいサービスを使っています 使用技術 S3 Athena Glue GlueETLは費用の面で使わず他のサービスを組み合わせる形で内製 Firehose Lambda(Python) Codebuild Step Functions / EventBridge ECS on Embulk

                                          S3+Athena構成の弊社データ基盤の限界が近い - Qiita
                                        • Amazon EMR のバージョンアップ 3/3:Presto から Trino への移行 - Repro Tech Blog

                                          前回の続きです。 EMR 5.36.1 から EMR 6.15.0 への更新 使用するアプリケーションのバージョンは以下のようになりました。OS は Amazon Linux 2 です。 アプリケーション等 EMR 5.36.1 EMR 6.15.0 Tez 0.9.2 0.10.2 Hue 4.10.0 4.11.0 Hive 2.3.9 3.1.3 Hadoop 2.10.1 3.3.6 Presto 0.267 0.2831 Trino N/A 426 Hive, Hadoop, Tez については前の記事で確認済みなので、ここからはそれ以外の要素について検討していきます。 一番問題になったのは Presto から Trino への移行です。Trino 移行に関係して発生した事柄を列挙します。 Datadog Agent の設定変更 任意の期間の指定したタイプのクエリを実行して結果の

                                            Amazon EMR のバージョンアップ 3/3:Presto から Trino への移行 - Repro Tech Blog
                                          • 【AWS試験】2ヶ月で6つのSpecialty試験に合格できたので、その勉強方法をまとめてみた | DevelopersIO

                                            こんにちは!体内の 6 割は水分ではなく、えびだと思うくらいえび好きな kaz です。 先日、SAP on AWS - Specialty に合格して、無事 12 冠達成できました! 思っていたよりも短い期間で取得できたかなと思ったので、なぜ 12 冠を目指そうと思ったのかや、勉強方法などを振り返ってみようと思います。 また、多くの方は AWS 試験を受ける前に外部の情報などを確認したりすることも多いかなと思います。 なので、本エントリーはただのリンク集ではなくて、私が各試験で勉強に利用した情報のみを載せるようにしました! これから 12 冠を目指したい!と思っている方や、短期間取得を目指す際の参考になれば幸いです! なぜ12冠を目指そうと思ったのか 何よりも AWS を利用した業務や、技術サポートに携わっているからです! その他にも、もう少し理由を並べてみたいと思います。 AWS の知識

                                              【AWS試験】2ヶ月で6つのSpecialty試験に合格できたので、その勉強方法をまとめてみた | DevelopersIO
                                            • Introducing Amazon EC2 R7i instances

                                              AWS announces the general availability of Amazon Elastic Compute Cloud (Amazon EC2) R7i instances powered by custom 4th Generation Intel Xeon Scalable processors (code-named Sapphire Rapids). These custom processors are exclusive to AWS and offer the best performance among comparable Intel processors in the cloud – up to 15% faster than Intel processors utilized by other cloud providers. R7i insta

                                                Introducing Amazon EC2 R7i instances
                                              • Amazon EMR のバージョンアップ 1/3:メジャーバージョンアップの前にやったこと - Repro Tech Blog

                                                Development Division/Platform Team/Sys-Infra Unit で実施した Amazon EMR 1 のバージョンアップについてどのようなことをやったのか紹介します。 Repro では Presto や Hive などのセットアップに EMR を使用しており、以下の用途で活用しています。 プッシュ通知の配信対象を抽出する 管理画面で参照するデータを抽出する S3 などに貯まっているイベントデータを集計する EMR のアプリケーションとしては以下を使用していました。 Presto Tez Hadoop Hive Hue 経緯 Repro では多くのミドルウェアを運用しており、日々バージョンアップしているのですが、最近まで2019年2月18日にリリースされた EMR 5.21.0 というバージョンを使用していました。もちろん Log4Shell のような脆弱

                                                  Amazon EMR のバージョンアップ 1/3:メジャーバージョンアップの前にやったこと - Repro Tech Blog
                                                • 【翻訳】Bilibiliは如何にしてApache IcebergでData Lakehouseを構築したか? - 流沙河鎮

                                                  この記事は著者であるRui Li氏の許可を得て翻訳したものです。 Original article: How Bilibili Builds OLAP Data Lakehouse with Apache Iceberg | by Rui Li | Medium. 文中の注釈は、訳者(@_Bassari)が読者の理解を助けるために付け加えました。 はじめに Bilibiliは中国最大級の動画共有サイトです。私たちはBilibiliのbig data infrastructureチームとして、2021年にApache Iceberg1を使用したlake-warehouseプラットフォームを構築するためのプロジェクトを開始しました。このプラットフォームは、主にOLAP分析シナリオに焦点を当てています。 このプロジェクトの前は、当社のdata warehouseはApache Hive2をベース

                                                    【翻訳】Bilibiliは如何にしてApache IcebergでData Lakehouseを構築したか? - 流沙河鎮
                                                  • Amazon EMR のバージョンアップ 2/3:メジャーバージョンアップで遭遇した問題 - Repro Tech Blog

                                                    前回の続きです。 EMR 5.36.1 から EMR 6.6.0 への更新について書きます。 EMR 5.36.1 から EMR 6.6.0 への更新 アプリケーション等 EMR 5.36.1 EMR 6.6.0 Tez 0.9.2 0.9.2 Hue 4.10.0 4.10.0 Hive 2.3.9 3.1.2 Hadoop 2.10.1 3.2.1 Presto 0.267 0.267 Trino N/A 367 Amazon Linux 2 2 このバージョンアップでは Hive と Hadoop のメジャーバージョンアップがあるので、Upgrade Amazon EMR Hive Metastore from 5.X to 6.X | AWS Big Data Blog のとおりに Hive メタストアをマイグレートしました。 その後、検証用 EMR cluster を作成してクエ

                                                      Amazon EMR のバージョンアップ 2/3:メジャーバージョンアップで遭遇した問題 - Repro Tech Blog
                                                    • エンジニアの勉強と技術力と育児 | 外道父の匠

                                                      仕事力と技術力と不安に関する雑文 | YuheiNakasaka’s Diary を読んで、自分も勉強とは技術力とはなんぞやと考えてみたくなったのでポエムです。 詰まるところ人それぞれではあるものの、考えることは少なからず良い方向に向かう、そう願いたいものです。 勉強とは 世の中にある意見として、エンジニアは生涯勉強だとか、強々エンジニアになるための勉強だとか、色んなモノを見かけます。そういう勉強に対する意見ってたいていネガティブな印象の内容が多く、なんだか迷走しているなぁという感想を持つことが多いです。 良い子ちゃん視点では、学ぶこと、その全てには意義がある、と言いたいところですが、こと仕事においては無駄な学びもあるし、将来無駄になる学びもあります。また、自発的かどうかでその効果は天地の差があるので、他人に向かってこれくらいやるべきとか言うことの意味は薄く、突き詰めると自己責任の範囲の話

                                                        エンジニアの勉強と技術力と育児 | 外道父の匠
                                                      • Google Cloud 認定 Professional Data Engineer 取りました - ぽ靴な缶

                                                        やったー Google Cloud の主催する Google Cloud Innovators Gym Japan (G.I.G) というプログラムに参加して取りました。 Google Cloud を利用する企業を対象とした招待制のプログラムで、参加すると関連する Coursera コースへのアクセス、試験を受けるためのサポート、Google Cloud エンジニアの方によるハンズオンや質問できる機会が提供されます。 バッジ 以下の資格が対象。今回のプログラムは4月中頃に始まり、7月中頃までに Coursera のコースを終え合格報告をするスケジュール。お話を頂いて良い機会なのでチームの若者を誘って参加しました。 Professional Cloud Architect Professional Cloud Developer Professional Data Engineer poku

                                                          Google Cloud 認定 Professional Data Engineer 取りました - ぽ靴な缶
                                                        • How bad are search results? Let's compare Google, Bing, Marginalia, Kagi, Mwmbl, and ChatGPT

                                                          Marginalia does relatively well by sometimes providing decent but not great answers and then providing no answers or very obviously irrelevant answers to the questions it can't answer, with a relatively low rate of scams, lower than any other search engine (although, for these queries, ChatGPT returns zero scams and Marginalia returns some). Interestingly, Mwmbl lets users directly edit search res

                                                          • University of the Peopleを卒業してコンピュータサイエンスの学士号を取りました(仮) - Journal

                                                            先日AY2024-Term3を終えて卒業要件単位数を満たすことができました。今はまだ卒業申請中なので「仮」としている。ディプロマを手にするまでは実感が湧かなそうだけれど日に日に記憶が薄れていくので振り返りを。 清々しい気分で見物した今年の牡丹 目次 CS 2204 Communications and Networking CS 2301 Operating Systems 1 CS 3307 Operating Systems 2 CS 4402 Comparative Programming Languages CS 4407 Data Mining and Machine Learning さいごに CS 2204 Communications and Networking OSI参照モデル、TCP/IPモデルの各レイヤーの役割とそこに使われているプロトコルやアルゴリズムを一通り学ん

                                                              University of the Peopleを卒業してコンピュータサイエンスの学士号を取りました(仮) - Journal
                                                            • [レポート] 『Data Engineering Study #23 Data orchestration 特集』 #DataEngineeringStudy | DevelopersIO

                                                              アライアンス事業部 エンジニアグループ モダンデータスタック(MDS)チームの しんや です。 データ分析に於いて、「データオーケストレーション(Data orchestration)」という分野、カテゴリが存在します。端的に言うと「サイロ化されたデータを複数のストレージから一元化されたリポジトリに移動させ、そこで結合、クリーニング、エンリッチ化し、アクティブ化(ビジネス・インテリジェンス・ツールでのレポート作成など)するプロセス」(端的じゃなかった...) という定義となるのですが、2024年03月05日(火)に開催された『Data Engineering Study #23』にてこの「データオーケストレーション(Data orchestration)」を特集するということでイベントに参加(オンライン視聴)しました。 当エントリでは、その参加(視聴)内容についてざっくりではありますがレポ

                                                                [レポート] 『Data Engineering Study #23 Data orchestration 特集』 #DataEngineeringStudy | DevelopersIO
                                                              • PyAirbyteで始める簡単Data Injest Pipeline

                                                                はじめに PyAirbyteがリリースされました。(2024/03/16時点ではBeta版なのでご注意を) PyAirbyteはExtractのコネクタ部分をPythonのライブラリとして提供してPandasに格納するという機能を提供しているらしい。 つまり、BigQueryのクライアントと合わせればExtractとLoadの部分を過疎結合にしつつ、スケジューラーでPythonを呼び出すだけのシンプルなData Injest Pipelineを作ることが可能なのでは!?ということで検証します。 個人的に考えるData Injestツールの抱える課題点 FivetranのようなSaaSを使い始める際は規約確認や、契約がとても面倒 Airbyteは契約関連の面倒な部分は無いが、運用工数が大きすぎる worker, sever, temporal, api, dbなどなど(ちゃんと拡張性を考えて

                                                                  PyAirbyteで始める簡単Data Injest Pipeline
                                                                • S3 Inventory + Athena によるプレフィックスレベルコスト分析 ~S3 のコストをスリムに保つために~ - Gunosy Tech Blog

                                                                  プロダクト開発部 Ads チームの yamaYu です。最近体重と筋肉量をコントロールしたい願望があり、まずは可視化ということで体組成計を買いました。まだ全然成果は上がっていないですが、現状を把握できて良い感じです。 今回の記事ですが、最近取り組んだ S3 のコスト削減の施策において、S3 Inventory がコストの可視化の文脈で良い感じだったのでその話について書いていきます。 最終的に ↓ のような感じでプレフィックス別にコストを分析できるようにしました。 プレフィックス別の S3 のコストの例 課題感 S3 のストレージ使用量を把握するための選択肢 AWS CLI S3 Storage Lens S3 Inventory S3 Inventory で使用量を可視化する S3 Inventory を設定する Athena と連携する SQL を書いて分析する まとめ 課題感 Ads

                                                                    S3 Inventory + Athena によるプレフィックスレベルコスト分析 ~S3 のコストをスリムに保つために~ - Gunosy Tech Blog
                                                                  • 【クラウドセキュリティ対策比較】GCP、AWS、Azureを様々な観点から比べてみた | 株式会社トップゲート

                                                                    削除する Google Service TGカルチャー アプリケーション開発 コンサルティング セミナー テックブログ デザイン デジタルプロダクト開発 開発実績 ニュース 2025年の崖(1) 5G(1) AI(39) AI Hub(1) AI Platform(1) AlloyDB(12) AlloyDB for PostgreSQL(6) AlphaZero(1) Analytics HUB(1) Android(11) Android アプリ(1) Anthos(6) API(12) API エコノミー(1) APP(2) App Engine(2) App Maker(2) AppServer(1) AppSheet(3) arduino(1) Authentication(1) AutoML(4) AWS(12) AWS (Amazon Web Services)(1) AWS

                                                                      【クラウドセキュリティ対策比較】GCP、AWS、Azureを様々な観点から比べてみた | 株式会社トップゲート
                                                                    • [レポート] クラスメソッドxメソドロジック共催:イチから始めるデータ活用!『データメッシュによるデータガバナンス編』を開催しました。 | DevelopersIO

                                                                      [レポート] クラスメソッドxメソドロジック共催:イチから始めるデータ活用!『データメッシュによるデータガバナンス編』を開催しました。 アライアンス事業部 エンジニアグループ モダンデータスタック(MDS)チームのしんやです。 先日2024年02月20日(火)、クラスメソッド株式会社と株式会社メソドロジックの共催イベント『【毎週開催】メソドロジック社共催!イチから始めるデータ活用!8週連続ウェビナー』の第1回開催回である『データメッシュによるデータガバナンス編』を開催しました。 当エントリではその内容についてレポート致します。 目次 イベント概要 イベントレポート データ活用支援サービスのご紹介 イチから学ぶデータメッシュによるデータガバナンス 全体質疑応答 まとめ イベント概要 第1回目となる今回取り扱うテーマは『データメッシュによるデータガバナンス』です。 イベントレポート データ活用

                                                                        [レポート] クラスメソッドxメソドロジック共催:イチから始めるデータ活用!『データメッシュによるデータガバナンス編』を開催しました。 | DevelopersIO
                                                                      • データ基盤移行計画とPySpark(Spark Connect)の検証 - MicroAd Developers Blog

                                                                        マイクロアドでサーバサイドエンジニアをしているタカギです。 今回はデータ基盤移行とPySparkについての話になります。 目次 目次 データ基盤移行の概要 データ基盤移行後のバッチ処理 Spark Connectを導入する Spark Connectの問題点 まとめ 補足 データ基盤移行の概要 諸々の事情1により、データ基盤をHadoopから移行することになりました。 現在のデータ基盤でのETL/ELT処理はHadoopエコシステム(Hive、HDFSなど)を中心に構成されています。 ※Hadoopについてはこちらの記事が参考になります。 これらをKubernetes、PySpark、S3互換ストレージ(詳細未確定)を組み合わせたデータ基盤へ移行する計画です。 すぐにすべてを移行するのは難しく、完全移行までは新旧並行稼働がそれなりの期間続く予定です。 今回の記事では、PySparkを使用し

                                                                          データ基盤移行計画とPySpark(Spark Connect)の検証 - MicroAd Developers Blog
                                                                        • いったいSnowflakeのなにがすごいのか|生田優輔

                                                                          「経済にとってのデータの価値は、30年前と比較して1,000倍以上である」 現SnowflakeのCEOであるフランク・スルートマン (Frank Slootman) はそう語る (1)。 2012年に創業したSnowflakeは、クラウドデータウェアハウスのリーダー的存在に成長し、2020年にはこれまでのソフトウェア企業として史上最大規模のIPOを果たした。 そして今なお、Snowflakeはこのマーケットを牽引し続け、独自のアプローチによって圧倒的な競争優位性を築き上げている。 どうしてここまでの成長を遂げることができたのか。 この記事では、Snowflakeがもつ競合優位性と、成長を実現したユニークな経営戦略を紐解いていきたい。 強固なプロダクトの競合優位性Snowflakeが提供するソリューションは、クラウド上のデータウェアハウスに対して簡単かつ柔軟に分析を実行することができるとい

                                                                            いったいSnowflakeのなにがすごいのか|生田優輔
                                                                          • [初心者向け]Application Load Balancerのアクセスログを、Amazon Athenaで色々なクエリを実行し分析してみた | DevelopersIO

                                                                            [初心者向け]Application Load Balancerのアクセスログを、Amazon Athenaで色々なクエリを実行し分析してみた はじめに ALBのアクセスログを分析したい場合、利用するAWSサービスとしてAthenaが挙がると思います。 Athenaをあまり使ったことがなかったので、利用する手順をまとめました。 また、ALBのアクセスログを分析する上で、使うことが多いであろうクエリもご紹介します 事前準備 アクセスログ用のS3とALBを作成 ALBのアクセスログを有効にしておく 有効化がDenyとなった場合、トラブルシューティングは、以下の記事を参考になるかと思います。 Athenaのクエリの保存先を設定 AWSマネジメントコンソールからAthenaにアクセスし、[データをクエリする]から[クエリエディタを起動]をクリックします。 最初のクエリを実行する前に、AmazonS

                                                                              [初心者向け]Application Load Balancerのアクセスログを、Amazon Athenaで色々なクエリを実行し分析してみた | DevelopersIO
                                                                            • DynamoDB のデータを Amazon Ion 形式で S3 にエクスポートし Athena からクエリする | DevelopersIO

                                                                              DynamoDBのエクスポート機能でAmazon Ion形式でエクスポートしAthenaからクエリして、集計バッチとして利用する様子をご紹介します ども、大瀧です。 先日DynamoDBはバッチ処理よりストリーム処理が得意という記事が話題になりましたが、本ブログではバッチのアーキテクチャを紹介します!! DynamoDBのエクスポート機能 DynamoDBには継続的バックアップ(PITR)で取得したスナップショットをAmazon S3にエクスポートする機能があり、ある時点のデータを元にしたバッチ処理をテーブルの読み込み容量を消費せずに実行できます。 S3にエクスポートするときのデータ形式はDynamoDB JSONとAmazon Ionテキスト形式の2つから選択できます。IonにはDynamoDBのデータ型を保持する仕組みが内包されているため、JSONやJavascript周りのデータ型変

                                                                                DynamoDB のデータを Amazon Ion 形式で S3 にエクスポートし Athena からクエリする | DevelopersIO
                                                                              • [2023年5月24日号]個人的に気になったModern Data Stack情報まとめ | DevelopersIO

                                                                                さがらです。 Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。 そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。 ※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。 Modern Data Stack全般 Enterprise Tech 30(2023)が公開 Wing社によって取りまとめられ、ベンチャーキャピタリスト96名と各企業の開発責任者30名により評価されたテック企業の一覧として「Enterprise Tech 30」がありますが、この2023年版が公開されました。 Modern Data Stack界隈だと、

                                                                                  [2023年5月24日号]個人的に気になったModern Data Stack情報まとめ | DevelopersIO
                                                                                • Technology Trends for 2024

                                                                                  What O’Reilly Learning Platform Usage Tells Us About Where the Industry Is Headed This has been a strange year. While we like to talk about how fast technology moves, internet time, and all that, in reality the last major new idea in software architecture was microservices, which dates to roughly 2015. Before that, cloud computing itself took off in roughly 2010 (AWS was founded in 2006); and Agil

                                                                                    Technology Trends for 2024