InfraStudy 2nd #2 の発表資料です
Preferred Networks エンジニアの坂田です。普段は社内向けの GPU サーバークラスタの運用管理の業務などをやっております。 先日、DevOpsDays Tokyo 2021 というイベントで、弊社 須田と一緒に PFN が Kubernetes を使って GPU クラスタを運用する中で経験してきた障害とその対応の自動化や、Kubernetes クラスタそのものの管理・アップグレードの自動化の取り組みについてご紹介しました。 SlideShare: PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021 本エントリでは、その中でご紹介した障害の事例の中から、コーナーケースとして対応に悩まされた Uninterruptible Sleep という状態に入ったプロセスの扱いについてご紹介します。 はじめに PFN のクラ
このパターンには2つの背景があります。ひとつは、技術者がマイクロサービスアーキテクチャパターンを採用して、複数の(理想的には単一目的で、独立してデプロイ可能な)サービスで構成されるアプリケーションを開発するようになったことです。ふたつめは、企業がコンテナ(Dockerなど)、オーケストレータ(Kubernetesなど)、プロキシ/ゲートウェイ(Envoyなど)といった、クラウドネイティブなプラットフォームテクノロジを支持するようになったことです。 意図 サービスメッシュが解決しようとする問題は次のようなものです。 サービスディスカバリ、ルーティング、アプリケーションレベル(レイヤ7)の非機能通信要件を処理する言語対応の通信ライブラリを、個々のサービス用にコンパイルする必要性の排除 外部サービスのネットワークロケーション、セキュリティ認証、サービス品質(QoS)目標など、サービス通信設定の外
Oracle DBのパッチやバックアップなど運用自動化をKubernetes拡張機能で実現、オープンソースの「El Carro」をGoogle Cloudが公開 Oracle Databaseは以前からコンテナ環境に対応しており、DockerイメージやDockerファイルもオラクル純正のものが提供されています。Helmチャートを使ってOracle DatabaseをKubernetes環境上にデプロイすることも可能です。 今回オープンソースで公開されたEl Carroは、Kubernetesの拡張機能であるOperatorパターンを用いて、Kubernetes上でのOracle Databaseの運用自動化を支援するソフトウェアです。 El CarroはKubernetes上でOracle DBの運用自動化を支援 Googleのブログ「Modernizing Oracle operatio
サイボウズの Kubernetes 基盤を開発している Neco プロジェクトの ymmt です。 サイボウズ製品のほとんどはデータベースとして MySQL を採用しています。 現在 400 を越える MySQL のインスタンスを運用しており、これら全てを新しい Kubernetes 基盤に移行していく予定です。 Kubernetes 上でアプリケーションやミドルウェアの運用を自動化するソフトウェアのことをオペレーターと言います。 大量の MySQL インスタンスを Kubernetes 基盤に移行するにはオペレーターが必須であると考え、技術顧問の @yoku0825 さんの監修の下で MOCO というソフトウェアを開発しオープンソースライセンスで公開しました。 本記事では Kubernetes 上の MySQL オペレーターの状況と、開発した MOCO の機能を詳細に解説いたします。 M
Flux is a set of continuous and progressive delivery solutions for Kubernetes that are open and extensible. The latest version of Flux brings many new features, making it more flexible and versatile. Flux is a CNCF Graduated project. Get started 📆 Next event: 2024-05-09 17:00 UTC: The Flux Bug Scrub (Americas-Late) Where: #flux on cncf slack 2024-05-09 17:00:00+00:00 GitOps for apps and infrastru
Containers Automating Amazon EKS with GitOps This post is contributed by Anita Buehrle, Director of Content at Weaveworks. Companies want to go fast; they need to deploy more often, more reliably, and preferably with less overhead. GitOps is a fast and secure method for developers to manage and update complex applications and infrastructure running in Kubernetes. GitOps is an operations and applic
本記事について Lokiについてまったく知識のない状態の人にとって、1からキャッチアップしていくのは とても大変なことです。 特にLokiはマイクロサービスで構成されているため、何を知るべきなのかの全体像が見えにくいと思っています。 そのため、Lokiをまったく知らない状態から実際に運用検証を開始するために必要なインプットを体系的にまとめました。 具体的には下記の項目で整理します。 Lokiの機能 Lokiを構成するアーキテクチャ Lokiを構成するプロセス Lokiのモニタリング Lokiでのログのリテンション管理 Lokiのデプロイ Lokiでのデータキャッシュ Lokiのベストプラクティス ※前提として、Prometheusについての基本的な知識があれば本記事についてもすぐに理解できるかと思います。 1. Lokiの機能 Grafana Lokiとは? Lokiは3大監視項目である、
こんにちは、計測プラットフォーム本部バックエンド部の髙木(@TAKAyuki_atkwsk)です。普段はZOZOMATやZOZOGLASSなどの計測技術に関する開発・運用に携わっています。ちなみにZOZOGLASSを使って肌の色を計測したところ、私のパーソナルカラーはブルーベース・冬と診断されました。 さて、本記事ではZOZOMATシステムで利用されていたNetwork Load BalancerをApplication Load Balancerに移行した事例をご紹介します。 ZOZOMATのシステム構成(2020年当時)に関しては、こちらの記事で詳しく説明されていますので合わせてご覧ください。 techblog.zozo.com 移行の背景 ZOZOTOWNアプリやZOZOTOWNシステムからZOZOMATシステムに対するリクエストの負荷分散のためにNetwork Load Balan
AWS CloudFormation が AWS CloudFormation Guard 2.0 の一般提供開始を発表しました。今回のリリースで、汎用的なコードとしてのポリシーの評価ツールとして、Guard をご利用いただけるようになります。Guard 2.0 を使用することで、デベロッパーはすでにサポートされている CloudFormation テンプレートに加え、Kubernetes の設定や Terraform JSON の設定など、任意の JSON 形式および YAML 形式のポリシールールを記述できるようになります。 Guard はオープンソースのコマンドラインインターフェイスで、デベロッパーがポリシールールを記述したり、記述したルールに対し構造化された JSON および YAML の階層型データを評価するための、シンプルなドメイン固有言語 (DSL) を提供します。ルールでは
はじめに こんにちは。SRE部MLOpsチームの中山(@civitaspo)です。みなさんはGWをどのように過ごされたでしょうか。私は実家に子どもたちを預けて夫婦でゆっくりする時間にしました。こんなに気軽に実家を頼りにできるのも全国在宅勤務制度のおかげで、実家がある福岡に住めているからです。「この会社に入って良かったなぁ」としみじみとした気持ちでGW明けの絶望と対峙しております。 現在、MLOpsチームでは増加するML案件への対応をスケールさせるため、Kubeflowを使ったMLOps基盤構築を進めています。本記事ではその基盤構築に至る背景とKubeflowの構築方法、および現在分かっている課題を共有します。 目次 はじめに 目次 MLOpsチームを取り巻く状況 MLOps基盤の要件 MLOps基盤技術としてのKubeflow Kubeflowの構築 ドキュメント通りにKubeflowを構
What is OpenSLO?OpenSLO is a service level objective (SLO) language that declaratively defines reliability and performance targets using a simple YAML specification. It is released under Apache 2.0 and we welcome contributions from the reliability engineering ecosystem. SLOs are reliability targets for services that allow organizations to make better decisions in how to create, operate, and run cl
The intent of this document is to outline the OpenSLO specification. The goal of this project is to provide an open specification for defining SLOs to enable a common, vendor–agnostic approach to tracking and interfacing with SLOs. Platform-specific implementation details are purposefully excluded from the scope of this specification. OpenSLO is an open specification i.e., it is a specification cr
Kubernetes Meetup Tokyo #40 https://k8sjp.connpass.com/event/206303/
Amazon Web Services ブログ EKS と Fargate、AWS Compute Savings Plans で Pod の料金を節約する この記事は、Saving money a pod at a time with EKS, Fargate, and AWS Compute Savings Plans を翻訳したものです。 re:Invent 2019 では、Amazon Elastic Kubernetes Service (Amazon EKS) で、Kubernetes の Pod を AWS Fargate にデプロイできるようになったことが発表されました。その発表以降、多くのお客様が実際に Fargate 、つまりコンテナを実行するためのサーバーレスインフラストラクチャーに Kubernetes の Pod をデプロイしています。Fargate を利用するこ
Kubernetes / GKE ファンの皆様こんにちわ。Google Cloud の Kazuu (かずー) です。GKE Autopilot が GA になりました。弊社公式ブログに続きまして、GKE Autopilot を日本語で解説していきたいと思います。 本記事は以下、3 部構成となります。 GKE Autopilot 概要GKE Autopilot を試してみるGKE Autopilot がハマりそうなユースケースは? 1. GKE Autopilot 概要GKE Autopilot は GKE の新しいモードです。Control Plane に加えて、Node が完全マネージドになります。これまでの GKE では Node はユーザー自身が必要台数分作成し、以後の Day 2 オペレーション (e.g. アップグレード) 等も気に掛ける必要がありました。GKE Autopil
Amazon Web Services ブログ Bottlerocket、Calico、eBPF で EKS ネットワークをターボチャージする この投稿は、Tigera, Inc. の共同創設者兼 CTO である Alex Pollitt によって共同執筆されました。 先日、Amazon は Amazon Elastic Kubernetes Service (Amazon EKS) 上での Bottlerocket のサポートを発表しました。Bottlerocket は、セキュリティ、運用、および管理性を重視した、コンテナを大規模に実行するために Amazon が構築したオープンソースの Linux ディストリビューションです。Bottlerocket の詳細については、このアナウンスブログをご覧下さい。 Amazon EKS には、Amazon VPC CNI Plugin によって、
こんにちは、Necoチームの池添です。 みなさんKubernetes向けのコンテナレジストリにはどこのサービスを利用していますか?そのサービスの調子が悪くて困ったりしたことはありませんか? 今回はコンテナレジストリをKubernetesクラスタ上にセルフホストし、システムの可用性を高める取り組みについて紹介したいと思います。 セルフホストコンテナレジストリがなぜ必要か コンテナレジストリには、Docker Hub, Red Hat Quay, GitHub Container Registry (GHCR), さらには各種パブリッククラウドベンダーによるものなど、数多くのサービスが存在します。 これらのコンテナレジストリのいずれかひとつに頼っていると、そこが単一障害点になってしまいます。 コンテナレジストリがダウンすると新しいコンテナを立ち上げる事ができなくなり、障害につながる場合もありま
Amazon Web Services ブログ Amazon EKS を利用した、ステートレスなマルチリージョンアプリケーションの運用 この記事は、Operating a multi-regional stateless application using Amazon EKS を翻訳したものです。 本投稿は、Sr Solutions Architect の Re Alvarez-Parmar と、Technical Account Manager の Avi Harari により寄稿されました。 AWS の上で運用を行う主な利点の一つは、お客様が AWS のグローバルフットプリントを利用して複数のリージョンでワークロードを実行することが、いかに簡単かという点です。ディザスターリカバリーをサポートするため、あるいはエンドユーザーとなるお客様の近くでアプリケーションを稼働させるためにマルチリ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く