m_2kyymのブックマーク (25)

  • KubeCon + CloudNativeCon Europe 2024 参加レポート - ZOZO TECH BLOG

    はじめに こんにちは。SRE部フロントSREブロックの三品です。 3月19日から3月22日にかけてKubeCon + CloudNativeCon Europe 2024(以下、KubeCon EUと呼びます)が行われました。今回弊社からはZOZOTOWNのマイクロサービスや基盤に関わるエンジニア、推薦システムに関わるエンジニアの合わせて4人で参加しました。 記事では現地の様子や弊社エンジニアが気になったセッションや現地の様子について紹介していきます。 目次 KubeConEU2024の概要 セッションの紹介 現地の様子 ブースについて 参加に向けてのTips 最後に KubeCon EU 2024の概要 昨年4月にオランダ アムステルダムで行われたKubeCon EUの様子については昨年の参加レポートをご覧ください。 techblog.zozo.com 今年のKubeCon EUはフラ

    KubeCon + CloudNativeCon Europe 2024 参加レポート - ZOZO TECH BLOG
    m_2kyym
    m_2kyym 2024/04/05
  • Google Cloud ComposerでGPUを使ったタスクを安定稼働するために行ったこと - ZOZO TECH BLOG

    はじめに こんにちは、ML・データ部MLOpsブロックの松岡です。 記事ではCloud Composerのワークフローにおいて、GPUを使うタスクで発生したGoogle CloudのGPU枯渇問題と、その解決のために行った対策を紹介します。 ZOZOが運営するZOZOTOWN・WEARでは、特定の商品やコーディネート画像に含まれるアイテムの類似商品を検索する類似アイテム検索機能があります。記事ではこの機能を画像検索と呼びます。 画像検索では類似商品の検索を高速に行うため、画像特徴量の近傍探索Indexを事前に作成しています。近傍探索Indexはワークフローを日次実行して作成しています。 このワークフローでは大きく次のように処理を行っています。 当日追加された商品の情報を取得し、商品情報をもとに商品画像を取得する。 物体検出器で商品画像から商品が存在する座標とカテゴリーを検出する。 検出

    Google Cloud ComposerでGPUを使ったタスクを安定稼働するために行ったこと - ZOZO TECH BLOG
    m_2kyym
    m_2kyym 2023/10/19
  • Terraformとdriftctlで行うGoogle Cloud 権限管理の省力化 - ZOZO TECH BLOG

    はじめに こんにちは、ML・データ部MLOpsブロックの岡です。 MLOpsブロックでは日々複数のGoogle Cloudプロジェクトを管理しています。これらのプロジェクトでは、データサイエンティストやプロジェクトマネージャーなど別チームのメンバーが作業することもあり、必要に応じてメンバーのGoogleアカウントへ権限を付与しています。 権限の付与はプロジェクトの管理者であるMLOpsブロックメンバーが行いますが、これは頻繁に発生する作業でありトイルとなっていました。 また権限付与後はこれらを継続的に管理し、定期的に棚卸しすることで不要になった権限を削除する必要があります。しかし当初の運用だと権限の棚卸しの対応コストが大きく、これが実施されずに不要な権限が残り続けるという課題もありました。 記事ではMLOpsブロックで抱えていたGoogle Cloudプロジェクト内での権限管理における

    Terraformとdriftctlで行うGoogle Cloud 権限管理の省力化 - ZOZO TECH BLOG
    m_2kyym
    m_2kyym 2023/10/02
  • MLOpsマルチテナントクラスタへのArgo CDの導入と運用 - ZOZO TECH BLOG

    はじめに こんにちは。ML・データ部MLOpsブロックの築山(@2kyym)です。 MLOpsブロックでは2022年の上期からArgo CDの導入に着手しました。記事ではArgo CDの導入を検討した背景から導入のメリット、また導入における公式マニフェストへの変更点や、運用において必須である認証や権限管理など、具体的な手順についてご紹介します。少しでもArgo CDの導入を検討している方の助けになれば幸いです。 またArgo CDを導入するきっかけとなった、複数運用していたKubernetesクラスタを1つに集約するマルチテナントクラスタへの移行についても触れます。マルチテナントクラスタの設計や具体的な移行作業については述べると長くなってしまうため、詳細については改めて別の記事にてご紹介できればと思います。 Argo CDについては、昨年の計測SREブロックの記事でも触れられていますので

    MLOpsマルチテナントクラスタへのArgo CDの導入と運用 - ZOZO TECH BLOG
    m_2kyym
    m_2kyym 2023/03/30
  • Vertex AI Pipelinesからの外部通信の通信元IPアドレスをNATで固定する - ZOZO TECH BLOG

    はじめに こんにちは、技術部ML・データ部MLOpsブロックの鹿山(@Ash_Kayamin)です。MLOpsブロックではバッチ実行環境としてVertex AI Pipelinesを用いています。Vertex AI PipelinesはGCPマネージドなKubeflow Pipelinesを提供するサービスで、コンテナ化した処理に依存関係をもたせたパイプラインを定義し実行できます。この記事ではVertex AI Pipelinesで起動するノードからIPアドレス制限があるエンドポイントへ通信するために、NATを利用して通信元IPアドレスを固定した方法と実装のはまりどころについてご紹介します。 Vertex AI Pipelinesの利用例については過去の記事で紹介していますので、併せてご覧ください。 techblog.zozo.com 目次 はじめに 目次 課題:Vertex AI Pi

    Vertex AI Pipelinesからの外部通信の通信元IPアドレスをNATで固定する - ZOZO TECH BLOG
    m_2kyym
    m_2kyym 2023/03/01
  • Knative Servingを用いて多数の開発環境APIを低コストで構築する - ZOZO TECH BLOG

    はじめに こんにちは、技術部ML・データ部MLOpsブロックの鹿山(@Ash_Kayamin)です。先日、20個の開発環境APIを用意し、各APIをリクエストに応じて動的に起動できる仕組みをKnative Servingを用いて構築しました。 この記事ではKnative Servingを利用した背景と、利用方法、はまりどころ、利用によって得られたコスト削減効果についてご紹介します。なお、今回はKubernetesクラスタのバージョンとの互換性の都合でKnativev1.3.1を利用しました。2022/9現在の最新バージョンはv1.7.1になりますのでご注意ください。 目次 はじめに 目次 課題:20個の異なる開発環境APIを低コストで提供したい 解決策:Knative Servingを用いて、リクエストに応じて動的にAPIサーバーを起動する仕組みを導入する Google Cloud上でA

    Knative Servingを用いて多数の開発環境APIを低コストで構築する - ZOZO TECH BLOG
    m_2kyym
    m_2kyym 2022/09/16
    :uooo:
  • Managing Kubernetes Secrets with the External Secrets Operator

    InfoQ Software Architects' Newsletter A monthly overview of things you need to know as an architect or aspiring architects. View an example

    Managing Kubernetes Secrets with the External Secrets Operator
    m_2kyym
    m_2kyym 2022/08/03
    providerの作り方にも一応触れられてる
  • Work with change history  |  BigQuery  |  Google Cloud

    m_2kyym
    m_2kyym 2022/07/09
    bq変更履歴
  • ZOZOTOWNホーム画面におけるパーソナライズの取り組み - ZOZO TECH BLOG

    はじめに こんにちは、ML・データ部推薦基盤ブロックの寺崎(@f6wbl6)と佐藤(@rayuron)です。 ZOZOTOWNのホーム画面は2021年3月にリニューアルされ、「モジュール」と呼ばれる単位で商品が表示されるようになりました。 記事ではユーザーごとにパーソナライズされたモジュール(以降、パーソナライズモジュール)のロジックやシステム構成、および導入時に実施したA/Bテストの内容と結果をご紹介します。 先に結論から言ってしまいますが、今回のパーソナライズモジュールでは機械学習モデルを使わず、ユーザーの回遊行動を分析した結果を元にしたルールベースのロジックを使用しています。記事のポイントは大きく以下の3点です。 ルールベースのパーソナライズロジック 機械学習モデル導入を見越したシステム設計 ホーム画面のパーソナライズによる効果 記事がこれから同様のタスクに取り組む方の参考にな

    ZOZOTOWNホーム画面におけるパーソナライズの取り組み - ZOZO TECH BLOG
    m_2kyym
    m_2kyym 2022/06/20
    :ryosaku:
  • Kubernetes 1.24: gRPC container probes in beta

    m_2kyym
    m_2kyym 2022/05/15
    grpc probe
  • QuarkusによるKubernetes Native Java

    Spring BootによるAPIバックエンド構築実践ガイド 第2版 何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。このでは、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

    QuarkusによるKubernetes Native Java
    m_2kyym
    m_2kyym 2022/04/27
    :eyes:
  • FAANSにおけるCloud RunからGKE Autopilotへのリプレイス事例 - ZOZO TECH BLOG

    はじめに こんにちは。ブランドソリューション開発部 WEAR部 SREの笹沢(@sasamuku)です。 FAANSはショップスタッフの効率的な販売をサポートするスタッフ専用ツールです。FAANSの一部機能は既にリリースされており全国の店舗で利用いただいております。正式リリースに向け、WEARと連携したコーディネート投稿機能やその成果をチェックできる機能などを開発中です。 FAANSのコンテナ基盤にはCloud Runを採用しており、昨年にSREとしての取り組みをテックブログでご紹介しました。しかし、運用していく中で機能需要や技術戦略の変遷があり、Cloud RunからGKE Autopilotへリプレイスすることを決めました。記事ではリプレイスの背景と、複数サービスが稼働している状況下でのリプレイス方法についてご紹介します。 目次 はじめに 目次 リプレイスの背景 なぜCloud R

    FAANSにおけるCloud RunからGKE Autopilotへのリプレイス事例 - ZOZO TECH BLOG
    m_2kyym
    m_2kyym 2022/04/17
    :eyes:
  • Kubernetes障害で泣かないための羅針盤、Observabilityを活用したトラブルシューティングフロー大公開

    ※岡、正野、宇都宮はNTTデータ所属 Kubernetesやクラウドネイティブをより便利に利用する技術やツールの概要、使い方を凝縮して紹介する連載「Cloud Nativeチートシート」。前回から複数回に分けて「Observability(オブザーバビリティ)」「可観測性」にフォーカスして解説しています。 Kubernetesを使っていてトラブルが発生したけど、原因究明をどう進めればいいか分からない……ということはありませんか? コンテナを利用したシステムでは、マイクロサービス化が容易なので、コンポーネントやサービスの数が従来のシステムに比べて非常に多くなります。そのため、障害が発生した場合の原因の究明も大変になります。 そこで今回は、「Observabilityでいろいろとデータが取れるのは分かったけど、何からどう見ていけばいいのか分からない」という方向けに、Kubernetesで実

    Kubernetes障害で泣かないための羅針盤、Observabilityを活用したトラブルシューティングフロー大公開
    m_2kyym
    m_2kyym 2022/04/14
  • [アップデート] BigQuery で search index (Preview) が利用可能になりテキストや半構造データを効率的に検索可能に | DevelopersIO

    ウィスキー、シガー、パイプをこよなく愛する大栗です。 BigQuery に大きなアップデートが来てました。search index と SEARCH 関数です!テキストデータの検索が効率的になります。早速試してみました。 Google BigQuery search index は2022年4月8日現在において、プレビューのステータスです。このプロダクトまたは機能は、Google Cloud Platform の利用規約の一般提供前のサービス規約の対象となります。一般提供前のプロダクトと機能では、サポートが制限されることがあります。また、一般提供前のプロダクトや機能に変更が加えられると、他の一般提供前バージョンと互換性がない場合があります。詳細については、リリースステージの説明をご覧ください。 search index と SEARCH 関数 今まで BigQuery では全文検索エンジン

    [アップデート] BigQuery で search index (Preview) が利用可能になりテキストや半構造データを効率的に検索可能に | DevelopersIO
    m_2kyym
    m_2kyym 2022/04/10
    :eyes:
  • BigQuery Scriptingの便利な使い方をまとめてみた - yasuhisa's blog

    背景 & Disclaimer 自分自身はこれまでBigQuery Scriptingをほぼ使っていませんでした BigQuery自体は3年くらいの利用歴 SQL単発で済ませるのが苦しそうな場合は、Pythonなどのプログラミング言語 + ワークフローエンジンの組み合わせで戦っており、自分としては特に困っていなかった 社内で他の方が使うケースをぼちぼち見ることがある 自分は困っていなくても、社内のBigQueryユーザーでBigQuery Scriptingを使っていて困っている人がそれなりにいる 著者はそれなりのBigQueryユーザーがいる企業のデータ基盤の人間です さすがに「使ったことないので、分からないですねー」で済ませるわけにはいかなくなってきた そもそもどんなユースケースで便利なのかすらも分かっていない状態なので、便利そうに思える場合をまとめてみることにしました というわけで、

    BigQuery Scriptingの便利な使い方をまとめてみた - yasuhisa's blog
    m_2kyym
    m_2kyym 2022/04/03
    使ったことないな
  • 20 Useful Online Resources about Kubernetes to Follow in 2022

    m_2kyym
    m_2kyym 2022/04/03
    :eyes:
  • Cloud Composer 2上でApache Airflow 2のワークフローを実装する - ZOZO TECH BLOG

    はじめに こんにちはZOZOデータサイエンス部MLOpsブロック松岡です。 記事では先日リリースされたGCPGoogle Cloud Platform)Cloud Composerの最新バージョンCloud Composer 2について紹介します。 ZOZOTOWNでは、多種多様な商品が毎日新たに出品されています。現在MLOpsブロックでは、機械学習で商品情報の登録を補佐するシステムを開発しています。 このシステムでは商品情報を保存するデータベースへ大量の書き込み処理が発生します。このアクセスによる負荷が日常業務に影響を及ぼすリスクを最小限に抑えるため、推論処理は夜間に行います。夜間に処理を完了させるには強力なマシンリソースを使用する必要があります。コストの観点から処理が行われていない時間はマシンリソースを使用停止する必要もあります。また、人手を介さずに安定して稼働出来る仕組みも求めら

    Cloud Composer 2上でApache Airflow 2のワークフローを実装する - ZOZO TECH BLOG
    m_2kyym
    m_2kyym 2022/03/23
    :eyes:
  • 1on1の議事録を公開したら、オープンな文化が強まった~HERPの1on1~|uxkong (Ryo Tokunaga)

    HERPの1on1文化がオモロいので共有したい。 議事録が公開されていて、誰でも見られる1番特徴的なのがこれだと思う。 Notionで議事録を記録していて、社内の誰もが見られる。 最近調子どう?、負債の解消、言いたいこと話してないのでは、同棲の話、良いチームをつくろうなど多岐にわたるトピック最近僕がやったメンバーとやった1on1の議事録たち。 鈴木さんぽい高尚な課題感まざっちは怒りをマネージする訓練をしている最近課題に感じていることや自分自身のリソース配分などをざっくばらんに会話してその議事録が誰でも見られるようになっている。その他キャリア相談やチームのコミュニケーションの悩みなどもある。 もちろんクローズにした方がいいトピック(センシティブな内容、テキストだけだと見た人に誤解を与えうるなど)はクローズにしている。 Slackで通知も届いてべんり公開しはじめたきっかけ・経緯この取り組みは2

    1on1の議事録を公開したら、オープンな文化が強まった~HERPの1on1~|uxkong (Ryo Tokunaga)
    m_2kyym
    m_2kyym 2022/02/21
    クローズドな話題以外は公開するくらいでも良いのかもしれない
  • KubernetesをGoogleが開発し、オープンソース化し、成功した経緯。関係者らが肉声で語るドキュメンタリー映像「Kubernetes: The Documentary」YouTubeで公開

    KubernetesGoogleが開発し、オープンソース化し、成功した経緯。関係者らが肉声で語るドキュメンタリー映像「Kubernetes: The Documentary」YouTubeで公開 ITエンジニア向けの転職紹介などキャリアサービスを提供しているHoneypot社は、Google、Red Hat、Cloud Native Computing Foundationの協力の下、Kubernetesの誕生から現在までをドキュメンタリー映像としてまとめた「Kubernetes: The Documentary」をYouTubeで公開しています(Part 1、Part 2)。 Do you know the story of @kubernetesio? Hear the details of how the project came to be from those who live

    KubernetesをGoogleが開発し、オープンソース化し、成功した経緯。関係者らが肉声で語るドキュメンタリー映像「Kubernetes: The Documentary」YouTubeで公開
    m_2kyym
    m_2kyym 2022/02/08
    おもしろそう
  • 強化された GKE の Maintenance Exclusions を解説する

    Kubernetes / GKE ファンの皆様、こんにちは。Google Cloud の Kazuu (かずー) です。 Kubernetes を利用されているユーザーにとって、アップグレードをどう乗り切るか、は非常に大きな課題だと思います。GKE にも Release channel や Surge upgrade などアップグレードを自動化し、作業負荷を軽減するための機能は従来からありました。ただ皆さんが求めていたものは、「当分の間、アップグレードをしなくてよい」というシチュエーションではないでしょうか? 記事ではそんな「当分の間、アップグレードをしなくてよい」 GKE をどう実現するか、について解説します。 TL;DRGKE の Maintenance Exclusions (メンテナンスの除外) 機能が強化されました。Scope という概念が導入され、Scope 毎に設定可能なメ

    強化された GKE の Maintenance Exclusions を解説する
    m_2kyym
    m_2kyym 2022/02/06
    release channelを登録したclusterでもscopeを更新すれば1年弱はアップグレードを避けられる