yukiyan_wのブックマーク - はてなブックマーク

初めての Private Service Connect #1 PSCってなに？編

そもそもに立ち返ると、ネットワークを利用する目的はサービスの利用者とサービスの提供者を結びつけることです。サービスの利用者が不特定多数の場合には、現在では一般的に Internet などを経由してサービスの提供者と利用者とが接続されます。しかし、限定的な利用者のみに対してプライベートにサービスを提供したい・利用したい場合、しかも、異なる管理者による管理下にある異なるネットワークにサービスの利用者とサービスの提供者が分かれて存在する場合には、これまではネットワークの管理者間で様々な調整や、場合によっては事前に必要な対応を行った上で両者のネットワークを接続することが必要でした。今回から全3回に分けてご紹介する Private Service Connect (PSC) は、このような『限定的な利用者のみに対してプライベートにサービスを提供したい・利用したい』場合において大きなメリットを提供す

yukiyan_w 2024/03/07

リンク

Stop Worrying About BigQuery PII: How to Automate Data Governance at Scale.

yukiyan_w 2022/05/14

リンク

gRPCを使ってPairsのchatを高速にしたお話 – Eureka Engineering – Medium

最近はdatadogという監視とヴィジュアライズが得意な便利なお犬様と戯れるのを趣味にして、メトリクスと監視項目と向き合っている日々です。どうせなら犬じゃなくて猫なら、なお良かったのですが 😺 さて今回は、pairsのchat機能にgRPCの双方向ストリーミングを利用して速度を改善したお話をしようと思います。解決したかった事現状のpairsのメッセージ交換は定期ポーリング(数秒間隔)+Push通知をトリガーにしたMySQL DatabaseからのFetchで実現していたので、メッセージが実際にユーザーに届くのに遅延が大きい/外部のPush通知サービスの遅延の影響をそのまま受けるという課題がありました。恋は秒単位で冷めてしまう物なので、メッセージはできるだけ早く届けなければいけません。そういった意味でこの速度改善は人類にとってプラスという事にもなります。(たぶん why gRPC?

yukiyan_w 2021/03/17

gRPC

リンク

自宅と Google Cloud を VPN でつなぎマネージド DB と通信してみた

このルーターの先は Google Cloud につながっているというイメージ図TL;DRこの記事では、個人でも安価に手に入れられる高機能ルーター EdgeRouter X を使って、自宅ネットワークと Google Cloud の VPC を Site-to-Site VPN でつなぎ、手元の PC からプライベート IP 経由で Cloud SQL インスタンスに接続するまでの道のりを紹介するものです。はじめにこの記事は、Google Cloud Japan Customer Engineer Advent Calendar 2020 の 17 日目の記事です。（間に合っていれば・・・）こんにちは、Google Cloud で Data Management Specialist というロールをやっている佐藤です。データマネジメントってデータ管理？具体的になにやってんの？って感じの

yukiyan_w 2020/12/19

リンク

「Infrastructure as Codeに疲れたので、僕たちが本来やりたかったことを整理する」を１年掛けて整理した

こんにちわ。rwle1212です。本記事は JAWS Days 2020 で話す予定でしたが、昨今の事情によりオンライン開催となったため、登壇予定の内容を記事にしたものになります。登壇していれば諸般の事情により左手首を骨折したネタが使えたのですが、ブログでは伝わらないので非常に残念な思いをしております。という話はどうでも良いので本題に入ります。 50分の登壇内容なので少々長くなりますが、お付き合いください。 JAWS Days 2019で登壇した内容の振り返り昨年の JAWS Days 2019 で「Infrastructure as Codeに疲れたので、僕たちが本来やりたかったことを整理する」という内容で登壇しました。まずは上のリンクに添付されているスライドを5分位で読めると思うので一読頂いて、下の文に進んで頂ければと思います。そもそもInfrastructure as Cod

yukiyan_w 2020/10/19

Terraform

リンク

金融を“サービス”として再発明するための技術スタック

こんにちは。Finatextでエンジニアのマネジメントをしている河本です。当社は「金融を“サービス”として再発明する」をミッションとして掲げ、ビジネスの成長とともに技術領域も拡大させてきました。エンジニアチームは今、私たちが「BaaS (Brokerage as a Service)」と呼んでいる証券サービスのためのシステム基盤と、そのBaaS上のサービス開発に力を注いでいます。今回は、そんな当社の技術スタックについて紹介したいと思います。開発環境・CI/CDGitHubSwaggerSonarCloudPostman Terraform AWS CodeBuild AWS CodePipelineコードはGitHubで管理され、API 仕様管理には Swagger が使われています。SonarCloud を用いてソースコードの健全性やテストカバレッジの可視化を行っています。API開発の

yukiyan_w 2020/06/30

堅そうな業界でもこういうオーソドックスな構成にできるの良さそう

リンク

Kedro を用いた分析コンペ向けのデータパイプライン構築

Kaggle Advent Calendar 2019 の9日目の記事です。一応自己紹介を書いておくと、 Kaggle は mhiro2 という名前でここ1年くらい趣味としてやっています。本業では、 MLOps の一環として、 GKE や BigQuery, Cloud Composer, MLflow などを活用した自社向けの機械学習基盤開発をやっています。 ML やデータ分析の理論や技術そのものよりは、 ML のサイクルを円滑に回すためのシステムデザインやアーキテクチャなどの仕組み化に関心があります。はじめにKaggle をはじめとした分析コンペに取り組んでいる方の中には、自前のパイプラインを構築されている方も多くいらっしゃるかと思います。そもそもパイプラインとは何ぞや、という話ですが、EDA や特徴量のエンコードなどの前処理はもちろん、複数のモデルやパラメータでの学習やアンサン

yukiyan_w 2020/01/29

機械学習

リンク

Go言語の思想とエウレカでの5年間の活用

こんにちは、こんばんは。CTO の kaneshin です。エンジニア組織のマネジメントに多く時間を割いていますが、技術的な方面では Go と GCP を掛け合わせて Nature Remo + Go + Cloud Functions + BQ を駆使して、部屋の温度・湿度・照度や人体センターの検知を趣味で少しずつ開発しています。クラウドサービスをはじめとしたマネージドサービスが主流な界隈にとって、今までアプリケーションの責務として実装していたところをマネージドサービスに責務を委譲することができたりするので、アプリケーションを複雑に実装しなくて済むようになっていますし、保守・運用の観点からもそのような設計方針をよく目につくようになりました。例えばバッチ処理でデータを ETL 処理の設計を責務分割するのは良い例でしょう。 Data Transf ormation with Cloud D

yukiyan_w 2019/12/19

go

リンク

BigQuery ScriptingがBetaリリースされたので軽くウォークスルーしてみる

2019/10/3にBigQuery ScriptingがBetaになったとリリースノートに上がりました。これによって、BigQueryで変数宣言やループ処理といった複雑な処理などができるようになりました。個人的には待ちに待った機能です。テンションが上がったのでドキュメントをざっとウォークスルーしてみることにしました。ドキュメントはこちらです。 First BigQuery Script最初にこちらのクエリを実行してみます。使っているテーブルがBigQueryのPublicテーブルなのでそのまま実行できます。 -- Declare a variable to hold names as an array. DECLARE top_names ARRAY<STRING>; -- Build an array of the top 100 names from the year 2017

yukiyan_w 2019/12/18

bigquery

リンク

仮想通貨で稼ぐってどうやるの総まとめ（2019年版）BitMEX、Binance、レンディング等 - 西欧の車窓から - Medium

皆さんお久しぶりです。ヨーロピアンです。思えばずっとブログを更新していなかったなということで、自分向けの情報整理を兼ねて濃い目にアウトプットしてみます。一応アウトプットはcoinrunやビットコイン研究所さんで細かくやらせてもらってるのですが、有料コンテンツですし、コミュニティで集まってワイワイやっていくタイプの場なのでその時その時の最新の情報に偏りがちで、なおかつフローなのでストックにまとまっていなかったりします。あ、タイトルに（2019年版）なんてつけてるのは毎年どこかのタイミングで更新していこうかなあという気持ちがあるからです。頑張ります。なお、最初はトレードの話ばかりしようかと思っていたのですが、仮想通貨でとにかく何か利益を上げるってもはやトレードに限定されたことではないという考えがあり、方向性を変えました。はじめに※エクスキューズです自分は2015〜2018年あたりま

yukiyan_w 2019/12/12

投資

リンク

BigQueryとAirflowを活用したDataPlatform運用の10のケース・スタディ

この記事は Eureka Advent Calendar 2019 11日目の記事です。 10日目はスーパーCompSREエンジニア恩田による「AWSのマルチアカウント管理におけるIAMマネジメントで試行錯誤した話」でした。こんにちは。BIチームのデータアナリストの栗村(@t-kurimura)です。主にPairsの機能に関する分析を行っていますが、最近は分析を行うまでのデータを整えるデータアーキテクト的お仕事の比率も増えてきています。さて、この記事では弊社のDataPlatform運用において、試行錯誤してきた中での運用の学びをケース・スタディ的にご紹介します。エウレカのDataPlatformの現状前提として、弊社では3つの層にわけて、アプリケーションログやマーケティングに関連するデータをより分析しやすいデータへと加工しています。 Dataをほぼそのまま保存しているDataLa

yukiyan_w 2019/12/11

リンク

データ指向アプリケーションデザイン

AmazonでMartin Kleppmann, 斉藤太郎, 玉川竜司のデータ指向アプリケーションデザイン ―信頼性、拡張性、保守性の高い分散システム設計の原理。アマゾンならポイント還元本が多数。Martin Kleppmann… 手軽に扱えるデータの量や種類が増える一方、CPUの性能はムーアの法則通りには成長しなくなり、大規模データ処理では、多数のマシンを活用する分散処理が欠かせなくなってきました。クラウドの普及とともに多数のマシンを自ら調達せずとも分散システムを構築できるようにもなっています。しかし驚くべきことに、今までこの分野に入門するための定番の書籍がありませんでした。分散処理にデータ処理が加わる融合分野である上、オープンソースプロジェクトの進化も速く、専門家同士でも共通の理解を構築するのが非常に難しかった分野です。この本を上手に使うと、既存のOSSプロジェクトの位置付けや、

yukiyan_w 2019/07/18

リンク

プライバシー保護技術について〜Google DLP APIのサンプルを少しだけ触ってみた〜

株式会社プレイドのカレンダーです。定期的に http://tech.plaid.co.jp/ にて技術ブログを公開しておりますが、今回は少し軽めのネタを一気に出していこうかと思います。 Google DLP(Data Loss Prevention) APIなどのセンシティブなデータの流出を防ぐためのサービスも出てきており、近年ホットな話題なので、ざっくりと調べてみました。本当にざっくりと。なぜプライバシー保護技術について調べたのか弊社PLAIDが提供するKARTEは、顧客が運営しているサイトにタグを埋め込んで、エンドユーザである来訪者一人一人の行動を可視化することができます。この行動データを送るタグの設定によっては、顧客は来訪者についての細かい行動情報や属性情報をKARTEのサーバに送ることも可能です。また、サイト上でアンケートをとってその結果をKARTEのサーバに送ることなども可

yukiyan_w 2019/06/08

リンク

Go言語のio.Pipeでファイルを効率よくアップロードする方法

パイプ（土管）をGo言語でも楽しめるはじめに前回はGo言語のmime/multipartパッケージによるファイルのアップロードを見ましたが、パフォーマンスの特徴にはあまり触れませんでした。大規模なETLジョブや、制限の厳しいサーバーレスの環境などでは、ファイルを扱うプログラムのリソースを慎重に考える必要があります。本記事ではメモリ使用量を大幅に減らすio.Pipeの使い方を見ていきます。全てのコードはサンプルレポジトリにあります。同期処理にある問題前回のコードをもう一度見てパフォーマンスを考えてみましょう。 // ファイルを開く file, _ := os.Open(filename) // リクエストボディのデータを受け取るio.Writerを生成する。 body := &bytes.Buffer{} // データのmultipartエンコーディングを管理するmultipart.W

yukiyan_w 2019/05/15

golang

リンク

RootlessモードでDockerをより安全にする [DockerCon発表レポート]

NTTの須田です．Moby (≒Docker)，BuildKit，containerdなど，コンテナ関連のオープンソースソフトウェアのメンテナ (開発委員．コミッタとも．)を務めています．また，Docker Meetup Tokyoの企画・運営も行っています． 2019年4月29日～5月2日にかけて， Docker公式のカンファレンスである DockerCon がサンフランシスコにて開催されました． Dockerをより安全に使うための技術「Rootlessモード」に関して発表してきましたので，紹介します． RootlessモードとはRootlessモードは，Dockerデーモン及びコンテナを，非rootユーザで実行する技術です．Rootlessモードを用いることにより，万一Dockerに脆弱性や設定ミスがあっても，攻撃者にホストのroot権限を奪取されることを防ぐことが出来ます．須田は

yukiyan_w 2019/05/12

docker

リンク

Google Cloud Next 2019 in SF , サーバーレス関連発表まとめ

[18 分 20 秒 ~] Cloud Runの概要とデモ、特に [34 分 00 秒 ~] のオートスケーリングのデモはCloud Runの優位性が分かる内容ですさらに Cloud Run に全振りしたセッションとしては以下がオススメです。Cloud Run のリソースモデルや、またCloud Tasks や Cloud Scheduler との連携、さらに具体的なユーザー事例まで盛り沢山です。また、このセッションを見る限り東京でも Cloud Run がすぐに使えるようになりそうです。 [36 分 50秒 ~] VELOLIA 社の事例紹介現状は何に使えそう？Knative をベースにしているものの、今のところ Eventing は Cloud Run と Cloud Run on GKE 両方ともにサポートされておらず、当面は Web や API をホストする環境として使うことになる

yukiyan_w 2019/04/17

リンク

Apache Kafkaを使ったアプリ設計で反省している件を正直ベースで話す

Apache Kafka: Producer, Broker and Consumer2017年は生まれて始めてApache Kafkaを本格的に業務利用（PoCではなく本番運用）した年でした。Apache Kafka的なメッセージングミドルウェアそのもののは、社内的な事情でよく使っていたのでその使い勝手に対して困惑はほとんど無かったですし、ミドルウェアとして非常に安定しているため、Kafkaクラスタそのものでの不具合らしい不具合が発生したことは一度もありませんでした。しかし、Kafkaのトピック設計などに関してのベストプラクティスは事例ベースでもあまり見かけたことがなく、チームメンバーと悩むことも多かったです。このストーリーでは、主にKafkaを利用したアプリ設計で考えたことや失敗したことを振り返りつつ共有します。なお、パーティション数や各種バッファサイズなどのチューニング要素は今回取

yukiyan_w 2019/04/04

kafka

リンク

自然言語処理における、前処理のポータビリティを向上させる

皆さん前処理してますか？どの分野の機械学習でも前処理は重要ですが、自然言語処理は元のデータが数値でないこともあり、処理ステップが多くなりがちです(テキスト=>単語=>単語ID)。また、処理の一貫性を保つには実装コードだけでなくパラメーター(ストップワードなど)も管理する必要があったりします。 Photo by Ramnath Bhat端的には、自然言語処理では前処理のポータビリティを保つのが難しいです。そこで、それを実現するツールを開発しました(Star頂けたら幸いです！)。

yukiyan_w 2019/02/25

便利そう

自然言語処理

リンク

ドワンゴからdotData Japanに転職します

TL;DRドワンゴを退職しましたdotData Japan （以下dotData）に入社しますdotDataはこれから面白くなっていく時期なので、興味あればぜひ（重要上記の通り、ドワンゴを退職（正確には2019/02/15が最終出社日で2019/02/28をもって退職）し、dotDataに入社（既に兼業で働いていて、2019/03/01からフルタイムに切替）します。 Who are you?私自身のプロフィールとかはどうでもいいことでしょうから、やってきたことを。ドワンゴ社内のデータ分析基盤チームでリーダーやアーキテクト、オペレータ等混ざった何でも屋的な立場を担当していました。いわゆる「データエンジニア」「データインフラエンジニア」という職種になります。実際の仕事としては、社内のデータ分析基盤利用相談からデータ設計、各種運用などデータ分析からデータ基盤までそのあたりに関わることは何でも

yukiyan_w 2019/02/15

リンク

Google, Facebookが提供する機械学習基盤まとめ – Moonshot 🚀 – Medium

TFX社内の勉強会でGoogle, Facebookが提供する機械学習基盤に関する論文を紹介したので、その資料を公開します経緯機械学習をサービスとして提供開始すると、継続的な学習やプロダクション環境での機械学習の提供はモデル構築以外にもいろいろと考える問題が多くなります¹ 要するに機械学習をサービスとして届けるには、実はめちゃんこ大変なんだよという話なんですが、みんな同じ問題にぶち当たります。そのためプロダクションレディなレベルで機械学習を提供できるプラットフォームを各社が提案しておりその中でもGoogle, Facebookの事例を提供します。 TL; DR;FBLearner: MLaaSの事例として最初に読むべき論文、MLaaSをどのような戦略で提供しているかを抽象的にまなべるため、鳥瞰図として読みましょうTFXは逆に機械学習基盤が必要とする技術スタックや要件などを詳細に説明して

yukiyan_w 2018/09/05

機械学習

リンク

はてなブックマーク

タグ

ブックマーク / medium.com (56)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス