[B! データ][aws] kenzy_nのブックマーク

「入門機械学習パイプライン」にSagemaker Studio Labで入門する | Amazon Web Services

前半の章では、これらの各ステージの意義とTFXを用いた実装を主として取り扱っています。第３章ではExampleGenを用いた構造化・非構造化データの取り込み方法とベストプラクティスが紹介されています。それに加えて、取り込んだデータをトレーニング、評価、テスト用に分割する方法や、データセットのバージョン管理についても解説があります。第４章ではTensorFlow Data Validation (TFDV)を用いてデータセットの検証を行っています。 TFDVを用いてデータから要約統計量を計算し、データセットを表現するスキーマを生成しています。また、スキーマを元に同じ種類の２つのデータセット間（学習データセットと検証データセットや別日に収集された学習データセット）の差が許容されるものであるかをチェックしたり、TFDVを用いてデータセットを選択した特徴量でスライスし、データセットのバイアス

kenzy_n 2022/10/20

リンク

AWS Outpostsで実現するオンプレデータレイク - NTT Communications Engineers' Blog

はじめにこんにちは、イノベーションセンターの鈴ヶ嶺です。普段はクラウドサービスをオンプレ環境でも同様のUI/UXで使用を可能とするハイブリッドクラウド製品の技術検証をしています。 NTT Comでは以下の過去の記事のように、AWSのハイブリッドクラウドソリューションAWS Outposts ラックの導入や技術検証を進めています。 engineers.ntt.com engineers.ntt.com engineers.ntt.com 本記事では、AWS Outpostsで実現するオンプレ環境におけるデータレイクのユースケースについて紹介します。データレイクとは構造化データ、非構造化データに関わらず全てのデータを一元的に保存可能なストレージを意味しています。このユースケースにより、低遅延性が求められる、もしくは秘匿性の高い大規模なデータをオンプレ環境で一元的に取り扱うことが可能となり

kenzy_n 2022/08/09

リンク

AWS AthenaでALBのログを過去分も検索する - クラウドワークスエンジニアブログ

こんにちは。SREチームの田中（@kangaechu）です。リモートワークで座ってばかりの生活に危機感を感じ、昨年11月頃からランニングを始めました。最初は1キロ走っただけでヒイヒイ言っていたのですが、最近は10キロくらい走れるようになりました。運動は嫌いな方だったのですが、走るのが楽しいと思えるようになったのが一番の収穫かなと思っています。今回はALB（Application Load Balancer）のログ検索について紹介します。３行で説明するよ AWSの公式ドキュメントの通りAthenaの設定をするとALBの過去ログが検索できない正規表現をいい感じにすることで過去ログも検索できるようになった Athenaのテーブル作成、Terraformでできるよ crowdworks.jpのシステムログ検索: Athena システムのイベントを適宜記録し、利用状況の把握や障害時の調査、シ

kenzy_n 2022/04/18

リンク

【日本初導入】 AWS Outposts ラックを徹底解説第1回〜導入・利用方法の概要〜 - NTT Communications Engineers' Blog

はじめにこんにちは、イノベーションセンターの福田・鈴ヶ嶺です。普段はクラウドサービスをオンプレ環境でも同様のUI/UXで使用を可能とするハイブリッドクラウド製品の技術検証をしています。本記事は、今回日本で初めて導入した AWS Outposts ラックの仕様、導入方法、利用方法について徹底解説します。次の画像は、実際に導入した AWS Outposts ラックの画像です。 NTT Com では「Node-AI on AWS Outposts」に関するニュースリリースを2022年3月14日に発表いたしました。今後は「Node-AI on AWS Outposts」を軸に、自社の多様なサービスやソリューションと組み合わせることで、AWSをご利用されるお客さまのデジタルトランスフォーメーションを支援していきます。国内初、「AWS Outposts」に自社データ分析ツールを組み込んだソリ

kenzy_n 2022/03/15

お値段次第か

リンク

S3のコストダウンを実施してみた - dwango on GitHub

※本ブログは2022/2に執筆されています。そのため、アップデートによって内容が現在と異なる可能性があります。はじめにモバイル事業本部プロダクトエンジニアリングセクションマネージャーの安田です。インフラっぽいことやクラウドっぽいことやデータエンジニアっぽいことをやってます。今回、モバイル事業部で使うS3のコスト削減のため、ストレージクラスの移行等を行うライフサイクルの設定を行いましたのでご紹介します。これからS3の管理を行っていく方、コスト削減に興味のある方の参考になれば幸いです。実施の背景モバイル事業本部ではドワンゴジェイピーやアニメロミックスなど音楽配信ビジネスを中心に展開しており、様々なレーベルからお預かりした楽曲データを管理しています。また、ニコニコ事業本部ができる前からサービスを行っており、多大な量のシステムログやクラウドサービスのログデータなどが存在しています

kenzy_n 2022/02/16

S3コストダウンへの施策

リンク

AWS 導入事例：KDDI株式会社 | AWS

総合通信事業者としてさまざまなネットワークソリューションを提供する KDDI株式会社。同社は、モバイル通信サービスの au ユーザーに提供しているストレージサービスにおいて、バックエンドのシステムをオンプレミス環境からアマゾンウェブサービス（AWS）に移行しました。ストレージデータの移行では、物理アプライアンスを用いた AWS Snowball Edge を活用し、約 2 年で 25PB の大容量データの移行を完遂。AWS への移行と合わせてストレージの階層型最適化機能の有効化を合わせることでお客様の体感を損なわずに運用コストを約 50％まで抑制しています。 AWS 採用の決め手は、移行支援プログラムの AWS Migration Acceleration Program（MAP）を活用して、計画立案フェーズの段階で技術的な価値やコストメリットが見えたことです。当初は無理だと思ってい

kenzy_n 2022/01/06

構成図ではスッキリとまとまっているが実際のところはかなり入り組んでいて大変だったのでは。

リンク

実践 AWSデータサイエンス

AWSではデータサイエンス分野で利用できるさまざまなサービスが提供されています。本書では、それらのサービスを有効に使って、データの収集、分析、モデルの訓練、テスト、デプロイまでの一連のプロセスを行う方法を紹介します。対象とする事例は、ヘルスケアデータ、時系列データ、自然言語処理、画像分類、不正検出、需要予測、レコメンデーションシステムなど非常に多岐にわたります。本書の目的は、Amazon SageMakerをはじめとしたAWSの機械学習サービスの詳細を説明するだけでなく、AWSのサービスを組み合わせることで、データサイエンスとアプリケーション開発の統合を図り、開発を効率化することであり、データサイエンティスト、データアナリスト、データエンジニア、MLエンジニアはもちろん、アプリケーション開発者や管理職にとっても役に立つ一冊です。正誤表ここで紹介する正誤表には、書籍発行後に気づいた誤植や

kenzy_n 2021/09/30

リンク

老兵のようなRDBMSからの解放を　AWSが手がけるデータストアの再発明

オンラインで開催されているAWS最大のグローバルカンファレンス「AWS re:Invent 2020」。12月2日に行なわれたAWS CEOのアンディ・ジャシー氏の基調講演では、データストア分野にもフォーカス。ストレージとデータベースの新サービスは、コスト削減と高い性能を求める顧客の声に応えた正常進化と言えそうだ。もはや古いデータストアでは対応できない 3時間におよぶアンディ・ジャシー氏の基調講演において、コンピュート分野に続いて解説されたのがデータストアの分野だ。ここではデータを利活用するストレージの技術革新に加え、データベースへの取り組みも披露された。まずゲストとして登壇したのは、2006年のAmazon S3ラウンチ当時にいち早くデータを格納したSmugMugの創業者であるドン・マクスキル氏。S3にデータをホストしたことで、最新の分析やデータ管理ツールを利用でき、1日数十億枚とい

kenzy_n 2020/12/05

リンク

AWS Glue DataBrew 基本用語解説と入門チュートリアル実践まとめ | DevelopersIO

先日、AWS Glueの新機能としてリリースされた「AWS Glue DataBrew」。「コードを書かずに”データ前処理”を作成・実行可能」な機能、という触れ込みでしたが、ドキュメントには一連の操作や機能を確認出来る「チュートリアル」も用意されています。 Getting started with AWS Glue DataBrew - AWS Glue DataBrew そこで当エントリでは、公式ドキュメントで紹介されているチュートリアルを実践していく上で必要となる用語の理解、及びチュートリアルの実践内容について紹介していきたいと思います。(※なお、チュートリアル本編を試してみたところ、画像キャプチャと情報量が半端無いボリュームになってしまったので、チュートリアル実践内容については章毎にエントリを分けて展開しています。ご了承ください) 目次 AWS Glue DataBrewの基本概念

kenzy_n 2020/11/17

リンク

ぐるなびにあった２億ファイルをAWSにデータ移行しました - ぐるなびをちょっと良くするエンジニアブログ

こんにちは！店舗開発チームの滝口です。ぐるなびでは、認証・認可のプラットフォーム開発に携わったのち、現在はレストランデータの運用をしつつ、ぐるなび掲載ページや、店舗向け管理画面の開発をしています。はじめにこのたび、オンプレで稼働していた「非構造化データストレージ（通称：UDS）」をAWSに移行しました。 UDS は NAS に保存されているファイルを REST API を介して CRUD 操作できるシステムで、ぐるなびで掲載している店舗の画像や CSS 、Javascript 等の保存に利用されています。この記事では NAS に保存されたファイルをどのようにして AWS に移行したのか、その移行方式や AWS アーキテクチャを紹介します。目次はじめに目次 UDS 基本情報今回使った主な AWS AWS を活用して実現したいこと AWS 導入におけるアーキテクチャ AWS へ

kenzy_n 2020/07/15

膨大なファイルのAWSへのお引っ越し

リンク

AWSが2.3TbpsものDDoS攻撃を受けていたことが判明

by EpicTop10.com AmazonのクラウドサービスをDDoS攻撃から保護するAWS Shieldが発表したレポートにより、AWSが史上最大級のDDoS攻撃を受けていたことが分かりました。 AWS Shield Threat Landscape Report – Q1 2020 (PDFファイル)https://aws-shield-tlr.s3.amazon aws.com/2020-Q1_AWS_Shield_TLR.pdf 以下は、2020年第1四半期にAWS上で観測されたイベント数を週単位で表したグラフです。赤枠で囲われた部分を見ると、2020年2月17日の週は他の時期に比べて特にイベント量が多いことが分かります。こうしたイベントにはさまざまな種類がありますが、AWSによると大規模なイベントのほとんどはDDoS攻撃が原因だとのこと。こうした攻撃は激化しつつあり、2018

kenzy_n 2020/06/18

AWSを落とすのにはまだ足りない。

リンク

クラウドにおける安全なデータの廃棄 | Amazon Web Services

Amazon Web Services ブログクラウドにおける安全なデータの廃棄クラウドにおける統制をお客様が考慮する場合、基本的な考え方は大きく異なるものではありません。ただし、クラウドならではの統制を考慮すべきケースがあることも事実です。その際には、従来のオンプレミスのやり方を無理にクラウドに当てはめようとしてもうまくは行きません。大事なことはその統制が何を目的としていたのかに立ち返り、その上で、New normal(新しい常識)にあった考え方や実装をすすめる必要性を理解し、実践することです。この投稿では、メディアやデータの廃棄を例として、セキュリティのNew normalを考えていきます。メディア廃棄における環境の変化データのライフサイクルに応じた情報資産の管理は多くのお客様の関心事項です。オンプレミスの統制との変更という観点では、メディア廃棄時の統制は従来のオンプレミス環

kenzy_n 2019/12/19

復元できない安心感と誤って消した時の絶望感

リンク

AWS と CLOUD 法 | Amazon Web Services

Amazon Web Services ブログ AWS と CLOUD 法英国で EU 離脱（Brexit）のニュースがトップ記事となっていますが、先日、ロンドンでもう 1 つ重要なできごとがありました。Richard W. Downing 米国司法副長官補佐が、Academy of European Law Conference において「海外のデータの合法的使用を明確化する法律」(Clarifying Lawful Overseas Use of Data Act) (通称「“CLOUD 法”」) についての誤解と真実に関してスピーチを行い、その後、米国司法省 (DOJ) から CLOUD 法の目的と範囲を明確にし、多くの誤解に対処するためのホワイトペーパーと FAQ が発表されました。このスピーチと DOJ のホワイトペーパーおよび FAQ をぜひお読みいただき、CLOUD 法の

kenzy_n 2019/07/23

リンク

ダイソー快進撃を支える｢毎晩105億件データ処理｣する需要予測システムはどう生まれたか

小売業の特徴は、いわゆる｢ニッパチの法則｣（売り上げを支える売れ筋商品は全体の2割という法則）。いかにして売れ筋商品の在庫を把握し、将来の需要を予測して、欠品なく並べ続けるかは生命線だ。一方、ダイソーの特徴は、取り扱う商品点数が非常に多いことだ。大創産業情報システム部課長の丸本健二郎氏によると、ダイソーは全世界27カ国で5270店に展開し、新商品は毎月約800。｢均一価格｣は日本と同じだが、価格レンジは各国地域の物価に合わせている。こういう状況では、｢人間の能力では在庫を把握するのは難しい｣という前提に立って、丸本氏が取り組んだのが、POSデータの統計的解析から個店ごとの需要予測をして欠品をなくす｢自動発注システム｣（2015年導入）だった。着想後、いくつかの店舗で試験的に導入したところ、着実に欠品率が下がり、｢チャンスロス｣が解消された。

kenzy_n 2019/06/17

壮大なデータ処理

リンク

Amazon CloudWatch Events を使用したサーバーレスパイプラインの構築 | Amazon Web Services

Amazon Web Services ブログ Amazon CloudWatch Events を使用したサーバーレスパイプラインの構築 AWS サーバーレスヒーローである Forrest Brazeal 氏によるゲスト投稿。Forrest 氏は、Trek10, Inc. のシニアクラウドアーキテクトであり、Trek10 の Think FaaS サーバーレスポッドキャストのホストを務めており、サーバーレスコミュニティのワークショップやイベントで定期的に講演を行っています。イベントとサーバーレスは、ベイクドビーンズとバーベキューのようにいつも一緒です。サーバーレスという考え方は、ビジネス上の価値を提供するコードやコンフィギュレーションに焦点を当てます。それは結局のところ、外の世界で起こることに対応する構造化データである、イベントを扱うことを意味します。ポーリング中にリソースを消費する長

kenzy_n 2019/05/08

リンク

S3で誤ったデータの公開を防ぐパブリックアクセス設定機能が追加されました｜ DevelopersIO

こんにちは、臼田です。 S3のセキュリティを向上する素晴らしいアップデートが来ました！ほぼすべてのAWSユーザがこの設定を今すぐ有効化すべきだと思います。 S3で新たにパブリックアクセス設定という機能が追加され、誤ってデータを公開してしまうことを防ぐ設定をAWSアカウント全体・バケット毎にできるようになりました。 Amazon S3 Block Public Access – Another Layer of Protection for Your Accounts and Buckets | AWS News Blog この良さを理解するにはこれまでどうなっていたかを知る必要がありますので、そこから順に説明したいと思います。これまでのS3セキュリティこれまでS3にはアクセス制御に利用する要素が、主に下記の3種類がありました。 ACL(アクセスコントロールリスト) バケットポリシー I

kenzy_n 2018/11/19

見せてはいけないデータに

リンク

データベースの有効活用（bigdata） - Qiita

ビックデータ連携よりデータベースの更新をする方法。 ■前提としてビックデータよりBIGDATA_SETを取得しておくこと。 update staff_tbl set update_day = @today, taisyoku_flg = ture where unit = 'yourOffice' and staff_id = bg@TwitterID; このレスポンスについては2秒以内と推定される。物理削除については慎重に行うこと。理論削除のFLGが存在しない場合は、バックアップを必ず取ったうえで DELETE FROM 社員tbl WHERE 社員ID = 'admin'; 忘れずに追加してCOMMIT; ■ ビッグデータセットについて技術的なことは本記事には記載しない。 AWS、IBM等に頼らずともAPIをいくつか取得して独自にリザルトセット感覚でも取得できるが、基礎解析やその

kenzy_n 2018/11/07

リンク

Amazon DLMが東京に上陸してEBSのライフサイクル管理が簡単になりました

$ aws dlm create-lifecycle-policy --description "My tokyo policy" --state ENABLED --execution-role-arn arn:aws:iam::123456789012:role/AWSDataLifecycleManagerDefaultRole --policy-details file://toky-dlm.json --region ap-northeast-1 { "PolicyId": "policy-1a2b3c4d5e6f7g8h9" } 以下の様の作成したライフサイクルポリシーを確認します。 $ aws dlm get-lifecycle-policy --policy-id policy-1a2b3c4d5e6f7g8h9 --region ap-northeast-1 { "Pol

kenzy_n 2018/08/17

リンク

New Relic で取得したデータや独自に集計したパフォーマンスログを Re:dash で可視化する - freee Developers Hub

こんにちは、エンジニアの foostan です。 freee では法人向けの決算や申告まわりの開発を主に行っています。先日「【AWS・New Relic・freee】合同セミナー AWSで実現するクラウド・ネイティブ ITサービス」というイベントに登壇して来ましたのでまずはその報告をさせて頂きます。私の発表内容の概要は以下のとおりです。 freeeのクラウドサービス活用術とパフォーマンス改善活動のご紹介 freeeでは会計freeeや給与計算freeeなどのクラウドサービスを開発・運営していますが、実際にはAWSやNew Relicといった様々なクラウドサービスを活用しています。freeeでのクラウドサービス活用術として、いくつか事例を交えながら紹介したいと思います。またサーバのレスポンスタイムの改善にフォーカスして、どのように行っているかをより具体的に、技術的な観点と組織的な観点でご

kenzy_n 2017/06/22

New RelicからRe:dashへの橋渡し

リンク

アナログ万歳！ 100ペタバイトのデータをトラックで運ぶ、Amazonのクラウドサービス

アナログ万歳！ 100ペタバイトのデータをトラックで運ぶ、Amazonのクラウドサービス2017.05.24 10:057,201 湯木進悟 100ペタバイト＝10万テラバイト。昔に比べると、クラウドにデータ保存するコストは格段に下がりました。いまや物理的な制約を受けるディスクにデータを保存するよりは、クラウドへ全データを置いておき、必要なときだけローカルへダウンロードしてくるほうが手間もお金もかからなかったりします。でも、肝心のクラウドへのデータアップロード作業が大変なんですよね…。そんな悩みを本気で抱える会社は、実は想像以上に多いのかもしれません。2001年より衛星からの高解像度画像を配信するサービスを続けてきたDigitalGlobe（デジタルグローブ）は、その典型例でしょう。いまや録りためた画像データ量は100ペタバイト分という、トンでもない量に達してしまいました。いくらネット

kenzy_n 2017/05/24

帯域を圧迫しないというメリットはある

リンク

はてなブックマーク

タグ

関連タグで絞り込む (23)

データとawsに関するkenzy_nのブックマーク (26)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス