タグ

データとawsに関するkenzy_nのブックマーク (26)

  • 「入門機械学習パイプライン」にSagemaker Studio Labで入門する | Amazon Web Services

    前半の章では、これらの各ステージの意義とTFXを用いた実装を主として取り扱っています。 第3章ではExampleGenを用いた構造化・非構造化データの取り込み方法とベストプラクティスが紹介されています。 それに加えて、取り込んだデータをトレーニング、評価、テスト用に分割する方法や、データセットのバージョン管理についても解説があります。 第4章ではTensorFlow Data Validation (TFDV)を用いてデータセットの検証を行っています。 TFDVを用いてデータから要約統計量を計算し、データセットを表現するスキーマを生成しています。また、スキーマを元に同じ種類の2つのデータセット間(学習データセットと検証データセットや別日に収集された学習データセット)の差が許容されるものであるかをチェックしたり、TFDVを用いてデータセットを選択した特徴量でスライスし、データセットのバイアス

    「入門機械学習パイプライン」にSagemaker Studio Labで入門する | Amazon Web Services
  • AWS Outpostsで実現するオンプレデータレイク - NTT Communications Engineers' Blog

    はじめに こんにちは、イノベーションセンターの鈴ヶ嶺です。普段はクラウドサービスをオンプレ環境でも同様のUI/UXで使用を可能とするハイブリッドクラウド製品の技術検証をしています。 NTT Comでは以下の過去の記事のように、AWSのハイブリッドクラウドソリューションAWS Outposts ラックの導入や技術検証を進めています。 engineers.ntt.com engineers.ntt.com engineers.ntt.com 記事では、AWS Outpostsで実現するオンプレ環境におけるデータレイクのユースケースについて紹介します。 データレイクとは構造化データ、非構造化データに関わらず全てのデータを一元的に保存可能なストレージを意味しています。 このユースケースにより、低遅延性が求められる、もしくは秘匿性の高い大規模なデータをオンプレ環境で一元的に取り扱うことが可能となり

    AWS Outpostsで実現するオンプレデータレイク - NTT Communications Engineers' Blog
  • AWS AthenaでALBのログを過去分も検索する - クラウドワークス エンジニアブログ

    こんにちは。SREチームの田中 (@kangaechu)です。リモートワークで座ってばかりの生活に危機感を感じ、昨年11月頃からランニングを始めました。最初は1キロ走っただけでヒイヒイ言っていたのですが、最近は10キロくらい走れるようになりました。運動は嫌いな方だったのですが、走るのが楽しいと思えるようになったのが一番の収穫かなと思っています。 今回はALB(Application Load Balancer)のログ検索について紹介します。 3行で説明するよ AWSの公式ドキュメントの通りAthenaの設定をするとALBの過去ログが検索できない 正規表現をいい感じにすることで過去ログも検索できるようになった Athenaのテーブル作成、Terraformでできるよ crowdworks.jpのシステムログ検索: Athena システムのイベントを適宜記録し、利用状況の把握や障害時の調査、シ

    AWS AthenaでALBのログを過去分も検索する - クラウドワークス エンジニアブログ
  • 【日本初導入】 AWS Outposts ラックを徹底解説 第1回 〜導入・利用方法の概要〜 - NTT Communications Engineers' Blog

    はじめに こんにちは、イノベーションセンターの福田・鈴ヶ嶺です。 普段はクラウドサービスをオンプレ環境でも同様のUI/UXで使用を可能とするハイブリッドクラウド製品の技術検証をしています。 記事は、今回日で初めて導入した AWS Outposts ラックの仕様、導入方法、利用方法について徹底解説します。次の画像は、実際に導入した AWS Outposts ラックの画像です。 NTT Com では「Node-AI on AWS Outposts」に関するニュースリリースを2022年3月14日に発表いたしました。 今後は「Node-AI on AWS Outposts」を軸に、自社の多様なサービスやソリューションと組み合わせることで、AWSをご利用されるお客さまのデジタルトランスフォーメーションを支援していきます。 国内初、「AWS Outposts」に自社データ分析ツールを組み込んだソリ

    【日本初導入】 AWS Outposts ラックを徹底解説 第1回 〜導入・利用方法の概要〜 - NTT Communications Engineers' Blog
    kenzy_n
    kenzy_n 2022/03/15
    お値段次第か
  • S3のコストダウンを実施してみた - dwango on GitHub

    ブログは2022/2に執筆されています。そのため、アップデートによって内容が現在と異なる可能性があります。 はじめに モバイル事業部プロダクトエンジニアリングセクション マネージャーの安田です。 インフラっぽいことやクラウドっぽいことやデータエンジニアっぽいことをやってます。 今回、モバイル事業部で使うS3のコスト削減のため、ストレージクラスの移行等を行うライフサイクルの設定を行いましたのでご紹介します。 これからS3の管理を行っていく方、コスト削減に興味のある方の参考になれば幸いです。 実施の背景 モバイル事業部ではドワンゴジェイピーやアニメロミックスなど音楽配信ビジネスを中心に展開しており、様々なレーベルからお預かりした楽曲データを管理しています。 また、ニコニコ事業部ができる前からサービスを行っており、多大な量のシステムログやクラウドサービスのログデータなどが存在しています

    S3のコストダウンを実施してみた - dwango on GitHub
    kenzy_n
    kenzy_n 2022/02/16
    S3コストダウンへの施策
  • AWS 導入事例:KDDI株式会社 | AWS

    総合通信事業者としてさまざまなネットワークソリューションを提供する KDDI株式会社。同社は、モバイル通信サービスの au ユーザーに提供しているストレージサービスにおいて、バックエンドのシステムをオンプレミス環境からアマゾン ウェブ サービス(AWS)に移行しました。ストレージデータの移行では、物理アプライアンスを用いた AWS Snowball Edge を活用し、約 2 年で 25PB の大容量データの移行を完遂。AWS への移行と合わせてストレージの階層型最適化機能の有効化を合わせることでお客様の体感を損なわずに運用コストを約 50% まで抑制しています。 AWS 採用の決め手は、移行支援プログラムの AWS Migration Acceleration Program(MAP)を活用して、計画立案フェーズの段階で技術的な価値やコストメリットが見えたことです。当初は無理だと思ってい

    AWS 導入事例:KDDI株式会社 | AWS
    kenzy_n
    kenzy_n 2022/01/06
    構成図ではスッキリとまとまっているが実際のところはかなり入り組んでいて大変だったのでは。
  • 実践 AWSデータサイエンス

    AWSではデータサイエンス分野で利用できるさまざまなサービスが提供されています。書では、それらのサービスを有効に使って、データの収集、分析、モデルの訓練、テスト、デプロイまでの一連のプロセスを行う方法を紹介します。対象とする事例は、ヘルスケアデータ、時系列データ、自然言語処理、画像分類、不正検出、需要予測、レコメンデーションシステムなど非常に多岐にわたります。書の目的は、Amazon SageMakerをはじめとしたAWS機械学習サービスの詳細を説明するだけでなく、AWSのサービスを組み合わせることで、データサイエンスとアプリケーション開発の統合を図り、開発を効率化することであり、データサイエンティスト、データアナリスト、データエンジニア、MLエンジニアはもちろん、アプリケーション開発者や管理職にとっても役に立つ一冊です。 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や

    実践 AWSデータサイエンス
  • 老兵のようなRDBMSからの解放を AWSが手がけるデータストアの再発明

    オンラインで開催されているAWS最大のグローバルカンファレンス「AWS re:Invent 2020」。12月2日に行なわれたAWS CEOのアンディ・ジャシー氏の基調講演では、データストア分野にもフォーカス。ストレージとデータベースの新サービスは、コスト削減と高い性能を求める顧客の声に応えた正常進化と言えそうだ。 もはや古いデータストアでは対応できない 3時間におよぶアンディ・ジャシー氏の基調講演において、コンピュート分野に続いて解説されたのがデータストアの分野だ。ここではデータを利活用するストレージの技術革新に加え、データベースへの取り組みも披露された。 まずゲストとして登壇したのは、2006年のAmazon S3ラウンチ当時にいち早くデータを格納したSmugMugの創業者であるドン・マクスキル氏。S3にデータをホストしたことで、最新の分析やデータ管理ツールを利用でき、1日数十億枚とい

    老兵のようなRDBMSからの解放を AWSが手がけるデータストアの再発明
  • AWS Glue DataBrew 基本用語解説と入門チュートリアル実践まとめ | DevelopersIO

    先日、AWS Glueの新機能としてリリースされた「AWS Glue DataBrew」。 「コードを書かずに”データ前処理”を作成・実行可能」な機能、という触れ込みでしたが、ドキュメントには一連の操作や機能を確認出来る「チュートリアル」も用意されています。 Getting started with AWS Glue DataBrew - AWS Glue DataBrew そこで当エントリでは、公式ドキュメントで紹介されているチュートリアルを実践していく上で必要となる用語の理解、及びチュートリアルの実践内容について紹介していきたいと思います。(※なお、チュートリアル編を試してみたところ、画像キャプチャと情報量が半端無いボリュームになってしまったので、チュートリアル実践内容については章毎にエントリを分けて展開しています。ご了承ください) 目次 AWS Glue DataBrewの基概念

    AWS Glue DataBrew 基本用語解説と入門チュートリアル実践まとめ | DevelopersIO
  • ぐるなびにあった2億ファイルをAWSにデータ移行しました - ぐるなびをちょっと良くするエンジニアブログ

    こんにちは!店舗開発チームの滝口です。 ぐるなびでは、認証・認可のプラットフォーム開発に携わったのち、現在はレストランデータの運用をしつつ、ぐるなび掲載ページや、店舗向け管理画面の開発をしています。 はじめに このたび、オンプレで稼働していた「非構造化データストレージ(通称:UDS)」をAWSに移行しました。 UDS は NAS に保存されているファイルを REST API を介して CRUD 操作できるシステムで、ぐるなびで掲載している店舗の画像や CSSJavascript 等の保存に利用されています。 この記事では NAS に保存されたファイルをどのようにして AWS に移行したのか、その移行方式や AWS アーキテクチャを紹介します。 目次 はじめに 目次 UDS 基情報 今回使った主な AWS AWS を活用して実現したいこと AWS 導入におけるアーキテクチャ AWS

    ぐるなびにあった2億ファイルをAWSにデータ移行しました - ぐるなびをちょっと良くするエンジニアブログ
    kenzy_n
    kenzy_n 2020/07/15
    膨大なファイルのAWSへのお引っ越し
  • AWSが2.3TbpsものDDoS攻撃を受けていたことが判明

    by EpicTop10.com AmazonのクラウドサービスをDDoS攻撃から保護するAWS Shieldが発表したレポートにより、AWSが史上最大級のDDoS攻撃を受けていたことが分かりました。 AWS Shield Threat Landscape Report – Q1 2020 (PDFファイル)https://aws-shield-tlr.s3.amazonaws.com/2020-Q1_AWS_Shield_TLR.pdf 以下は、2020年第1四半期にAWS上で観測されたイベント数を週単位で表したグラフです。赤枠で囲われた部分を見ると、2020年2月17日の週は他の時期に比べて特にイベント量が多いことが分かります。 こうしたイベントにはさまざまな種類がありますが、AWSによると大規模なイベントのほとんどはDDoS攻撃が原因だとのこと。こうした攻撃は激化しつつあり、2018

    AWSが2.3TbpsものDDoS攻撃を受けていたことが判明
    kenzy_n
    kenzy_n 2020/06/18
    AWSを落とすのにはまだ足りない。
  • クラウドにおける安全なデータの廃棄 | Amazon Web Services

    Amazon Web Services ブログ クラウドにおける安全なデータの廃棄 クラウドにおける統制をお客様が考慮する場合、基的な考え方は大きく異なるものではありません。ただし、クラウドならではの統制を考慮すべきケースがあることも事実です。その際には、従来のオンプレミスのやり方を無理にクラウドに当てはめようとしてもうまくは行きません。大事なことはその統制が何を目的としていたのかに立ち返り、その上で、New normal(新しい常識)にあった考え方や実装をすすめる必要性を理解し、実践することです。この投稿では、メディアやデータの廃棄を例として、セキュリティのNew normalを考えていきます。 メディア廃棄における環境の変化 データのライフサイクルに応じた情報資産の管理は多くのお客様の関心事項です。 オンプレミスの統制との変更という観点では、メディア廃棄時の統制は従来のオンプレミス環

    クラウドにおける安全なデータの廃棄 | Amazon Web Services
    kenzy_n
    kenzy_n 2019/12/19
    復元できない安心感と誤って消した時の絶望感
  • AWS と CLOUD 法 | Amazon Web Services

    Amazon Web Services ブログ AWS と CLOUD 法 英国で EU 離脱(Brexit)のニュースがトップ記事となっていますが、先日、ロンドンでもう 1 つ重要なできごとがありました。Richard W. Downing 米国 司法副長官補佐が、Academy of European Law Conference において「海外のデータの合法的使用を明確化する法律」(Clarifying Lawful Overseas Use of Data Act) (通称「“CLOUD 法”」) についての誤解と真実に関してスピーチを行い、その後、米国司法省 (DOJ) から CLOUD 法の目的と範囲を明確にし、多くの誤解に対処するためのホワイトペーパーと FAQ が発表されました。このスピーチと DOJ のホワイトペーパーおよび FAQ をぜひお読みいただき、CLOUD 法の

    AWS と CLOUD 法 | Amazon Web Services
  • ダイソー快進撃を支える「毎晩105億件データ処理」する需要予測システムはどう生まれたか

    小売業の特徴は、いわゆる「ニッパチの法則」(売り上げを支える売れ筋商品は全体の2割という法則)。いかにして売れ筋商品の在庫を把握し、将来の需要を予測して、欠品なく並べ続けるかは生命線だ。 一方、ダイソーの特徴は、取り扱う商品点数が非常に多いことだ。 大創産業情報システム部課長の丸健二郎氏によると、ダイソーは全世界27カ国で5270店に展開し、新商品は毎月約800。「均一価格」は日と同じだが、価格レンジは各国地域の物価に合わせている。 こういう状況では、「人間の能力では在庫を把握するのは難しい」という前提に立って、丸氏が取り組んだのが、POSデータの統計的解析から個店ごとの需要予測をして欠品をなくす「自動発注システム」(2015年導入)だった。 着想後、いくつかの店舗で試験的に導入したところ、着実に欠品率が下がり、「チャンスロス」が解消された。

    ダイソー快進撃を支える「毎晩105億件データ処理」する需要予測システムはどう生まれたか
    kenzy_n
    kenzy_n 2019/06/17
    壮大なデータ処理
  • Amazon CloudWatch Events を使用したサーバーレスパイプラインの構築 | Amazon Web Services

    Amazon Web Services ブログ Amazon CloudWatch Events を使用したサーバーレスパイプラインの構築 AWS サーバーレスヒーローである Forrest Brazeal 氏によるゲスト投稿。Forrest 氏は、Trek10, Inc. のシニアクラウドアーキテクトであり、Trek10 の Think FaaS サーバーレスポッドキャストのホストを務めており、サーバーレスコミュニティのワークショップやイベントで定期的に講演を行っています。 イベントとサーバーレスは、ベイクドビーンズとバーベキューのようにいつも一緒です。サーバーレスという考え方は、ビジネス上の価値を提供するコードやコンフィギュレーションに焦点を当てます。それは結局のところ、外の世界で起こることに対応する構造化データである、イベントを扱うことを意味します。ポーリング中にリソースを消費する長

    Amazon CloudWatch Events を使用したサーバーレスパイプラインの構築 | Amazon Web Services
  • S3で誤ったデータの公開を防ぐパブリックアクセス設定機能が追加されました | DevelopersIO

    こんにちは、臼田です。 S3のセキュリティを向上する素晴らしいアップデートが来ました!ほぼすべてのAWSユーザがこの設定を今すぐ有効化すべきだと思います。 S3で新たにパブリックアクセス設定という機能が追加され、誤ってデータを公開してしまうことを防ぐ設定をAWSアカウント全体・バケット毎にできるようになりました。 Amazon S3 Block Public Access – Another Layer of Protection for Your Accounts and Buckets | AWS News Blog この良さを理解するにはこれまでどうなっていたかを知る必要がありますので、そこから順に説明したいと思います。 これまでのS3セキュリティ これまでS3にはアクセス制御に利用する要素が、主に下記の3種類がありました。 ACL(アクセスコントロールリスト) バケットポリシー I

    S3で誤ったデータの公開を防ぐパブリックアクセス設定機能が追加されました | DevelopersIO
    kenzy_n
    kenzy_n 2018/11/19
    見せてはいけないデータに
  • データベースの有効活用(bigdata) - Qiita

    ビックデータ連携よりデータベースの更新をする方法。 ■前提としてビックデータよりBIGDATA_SETを取得しておくこと。 update staff_tbl set update_day = @today, taisyoku_flg = ture where unit = 'yourOffice' and staff_id = bg@TwitterID; このレスポンスについては2秒以内と推定される。 物理削除については慎重に行うこと。 理論削除のFLGが存在しない場合は、バックアップを必ず取ったうえで DELETE FROM 社員tbl WHERE 社員ID = 'admin'; 忘れずに追加してCOMMIT; ■ ビッグデータセットについて 技術的なことは記事には記載しない。 AWS、IBM等に頼らずともAPIをいくつか取得して独自にリザルトセット感覚でも取得できるが、基礎解析やその

    データベースの有効活用(bigdata) - Qiita
  • Amazon DLMが東京に上陸してEBSのライフサイクル管理が簡単になりました

    $ aws dlm create-lifecycle-policy --description "My tokyo policy" --state ENABLED --execution-role-arn arn:aws:iam::123456789012:role/AWSDataLifecycleManagerDefaultRole --policy-details file://toky-dlm.json --region ap-northeast-1 { "PolicyId": "policy-1a2b3c4d5e6f7g8h9" } 以下の様の作成したライフサイクルポリシーを確認します。 $ aws dlm get-lifecycle-policy --policy-id policy-1a2b3c4d5e6f7g8h9 --region ap-northeast-1 { "Pol

    Amazon DLMが東京に上陸してEBSのライフサイクル管理が簡単になりました
  • New Relic で取得したデータや独自に集計したパフォーマンスログを Re:dash で可視化する - freee Developers Hub

    こんにちは、エンジニアの foostan です。 freee では法人向けの決算や申告まわりの開発を主に行っています。 先日「【AWS・New Relic・freee】合同セミナー AWSで実現するクラウド・ネイティブ ITサービス」というイベントに登壇して来ましたのでまずはその報告をさせて頂きます。 私の発表内容の概要は以下のとおりです。 freeeのクラウドサービス活用術とパフォーマンス改善活動のご紹介 freeeでは会計freeeや給与計算freeeなどのクラウドサービスを開発・運営していますが、実際にはAWSやNew Relicといった様々なクラウドサービスを活用しています。freeeでのクラウドサービス活用術として、いくつか事例を交えながら紹介したいと思います。またサーバのレスポンスタイムの改善にフォーカスして、どのように行っているかをより具体的に、技術的な観点と組織的な観点でご

    New Relic で取得したデータや独自に集計したパフォーマンスログを Re:dash で可視化する - freee Developers Hub
    kenzy_n
    kenzy_n 2017/06/22
    New RelicからRe:dashへの橋渡し
  • アナログ万歳! 100ペタバイトのデータをトラックで運ぶ、Amazonのクラウドサービス

    アナログ万歳! 100ペタバイトのデータをトラックで運ぶ、Amazonのクラウドサービス2017.05.24 10:057,201 湯木進悟 100ペタバイト=10万テラバイト。 昔に比べると、クラウドにデータ保存するコストは格段に下がりました。いまや物理的な制約を受けるディスクにデータを保存するよりは、クラウドへ全データを置いておき、必要なときだけローカルへダウンロードしてくるほうが手間もお金もかからなかったりします。でも、肝心のクラウドへのデータアップロード作業が大変なんですよね…。 そんな悩みを気で抱える会社は、実は想像以上に多いのかもしれません。2001年より衛星からの高解像度画像を配信するサービスを続けてきたDigitalGlobe(デジタルグローブ)は、その典型例でしょう。いまや録りためた画像データ量は100ペタバイト分という、トンでもない量に達してしまいました。いくらネット

    アナログ万歳! 100ペタバイトのデータをトラックで運ぶ、Amazonのクラウドサービス
    kenzy_n
    kenzy_n 2017/05/24
    帯域を圧迫しないというメリットはある