並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 160件

新着順 人気順

bigdataの検索結果1 - 40 件 / 160件

  • Amazon EMR のバージョンアップ 2/3:メジャーバージョンアップで遭遇した問題 - Repro Tech Blog

    前回の続きです。 EMR 5.36.1 から EMR 6.6.0 への更新について書きます。 EMR 5.36.1 から EMR 6.6.0 への更新 アプリケーション等 EMR 5.36.1 EMR 6.6.0 Tez 0.9.2 0.9.2 Hue 4.10.0 4.10.0 Hive 2.3.9 3.1.2 Hadoop 2.10.1 3.2.1 Presto 0.267 0.267 Trino N/A 367 Amazon Linux 2 2 このバージョンアップでは Hive と Hadoop のメジャーバージョンアップがあるので、Upgrade Amazon EMR Hive Metastore from 5.X to 6.X | AWS Big Data Blog のとおりに Hive メタストアをマイグレートしました。 その後、検証用 EMR cluster を作成してクエ

      Amazon EMR のバージョンアップ 2/3:メジャーバージョンアップで遭遇した問題 - Repro Tech Blog
    • 日本におけるデータエンジニアリングのこれまでとこれから

      2024/04/16(火) に行われた イベントの登壇資料です 先達エンジニアに学ぶ 思考の現在地 Online Conferencehttps://findy.connpass.com/event/313119/

        日本におけるデータエンジニアリングのこれまでとこれから
      • AWS Glue × Apache Iceberg で構築する更新可能なデータレイクテーブル

        こんにちは。シンプルフォーム株式会社 にてインフラエンジニアをしています、山岸です。 社内向けに運用しているデータ分析基盤について現状抱えているいくつかの課題を克服すべく、最近は更改に向けた検証に取り組んでいます。今回は取り組みの一つである「AWS Glue と Apache Iceberg によるデータレイクテーブル構築」についてご紹介したいと思います。 概要 当社ではデータ分析基盤の ETL 処理に AWS Glue を使用しています。社内のデータ分析業務等のため、RDS データベース等のデータソースから日次で S3 上に構築された DWH に連携しています。 現行のデータ分析基盤では、DB テーブル上のデータを毎日全件洗い替えています。このような処理方法は ETL 実装や問題発生時の復旧が簡単である一方、ETL 処理のコスト効率が悪く、データ量の増加に伴って処理時間も長くなっていきま

          AWS Glue × Apache Iceberg で構築する更新可能なデータレイクテーブル
        • データに付加価値を与える技術

          はじめに株式会社ナウキャストでデータエンジニアをしている沼尻です。 この記事では、私が担当している「マッピング」という業務についてご紹介したいと思います。マッピングと言われてもピンと来ないと思いますが、あまり語られることのない(それがゆえに何と呼称したらよいかさえ定かではない)データエンジニアリングの重要な一領域だと思っていて、他社さんにも類似する業務が存在するのではないかと思っています。この記事をきっかけにして、他社さんと情報交換や技術交流などができたら嬉しいですし、ひいては、将来的なマッピング(ないしその類似業務)に関する知識の体系化につながれば幸いです。 マネージャーやエンジニアの募集もしていますので、ご興味を持っていただけたら、この記事の最後に掲載している求人をご確認いただければと思います。 マッピングとは何かナウキャストでは、パートナーから様々なオルタナティブデータ(POSデータ

            データに付加価値を与える技術
          • 【Iceberg 1.5新機能】viewの紹介 - 共通メタデータ形式とバージョン管理が実現する新たな可能性 - 流沙河鎮

            はじめに Iceberg view概要 一般的なクエリエンジンにおけるviewの役割 Iceberg viewを使ってみる Iceberg viewのコンセプト メタデータ形式の共有 viewのバージョン管理 Iceberg viewの構成要素と仕組み View Metadata versionsフィールド representationsフィールド 「create_changelog_view」プロシージャによるIcebergのCDC create_changelog_view create_changelog_viewの使い方 引数 アウトプット create_changelog_viewの実行例 Tips Carry-over Rows Pre/Post Update Images ユースケースのアイデア おわりに Appendix: Viewサポートに関連するPR はじめに 2024

              【Iceberg 1.5新機能】viewの紹介 - 共通メタデータ形式とバージョン管理が実現する新たな可能性 - 流沙河鎮
            • 分散SQLクエリエンジンTrino徹底ガイド - たけぞう瀕死ブログ

              分散SQLクエリエンジンTrino徹底ガイド 作者:Matt Fuller,Manfred Moser,Martin Traverso秀和システムAmazon オライリーから出ているTrino: The Definitive Guideの翻訳だそうです。以前から風の噂で翻訳しているという話を聞いてはいたのですが、ついに発売されたようなので購入してみました。どう考えてもそんなに部数出ていないと思うのですが、近所のさほど大きくない書店でも売っていたので驚きました。 近所の書店にTrino本が売ってたので義務として購入した。 pic.twitter.com/CkA3GwxMzn— Naoki Takezoe (@takezoen) March 25, 2024 もともとPresto版のThe Definitive Guideが2020年に出たものの、Facebook社との名前騒動によりPrest

                分散SQLクエリエンジンTrino徹底ガイド - たけぞう瀕死ブログ
              • TumblrやWordPressがユーザーデータをAIトレーニングに提供する契約を結ぼうとしていたことが判明

                SNSのTumblrとWordPressを保有するAutomatticが、AI企業であるOpenAIやMidjourneyと、AIのトレーニングのためにユーザーデータを提供する旨の契約を結ぼうとしていたことが明らかになりました。データがすでに提供済みかまだ提供されていないかは不明ですが、社内からは、契約には含まれないはずの個人的なデータまで提供するための準備が進められていたとの指摘があるということを、内部文書を入手したニュースサイト・404Mediaが報じています。 Tumblr and WordPress to Sell Users’ Data to Train AI Tools https://www.404media.co/tumblr-and-wordpress-to-sell-users-data-to-train-ai-tools/ Tumblr’s owner is stri

                  TumblrやWordPressがユーザーデータをAIトレーニングに提供する契約を結ぼうとしていたことが判明
                • ローソン「KDDI・三菱商事の共同経営」で王者セブンが負けるかもしれない3つの理由

                  30年のキャリアを誇る経営戦略コンサルタント。情報分析や業界分析に強く、未来予測やイノベーション分野が得意領域。一方で雑学にも強く、経済エンタテナーとして各方面に寄稿。経済クイズ本『戦略思考トレーニング』シリーズは20万部を超えるベストセラー。マスコミ関係者の地下クイズ集団『夜会』のメンバーとしても活躍。 今週もナナメに考えた 鈴木貴博 経済誌をにぎわすニュースや日常的な経済への疑問。そのときどきのトピックスについて経済の専門知識を縦軸に、社会常識を横軸において、ナナメにその意味を考えてみる。 バックナンバー一覧 KDDIがローソンのTOB(株式公開買い付け)を発表したことが話題です。成功すれば、ローソンは「王者セブン-イレブンを超える」かもしれません。これはコンビニのビジネスモデルをも変えかねない、2024年の重大ニュースです。(百年コンサルティング代表 鈴木貴博) KDDIがローソンの

                    ローソン「KDDI・三菱商事の共同経営」で王者セブンが負けるかもしれない3つの理由
                  • Mercari Dataflow Templateの紹介

                    テラーノベルで機械学習を担当している川尻です。テラーノベルで定期実行タスクの管理には、Google CloudのマネージドサービスであるCloud Composerを活用しています。以前にもテラーノベルのテックブログで他のサービスと比較して紹介しています。 定期実行タスクの中で典型的な処理の一つとして、BigQueryで処理した結果をGoogle Cloud StorageやCloud Spannerに書き出すというものが挙げられます。そういった処理のとき、Mercari Dataflow Templateが便利なので紹介します。また、最後にComposerから使うときのTipsをまとめました。 Dataflowのつらいところ Dataflow[1] というのは、Google Cloudのフルマネージドでサーバーレスなデータ処理サービスです。処理のパイプラインは、Apache Beam[2

                      Mercari Dataflow Templateの紹介
                    • BigQueryでクエリ一撃で29万円溶かしたけど助かった人の顔

                      SolanaのPublic DataをBigQueryで取得したかった# えー、お笑いを一席. ブロックチェーンSolanaのデータがGoogle Cloud BigQueryで使えるようになったというニュースをたまたまネット推薦記事でみかけた1. おや, 面白そうだ. ちょっとやってみようかな… BigQueryはさわるのが1年以上つかってないかも, どうやるんだっけ… とりあえずカラムとかサンプルでちょっとデータをみたいよな, こんな感じだっけか? とりあえず動かしてみよう, ポチッとな. … 5秒でレスポンスが帰ってくる. おー、速い. えーっと, あれ課金データ309TB?! いちげきひっさつ、ハサンギロチン2. BigQueryでクエリ一撃5 秒で29万円溶かした人の顔# 話題の画像生成AI, DALL・Eをつかって BigQueryでお金溶かした人の顔を表現してもらった3. あ

                      • 「HELLO CYCLING」で二輪型電動バイクシェアリングの実証実験、安定感ある車両を試乗してみた

                          「HELLO CYCLING」で二輪型電動バイクシェアリングの実証実験、安定感ある車両を試乗してみた
                        • 単なる「お得なポイントカード」ではない…利用者2000万人「セブンイレブンのアプリ」が儲かるすごい仕組み なぜ人によって配信されるクーポンが違うのか

                          2028年にテレビ広告市場を「リテールメディア」が超えると予測されている。その特徴はどこにあるのか。セブン&アイ・ホールディングスの望月洋志さんと日経クロストレンドの中村勇介さんの共著『小売り広告の新市場 リテールメディア』(日経BP)より、セブン‐イレブン・ジャパンの最新事例を紹介する――。 セブン‐イレブンが「メディア」になった日 2022年9月1日、セブン‐イレブン・ジャパンに聞きなれない部署が設置された。その名も「リテールメディア推進部」。同推進部はセブン‐イレブン・ジャパンの広告事業の企画、推進を担う組織である。 一般的にメーカーの宣伝部門が広告宣伝費を使う先はテレビや新聞などのメディアだ。これまでの歴史の中で、セブン‐イレブンをメディアと捉え、メーカーの広告宣伝費が投じられたことが1度もなかったとは言い切れない。だが、少なくともリテールメディア事業を統括する商品本部リテールメデ

                            単なる「お得なポイントカード」ではない…利用者2000万人「セブンイレブンのアプリ」が儲かるすごい仕組み なぜ人によって配信されるクーポンが違うのか
                          • 来春に消滅する「Tポイント」栄華と没落の20年

                            共通ポイントの先駆者が、ついに街から姿を消す。 カルチュア・コンビニエンス・クラブ(CCC)が展開するTポイントと三井住友フィナンシャルグループ(FG)のVポイントが、2024年春に統合する。ID数は合計1.46億人と、楽天などを抜いて国内最大規模となる。 ポイントにひもづく決済機能が弱かったCCCと、決済には強い一方で知名度の低さが課題だった三井住友FGとの間で2023年4月に資本業務提携を結んだ。 新ポイントでは、青と黄のイメージカラーが継承される一方、名称はVポイントに統一。Tポイントのブランドは消滅する。 日本初の共通ポイント Tポイントは2003年、全国1100ものTSUTAYA(ツタヤ)店舗網(当時)とその顧客基盤を背景に、同業態の会員カードを発展させる形で誕生した。日本初の共通ポイントとして、あらゆる業種の有力企業を続々と取り込んでいった。 中でも大きな提携先だったのが、ヤフ

                              来春に消滅する「Tポイント」栄華と没落の20年
                            • 「つながらない」の声が浮き彫りにしたドコモの現状--他社から数年レベルの遅れ鮮明

                              NTTドコモは10月10日、ネットワーク通信品質対策を発表した。 2023年の春ぐらいから、ドコモのユーザーからネットワーク品質に関する不満の声がSNSなどで多く上がっている。当初は渋谷や池袋などの都心部、ターミナル駅周辺が中心であったが、最近では地方にも拡大している印象だ。 他キャリアでは数年前に実施済みの対策をようやく 発表会で実際にドコモのネットワーク通信品質に対する改善策を聞いたが、第一印象としては「後手後手」に回っており、他社に比べても大きく遅れている感が強かった。 例えば、ドコモでは駅や繁華街、住宅地など全国2000カ所以上で集中的に対策を実施。さらに乗降客の多いJRや私鉄などの鉄道動線を強化するという。 しかし、鉄道動線を強化する考え方はKDDIが5G開始当初から行っており、2021年6月にはJR東日本の山手線全30駅、JR西日本の大阪環状線全19駅のホームで、5Gネットワー

                                「つながらない」の声が浮き彫りにしたドコモの現状--他社から数年レベルの遅れ鮮明
                              • オムロン、医療ビッグデータのJMDCを子会社化 TOBで - 日本経済新聞

                                オムロンは8日、医療ビッグデータ収集のJMDCを子会社化する計画を発表した。TOB(株式公開買い付け)を通じてJMDC株を追加取得し、出資比率を現在の31.49%から50%超に引き上げる。取得額は最大855億円を見込む。両社は互いのノウハウを生かし、生活習慣病を防ぐ予防医療ビジネスに力を入れる。TOB価格は1株当たり5700円。JMDCの7日の終値(4684円)に2割のプレミアム(上乗せ幅)を

                                  オムロン、医療ビッグデータのJMDCを子会社化 TOBで - 日本経済新聞
                                • 渋谷100台プロジェクト | IDEA(イデア)

                                  プロジェクトの背景 Intelligence Design 株式会社では、これまで渋谷のセンター街、宮下パークなどに、商業施設や交通管理会社と連携し、AIカメラを設置してきました。(センター街の映像はこちら) 今回、人流データを複合的に可視化、分析することにより、 マーケティングや防犯における新たな視座の獲得や、データ利用価値を模索するべく、渋谷駅周辺の広域に100台のAIカメラを設置します。

                                    渋谷100台プロジェクト | IDEA(イデア)
                                  • データレイクの新しいカタチ:Open Table Formatの紹介 - 流沙河鎮

                                    はじめに Open Table Formatは次世代のデータレイクの基盤となり得る技術で、徐々に導入事例(末尾に列挙)が増えてきているものの、日本での認知度は発展途上な印象がある。本記事ではOpen Table Format登場の背景を紹介する。執筆にあたって、Apache Iceberg: An Architectural Look Under the CoversとAWSにおける Hudi/Iceberg/Delta Lake の 使いどころと違いについてを特に参考にした。 Open Table Formatとは? Open Table Formatとは、従来のデータレイクの技術的な課題&ユースケースの要請に応える形で登場した、データレイクに最適化されたテーブルフォーマットを指す概念で、上手く活用することでクエリプランニング、実行性能の最適化、効率的なUpdateやDelete、タイム

                                      データレイクの新しいカタチ:Open Table Formatの紹介 - 流沙河鎮
                                    • 学習コンテンツ | ビッグデータ・ポータル

                                      概要 ・データの活用方法や統計に関する知識をいつでも学べる学習サイトです。 ・「ビジネスに役立つ統計講座」、「プレゼングラフ作成のポイント」のほか、「データサイエンス・オンライン講座」や「統計データ分析コンペティション」の開講状況等を案内しています。 概要 統計リテラシー向上の取組として、“データサイエンス”力の高い人材育成のため、「社会人のためのデータサイエンス入門」「社会人のためのデータサイエンス演習」「誰でも使える統計オープンデータ」の3つのデータサイエンス・オンライン講座を開講しています。 概要 ・こどもたちに、なるほど統計学園を通じて、日々の出来事の中で統計を意識してもらうとともに、統計データの見方や基礎的な統計の知識のほか、統計の有用性、統計調査の仕組みなどについて学んでもらうことを目的としています。 ・初級編、上級編、参考の3つのカテゴリに分けられ、初級編は小学校高学年から中

                                        学習コンテンツ | ビッグデータ・ポータル
                                      • 新型コロナ・季節性インフルエンザ・RSウイルス リアルタイム流行・疫学情報

                                        本Webサイトでは、エムスリー株式会社が保有する医療リアルワールドデータであるJAMDAS(日本臨床実態調査)をベースとした国内患者数に関する推計値と、厚生労働省または国立感染症研究所(NIID)による公表値を掲載しています。 JAMDASデータは、統計処理された集計データとして個人と紐づかない形で医療機関から提供されており、一切の個人情報を含みません。 新型コロナウイルス感染症新規陽性者全数報告に関する厚生労働省からの公表が2023年5月8日をもって終了したため、本Webサイトにおける新型コロナウイルス感染症新規陽性者の公表値の更新も、2023年5月8日分をもって終了しています。 JAMDASは国内約4,100医療機関(2022年12月時点)由来の臨床データに基づくデータベースで、検査結果等も含んだ前々日までの臨床データをリアルタイムに反映しています。 JAMDAS推計値は、医療機関の受

                                          新型コロナ・季節性インフルエンザ・RSウイルス リアルタイム流行・疫学情報
                                        • Apache Iceberg の table を near real time で更新する

                                          Apache Iceberg の table を near real time に、つまり高頻度で更新するということをやってみた。 Apache Iceberg とは#Apache Iceberg (以下 Iceberg) は分散ファイルシステムやクラウドストレージ上の table format であり、Apache Hudi や Delta Lake と並んで data lake や lakehouse architecture で用いられる。 特徴的なのは table とデータ実体 (Parquet, Avro など) の間に metadata file, manifest list, manifest file の抽象的なレイヤーがあり、ファイル単位で table の状態を track できること。 これにより強い isolation level、パフォーマンス、schema evo

                                            Apache Iceberg の table を near real time で更新する
                                          • 聞けば聞くほど納得しかない……。世界最大のIT企業・テンセント、ゲーム業界制覇への道筋──日本でのヒットこそが、世界的ヒットへの試金石になる!?

                                            日本と中国、両国での実績からテンセントへ──今回の取材の趣旨として、テンセントという企業がゲーム業界において世界的にも非常に重要な企業であるにも関わらず、その実態が知られていなかった、それ故に憶測で語られる部分もあったかと思うのですが、改めて当事者の言葉を聞かせていただきたいと。 レオ氏: よろしくお願いします。僕も日本と中国のゲーム業界で十数年仕事した経験があり、双方の市場を客観的に見てきた立場として共有できることも色々あるかと思いますので、何でも聞いてください。 ──ではさっそく。レオさんがテンセントジャパンに入社されたのは、ちょうどテンセントが日本での展開を本格化するタイミングだったと聞いていますが、それまでの経歴をお教えください。 レオ氏: 初めて来日したのは20年前、早稲田大学の大学院に入った時ですね。それからNTTデータ、次にD2C、DeNA、Bytedance Japan、そ

                                              聞けば聞くほど納得しかない……。世界最大のIT企業・テンセント、ゲーム業界制覇への道筋──日本でのヒットこそが、世界的ヒットへの試金石になる!?
                                            • 風俗客とキャスト「性接触の全国ネットワーク」を可視化 口コミ9万件分析で見えた「世界の狭さ」 - 弁護士ドットコムニュース

                                              誰と誰が性的な関係を持ったかという性接触のネットワークはHIVなどの感染症予防のために古くから研究されてきた。一方で、もっとも他人には知られたくないプライバシーに関わる内容ゆえに大々的な調査は不可能とされ、その実態は謎につつまれていた。 しかし2022年11月、静岡大学の守田智教授と長崎大学の伊東啓助教らのグループは、性風俗の口コミサイトに寄せられたレビューをもとに全国規模の「性接触ネットワーク」の構築に成功したと発表した。 その内容はどんなものなのか。守田教授と伊東助教が解説する。 「ネット上で公開されている風俗店のレビューはある人とある人が性的接触をした証拠なわけです。これを使ってネットワークを作れないかと考えました。レビューの中から女性キャストの名前と客のハンドルネームだけを抜き出して、誰と誰がつながっているのかというのを収集しました。 例えばAさんが静岡のお店で働くaさんに対して口

                                                風俗客とキャスト「性接触の全国ネットワーク」を可視化 口コミ9万件分析で見えた「世界の狭さ」 - 弁護士ドットコムニュース
                                              • 勃起ペニスの長さが30年間で24%も増加していると判明! - ナゾロジー

                                                勃起ペニスの長さが30年間で24%も増加していると判明! / Credit:Canva . ナゾロジー編集部「精子の数が年々低下している」というニュースを聞いたことがある人は多いでしょう。 恐ろしいことに、これは事実です。 男性の生殖にかかわるデータによると、53カ国に住む5万7000人の男性の精子を調べたところ、過去46年間で1mlあたりの精子数が1億400万個から4900万個に、実に50%以上(年率にすると1.2%)減少していたことが報告されています。 さらに精子の減少速度は加速しており、2000年から2018年までの毎年の減少率は2.6%にも及んで切ることが示されました。 受精に必要な精子は1つです。 しかし、膣から子宮への旅を乗り切れる精子は極めて少なく、子供をつくるには1mlあたり4000万個の濃さが必要とされています。 このしきい値を下回る場合、それだけ自然な受精は困難になって

                                                  勃起ペニスの長さが30年間で24%も増加していると判明! - ナゾロジー
                                                • Big Data is Dead

                                                  For more than a decade now, the fact that people have a hard time gaining actionable insights from their data has been blamed on its size. “Your data is too big for your puny systems,” was the diagnosis, and the cure was to buy some new fancy technology that can handle massive scale. Of course, after the Big Data task force purchased all new tooling and migrated from Legacy systems, people found t

                                                    Big Data is Dead
                                                  • エンジニアのスキルマップ・テックリードへの途 - 電通総研 テックブログ

                                                    みなさんこんにちは。電通国際情報サービス(ISID) 金融ソリューション事業部の水野です。 これは電通国際情報サービス Advent Calendar 2022の16日目の記事です。 今回は、ISID金融事業部で運用しているスキルマップについてご紹介します。 テックリードとは 実は、ISIDの少なくとも金融事業部にテックリードと言うポジションはありません。 実在するのはチーフアーキテクトと言う職種のみで、各プロジェクトでリードエンジニアやテックリードという仮想的なロールがあるのが実態です。 一時期はフルスタックエンジニアと呼んでいる時期もありましたが、近年このワーディングが好まれない印象なので、大々的に使っていません。 主観ですが、フルスタックエンジニアはインフラ知識/運用系の知識のウェイトが高いエンジニアで、テックリードはソフトウェアアーキテクチャ、Webアプリケーション実装技術寄りのエ

                                                      エンジニアのスキルマップ・テックリードへの途 - 電通総研 テックブログ
                                                    • 地理空間情報分析とは?衛星画像と位置情報データを触ってみる - Qiita

                                                      位置情報 (GPS) データ - 乗車エリアごとのNYCタクシー運行距離(時系列) 目次 はじめに 地理空間情報分析とは 実際に触ってみた 衛星画像 位置情報データ おわりに はじめに 皆さんは地理空間情報がお好きでしょうか。 「天網恢恢疎にして漏らさず」と老子は言ったそうですが、現代では「地理空間情報」と呼ばれる位置情報が付与されているデータが時々刻々と生み出されており、どこで何が起きているか教えてくれます。今回は世界で何が起きているかを解き明かす「地理空間情報分析」について紹介します。 対象読者: 衛星画像や位置情報を使ったデータ分析に興味のあるエンジニア/分析担当者 目的: 地理空間情報分析で取り扱われるデータ(衛星画像・位置情報)を把握する 留意事項として、今回はそれぞれの処理の詳細な説明はいたしません。ご興味のある方は LinkedIn や弊社ホームページなどからお問い合わせいた

                                                        地理空間情報分析とは?衛星画像と位置情報データを触ってみる - Qiita
                                                      • 新しいデータ基盤アーキテクチャである「データレイクハウス」について調べてみた - Taste of Tech Topics

                                                        最近ソーダストリームを買い、炭酸水を飲むのにはまってます。機械学習エンジニアの@yktm31です。 以前に「AWS Lake Formationでデータレイク体験!」という記事を書いてみて、データ基盤アーキテクチャに興味が湧いてきました。 データレイクハウスは、「データウェアハウス」と「データレイク」を統合したようなアーキテクチャで、 2020年にDatabricks社により提唱され、新しいデータ基盤アーキテクチャとして注目されているようです。 www.databricks.com そこで今回、「データレイクハウス」について調べてみたことをまとめてみたいと思います。 なぜデータレイクハウスが注目されているのか? データウェアハウスの特徴・課題 データレイクの特徴・課題 データレイクハウスの特徴 データレイクハウスのアーキテクチャ Azure Azure Synapse Analyticsを

                                                          新しいデータ基盤アーキテクチャである「データレイクハウス」について調べてみた - Taste of Tech Topics
                                                        • AWS Glue Flexオプションについて - Qiita

                                                          AWS Glue Flexオプション AWS Glueでは2022/08/09にFlexタイプのジョブ実行モードというのが追加されました。 FlexタイプのジョブはEC2のスポットインスタンスのような非占有型のコンピュートキャパシティ上で動作します。 そのため、リソースの使用状況に応じてジョブの開始に時間がかかる場合などがありますが、その分コスト的には通常のジョブに比べ安価になっています。 テスト用途のジョブや実行時間の制約の緩い夜間のバッチジョブなどでコストを安価に抑えながらジョブを実行できるオプションになります。 Flexオプションのコスト 2022年11月現在、東京リージョンではFlexオプションは通常のジョブに比べ最大34%のコスト削減効果があります。 通常 Flex Flexオプションの特徴 FlexオプションはGlue 3.0またはそれ以降のバージョンのETLジョブで利用可能で

                                                            AWS Glue Flexオプションについて - Qiita
                                                          • Databricks + BigQueryでSSOTを実現しようとしている話 - バイセル Tech Blog

                                                            テクノロジー戦略本部データサイエンス部の近藤です。 バイセルはリユース事業を営む会社で急激な成長を遂げていますが、どちらかというと今まではテクノロジーにあまり頼ることなく成長してきました。 そんな中、テクノロジーをちゃんと導入していけばどこまで成長するのか試してみたく、2022年7月にバイセルに入社しました。 バイセルではSSOTの実現のために、RDBのデータをBigQueryにニアリアルタイムで同期する実装を進めていますが、 新たにDatabricksの導入を決めました。 バイセルにどういう課題があり、なぜDatabricksを導入するのかをお話しします。 SSOTとは バイセルの今の課題と未来 どうやって課題を解決するのか なぜApache Sparkなのか Databricksの利点 Databricks導入後の世界 データサイエンス部の野望 SSOTとは データマネジメントでは「S

                                                              Databricks + BigQueryでSSOTを実現しようとしている話 - バイセル Tech Blog
                                                            • 「ETC2.0」がサーバに送信している速度や位置情報、民間活用の動き始まる トラック運行情報や保険にも

                                                              「ETC2.0」がサーバに送信している速度や位置情報、民間活用の動き始まる トラック運行情報や保険にも(1/3 ページ) 高速道路の料金を無線通信で支払えるETCは、1日あたりの利用台数が780万台を超え93.9%が利用するまで普及した。そして次世代版であるETC2.0も、2015年に始まって以来835万台に搭載され、利用率で見ると28.7%を占めるに至っている。高速道路を走っているクルマの4台に1台はETC2.0を使っているわけだ。 しかしETC2.0が、クルマの位置情報や速度などを、国土交通省のサーバに随時アップロードしていることは意外と知られていない。

                                                                「ETC2.0」がサーバに送信している速度や位置情報、民間活用の動き始まる トラック運行情報や保険にも
                                                              • デジタルを問う 欧州からの報告:民主主義を破滅させる巨大IT企業による「監視資本主義」 | 毎日新聞

                                                                膨大な個人データを収益化する巨大IT企業のビジネスモデルを、自著で「監視資本主義」と名付けたショシャナ・ズボフ米ハーバード大経営大学院名誉教授が、毎日新聞のオンライン取材に応じた。ズボフ氏はインターネット空間を支配するこのビジネスモデルは「民主主義にとって破滅的なもの」で、法律によるルール作りが不可欠だと主張。欧州連合(EU)が進める巨大IT規制を、変革に向けた「新たな局面」をもたらす動きだとして高く評価した。 現在のネット空間では、人々がパソコンやスマートフォンで情報を検索したり、ネット交流サービス(SNS)などを使ったりするたびに、利用履歴など個々人に関するデータが収集される仕組みになっている。ズボフ氏はグーグルやフェイスブック(FB、現メタ)などの巨大ITがこれらのデータを事実上無断で利用し、人々がどんな行動をとるのか予測して広告主などに販売する、新たな市場を構築したと指摘する。そし

                                                                  デジタルを問う 欧州からの報告:民主主義を破滅させる巨大IT企業による「監視資本主義」 | 毎日新聞
                                                                • そろそろオープンデータを無秩序に管理するのは卒業したいので📦データを管理するパッケージマネージャを開発した【ツール開発】 - Qiita

                                                                  今回はdim(オープンデータパッケージマネージャ) v1.0のリリースに伴って開発したツールの紹介をしたいと思います。 オープンデータもパッケージマネージャ(apt、npm、gem、pipなど)と同じようにnpm install xxxxxのような形でオープンデータをインストールして管理すると良いのではないかという話です。 以前のバージョンに関しては以下の記事で紹介 【個人開発】パッケージマネージャーの考えを流用してオープンデータ管理ツールを作ってみた話 以前の記事を読んでいてv1.0からの変更点に関して読みたい方 dim v1.0 変更点 オープンデータを無秩序に管理するのはやめたい ソフトウェアやライブラリの管理は世の中様々な体系化された方法が確立されつつあります。ソフトウェアであればaptやbrewなど、ライブラリであれば言語ごとにnpmやgemなどが存在します。しかし、データに関し

                                                                    そろそろオープンデータを無秩序に管理するのは卒業したいので📦データを管理するパッケージマネージャを開発した【ツール開発】 - Qiita
                                                                  • Delta Lake とは何か - connecting the dots

                                                                    はじめに 環境情報 Delta Lake (デルタレイク) とは Delta Lake の実体 Delta Lake の構造 Parquet と Delta の相違点 Parquetとは何か Parquetの構造 Parquet と Delta の違い Delta Lake が生まれた経緯: データレイクと Delta Lake の違い データレイクのメリット データレイクの課題 *Parquetで構築した場合 Delta Lake の特徴 ACIDトランザクションの担保 スケーラブルなメタデータ管理 バッチとストリーミングワークロードの統合 タイムトラベル (バージョン管理) CONSTRAINT句のサポート DML (データ操作言語) のフルサポート UPDATE DELETE MERGE 柔軟なスキーマ管理 1. スキーマ エンフォースメント 2. スキーマ エボリューション ストレ

                                                                      Delta Lake とは何か - connecting the dots
                                                                    • CCC、Tポイントデータをオープン化 - 7000万人の会員データが利用可能に

                                                                      CCCマーケティングとトレジャーデータは7月28日、CDP(Customer Data Platform)領域において業務提携を行い、同意取得済のT会員データ(Tポイントデータ)を、生活者のライフスタイルを基点とした情報プラットフォーム「CDP for LIFESTYLE Insights」として8月から提供を開始すると発表した。 2022年3月現在、名寄せをし重複を排除したT会員数は7025万人で、週間の利用者は2469万人、月間利用者は4175万人だという。この会員により、年間35億件以上の購買トランザクション、15万店舗のネットワークで扱われる60億種類の商品データ、数千項目からなる顧客DNAのペルソナデータ、 オフライン・オンライン上の移動・行動データやメディア接触データ、またCCCマーケティンググループオリジナルのエンハンスデータなとが得られ、データベースに蓄えられている。 20

                                                                        CCC、Tポイントデータをオープン化 - 7000万人の会員データが利用可能に
                                                                      • [動画公開] データ分析を支える技術 データモデリング再入門 #devio2022 | DevelopersIO

                                                                        データアナリティクス事業本部のコンサルティングチームの石川です。クラスメソッド主催のオンラインカンファレンス、Developers.IO 2022にて「データ分析を支える技術 データモデリング再入門」というテーマにてセッション動画と資料を公開いたしました。 セッション概要 「仏作って魂入れず」ということわざがありますが、データモデリングせずにDWHという「器」を導入しただけでは、データ分析は捗りません。 データモデリングを考えずに導入したデータ分析基盤は、データマートの乱立、もしくは、データが分かりにくく、分析に手間がかかるため、あまり使われなくなってしまったり、分析に適さないテーブル構造や構成による性能低下、オーバープロビジョニングによるコスト上昇などの問題が考えられます。 DWH(データウェアハウス)のデータモデリングとは何か、代表的なDWHのデータモデリング手法の紹介と、長所・短所、

                                                                          [動画公開] データ分析を支える技術 データモデリング再入門 #devio2022 | DevelopersIO
                                                                        • 「動画配信、5年後に制限も」 もう1つの電力問題 - 日本経済新聞

                                                                          夏の電力不足への懸念が広がる中、もう1つの電力問題が静かに進んでいる。ICT(情報通信技術)はデータセンターやネットワーク関連の消費電力が急増しており、今後も大幅な増加が見込まれている。背景にあるのが消費電力の大きいGPU(画像処理半導体)の広がり、そして動画配信の拡大だ。国立情報学研究所の佐藤一郎教授は「5年ほどしたら、動画配信やメタバース(仮想空間)には制限がかかる可能性がある」と警鐘を鳴ら

                                                                            「動画配信、5年後に制限も」 もう1つの電力問題 - 日本経済新聞
                                                                          • 「NHK全国ハザードマップ」を公開した理由 34テラバイトのデータと格闘 - NHK

                                                                            34テラバイトのデータと格闘して「全国ハザードマップ」を公開した理由 5月下旬に公開を開始したNHKの「全国ハザードマップ」。川の氾濫による洪水リスクを中心に掲載し、多くの方に活用頂いています。 ⇒「NHK全国ハザードマップ」の紹介記事はこちら 一方で、「市町村が出しているハザードマップがあれば十分だ」「リスクを網羅していない不完全なマップの公開は良くない」「NHKではなく国が取り組むべき仕事ではないか」といった意見も頂きました。 今回なぜ、このような取り組みを行ったのか。どうやってデータを収集して地図を作ったのか。詳しく説明します。 なぜ「デジタルデータ」を集めたのか? 私たちはこれまで「ハザードマップを見て下さい」という呼びかけを、テレビやラジオのニュースや番組、ネット記事、SNSなどで繰り返してきました。 なぜなら、自分の暮らす場所のリスクを知ることが、災害から命を守るスタートだから

                                                                              「NHK全国ハザードマップ」を公開した理由 34テラバイトのデータと格闘 - NHK
                                                                            • データ基盤エンジニアが選んだのは医療ビッグデータの付加価値を高められる会社 - JMDC TECH BLOG

                                                                              医療ビッグデータを活かした事業を幅広く展開しているJMDCでは、様々な分野のスペシャリストが活躍しています。今回、インタビューを実施した松原さんはデータ基盤開発のスペシャリスト。なぜJMDCを選んだのか、具体的にどんな業務を行っているのかについて聞きました。 <プロフィール> 松原 (まつばら)データウェアハウス開発部 医療機関基盤グループ SIerでWebアプリケーション開発、インフラ構築などを担当。リブセンスに転職後、異動をきっかけにデータ基盤開発のスペシャリストを志向し、2021年12月にJMDC入社。テックリードとして、クラウドなど技術面の課題解決に取り組んでいる。 異動をきっかけにデータ基盤エンジニアの道へ ーーはじめに、これまでのキャリアについて聞かせてください。 長らくSIerでWebアプリケーション開発、インフラ構築など幅広く業務を行ってきました。SIer時代に身に付けたク

                                                                                データ基盤エンジニアが選んだのは医療ビッグデータの付加価値を高められる会社 - JMDC TECH BLOG
                                                                              • LINEの大規模なData PlatformにData Lineageを導入した話

                                                                                LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog はじめに こんにちは、Data Platform室IU Devチームの島村です。 Data Platform室では、約400ペタバイトのデータ分析基盤を運用しております。このData Platformは、「Information Universe」(以下、IU) と呼ばれており、LINEの様々なアプリケーションから生成されるデータをLINE社員が活用できるように、データの収集、処理、分析、可視化を提供しています。私が所属するIU Devチームでは、「IU Web」を開発しています IU Webは、IUのデータを安全にかつ効率的に活用できるようにするData Catalog機能を提供しており、LINEグループのあらゆるサービスか

                                                                                  LINEの大規模なData PlatformにData Lineageを導入した話
                                                                                • Cloud DataflowでGCS→BQのパイプラインをPythonで試してみる | DevelopersIO

                                                                                  はじめに データアナリティクス事業本部のkobayashiです。 GoogleCloudのETLサービスのDataflowを調査する機会があり、Google Cloud Storage(以降GCS)にあるCSVファイルをBigQueryにロードする処理をPythonスクリプトで試してみましたのでまとめます。 Dataflow  |  Google Cloud Cloud Storage Text to BigQuery DataflowはマネージドなApache Beam Runnerでプログラミング言語としてはJava,Python,Goを使うことができます。今回やろうとしている「Cloud Storage Text to BigQuery」に関してはGoogle提供のバッチテンプレートがありますが、このテンプレートはJavaで記述されているため使用せずPythonで実装してみます。 B

                                                                                    Cloud DataflowでGCS→BQのパイプラインをPythonで試してみる | DevelopersIO