自分が所属している会社のメンバーの教育用資料として、それなりの規模のデータを扱う時に前提として意識しておかなければいけないことをざっくりまとめたので、弊社特有の話は除外して公開用に整理してみました。 大規模データ処理、分散処理に慣れている人にとっては今更改めて言うことじゃないだろ、みたいな話ばかりだと思いますが、急激にデータスケールが増大してしまったりすると環境に開発者の意識が追い付かないこともあるかと思います。 そういったケースで参考にできるかもしれません。 弊社は基本的にAWSによって運用されているので、AWSを前提にした様なキーワードやサービス名が出てきます。後、句読点があったり無かったりしますが、ご容赦ください。 追記: 社内用の資料の編集なのでかなりハイコンテキストな内容だから誤解するかもしれませんが、これらはそもそもRDBの話ではありません。(関係無くは無いけど) 1000万オ
―― 今のチーム課題と課題解決に向けた取り組みを教えてください。 Wang:私たちのチームでは、主に3つの課題について取り組みを進めています。 まずは1つ目の課題は「マルチテナントのクラスターの運用」についてです。 Hadoopは一般的に、有数のユーザと予測可能なワークロードで運用されていますが、LINEのData OpenによってDAUが700人弱であり、且つワークロードも10万+/日となっています。Isolationがまだ完備されていないので、ユーザ間にリソースの競合が発生している状況です。 2つ目は「Data catalog」についてです。ユーザが自由にデータを生成したり利用したりする環境においては、データのカタログがとても重要です。そのため、Data Lineageを自動的に生成する仕組みが必要となってきます。 そして「大規模のインフラを効率よく運用すること」も私たちの課題です。私
データスワンプとは? データマネジメント用語をわかりやすく解説 近年、多くの企業ではデータを軸にしたビジネス推進を行っています。 データを活用する上で、特に重要視されているのがデータ品質の向上と維持運用を行うデータマネジメントです。 この用語集では、データマネジメントやデータ活用に関する用語を解説しています。 また、データマネジメントの専門家として活動するNTTデータ バリュー・エンジニアが、データ活用のヒントもご紹介しています。 データスワンプ(Data Swamp)とは、データの沼地(Swamp)という意味です。 これの対比語としてデータレイク(Data Lake:データの湖)があります。 沼には、いろんな魚が住んでいるかもしれませんが、水が濁っているため、どこにどんな魚がいるか全く見えません。 また、全く見えないため「魚が住んでいないんじゃないか」とも思い、魚を捕るのも諦めてしまいが
Debanjan SahaGeneral Manager and Vice President of Engineering, Data Analytics Editor’s note: BigQuery Omni is now generally available. For the most up to date information, please read our BigQuery Omni GA blog here. Today, we are introducing BigQuery Omni, a flexible, multi-cloud analytics solution that lets you cost-effectively access and securely analyze data across Google Cloud, Amazon Web Ser
Evren Eryurek PhDDirector Product Management, Google Cloud Data governance is an essential part of managing your cloud infrastructure, particularly if you’re taking advantage of multiple cloud providers. In many industries, you need to show where data has been stored, and how it’s been used, to meet regulations. In addition, using access controls and other data governance tools helps ensure that o
Data scienceWith valuable input from Olena Domanska. Long story shortHow to manage the business data right? This is the question all the businesses like insurance, banking, pharma, industrial, construction, have to answer. The effectiveness of data management in the organization has a direct impact on organizational performance and better tactical and strategic planning. This article describes the
How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh Many enterprises are investing in their next generation data lake, with the hope of democratizing data at scale to provide business insights and ultimately make automated intelligent decisions. Data platforms based on the data lake architecture have common failure modes that lead to unfulfilled promises at scale. To address these
宍戸・稲谷・若目田、三先生によるコメントが日経に出ていました。 デジタル時代の法とは(複眼)デジタル技術の急速な発展が変えるのは、人々の生活や企業活動だけではない。各種の規制や法律のあり方、さらには刑事司法の仕組みまで見直さないと、コロナ危機対応を含めて、日本は世界的なイノベーション競争にnikkei.com 目的ベースに法を変化させるべきとのことなら大賛成です。 それはそれとして、記事中の若目田氏の発言にある『ビッグデータは「21世紀の石油」といわれる価値ある資源』という表現が気になって連続ツイートし、いまこのブログをまとめています。 この表現が日本で取り沙汰されるようになったのはダボス会議の主催者WEFの2011年1月のレポート、『パーソナル・データ:あらたな資産カテゴリの出現(Personal Data: The Emergence of a New Asset Class) 』あた
ODPiがベンダーツール間のオープンメタデータ交換を促進する新しい Egeria Conformance Programを発表 2019年2月11日、サンフランシスコ発 – ビッグデータ ソリューションのオープンエコシステムを加速するODPi (非営利団体 Linux Foundationのプロジェクト) は、ODPi Egeria Conformance Program を発表しました。このプログラムは、自社の製品にODPi Egeriaを使用するベンダーが、一貫性のあるAPIと機能セットを提供できるようにするものです。これにより、データ ガバナンスの専門家は、自社のすべてのデータツールで容易に活用できるエンタープライズ全体のメタデータ カタログを簡単に構築できるようになります。 Egeriaは、ODPi 傘下のオープンソース プロジェクトの1つです。ODPi は、オープンなビッグデー
自分が使いたいと思ったBigQuery上のリソース(tableやview)、内容を事前に完全に把握できている、ということは結構少ないのではないかと思います。そういったときに手助けをしてくれるのがメタデータです。BigQueryのリソースに対するメタデータを、Cloud Data Catalogのタグとして付与する方法を紹介します。Cloud Data Catalogを使うことで、分析者が必要なリソースに素早く辿り付いたり、正確な分析をするためのサポートができます。 BigQuery関連のAudit logを元に、以下の情報をData Catalogのタグに入れた。 - 最後にクエリを投げた{日, 人} - クエリを投げられた回数 「あまり使われていないので、信用できないデータかも」「最後にXXXさんがクエリ投げてるから、詳細詳しいかも」みたいな用途を想定してる pic.twitter.co
This quickstart guide is part of a series that brings a practitioner approach to Data Catalog, a recently announced member of Google Cloud’s Data Analytics services family. Data Catalog is a fully managed and scalable metadata management service that empowers organizations to quickly discover, understand, and manage their data in Google Cloud. Mental modelTo provide some context about Data Catalog
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く