並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 2235件

新着順 人気順

dataの検索結果1 - 40 件 / 2235件

  • 東大が無料公開している超良質なPython/Data Science/Cloud教材まとめ (*随時更新) - Digital, digital and digital

    東京大学がちょっとびっくりするくらいの超良質な教材を無料公開していたので、まとめました Python入門講座 東大のPython入門が無料公開されています。scikit-learnといった機械学習関連についても説明されています。ホントいいです Pythonプログラミング入門 東京大学 数理・情報教育研究センター: utokyo-ipp.github.io 東大のPython本も非常にオススメです Pythonによるプログラミング入門 東京大学教養学部テキスト: アルゴリズムと情報科学の基礎を学ぶ https://amzn.to/2oSw4ws Pythonプログラミング入門 - 東京大学 数理・情報教育研究センター Google Colabで学習出来るようになっています。練習問題も豊富です https://colab.research.google.com/github/utokyo-ip

      東大が無料公開している超良質なPython/Data Science/Cloud教材まとめ (*随時更新) - Digital, digital and digital
    • Google が公開している、より良いデータ分析のためのガイドブック「Good Data Analysis」で、データ分析の要所が簡潔にまとめられていて感動した

      Google が公開している、より良いデータ分析のためのガイドブック「Good Data Analysis」で、データ分析の要所が簡潔にまとめられていて感動した 2022-03-08 Google の非公式ブログで、The Unofficial Google Data Science Blog というデータサイエンスをテーマにしたブログがある。 その中で、 Practical advice for analysis of large, complex data sets の記事を元にして作られた Google Developers Guides: Machine Learning Guides > Good Data Analysis を昨日見かけて読んでいたら素晴らしいドキュメントだったので、ここでその感動を共有したかったので筆をとったしだい。 Good Data Analysis の概

        Google が公開している、より良いデータ分析のためのガイドブック「Good Data Analysis」で、データ分析の要所が簡潔にまとめられていて感動した
      • GitHub上のsensitive dataを削除するための手順と道のり | メルカリエンジニアリング

        Advent Calendar day 7 担当の vvakame です。 予告では Apollo Federation Gateway Node.js実装についてポイント解説 としていましたが、社内各所のご協力によりAdvent Calendarの私の担当日に間に合う形で公開できる運びとなりました。そのため告知とは異なりますが GitHub上のsensitive data削除の手順と道のり をお届けしていきたいと思います。 メルペイVPoE hidekによるday 1の記事で振り返りがあったように、今年、弊社ではCodecovのBash Uploaderに係る情報流出という事案が発生しました。当該インシデント対応において、プレスリリースにも記載のある通り、ソースコード上に混入してしまった認証情報や一部個人情報などの機密性の高い情報(sensitive data)について調査を実施し、対応

          GitHub上のsensitive dataを削除するための手順と道のり | メルカリエンジニアリング
        • 30分でわかるデータ指向アプリケーションデザイン - Data Engineering Study #18

          600ページを超える書籍である「データ指向アプリケーションデザイン」の要点を最近の話題を交えながら解説します。 Data Engineering Study #18 の発表資料です プレゼンテーション https://www.youtube.com/watch?v=ZiKWXc0fSCw イベントURL https://forkwell.connpass.com/event/269125/ データ指向アプリケーションデザイン https://www.oreilly.co.jp/books/9784873118703/

            30分でわかるデータ指向アプリケーションデザイン - Data Engineering Study #18
          • Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python

            ■イベント 
:第54回情報科学若手の会 https://wakate.connpass.com/event/222829/ ■登壇概要 タイトル:Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python 発表者: 
技術本部 DSOC R&D研究員  青見 樹 ▼Twitter https://twitter.com/SansanRandD

              Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python
            • マイクロソフト、ChatGPTに任意のドキュメントを読み込ませて回答を得られる「Azure OpenAI Service On Your Data」パブリックプレビュー開始

              マイクロソフトは、ChatGPTとChatGPT-4に任意のドキュメントなどを読み込ませることで、そのドキュメントに基づいた回答を自然言語で得られる新サービス「Azure OpenAI Service On Your Data」のパブリックプレビューを発表しました。 例えば、社内規約や社内マニュアルなどをChatGPTに読み込ませると、「PCの修理を申し込むための社内手続きは?」といった、汎用の知識だけしか持たない従来のChatGPTでは答えられない質問にも回答できるようになります。 さらに、ChatGPT/ChatGPT-4に任意のドキュメントを読み込ませるための支援ツール「Azure AI Studio」には、そのままチャットボットAIをWebアプリケーションとして公開する機能が備わっています。 これにより、ドキュメントやデータを読み込ませるように設定したチャットAIのサービスを、簡単

                マイクロソフト、ChatGPTに任意のドキュメントを読み込ませて回答を得られる「Azure OpenAI Service On Your Data」パブリックプレビュー開始
              • Treasure Data を退職しました - k0kubun's blog

                約5年5か月働いたTreasure Dataを7/22に退職した。7/25からShopifyに入社し、RustでJITコンパイラを開発してRubyを高速化する仕事をする。 仕事としてやりたい分野が変わってきて自分は今回転職したけど、とても良い会社なので、この記事がTreasure Data (以下TD) で働くことに興味がある人の参考になれば良いと思っている。*1 5年勤続記念にいただいたトロフィー やっていたこと APIチーム 元々TDにはJavaで分散システムを書きたくて入社したのだが、TD入社前に特にそういう経験があるわけでもなく主にRailsをやっていたこともあり、Railsでプラットフォームを開発するチームに入った。基盤開発をやりたいと思いながらサービス開発者として最初働き、後に基盤開発チームにジョインするみたいな過去の経験があったので、今回もそういう感じでいけると考えていた。実

                  Treasure Data を退職しました - k0kubun's blog
                • Infrastructure as Dataとは何か

                  最近GCPから登場したKubernetes YAMLのPackage managerであるKptは「Infrastructure as Data(Configuration as Data)」という考えかたを基礎としてそれを推し進めようとしている.それ以外にもKubernetesのEcosystemには(明示はされていなくても)この考え方が中心にある.Infrastructure as Codeとは何が違うのかなど歴史を振り返りつつまとめてみる. (指針はBorg, Omega, and Kubernetesという論文にあるが「Infrastrcuture as Data(Configuration as Data)」という言葉を明確に定義した文章はない.この記事はReferencesに挙げるいくつかのPodcastにおける@kelseyhightowerの発言や,それに反応する@bgra

                  • ITスキルロードマップ roadmap.sh がすごい。AI and Data Scientist について対応する本をまとめた - Qiita

                    ITスキルロードマップ roadmap.sh がすごい。AI and Data Scientist について対応する本をまとめた機械学習データ分析キャリアデータサイエンスデータサイエンティスト Developer Roadmapsというサイトがすごいです。ITエンジニアの分野別にスキルアップのロードマップが示されています。 言語、基盤、アプリ、かなり網羅されています。 その中のAI and Data Scientist Roadmapについての推薦図書まとめです。 雑感 これだけ学んでいれば「こいつ知ってるな」感がありますね。ただ気になる点としては ビジネス、ドメイン知識や分析目的定義などのスキルについて言及がないのは残念。 いきなり数学から入るコースになってますが、一旦は飛ばしてコード写経してから戻ってきても良いと思います。ここで挫折すると勿体無いので。 計量経済学重視の観点はいいですね

                      ITスキルロードマップ roadmap.sh がすごい。AI and Data Scientist について対応する本をまとめた - Qiita
                    • GPT-4登場以降に出てきたChatGPT/LLMに関する論文や技術の振り返り - Platinum Data Blog by BrainPad

                      本記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 このたびブレインパッドは、LLM/Generative AIに関する研究プロジェクトを立ち上げ、この「Platinum Data Blog」を通じてLLM/Generative AIに関するさまざまな情報を発信をしています。 この記事では、GPT-4の登場から執筆日(2023年5月31日時点)までの2ヶ月間で登場した論文を振り返りながら、まとめて紹介していきます。 LLM/ChatGPTの動向 オープンソースLLM モデル オープンソースLLMの調整 Adapter、LoRA Instruction Tuning Human Feedback プロンプトエンジニアリング プロンプトエンジニアリングの課題①:プロンプトに大量の情報を入れられない プロンプトエンジニアリングの課題②:複雑なタス

                        GPT-4登場以降に出てきたChatGPT/LLMに関する論文や技術の振り返り - Platinum Data Blog by BrainPad
                      • Advanced Data Analysis(旧ChatGPT Code Interpreter)の活用方法を片っ端から試していく

                        Advanced Data Analysis(旧ChatGPT Code Interpreter)の活用方法を片っ端から試していく ChatGPT Code Interpreterをとにかく触ってみる 「Code Interpreterが凄い!」と、みんなが騒いでいるのでとりあえずネットで目についた活用方法を片っ端から試していきたいと思います。 試したら追記していきます。 Code Interpreterのセットアップ 以下3ステップです。簡単ですね。よく分からなかったら別のサイトみてください。 ChatGPT Plusに課金 Setting Beta featuresでCode interpreterのトグルをオン ChatGPTのGPT4でCode Interpreterを選択 以下参考のスクリーンショットです。 Code Interpreterの活用例 ここから活用例を載せていきます

                          Advanced Data Analysis(旧ChatGPT Code Interpreter)の活用方法を片っ端から試していく
                        • Modern Data Stack / モダンデータスタックというトレンドについて - satoshihirose.log

                          はじめに Modern Data Stack ? Modern Data Stack の特徴やメリット、関連するトレンド データインフラのクラウドサービス化 / Data infrastructure as a service データ連携サービスの発展 ELT! ELT! ELT! Reverse ETL テンプレート化された SQL and YAML などによるデータの管理 セマンティックレイヤーの凋落と Headless BI 計算フレームワーク (Computation Frameworks) 分析プロセスの民主化、データガバナンスとデータメッシュの試み プロダクト組み込み用データサービス リアルタイム Analytics Engineer の登場 各社ファウンダーが考える Modern Data Stack さいごに Further Readings はじめに Modern Dat

                            Modern Data Stack / モダンデータスタックというトレンドについて - satoshihirose.log
                          • WebAssembly化したPostgreSQLをWebブラウザ上で実際に動かして学ぶ「Postgres playground」をCrunchy Dataが公開

                            WebAssembly化したPostgreSQLをWebブラウザ上で実際に動かして学ぶ「Postgres playground」をCrunchy Dataが公開 オープンソースのデータベースPostgreSQLの商用サービスを提供しているCrunchy Dataは、WebAssembly化したPostgreSQLをWebブラウザ上で実際に動かしながらPostgreSQLの基本から性能分析などさまざまな機能を学べる「Postgres playground」を公開しました。 Webブラウザ上でPostgreSQLを動かすため、サーバを用意する必要もなく、万が一間違った操作でデータベースを壊したとしてもすぐにインストール直後の初期状態に戻せるため、気軽にPostgreSQLを使って動作を学ぶことができます。 WebAssembly化されたPostgreSQLにはあらかじめチュートリアル用のデータ

                              WebAssembly化したPostgreSQLをWebブラウザ上で実際に動かして学ぶ「Postgres playground」をCrunchy Dataが公開
                            • マイクロソフト、GPT-4に任意のドキュメントなどを読み込ませて回答してもらえる「Azure OpenAI Service On Your Data」が正式サービスに

                              マイクロソフトは、GPT-35-TurboもしくはGPT-4に任意のデータソースを指定することでそのデータの内容を読み込み、質問に対して内容を基に回答できるようになる新機能「Azure OpenAI On Your Data」が正式サービスとなったことを発表しました。 例えば、社内規約や社内マニュアルなどを読み込ませると、「PCの修理を申し込むための社内手続きは?」といった、汎用の知識だけしか持たない従来のGPTでは答えられない質問にも回答できるようになります。 任意のドキュメントを読み込ませるための支援ツール「Azure AI Studio」には、Azure OpenAI On Your DataでカスタマイズしたAIを、チャットボットとして公開する機能も備わっています。 カスタマイズしたチャットAIのサービスを、社内や社外に簡単に公開できるようになります。 Azure OpenAI S

                                マイクロソフト、GPT-4に任意のドキュメントなどを読み込ませて回答してもらえる「Azure OpenAI Service On Your Data」が正式サービスに
                              • ChatGPTの新機能「Advanced Data Analysis(旧Code Interpreter)」にアパレル店舗の売上分析をお願いしたらデータサイエンティストが不要になった|Ainova

                                ChatGPTの新機能「Advanced Data Analysis(旧Code Interpreter)」にアパレル店舗の売上分析をお願いしたらデータサイエンティストが不要になった 2023年7月7日頃に日本でも利用できるようになったChatGPTの新機能「Advanced Data Analysis(旧Code Interpreter)」が凄いと話題なので、架空のアパレル店舗の売上データを元に売上を上げるための分析を依頼してみました。 どうせデータ分析の専門家でないと使いこなせないんだろうなと全然期待していなかったのですが、予想を超えるクオリティでしたので、一部始終を皆様にもご紹介します。 「Advanced Data Analysis」の基本的な機能やどんなことができるかは以下のページでまとめているので、「Advanced Data Analysis」について知りたい人はこちらをご覧

                                • 実践Immutable Data Model - 紙箱

                                  ランキング参加中プログラミング はじめに この記事では、Immutable Data Modelと呼ばれる設計手法をもとに、リレーショナル・データベースにおける、テーブル設計の話を書いています。また、今回の実践で利用する、別の考え方の背景を理解するために、Out of the tar pitという小論文の内容にも言及します。 「状態とは何か?」というややこしい話がたくさん出てきますし、データベースのテーブル設計についての話であることから、たくさんのSQLが出てきます。なので、データモデリングとか状態管理とか、特にSQLとかに興味がない人には面白くないと思います。 そのあたりに興味ある方は、読んでみて欲しいです。 Immutable Data Modelを、実際のアプリケーションで使うデータベースに採用するにあたり、どういう考え方で、どのようにテーブルを構成したか、自分なりの経験を書いていま

                                    実践Immutable Data Model - 紙箱
                                  • ピボットを経てグローバル戦略へ、そして1兆円企業に…Treasure Data CEO・太田一樹の「忘れられない30分間」

                                    データの収集・分析・連携ができるCDP(カスタマーデータプラットフォーム)を手掛けるTreasure Dataは、グローバルでも急成長中の注目SaaS企業。2018年にはArm社へイグジットしましたが、その後、今年になって創業者たちが「出戻り」の形で経営陣につき、さらなる飛躍を目指すというニュースは、業界に驚きをもたらしました。 今でこそCDPとして名高いTreasure Dataも、実はARR 30億円の段階でピボットし、現在の姿へと変わった経緯がありました。その背景にあったストーリー、ピボット後にARR 100億円を突破するため必要だったこと、そしてカムバックの理由まで、共同創業者でCEOを務める太田一樹さんに伺います。 聞き手は、ALL STAR SAAS FUNDマネージング・パートナーの前田ヒロです。 3年でARR10億、しかしテックジャイアントの参戦で…──早速ですが、ARR3

                                      ピボットを経てグローバル戦略へ、そして1兆円企業に…Treasure Data CEO・太田一樹の「忘れられない30分間」
                                    • オプトアウト方法及び法令遵守について - Treasure Data

                                      昨日(3月25日)より当社サービスのオプトアウトや法令遵守についてのご意見がインターネット上で交わされております。また当社へ直接のお問い合わせも頂戴しております。本件を受けまして、当社サービスのオプトアウト方法及び法令遵守に向けた対応についてご説明させていただきます。 (1)Arm Treasure Dataのサービス概要 当社ではカスタマーデータプラットフォーム(CDP)と呼ばれる、データベース基盤のサービス提供を行っております。CDP内に保管されるパーソナルデータは当社の顧客企業が管理・保有するデータであり、広告配信等のマーケティング活動、CRM施策等は各企業の裁量により行われます。技術サポートやシステム運用等、当社サービスの運営上最低限必要な統計情報やログへのアクセスを除き、当社顧客が収集したデータを当社が使用することはなく、当社によるデータ利用は厳しく制限しています。 (2)オプト

                                        オプトアウト方法及び法令遵守について - Treasure Data
                                      • Data Platform Guide - 事業を成長させるデータ基盤を作るには #DataEngineeringStudy / 20200715

                                        Data Engineering Study #1 の発表資料です。 https://forkwell.connpass.com/event/179786/ 当日の動画はYoutubeで閲覧可能です。 https://www.youtube.com/watch?v=hFYNuuAaiTg 参考文献 『Software Design (ソフトウェアデザイン) 2020年7月号』 https://amzn.to/30YueL7 『データマネジメントが30分でわかる本』 https://amzn.to/3fmz8Gw

                                          Data Platform Guide - 事業を成長させるデータ基盤を作るには #DataEngineeringStudy / 20200715
                                        • 竹雄 on Twitter: "プログラミングをしていて”dataの複数形”を使いたくなることが年に365回くらいあるんですけどどうするのが正解なんですか?"

                                          プログラミングをしていて”dataの複数形”を使いたくなることが年に365回くらいあるんですけどどうするのが正解なんですか?

                                            竹雄 on Twitter: "プログラミングをしていて”dataの複数形”を使いたくなることが年に365回くらいあるんですけどどうするのが正解なんですか?"
                                          • Java 20, 21, オブジェクト指向からデータ指向へ / Java20, 21, Object Oriented to Data Oriented

                                            2023/5/10(水)に開催されたTechFeed Experts Night#18での登壇資料です。 https://techfeed.io/events/techfeed-experts-night-18

                                              Java 20, 21, オブジェクト指向からデータ指向へ / Java20, 21, Object Oriented to Data Oriented
                                            • Treasure Dataを退職します - かみぽわーる

                                              急なお知らせですが、8月31日をもってTreasure Dataを退職することになりました。 今後の活動についてはいまのところなにも決まっていないので、自分になにができるのか、どんなニーズがあるのか、いろいろ相談に乗ってもらえるとうれしいです。 きっかけはというと、長年Railsコントリビューター/メンテナーとして並々ならぬ思いで活動してきたんですが。 どのぐらいがんばっていたかというと、たとえば2020年8月時点のコミット数ベースの今年のアクティビティでいうと、上位10人のアクティビティを母数にするとその半数が僕になります。 rails/rails contributors 2020-01-01 - 2020-08-26 Rails 5.0以降のも置いておきます。 rails/rails contributors 2019-01-01 - 2019-12-31 rails/rails c

                                                Treasure Dataを退職します - かみぽわーる
                                              • GitHub - onceupon/Bash-Oneliner: A collection of handy Bash One-Liners and terminal tricks for data processing and Linux system maintenance.

                                                I am glad that you are here! I was working on bioinformatics a few years ago and was amazed by those single-word bash commands which are much faster than my dull scripts, time saved through learning command-line shortcuts and scripting. Recent years I am working on cloud computing and I keep recording those useful commands here. Not all of them is oneliner, but i put effort on making them brief an

                                                  GitHub - onceupon/Bash-Oneliner: A collection of handy Bash One-Liners and terminal tricks for data processing and Linux system maintenance.
                                                • GitHub - lana-k/sqliteviz: Instant offline SQL-powered data visualisation in your browser

                                                  Sqliteviz is a single-page offline-first PWA for fully client-side visualisation of SQLite databases or CSV files. With sqliteviz you can: run SQL queries against a SQLite database and create Plotly charts and pivot tables based on the result sets import a CSV file into a SQLite database and visualize imported data export result set to CSV file manage inquiries and run them against different datab

                                                    GitHub - lana-k/sqliteviz: Instant offline SQL-powered data visualisation in your browser
                                                  • Redisよ安らかに眠れ: Garantia Dataが引き起こしたオープンソースの歴史上最大の強盗とは

                                                    Khawaja Shams Tony Valderrama Erika Tharp TL;DR 2024年3月20日Redis社は、これまでオープンソースとして開発してきたRedis 7.4ソースコードのライセンスを、Redis Source Available License (RSALv2)とServer Side Public License (SSPLv1)のデュアルライセンスに変更すると発表しました。この変更によりRedis社の許可なくRedisを用いたマネージドサービスなどを提供することができなくなります。 2009年1人の情熱的なエンジニアAntirezが作り出したRedisですが、2013年のGarantia Data社の介入により様々なドラマが勃発し2020年にAntirezはIPそしてトレードマークを同社に譲渡します。その後、Redisのコアコミュニティメンバーを中心に

                                                      Redisよ安らかに眠れ: Garantia Dataが引き起こしたオープンソースの歴史上最大の強盗とは
                                                    • 事業に貢献するデータ基盤を作ろう・考え方編 / data_engineering_study_2

                                                      Data Engineering Study #2「データ収集基盤とデータ整備のこれまでとこれから」https://forkwell.connpass.com/event/182769/ 作成者 :しんゆう@データ分析とインテリジェンス Twitter:https://twitter.com/data_analyst_

                                                        事業に貢献するデータ基盤を作ろう・考え方編 / data_engineering_study_2
                                                      • 2022年Reactを使ってる人には必ず知っていてほしい最強のdata fetchingライブラリであるRTK Queryの優位性とメンテナンスの際に役立つTips - Qiita

                                                        import type { ConfigFile } from "@rtk-query/codegen-openapi"; // https://redux-toolkit.js.org/rtk-query/usage/code-generation#simple-usage const config: ConfigFile = { schemaFile: "https://petstore3.swagger.io/api/v3/openapi.json", apiFile: "./store/emptyApi.ts", apiImport: "emptySplitApi", outputFile: "./store/petApi.ts", exportName: "petApi", hooks: true, }; export default config; import { empty

                                                          2022年Reactを使ってる人には必ず知っていてほしい最強のdata fetchingライブラリであるRTK Queryの優位性とメンテナンスの際に役立つTips - Qiita
                                                        • ぼくのかんがえる最高のデータ分析基盤 / strongest-data-architecture-discussion

                                                          # みんなの考えた最強のデータアーキテクチャ https://datatech-jp.connpass.com/event/258157/ ## イベント説明 datatech-jpで集ったデータエンジニアが、それぞれみんなの考えた最強のデータアーキテクチャを紹介し合うという夢のような企画が実現しました! たくさんの新しいプロダクトが群雄割拠する現在、モダンデータスタックなどという言葉も登場しています。 今こそ、どんなプロダクトを選び、どのようなデータ基盤を作れば、効率的にやりたいことが実現できるのか。 5人の猛者からおすすめの構成をご紹介いただきながら、参加者のみなさんとも一緒に考えていく時間としたいと思います。 ぜひ奮ってご参加ください! ## 発表概要 広告配信システムで発生する大量で多種多様のデータ。そして、人間の多種多様なデータへのニーズに耐えるために至ったデータアーキテクチャに

                                                            ぼくのかんがえる最高のデータ分析基盤 / strongest-data-architecture-discussion
                                                          • F1ドライバー対ゲーマー、中止のF1オーストラリアGPに代わり急遽「not the AUS GP」の開催が決定 | Formula1-Data / F1情報・ニュース速報解説

                                                            F1ドライバー対ゲーマー、中止のF1オーストラリアGPに代わり急遽「not the AUS GP」の開催が決定 新型コロナウイルス感染症(COVID-19)の影響で中止されたF1オーストラリアGPの代わりとして、F1ドライバーと世界のトップゲーマーがオンライン上のアルバート・パーク・サーキットで対戦する「not the AUS GP」の開催が決定した。 今週末に開催される予定であった2020年シーズンのFIA-F1世界選手権の開幕戦は、マクラーレンのチームスタッフの一人にCOVID-19の陽性反応が確認された事を受け、初日1回目のフリー走行を2時間後に控えて急遽中止された。 これを受けて元F1ドライバーのジャン=エリック・ベルニュは「この先2ヶ月間レースの予定がない全ての友人達へ。オンライン選手権作ってレースやらない?」と呼びかけ、”仮想オーストラリアGP”の開催が決まった。 他の多くのア

                                                              F1ドライバー対ゲーマー、中止のF1オーストラリアGPに代わり急遽「not the AUS GP」の開催が決定 | Formula1-Data / F1情報・ニュース速報解説
                                                            • 【Team & Project】LINE全社のデータ基盤のミドルウェアやData ingestion pipelineの開発・運用を担当しているチームを紹介します

                                                              ―― 今のチーム課題と課題解決に向けた取り組みを教えてください。 Wang:私たちのチームでは、主に3つの課題について取り組みを進めています。 まずは1つ目の課題は「マルチテナントのクラスターの運用」についてです。 Hadoopは一般的に、有数のユーザと予測可能なワークロードで運用されていますが、LINEのData OpenによってDAUが700人弱であり、且つワークロードも10万+/日となっています。Isolationがまだ完備されていないので、ユーザ間にリソースの競合が発生している状況です。 2つ目は「Data catalog」についてです。ユーザが自由にデータを生成したり利用したりする環境においては、データのカタログがとても重要です。そのため、Data Lineageを自動的に生成する仕組みが必要となってきます。 そして「大規模のインフラを効率よく運用すること」も私たちの課題です。私

                                                                【Team & Project】LINE全社のデータ基盤のミドルウェアやData ingestion pipelineの開発・運用を担当しているチームを紹介します
                                                              • オメガキーボード説明資料 - ΩMEGA BIG DATA & AI ユーザーが喜ぶアドテクノロジー

                                                                • Git for Data「Dolt」というDBの話

                                                                  ここ最近、何やらデータベースの相談をされることが何やら多くなってきたmasamikiです。 今、とあるプロダクトの開発をしようと、要件まとめたり設計したりたりしてるのですが、この仕組みをやるためには…version管理いるなぁ…gitが欲しいなぁ……となってます。 そして、調べてみたところ、2年も前のものですがこんな記事を見つけました。 「DoltとDoltHubが我々の結論だ」とおっしゃってます。 Doltとは Doltは、Gitリポジトリと同じように、フォーク、クローン作成、ブランチ、マージ、プッシュ、プルできる最初で唯一のSQLデータベースです。(← by Google翻訳) おぉ、まさしく、そのままんま、これだ。 他にも、GitRows とかも使えそうかな…と思ってみていたものの、どうやら今の要件にあうのあはDoltっぽそう。 上記事だと、他にもdata.world(Microso

                                                                    Git for Data「Dolt」というDBの話
                                                                  • 統計的因果推論と因果探索について|M3 Data Science Blog

                                                                    こんにちは。エムスリーデータ分析グループの中島です。 本記事ではマーケティングやデータサイエンスの文脈で重要度が高まっている統計的因果推論への足掛かりをデータ分析グループの業務と結び付けながらご紹介したいと思います。 1. はじめに「A→Bの因果関係がある」とは、Aへ介入する(Aを変化させる)ことよって、要因Bを変化させることができることを意味します。 具体例で考えると、投薬(A)の有無によって病気の治癒率(B)が変化する場合、投薬→治癒率の因果関係があるといえるわけです。 このような因果関係をデータを活用して解き明かそうとするのが統計的因果推論の目的ですが、大別するとさらに次の2つに分類されます。 (1) 因果の方向を既知のものとして因果の大きさを評価(因果推論) (2) 因果の方向の決定・探索(因果探索) これらの基本的な考え方と手法について紹介をしたいと思いますが、その前に重要な概念

                                                                      統計的因果推論と因果探索について|M3 Data Science Blog
                                                                    • Azure OpenAIで独自データ追加機能(Add your data)を試してみた - Qiita

                                                                      はじめに 23年6月19日にAzure OpenAIに独自データを追加できる機能「Add your data」がパブリックプレビューで発表されました。GPTは自分が知らない情報に関して、答えることができないですが、この機能を使うことで独自のデータとGPTモデルを簡単に連携させることができ、GPTが知らない独自のデータを参照して回答を生成できるようになります。また、回答のソースを独自データに限定することもできるので、ChatGPTの活用の幅が大きく広がります。 一通り使ってみたので、具体的な利用方法を解説していきます(公式ドキュメントにも詳しく記載されています)。 (23年9月追記) Add your dataにベクトル検索の機能が追加されました。詳細はこちらのブログで丁寧に解説されていますので、ご参照ください。 独自データの追加 使えるモデルはチャット形式のモデル「gpt-3.5-turb

                                                                        Azure OpenAIで独自データ追加機能(Add your data)を試してみた - Qiita
                                                                      • 本番でTableを1つDeleteしてしまいON DELETE CASCADEでさらに4つTable dataが消えた話 - Qiita

                                                                        起きた事 本番環境のデータ調査の依頼を受けた。その調査を受ける前に、それとは別で不要データを本番DBから削除する作業をMySQL Workbenchで行っていた。 本番DBで、データ調査を行う際にMySQL WorkbenchでSQLのselectと間違えてdeleteを実行してしまい、Tableを1つ丸ごとDeleteしてしまった。 ON DELETE CASCADEが親テーブルに設定されてしまっていたため、さらに4つのTable dataが芋づる式に消えてしまった。 ON DELETE CASCADEの説明としては、この記事がわかりやすかったです。 https://www.dbonline.jp/mysql/table/index11.html テーブルの構成(テーブル名などは例として挙げていて、実際のものとは多少異なります) 正しい設定 usersテーブルでuserを削除した時に、そ

                                                                          本番でTableを1つDeleteしてしまいON DELETE CASCADEでさらに4つTable dataが消えた話 - Qiita
                                                                        • 渋川よしき on Twitter: "メモ帳がない時に、とりあえず、ブラウザのアドレスバーにdata:text/html, <body contenteditable>って打ち込めばメモ帳がわりになるのか!!その発想はなかった"

                                                                          メモ帳がない時に、とりあえず、ブラウザのアドレスバーにdata:text/html, <body contenteditable>って打ち込めばメモ帳がわりになるのか!!その発想はなかった

                                                                            渋川よしき on Twitter: "メモ帳がない時に、とりあえず、ブラウザのアドレスバーにdata:text/html, <body contenteditable>って打ち込めばメモ帳がわりになるのか!!その発想はなかった"
                                                                          • Azure Open AI「Add your data」のシンプル設定方法、試した結果の比較と「4つの所感 & 解決案?」 - Qiita

                                                                            Azure Open AI「Add your data」のシンプル設定方法、試した結果の比較と「4つの所感 & 解決案?」AzureCognitiveServicesgpt-3AzureOpenAIServiceonyourdata Azure Open AIの新機能「Add your data」の使用方法の概説、試してみた結果、そして私なり感じた4つの所感とその解決策?を紹介いたします。 ※本領域は変化が激しいです。この内容は23年6月24日時点の情報となります 【記事の目次】 23年Buildでのデータサイエンス・AI系のアップデータについて Azure Open AI「Add your data」のシンプル設定方法 Azure Open AI「Add your data」を使用した結果と、ChatGPT、 Bing AIチャットの比較 私の4つの所感と解決案? 4.1 引用元の引用部

                                                                              Azure Open AI「Add your data」のシンプル設定方法、試した結果の比較と「4つの所感 & 解決案?」 - Qiita
                                                                            • Streamlit • The fastest way to build and share data apps

                                                                              Streamlit turns data scripts into shareable web apps in minutes. All in pure Python. No front‑end experience required.

                                                                                Streamlit • The fastest way to build and share data apps
                                                                              • Data Engineering Study #20 "Introduction to Data Analytics with SQL" Book

                                                                                Data Engineering Study #20「10年戦えるデータ分析入門」回・前半の発表資料です。

                                                                                  Data Engineering Study #20 "Introduction to Data Analytics with SQL" Book
                                                                                • Azure OpenAIの「Add your data」で出来ること出来ないこと

                                                                                  この記事の主題ではないので簡単に説明しますが、PaaSへのアクセスを閉域化するのがPrivate Endpoint、PaaSからのアクセスを閉域化するのがVNet統合です。 非対応だった以前までの内容 では、登場人物全てが閉域化に対応しているのに、なぜ「Add your data」は閉域化できないのでしょうか。それはAzure OpenAIからCognitive Searchへの通信が執筆時点ではパブリックのみになっているからです。「Add your data」の仕組み図を閉域ネットワーク的に書き換えると以下の図のようになります。 ネットワーク閉域化をしている場合、インターネットからのアクセスを遮断するのでAzure OpenAIからのインターネット経由のアクセスができなくなります。そのため、執筆時点では「Add your data」は閉域化できないということになります。Azure Ope

                                                                                    Azure OpenAIの「Add your data」で出来ること出来ないこと