2023-08-02 What's "Next" JS Meetup
はじめに ABEJAでデータサイエンティストをしている服部です。 今回はLLMで外部データを使うケースについてのお話をしたいと思います。 はじめに LLMと外部データの利用 RetrievalとLLM 0. (事前準備)参照したいテキストデータをDBに格納 1. ユーザの入力文とのテキスト類似度を計算して、関連テキストを抽出する(Retrieval) 2. 関連テキストをLLMのプロンプトに入れ込み、ユーザの入力文に回答する。 Retrieval時の課題 LangChainでの用意 Case1: それぞれの文章がRetrievalしにくい形で保存されている 対策案: ページ構造を意識した形で各文章を格納する 他の対策案 聞き方を明確にする 類似度を測るクエリ文章を置き換える 不要そうな文章をデータから削除する データ自体をLLMで整形し直す Case2: 未知の単語を含む 仮説: ニャオハ
統計データを用いた分析事例を知り、 統計リテラシーを学ぶ ・大人がデータサイエンスを学ぶべき理由 ・統計データからわかること① ・統計データからわかること② ・統計データからわかること③ ・統計リテラシーの重要性 ・統計を利用する際の注意点 データ分析に必要な統計学の基礎を学ぶ ・データの種類 ・代表値~平均・中央・最頻値 ・ヒストグラムと相対度数 ・四分位・パーセンタイル・箱ひげ図 ・分散・標準偏差 ・相関関係 ・回帰分析 ・標本分布 ・信頼区間 データの見方と 適切なグラフの選び方を学ぶ ・統計表の見方 ・比率の見方①-クロスセクションデータ- ・比率の見方②-使い方と注意点- ・時系列データの見方① ・時系列データの見方② ・グラフの選び方① ・グラフの選び方② ・グラフを作る時・読む時の注意点 誰もが使える公的統計データの取得方法と 使い方を学ぶ ・公的統計とは ・公的データの入手
0. はじめに 昨今のAI、DXブームの影響で、機械学習、深層学習(ディープラーニング, Deep Learning) への注目は増すばかりですが、初学者の方にとって機械学習を学ぶハードルは依然高い状態かと思います。 機械学習、特にディープラーニングを習得するには学ぶべきことが多く、また分野によっては難易度が高いということもあり、学んでいる途中で挫折してしまうという人も多いという印象があります。 そこで本記事では、これから機械学習を学びたい方が自学自習する際の助けになるようにと、有用な自習コンテンツをまとめました。 本記事では、機械学習エンジニアとして実務に参画できるレベルを目指して、コンテンツを収集しました。よって機械学習の理論やライブラリに加え、社会実装する上で付随して必要となるソフトウェアエンジニアリングのスキルも含めています。 コンテンツについては、適宜追記していく予定です。 対象
先日、Quora日本語版でこんなやり取りがありました。 基本的にはここで述べた通りの話なのですが、折角なのでブログの方でも記事としてちょっとまとめておこうと思います。題して「何故データサイエンティストになりたかったら、きちんと体系立てて学ばなければならないのか」というお話です。 問題意識としては毎回引き合いに出しているこちらの過去記事で論じられているような「ワナビーデータサイエンティスト」たちをどう導くべきかという議論が以前から各所であり、それらを念頭に置いています。なお毎度のことで恐縮ですが、僕も基本的には独学一本の素人ですので以下の記述に誤りや説明不足の点などあればご指摘くださると幸いです。 一般的なソフトウェア開発と、統計分析や機械学習との違い 統計分析や機械学習を仕事にするなら、その「振る舞い」を体系立てて学ぶ必要がある きちんと体系立てて学ばなかった結果として陥りがちな罠 余談
こんにちは。 データアナリスト 兼 チームのマネージャ としてメルカリという会社に4年ほど勤めていたのですが、色々やった気はするが、思い返してみると結局の所何をしたんだっけ?という気持ちに突然なりました。僕は忘れっぽいので、今後もこういう瞬間は何度も訪れそうな気がしています。 ということで、この4月から新しいことを始めるこのモーメントに自分が何をしたのかをちゃんと書き残しておくことにしました。 自分自身の記憶のアーカイブの役割とともに、誰かの参考になれば望外の喜びです。 大体2016−2019年くらいの話です(今のメルカリのデータ分析チームはもっと進化していますのであしからず。) LTVの概念を導入した2022年現在となってみると非常に不可解ではあるが、私がメルカリに入社した2016年頃には、社内では「LTVを見る」という概念はなかった。 ゆえに、投資がリクープ(回収)できているかどうかを
グラフモデルとSoEとGraphQL / TECH STAND #7 GraphQL 2022/03/03 に行われた stand.fmさん主催の TECH STAND #7 にて上記のタイトルで登壇しました。 今回の内容は GraphQLの採用を検討するにあたって、RESTとの違い、BFFとの違いをデータの観点から言語化したかった Hasuraが良いという意見と, Apolloやgraphql-ruby, gqlgenなどのハンドライティングなGraphQLが良いという意見の違いがどこから生まれているかの考察がしたかった データ指向アプリケーションデザイン(2017年リリース)にSoEやGraphQLへの言及がないため, 今だとこういう内容が書かれているんじゃないかという考察がしたかった をモチベーションに調査・検討しました。 発表のハイライトはこちらです。 以下発表内容です。一部発表時
分析を身につけるには実際に「手を動かす」ことが一番の近道です。 分析ソフトと自治体のオープンデータを使った分析の進め方をとことん詳しく、マニュアル風にご説明します。やってみたいけど難しそう、わからない!という方の参考になればうれしいです。 (※あくまでもイメージをつかむためのものですので、詳しくはネットや参考書など他の情報もご覧ください) 今回のゴール地震による津波で浸水が想定されている区域に、子どもが通う施設がどのくらいあるのか。公開データから分析、可視化する。 以前、私が分析に携わったこの記事では、津波によって浸水が想定されている区域に、高齢者施設がどのくらいあるかを調べました。 このときのデータは、県や自治体などから取材で提供を受けたものがベースになっていました。そのままオープンにすることはできないので、今回は高齢者と同じく避難に手助けが必要な、「子どもの施設」に津波のリスクがあるか
Google が公開している、より良いデータ分析のためのガイドブック「Good Data Analysis」で、データ分析の要所が簡潔にまとめられていて感動した 2022-03-08 Google の非公式ブログで、The Unofficial Google Data Science Blog というデータサイエンスをテーマにしたブログがある。 その中で、 Practical advice for analysis of large, complex data sets の記事を元にして作られた Google Developers Guides: Machine Learning Guides > Good Data Analysis を昨日見かけて読んでいたら素晴らしいドキュメントだったので、ここでその感動を共有したかったので筆をとったしだい。 Good Data Analysis の概
総務省は1月11日、データサイエンスのオンライン講座「誰でも使える統計オープンデータ」を、MOOC講座プラットフォーム「gacco」で開講した。社会人・大学生に、統計オープンデータを活用したデータ分析の手法を解説する講座で、3月7日まで受講できる。 週約3時間×4週間の内容。政府統計の総合窓口「e-Stat」、総務省と統計センターが提供する統計GIS、API機能などを使い、データ分析の手法を学べる。 講師は「統計学が最強の学問である」の著書で知られる統計家の西内啓氏や、総務省統計局の担当者など。 2017年6月に初開講して以来、断続的に開講し、のべ約2万8000人が受講した講座。 関連記事 政府が「ワクチン接種状況ダッシュボード」公開 性別や都道府県別に可視化 政府が、全国の新型コロナワクチンの接種状況を一覧にまとめた「ワクチン接種状況ダッシュボード」を公開。統計情報をまとめたCSVやJS
「西側諸国を支援するために立ち上げた」 2019年秋のある晴れた火曜日の午後、パリのリュクサンブール公園でアレックス・カープ(53)が太極拳をしていた。青のナイキのスウェットパンツに、青のポロシャツ。靴下はオレンジで、スニーカーはチャコールグレー。赤のアクセントが入った白縁のサングラスが、彼の最大の特徴である天に向かって逆立つゴマ塩の髪を引き立てていた。 栗の木の木陰でカープは太極拳と気功の一連の優雅な動きをする。体をひねったり、向きを変えたりするたびに足元の小石や土がわずかに動いた。その姿を、近くにいた10代の若者たちが面白そうに眺める。 10分ほど、そうやって体を動かした後、カープは近くのベンチに行った。そのベンチにはボディーガードの一人が置いた楽器ケースのようなクーラーボックスがある。 ケースにはカープが愛飲するドイツのノンアルコールビールの瓶も数本入っているが、いま中から取り出した
上記の講義を受けて有益であったinputを備忘録としてまとめていく。 ・データを読み解くのにドメイン知識が大いに必要になってくる。ドメイン知識とは専門知識のこと。 ・データは入手法によって「調査データ」「実験データ」「ログデータ」の大きく3つに分けられる。ビックデータと世間でいわれているもののほとんどはログデータであるが、意思決定にはそれに加え多くの調査データがほとんどの場合に必要不可欠。 ・データには、次数が存在する。具体的には、スワイプパターン・入力の声・緯度経度情報・加速度がベースデータだとすると、この人は~さんである・この人は今~にいます・~の方向に向かっている・自動車に乗っているというのはベースデータから導き出せる(メタ化された)一次データであり、~さんの職場は~です・~に興味があります・自動車で~に向かっているなどの情報はさらにメタ化された二次データという。これらを混ぜてしまう
リーガルテック領域のリーディングカンパニーである株式会社LegalForceが、「検索インフラTechTalk!」を開催しました。インフラ領域の中でも「検索インフラ」にフォーカスした今回は、検索インフラに関する具体的な事例や取り組みについて各スピーカーから発表がありました。野口真吾氏は、AWSを用いたデータレイクの基礎について紹介しました。 企業規模に関係なく起こるデータのサイロ化 野口真吾氏(以下、野口):みなさんこんばんは。本日は「検索インフラ Tech Talk!」ということで、検索インフラから少し広げた話題にはなるんですが、「AWSを用いたデータレイクの基礎」というお話をします。よろしくお願いします。 最初に簡単に自己紹介します。アマゾンウェブサービスジャパンでスタートアップ担当のソリューションアーキテクトをしている野口真吾と申します。Twitterでは@nogというIDを使って活
欲しいデータ/コンテンツを取得する際に「場所(IPアドレス)」を指定して取りに行くのではなく、データ/コンテンツの「名前」を指定して取りに行く新しいネットワーク技術と、既存のインターネットが共存するための国際規格が発行されました。 この国際規格により、Society5.0 を支える重要な基盤要素であるIoTにおけるデータ通信が効率化され、様々な産業分野でデジタル化が促進されることが期待されます。 1.背景 現在の通信方式は、通信相手となるサーバの場所(IPアドレス)を指定し、常にそこまでデータ/コンテンツを取りに行くプロセスによって成立しています(図1参照)。この仕組みは、サーバ・端末の位置が変わらず、「一対一」の通信であることを前提として構築されたため、現在のようにサーバ・端末が移動し、「一対多」「多対多」の通信となる場面には十分に対応することができないことがあります。このようなケースで
あけましておめでとうございます。2020年もよろしくお願いします。 2019年は「データサイエンティストなのにデータ万能主義を否定している」的スタンスでのメディア露出が増えました。 発言に矛盾はないと思います。データ触っている人ほど、データに慎重ですよね? 加熱するデータへの過度な期待を、少しでも冷ませられたら幸いです。しかしデータ自体への火は消していない。火を絶やすでないぞぉ。ただ、データ分析の全てを否定したわけではありません。 実は取材を受ける度に「これからは因果関係を発見する因果推論が重要」と主張してきました。2020年代はますます重要性が増すと考えています。 新年1発目のnoteは、その論拠をまとめてみました。 2020年代は因果推論がアツいと思う理由私がデータ分析を始める際、いきなり数字は触りません。まずは「目的」と「アプローチ」を定義するところから始めます。 目的(WHATとW
要約すると, データサイエンス・機械学習周りでよく聞かれること&回答を言語化しました. 「データサイエンティストやりたい」「機械学習エンジニアになりたい」というキャリア志望を持つ方は多いと思います. 私の周りでも, 公私ともにそんな志望者の相談を聞いたり, (主にインターンの学生さんですが)一緒に仕事をしたりする機会もメッチャ多いです. 「ビジネスサイド強いマン」「サーバーサイドエンジニア」という視点からデータエンジニア兼データサイエンティストな自分が, そんな彼ら彼女らにオススメしている, データサイエンティストを目指すためのスキルマップ 各領域のスキルアップを実現するためにオススメしたい書籍 を紹介したいと思います. なお, 昨年も同様のエントリーを書いておりそのUpgrade版となります. shinyorke.hatenablog.com このエントリーの対象読者 データサイエンスに
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く