ビジネスでデータサイエンスを活用するシーンとして、過去データを使って将来を予測するタイプの問題がある。商品販売数や店舗売上高など、折れ線グラフを使って表現するようなデータ(時系列データ)に基づいた時系列分析だ。過去の販売データに基づいて翌月の発注量を決めたり、3年後など中長期の計画を策定したりするのに使う。今回は、この時系列分析に活用しやすい3つのアルゴリズムを見ていこう。 Prophet
人工知能(AI)を研究する非営利団体のOpenAIが、自然言語処理と画像生成を組み合わせたAI「DALL・E」を発表しました。DALL・Eは人間と見分けが付かないほど高精度な文章を生成するAI「GPT-3」のパラメータを使用し、文章からイラストや写真を作り出すことができます。 DALL·E: Creating Images from Text https://openai.com/blog/dall-e/ OpenAI debuts DALL-E for generating images from text | VentureBeat https://venturebeat.com/2021/01/05/openai-debuts-dall-e-for-generating-images-from-text/ OpenAIの公式ブログでは、実際に「DALL・Eに入力したテキスト」と「DA
Information 2024/1/8: pandas , Polars など18を超えるライブラリを統一記法で扱える統合データ処理ライブラリ Ibis の100 本ノックを作成しました。長期目線でとてもメリットのあるライブラリです。こちらも興味があればご覧下さい。 Ibis 100 本ノック https://qiita.com/kunishou/items/e0244aa2194af8a1fee9 はじめに どうもこんにちは、kunishouです。 この度、PythonライブラリであるPolarsを効率的に学ぶためのコンテンツとして 「Python初学者のためのPolars100本ノック」 を作成したので公開します。こちらは2020年9月に公開した「Python初学者のためのpandas100本ノック」の問題内容をPolarsのメソッドに合わせて修正、再編したものになります。本コンテン
「新しい働き方」が声高に叫ばれる令和の時代――。多くの場面で「効率的な作業」についての議論がされている。機械学習を活用した最新ツールを導入し、自動化できる工程を増やす。そして、人が手作業で行う単純労働を極力減らすことで、限られた集中力を、より生産的でクリエイティブな方に向ける。そんな文脈のなかで、多くのビジネスパーソンは暮らしているはずだ。 しかし、こうした時代の潮流に真っ向から逆らう非生産的な文化もいまだに存在する。例えば、メールに添付された表計算ソフトのデータを開いた際に、セルのサイズが均一な正方形に整えられ、セル結合を多用し、方眼紙のマス目状となった1セルに対してそれぞれ1文字のみを入力するという形式になっていたら、ギョッとすることだろう。 表計算ソフトを活用したこうしたファイルは、俗に「神Excel」(ネ申Excel)と呼ばれ、実際に役所で長らく使用されてきた歴史がある。では、なぜ
データサイエンス100本ノック(構造化データ加工編)のPythonの問題を解いていきます。この問題群は、模範解答ではpandasを使ってデータ加工を行っていますが、私達は勉強がてらにNumPyの構造化配列を用いて処理していきます。 次回記事(#2) はじめに Pythonでデータサイエンス的なことをする人の多くはpandas大好き人間かもしれませんが、実はpandasを使わなくても、NumPyで同じことができます。そしてNumPyの方がたいてい高速です。 pandas大好き人間だった僕もNumPyの操作には依然として慣れていないので、今回この『データサイエンス100本ノック』をNumPyで操作することでpandasからの卒業を試みて行きたいと思います。 今回は8問目までをやっていきます。 今回使うのはreceipt.csvだけみたいです。初期データは以下のようにして読み込みました(データ型
目次 なぜSQLのスタイルガイドが重要なのか この記事の目的 この記事の対象者 分析SQLスタイルガイドの指針 基本ルール 命名規則 インデントルール 別名ルール joinルール クエリ分割ルール ⭐ コメント欄で「いや私はこう思う!」という意見をたくさんいただきました!ぜひそちらも御覧ください!(決して揶揄ではないです) なぜSQLのスタイルガイドが重要なのか SQLはプログラミング未経験者でもとっつきやすい言語と言われ、エンジニアや分析を本業としていない人でもSQLを使う機会が増えてきていると思います。 そんなSQLですが、こちらのブログでも指摘されている通り、一般的なスタイルガイドが定まっていません。スタイルガイドとはコードの書き方マナーようなもので、どこで改行するか、空白はいくつ入れるか、大文字を使うかなどの諸々を指します。 もしスタイルガイドが無いとこんな事が起こります コードに
はじめにStable DiffusionだとかChatGPT、LLMみたいな「大規模モデル」って考え方が機械学習業界から出て、スケーリング則に基づいてまだまだ精度が上がるとされている昨今。 (スケーリング則はどうのこうの諸説あるが)さておき、「マルチモーダルに」「あらゆるデータを学習した」「大規模なモデル」が今後数年リードしていく事は間違いないと思う。 そんな中で、我々機械学習エンジニアやデータサイエンティスト、アナリスト、データエンジニア、MLOpsエンジニアみたいな、いわゆるAI屋として働いている人たち、皆が所属するAI組織ってどうなっていくのかな、という話を書いてみる。 データの民主化AIの民主化とデータの民主化AI業界では「AIの民主化」というワードがある。 便宜的にAIというワードが広く使われるようになった辺りで出てきたワードで、OSSやプラットフォーム、ハードの発展によって「A
関連記事 AIで、3歳児のラクガキが“超美麗”に!? 「Meitu」で実験してみた 最近、Twitterを騒がせているのは、スマートフォンアプリ「Meitu」の「AIイラストメーカー」だ。「AIのやつ」などと呼ばれることもある。 お絵かきAI、育児で活躍 “無限塗り絵”に4歳も夢中 塗り絵好きな子どもがいる家庭では、「子どもが好きな塗り絵をどう用意するか」がしばしば課題になる。そこで活躍するのが、お絵かきAIだ。 「10秒でイメージ通りに」 お絵かきAIが変える“デザイン” あるネットショップでの使い方 「AIお絵描きツールのmidjourneyで、アクセサリーごとにオリジナルのラッピングをしています」。輸入雑貨などのネットショップで。 まさに「世界変革」──この2カ月で画像生成AIに何が起きたのか? 2022年8月22日。日本時間にして午前4時ごろ、「世界変革」はついに実行された。「どん
他にも「LatentMajestyDiffusion」「centipidediffusion」「latenddiffusion」「discodiffusion」「dalle2」など存在します。アルゴリズムが違うと同じ呪文でも質の違う画像が生成されるので、気が向いた人は色々と試してみることをお勧めします。 画像生成に関する基本知識画像生成に関するベーススキルは、どんなものを生成する場合でも一緒なので、上級錬金術師に学ぶのが一番早い。参考をいくつか紹介します。 大原則となる考え方を深津さんのnoteから抜粋します。 対話型のAIにとって、呪文プロンプトとは画像錬成の方向性ベクトルを定めるものにすぎない。 だからAIをよく使役するには、2つの理解「ベクトルの方向を強く適宜する力ある言葉ルーンの語彙力」と「再現性をもった呪文の組み立て」が必要になる。 深津さんのnote「魔術として理解するお絵描き
2020年4月24日 国内で1万人を超えた新型コロナウイルスの感染者。NHKでは、このうち4月17日までの9800人余りについて、年代や感染経路などのデータを詳しく分析しました。その結果、最近の感染拡大の特徴が見えてきました。 9852人のデータを分析 NHKは、全国の放送局を通じて自治体が発表した感染者の性別や年代、職業、感染経路などのデータを集め4月17日の時点の9852人について分析しました。 人口10万人あたりの感染者、東京に続き北陸が上位に 感染者の実数で最も多いのは東京都、次は、大阪府ですが、人口10万人あたりでみるとまた違った順位になります。 東京都の20.1人に続くのは、石川県の14.1人、そして福井県の13.5人でした。高知県も9.0人で8番目になっていて、全国平均の7.8人を上回りました。 北陸などでなぜこのような結果になるのか。これらの地域では、特定の企業や医療機関な
ITスキルロードマップ roadmap.sh がすごい。AI and Data Scientist について対応する本をまとめた機械学習データ分析キャリアデータサイエンスデータサイエンティスト Developer Roadmapsというサイトがすごいです。ITエンジニアの分野別にスキルアップのロードマップが示されています。 言語、基盤、アプリ、かなり網羅されています。 その中のAI and Data Scientist Roadmapについての推薦図書まとめです。 雑感 これだけ学んでいれば「こいつ知ってるな」感がありますね。ただ気になる点としては ビジネス、ドメイン知識や分析目的定義などのスキルについて言及がないのは残念。 いきなり数学から入るコースになってますが、一旦は飛ばしてコード写経してから戻ってきても良いと思います。ここで挫折すると勿体無いので。 計量経済学重視の観点はいいですね
はじめに この記事は,Kaggle Advent Calendar 2022第6日目の記事になります。 本記事では、 32GB超のCSVデータの基本統計量を、小規模マシンでも省メモリかつ高速に計算するテクニック について解説します。 Kaggleコンペに限らず、 マシンスペックが低いため、大きなデータセットを満足に処理できず困っている 毎回行うファイル読み込みが遅いので、もっと高速化したい ⚡ といった悩みや課題を抱えている方の参考になれば幸いです。 モチベーション データ分析業務やKaggle等のコンペティションで初めてのデータセットを扱う場合、いきなり機械学習アルゴリズムを行うことはまず無く、最初にデータ観察を行うのが一般的です。 テーブルデータであれば、各カラムの基本統計量(最小値、最大値、平均、分散、四分位数)などを計算・可視化し、データクレンジングの要否や特徴量設計の方針などを検
データ分析とビジネス活用のプロとして、さまざまな業界・フィールドで活躍する「データサイエンティスト」。 スキルセットや必要な知識などが語られることはあるものの、まだはっきりとした定義がなく、いったいどんな人たちなのか?と疑問を持つ人も少なくないのでは。 そこで本企画では、企業で働くデータサイエンティストたちの"リアル"を調査。データサイエンティストを志した理由や興味深かった論文、普段の業務、自社で働く魅力などを22社、52人のデータサイエンティストに聞きました。 企業一覧 DataRobot Japan株式会社 株式会社GA technologies 株式会社HACARUS 株式会社JMDC 株式会社LIFULL MNTSQ株式会社 NABLAS株式会社 株式会社Rist Sansan株式会社 SOMPOホールディングス株式会社 株式会社ZOZO 株式会社ZOZOテクノロジーズ アスクル株
私はこれまで、デジタルトランスフォーメーション(DX)をテーマとして、海外・国内含めおよそ200回以上の講演やセミナーを行ってきました。そこでは、数多くの質疑応答があったのですが、時間の制約上、どうしても一般的な話になりがちでした。本記事では、講演やセミナーでご質問頂いた中から、19個を厳選し徹底的に回答します。 本記事は、「自社のデータ活用に悩んでいる」「何からやればいいのかわからない」「新しく新設したデジタル戦略室に配属された」などデータ・デジタル領域でお仕事をされる全ての方に向けに書きました。読み終えていただければ、データ活用・デジタルトランスフォーメーション(DX)の大方針ともなる羅針盤としてご活用していただけるものと信じています。 デジタルトランスフォーメションという言葉自体、その文脈や人により思い浮かべるものは様々です。ですので、ピンポイントの定義はないと言っていいでしょう。本
闇の魔術に対する防衛術 Advent Calendar 2020の三日目 はじめに データの可視化は非常に難しい。 まずデータの抽出が難しい ・データソースごとの整合性が取れているか ・取得したデータとソースデータに欠損が生じていないか ・SQL文を実行したサマリの結果が部分的に抜け落ちていないか。 その確認は時間的にも精神的にも苦痛。 しかし、苦労して抽出したデータも使い方で全くの無駄になる その例として「可視化や統計」部分に着目してお話をしようと考えた。 データの背景を知らない人には、データ可視化が歩み寄る手段になるし、伝えたい事をインパクトを伴って伝えられるなど非常にメリットである。 ※ただし 「可視化」の使い方によっては誤った理解をさせることも可能。 伝えたい事だけを正しいように見せる方法もあり、 可視化に詳しくない人に誤解を与えて自分の主張を通すこともできるかもしれない。 これは
内 容 統計学は実験や臨床試験、社会調査だけでなく、ビッグデータ分析やAI開発でも不可欠である。ではなぜ統計は科学的な根拠になるのか? 帰納推論や因果推論の背後に存在する枠組みを浮き彫りにし、科学的認識論としてデータサイエンスを捉え直す。科学と哲学を架橋する待望の書。 【ALL REVIEWS】序章(抜粋) 目 次 序 章 統計学を哲学する? 1 本書のねらい 2 本書の構成 第1章 現代統計学のパラダイム 1 記述統計 1-1 統計量 1-2 「思考の経済」としての記述統計 1-3 経験主義、実証主義と帰納の問題 2 推測統計 2-1 確率モデル 2-2 確率変数と確率分布 2-3 統計モデル 2-4 推測統計の世界観と「確率種」 第2章 ベイズ統計 1 ベイズ統計の意味論 2 ベイズ推定 2-1 仮説の確証と反証 2-2 パラメータ推定 2-3 予測 3 ベイズ統計の哲学的側面 3-1
本記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 このたびブレインパッドは、LLM/Generative AIに関する研究プロジェクトを立ち上げ、この「Platinum Data Blog」を通じてLLM/Generative AIに関するさまざまな情報を発信をしています。 この記事では、GPT-4の登場から執筆日(2023年5月31日時点)までの2ヶ月間で登場した論文を振り返りながら、まとめて紹介していきます。 LLM/ChatGPTの動向 オープンソースLLM モデル オープンソースLLMの調整 Adapter、LoRA Instruction Tuning Human Feedback プロンプトエンジニアリング プロンプトエンジニアリングの課題①:プロンプトに大量の情報を入れられない プロンプトエンジニアリングの課題②:複雑なタス
(Image by Gordon Johnson from Pixabay) TL;DR 今年の6月に僕自身がデータサイエンティストに転じて10年という節目の年を迎え、10月でDavenportの「データサイエンティストは21世紀で最もセクシーな職業である」HBR総説から10周年になるのを機に、この10年間のデータサイエンティストという職業の変遷を振り返ることにしました。 6月の回顧録記事でも書いた通り、僕がデータサイエンティストの仕事に就いてから今年で10年になります。最近も同じかどうかは分かりませんが、古くから「10年ひと昔」という常套句がある通りで個人的には大きな節目の年だと感じています。 一方で、今年の10月にはあまりにも有名な「データサイエンティストは21世紀で最もセクシーな職業である」HBR総説が出てから10周年を迎え、後述するようにDavenportは「今もデータサイエンティ
はじめに こんにちは。Yuki | Kagglerです! 先日、Shopeeコンペの順位が確定して銀メダルをいただき、晴れてCompetition Expertになることができました。区切りがいいのでここまで取り組んできたことをまとめてみました。 ※ 6/28追記:Amazonのリンクが切れていたので貼り直しました! プログラミング&機械学習を始めて一年、ようやく Kaggle Expertになることができました!! 行列も正規分布も知らず、ターミナルなんて触ったこともない状態からのスタートでしたが、ようやくここまで来ました。 ここまで来れたのは偏にこれまで関わってきた皆様のお陰です。これからも頑張ります!! pic.twitter.com/kMkaFhqhU9 — ユウキ | Kaggler (@Yuki_Kaggler) May 12, 2021 この記事の対象者 Kaggleをやって
Google Workspace を無料で体験ビジネス メール、ストレージ、ビデオ会議など、さまざまな機能をご利用いただけます。 登録する ※この投稿は米国時間 2020 年 7 月 1 日に、Google Cloud blog に投稿されたものの抄訳です。 Google Cloud では、複雑なクエリを記述できる専門家だけではなく、誰でもデータの力を利用できるようにしたいと考えています。企業が新しい社会に対応する際には、有用なデータに従業員がアクセスして、情報に基づいた意思決定をすばやく行い、ビジネスの成果を向上できるようにすることが重要です。この目標を実現するために、誰でも Google スプレッドシートを使用して膨大なデータセットを簡単に操作できるようにしました。また、データの準備と分析の自動化に役立つインテリジェントな新機能も追加しています。 組み合わせることでさらに便利に: Bi
三菱電機は9月29日、炊飯器や冷蔵庫などの家電製品やネットワーク機器などで複数の脆弱性が見つかったと発表した。悪用されるとDoS攻撃を受けた状態になったり、情報漏えいが発生したりする恐れがあるとしている。 【編集履歴:2022年9月30日午後8時 画像内に対象製品ではないものが含まれていたため修正しました】 対象製品は同社製のエアコン、無線LANアダプター、冷蔵庫、給湯器、バス乾燥機、炊飯器、換気システム、スマートスイッチ、太陽光発電システム、IHクッキングヒーターなど。 見つかったのは(1)情報漏えいの脆弱性、(2)DoSの脆弱性、(3)悪意のあるスクリプトを含むメッセージを応答する脆弱性。認証情報が暗号化されず、盗聴により情報を盗まれる恐れもある。 対象製品と対処法一覧(情報漏えいの脆弱性) 対象製品と対処法一覧(DoS、悪意のあるスクリプトを含むメッセージを応答する脆弱性) 三菱電機
著者のChris I.氏は、カナダ・トロントでデータサイエンティストとして活躍しています。同氏がMediumに投稿した記事『機械学習エンジニアが職を失いつつある。しかし、とにかく機械学習を学ぼう』では、北米のAI業界に関する雑感とAI業界で働き続けるための心得が書かれています。 Chris I.氏が北米のAI市場を見る限りでは、「第三次AIブーム」の熱は冷め、AI技術の研究職に関する求人は減り、AI技術者の供給が需要を上回る景気後退局面に入りました。しかし、こうした見方はAI業界の一側面を見ているに過ぎません。AI研究に対する熱は冷めたかも知れませんが、既存のAI技術を活用して解決すべき問題は、まだ無数にあるのです。このように現状を見たうえで、今後もAI業界で働くにあたっての心得を同氏は以下のように書き記しています。 問題を解決するのに、最先端のAI技術は必要ない。むしろ、既存のAI技術を
米Epic Gamesは2月10日(米国時間)、クラウドストリーミングによりWebブラウザで動作する、3Dキャラクター作成ツール「MetaHuman Creator」を発表した。Unreal Engineで使える2体分のサンプルがダウンロード可能。今後数カ月以内に早期アクセスを提供する予定だ。 MetaHuman Creatorは、18種類のボディータイプ、30種類のヘアスタイル、豊富なライブラリをベースに、リアルタイムレンダリングで確認しながらパラメーターで顔や体のパーツを調整できる。ポイント調整も可能だ。 スニークプレビューを見ると、オープンソースの「MakeHuman」や米Reallusionの「Character Creator」の操作感に近い印象だが、Webブラウザで操作可能なのでプラットフォームやマシンパワーによる制約が少ないという利点は大きい。例えばCharacter Cre
新型コロナ禍でのデマの拡散や炎上は、マスメディアの関与が大きい――。ネット上のデマを研究する東京大学大学院工学系研究科の鳥海不二夫准教授はこう語る。 鳥海准教授は計算社会科学や人工知能(AI)技術の社会応用を専門とする。同氏は日経クロステックが2020年6月3日に開催したウェビナーシリーズ「コロナとAI」で「コロナ禍のソーシャルメディア~データから見る社会」と題して講演し、SNS(交流サイト)から新型コロナウイルス感染症をめぐるデマや感情を割り出したデータ分析結果を紹介した。 SNSは人々の行動や感情が記録される点で「社会を表す鏡」の1つである一方、情報量が多すぎて人間が全てを理解するのは不可能だ。そこで鳥海准教授は、SNSの1つであるTwitterのツイートを分析することで社会を網羅的、客観的にとらえなおす研究に取り組んでいる。 「トイレットペーパーが不足するというデマ」がデマだった 2
2023年11月19日に統計検定1級を受験し,統計数理,統計応用(社会科学)にダブル合格。 勉強期間半年(半分ダラダラ)で一発合格できた経験をもとに主観込み込みで綴っていきたいと思う。 結論 結論からいいます。統計検定1級に受かりたければやることはただひとつ。 現代数理統計学の基礎を完璧にする。 これだけです。現代数理統計学?統計検定準1級ワークブック?過去問?いりません。 現代数理統計学の基礎,この本を仕上げ切るまでは手をつけなくていいです。 なぜ僕がこう言い切れるのか軽く説明していきたいと思います。 簡単な自己紹介 某都内私立大学3年生。大学の授業で線形代数,微積,確率統計の基礎を履修。受験期は理系で数3も勉強していたためそこまで数学に対する抵抗はない。というか数学に抵抗のある方は統計検定1級に向いてないと思う。 なぜ現代数理統計学の基礎だけでいいのか 統計応用の勉強はどうするの?そう
夕燐 @yr_botwatch 平均値と中央値の違い、外れ値を弾く事の大切さ、最頻値と中央値と平均値の比較……この辺がなんで大事なのかよくわかる例がようやく健全な物で例えられるようになったのは大きい twitter.com/dh1uw6/status/… 2023-12-11 14:30:53 リンク スポーツ報知 大谷翔平がドジャースに10年1014億円で移籍 花巻東時代からの片思いがようやく実る : スポーツ報知 エンゼルスからフリーエージェント(FA)になっていた大谷翔平投手(29)が、ドジャースと契約合意したことが明らかになった。大谷は自身のインスタグラムで英語で「ドジャースを選ぶことにしました」などと報
情報処理推進機構(IPA)は7月15日、情報セキュリティに関する書籍「情報セキュリティ白書2022」を公開した。国内外の官民の各種データや資料を引用し、情報セキュリティ分野のトピックを240ページ以上に渡り解説している。IPA会員ならばアンケートに回答することで、PDFファイルを閲覧可能。印刷書籍版もあり、2200円で購入できる。 情報セキュリティ白書はIPAが2008年から毎年発行している書籍。情報セキュリティに関する国内外の政策や脅威の動向、インシデントの発生状況、被害実態などをまとめている。22年版では「内部不正防止対策の動向」「個人情報保護法改正」「クラウドの情報セキュリティ」「中小企業に向けた情報セキュリティ支援策」「米国や欧州の政策」などのトピックも取り上げた。 読書アンケートによると情報セキュリティ白書は、「学習・自己研さん」「対策強化・予算策定などの上位者への説明資料」「新
2020年9月29日開講予定の「社会人のためのデータサイエンス演習」にさきがけて、「社会人のためのデータサイエンス入門」を特別開講いたします。 入門編と演習(実践編)を受講することで、データ分析の基本的な知識から、ビジネスの現場で使われる実践的なデータ分析(統計分析)の手法までを身につけることができます。 「社会人のためのデータサイエンス演習」はこちらのページをご参照ください。 講座内容 今、ビジネスの現場では、統計的な思考力によって様々な課題を解決していく能力、すなわち"データサイエンス"力の高い人材が求められている。このようなことを踏まえ、本コースでは"データサイエンス"力の向上を目指し、事例なども踏まえ、データ分析の基本的な知識を学ぶ。 コースは4つの部分に分かれている。第1週では、社会でデータがどのように活用されているかについて、実際のデータを用いた分析事例を紹介する。第2週では、
はじめに OpenAI API (ChatGPT含む) のプロンプトエンジニアリングのベストプラクティスが公式から出ているのを知り、和訳しながら読んでいきたいと思います! プロンプトエンジニアリング8箇条 (忙しい人向け) 最新のモデルを使用する 指示をプロンプトの最初に配置し、###または"""で指示と文脈を分ける 望む文脈、結果、長さ、形式、スタイルなどについて具体的で詳細に記述する 例を使って望む出力形式を明示する ゼロショットから始め、効果がなければファインチューニングを行う 曖昧で不正確な表現を減らす やってほしくないことだけでなく、代わりにやってほしいことも記述する コード生成には、特定のパターンに誘導する「leading words」を使用する How prompt engineering works (プロンプトエンジニアリングの仕組み) インストラクション・フォロー・モデ
書籍化されました 本記事をベースに監修者の村上さんが1冊の本にまとめてくれました(感謝) データサイエンティストのキャリア面やポートフォリオの細かい部分をさらに追加・ブラッシュアップした内容になっています。 まえがき はじめに 皆さん、「データサイエンティスト」という職種をご存知でしょうか? この数年間で、AIやディープラーニングといったバズワードと共にデータサイエンティストというワードも、よく耳にするようになりました。最新の技術を扱えて、年収も高い非常に魅力的な職業なため、データサイエンティストへの転職を検討されている方もいらっしゃるのではないでしょうか? 実際、データサイエンティスト職への就職・転職希望者は年々増加しています。しかし、未経験の人材を育成できる会社はまだまだ少なく、未経験からの転職は転職希望者の増加に伴い高まっています。 データサイエンティストは求められるスキルの幅が広く
日本国内の潜在的な陽性者数を推定することは有益ですが、簡単ではありません。PCR検査がランダムになっていないことが推定を難しくしています。有症状者が検査されやすいというselection biasがあるからです。この記事ではいくつか仮定を置いて潜在的な陽性者数を推定したいと思います。 仮定 全国民のうち潜在的に陽性になっている割合 この割合は年代によらず一定と仮定します。ここでは と書きます(posはpositiveの略)。例えば0.0001なら日本人約1億2千万人中、おおよそ12000人が潜在的に陽性になっている計算です。 なお、国民の年代別人口の値はこのページの令和2年3月報 (令和元年10月確定値,令和2年3月概算値) (PDF:301KB) の「2019年10月1日現在(確定値)」の総人口 男女計の値を使用しました。 陽性者中の有症状者の割合 若年層で無症状が多いなど、年代で異なる
不登校をAI(人工知能)で予測する――。こんな取り組みが2024年3月末まで埼玉県の戸田市で行われていた。2023年11月に戸田市内のパイロット校で試行を始め、同年12月から同市内の公立小学校12校、同中学校6校の計約1万2000人の児童生徒のデータを分析対象に、「不登校予測モデル」構築の実証をした。事業はこども家庭庁の「こどもデータ連携実証事業」として戸田市が受託し、内田洋行、PKSHA Technologyグループとともに進めたものだ。 不登校リスクモデルの目的は学校現場での「プッシュ型支援」につなげること。いち早く不登校の兆候がある児童生徒を把握し、教員が事前に支援する。自らSOSを発信できない児童生徒に対しても、先手を打って手を差し伸べる。経験の浅い教員でも支援のきっかけを得られる。 一方で個人の、それもネガティブと捉えられる傾向を予測する取り組みは、データの取り扱いだけでなく判定
僕が中谷さんと初めて会ったのはみどりぼんの読書会で、初めて話したのは岩波DSの打ち合わせだったと思います。今でもそんなに親しくはないと思います。しかし、中谷さんのブログは10年ぐらい前から読んでいました。自然言語処理を中心とする機械学習に関連する理論(の解釈)・論文レビュー・数値実験の記事が多く、他のブログでは見られない独特かつ理解の深い内容で、毎日勉強させてもらっていました。今でも何度も読むべきブログです。その中谷さんが機械学習についてまるごと一冊書いたものが本書になります。もともと買うつもりでしたが、献本いただいたので簡単にご紹介いたします。 わけがわかる機械学習 ── 現実の問題を解くために、しくみを理解する 作者: 中谷秀洋出版社/メーカー: 技術評論社発売日: 2019/08/28メディア: 単行本(ソフトカバー)この商品を含むブログを見る 目次は以下になります。 0章: はじめ
プログラミング支援AIサービスが主要各社から出揃う、各サービスのまとめ。GitHub/AWS/Google/GitLab/JetBrains AIがプログラミングを支援してくれるサービスが主要各社から出揃いました。 Publickeyではこれまで各社の発表時点でそれぞれのサービスを紹介してきましたが、ここであらためて主要各社のプログラミング支援AIサービスをまとめます。 本記事では、各AIサービスごとの主な機能などをリストアップしています。ただし、実際にはAIに指示などをすれば品質の差異はあれどおそらく何らかの結果は返ってくるであろうこと、この分野は急速に進化していて各社とも積極的な能力向上と機能追加を行っていくであろうことから、現時点で機能差はあったとしてもそれほど顕著な違いとは言えないでしょう。 そして、おそらくは今後各社のコード生成関連のAIの能力はある程度十分な高さまで急速に到達し
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く