rinna株式会社(本社:東京都渋谷区/代表取締役:ジャン“クリフ”チェン、以下rinna社)は、日本語に特化した13億パラメータのGPT言語モデルを開発し、公開しました。 ■背景 rinna社はこれまでに、日本語の自然言語処理 (NLP) に特化したGPT (3.3億パラメータ) やBERT (1.1億パラメータ) の事前学習モデルを公開し、多くの研究・開発者にご利用いただいています。最近のNLPに関する研究では、モデルのパラメータ数が多いほど高い性能であることが知られています。 そこでrinna社は、これまでに公開してきたモデルより大規模な13億パラメータを持つ日本語に特化したGPT言語モデルを開発し、日本語のNLPコミュニティに貢献するために、この言語モデルをNLPモデルライブラリ Hugging Face に商用利用可能なMITライセンスで公開しました。 ■ Hugging Fac
Regression and Other Stories Andrew Gelman, Jennifer Hill, Aki Vehtari Page updated: 2022-11-06 Home page for the book Regression and Other Stories by Andrew Gelman, Jennifer Hill, and Aki Vehtari, including the code and data for the examples. Published by Cambridge University Press in 2020. © Copyright by Andrew Gelman, Jennifer Hill, and Aki Vehtari 2020. Back cover text: Many textbooks on regre
BuzzFeed Japan Medicalは、京都大学大学院医学研究科教授の理論疫学者、西浦博さんに減少した理由について4つの仮説を検証してもらった。 ※インタビューは8月31日夕方にZoomで行い、その時の情報に基づいている。 減らすのは無理かと思ったのが....なぜ減ったのか?ーーオリンピックもあり、お盆に4連休とみんな結構出歩いていた気がします。感染力の高いデルタ株でも感染者が減ったのは不思議です。 デルタ株の流行が起き、他の国の流行状況も見ていると、人出がこれだけある中で減らすのは「もう無理かもしれない」と本気で思っていました。 7月の4連休や盆での移動は制御できていませんでしたし、実際にそれに伴って地域で感染者数が増えました。 だから、感染者が落ちているかもしれないデータをこの数週間見ている時、なぜなのだろうとずっと思考を巡らしていました。 7月の後半では実効再生産数(※)は2
今回はRで学ぶデータサイエンスシリーズ『カテゴリカルデータ分析』の第7章ポアソン回帰分析のついてまとめる。 (超基本かと存じます) はじめに ポアソン分布というのは交通事故に代表されるように、その事象が発生する確率が極めて小さい事象に関する分布である。 このポアソン分布に従うデータの特徴とその場合のパラメータの推定法を学ぶ。 次に示す表はある市の2015年1月の脳梗塞による救急搬送の数を示している。 件数 0件 1件 2件 3件 4件 5件 6件 7件以上 日数 8 7 5 5 3 2 1 0 この結果を見ると、0件が最も多く7件以上起こった日は0である。 ポアソン分布のモデルは次のような過程で導かれるモデルである。 時間を細分化すると、各時間帯で発生しているイベントは1回だけである。 細かく分けた時間帯でのイベントの発生する確率は同じである。 他の時間帯のイベントの発生状況の影響を受けな
データ分析とビジネス活用のプロとして、さまざまな業界・フィールドで活躍する「データサイエンティスト」。 スキルセットや必要な知識などが語られることはあるものの、まだはっきりとした定義がなく、いったいどんな人たちなのか?と疑問を持つ人も少なくないのでは。 そこで本企画では、企業で働くデータサイエンティストたちの"リアル"を調査。データサイエンティストを志した理由や興味深かった論文、普段の業務、自社で働く魅力などを22社、52人のデータサイエンティストに聞きました。 企業一覧 DataRobot Japan株式会社 株式会社GA technologies 株式会社HACARUS 株式会社JMDC 株式会社LIFULL MNTSQ株式会社 NABLAS株式会社 株式会社Rist Sansan株式会社 SOMPOホールディングス株式会社 株式会社ZOZO 株式会社ZOZOテクノロジーズ アスクル株
目次 目次 はじめに オススメの学習コンテンツ 【AWS SOME DAY】 【AWS ご利用開始時に最低限おさえておきたい10のこと】 【AWS Black Belt Online Seminar】 【AWS Hands-on for Beginners】 【ハンズオンチュートリアル】 さいごに はじめに 「AWSに興味はあるけど、何から始めたらいいか分からない」 そんな方々に向けて、たくさんあるAWSの学習コンテンツのうちのいくつかをまとめて、紹介していきたいと思います。 本記事で紹介するコンテンツは全てAWS公式のコンテンツとなっています。 オススメの学習コンテンツ 【AWS SOME DAY】 aws.amazon.com 概要 AWSの基本を1日かつ無料で学べてしまう太っ腹なトレーニングです 費用 無料 特徴 通常は会場でのリアル開催のようですが、2021年現在は「AWSome
データエンスージアストにとって天敵とされる「神エクセル」。ぶつくさ言いながらも必要な人はひたすらセル結合の解除や省略値の補完やコピペ、そして検索と置換に勤しむ訳ですが、そんな人はぜひいちど、苦しみをみんなで乗り越えるためにコミュニティによって活発に開発されているOpenRefineを使ってみてください。神エクセルの難易度も様々ですが、表計算ソフトやテキストエディタだけで頑張るよりもはるかに効率的にクレンジングでき、さらには肩凝りも減らすことができます。※個人の感想です。 1 元データ 岩手県 令和元年度学校一覧(エクセル形式) セル結合はもとより均等割付、縦書き、名称の省略、区切り行などなかなか見事な神っぷりです。エクセルの行で596行あります。難易度は中級というところでしょうか。 2 整形/クレンジング 2.1 エクセルデータを読み込む 上級レベルになると、事前にエクセル側である程度整形
JSONとは「JavaScriptのオブジェクト記法を用いたデータ交換フォーマット」です。 Python、PHP、JavaScript、C++、Javaなど様々な言語でサポートされており、JSONを間に挟むことで各プログラミング言語間のデータの受け渡しがとても簡単にできます。 本記事ではJSONの概要や実際の書き方を解説します。 JSONの特徴 JSONとは「JavaScript Object Notation」の略で、「JavaScriptのオブジェクトの書き方を元にしたデータ定義方法」のことです。 JavaScriptでオブジェクトを作成する際は {} や [] などの括弧を使って記述しますが、JSONはその記法を元にしています。元々はJavaScriptで使われる想定で作成されたデータ構造なので、JavaScriptと非常に相性が良いです。現在はJavaScript以外にもPytho
JavaScript Object Notation の略です。 RFC7158 と ECMA-404 1st edition では若干仕様の差異がありましたが、2017年12月に仕様の統一が行われ、RFC 8259, IETF STD 90, ECMA-404 2nd edition で再規定されました。 MIMEタイプは application/json。拡張子は .json。 JavaScript のデータ定義文をベースとした、簡易的なデータ定義言語です。 JavaScript だけではなく、Java, PHP, Ruby, Python など、様々な言語間のデータ交換、特に Ajax や REST API などで使用されています。 これまでは、共通データ定義言語として XML が利用されてきましたが、現在では、簡易的な JSON が利用されるケースが増えてきています。 子要素がひと
これは単なる備忘録です。「論文とサンプルコード読みながら試しました」以外に何も内容のない記事ですのでご注意ください。特に個々の式の変数の説明については個人的な備忘録ゆえ大半を端折りますので、仮に興味を持たれた方は適宜論文の本文をご参照下さい。読んだ論文はこちら。 Bayesian Methods for Media Mix Modeling with Carryover and Shape Effects – Google Research なお、この記事を書くに当たってid:ushi-goroshiさんのこちらのブログ記事シリーズを参考にさせていただきました。分かりやすくて大変助かりました、有難うございます。 それでは適当にやっていきます。 Ads carryover & shape effectsについて いわゆるMedia Mix Modeling (MMM)の肝は「広告が投下される
自分が所属している会社のメンバーの教育用資料として、それなりの規模のデータを扱う時に前提として意識しておかなければいけないことをざっくりまとめたので、弊社特有の話は除外して公開用に整理してみました。 大規模データ処理、分散処理に慣れている人にとっては今更改めて言うことじゃないだろ、みたいな話ばかりだと思いますが、急激にデータスケールが増大してしまったりすると環境に開発者の意識が追い付かないこともあるかと思います。 そういったケースで参考にできるかもしれません。 弊社は基本的にAWSによって運用されているので、AWSを前提にした様なキーワードやサービス名が出てきます。後、句読点があったり無かったりしますが、ご容赦ください。 追記: 社内用の資料の編集なのでかなりハイコンテキストな内容だから誤解するかもしれませんが、これらはそもそもRDBの話ではありません。(関係無くは無いけど) 1000万オ
一流医学誌の論文が… 世界中を混乱に落としいれている新型コロナウイルス。このウイルスに対峙するために、世界中の研究者や医師が研究に取り組み、日々大量の論文が公表されている。 一刻も早く治療法を、ワクチンを…。 論文を掲載する雑誌は異例の速さで査読(別の研究者が論文の質や内容をチェックする)を行い、無料で論文を掲載している。 こんななか、衝撃的なニュースが世界を駆け巡った。 医学に関わる誰もが注目する超一流の論文誌に掲載された論文が相次いで撤回されたのだ。 新型コロナウイルス感染症(COVID-19)の治療に抗マラリア薬を使用することに安全性の懸念があるとした論文の著者4人のうち3人が4日、論文を撤回した。論文は先月、英医学誌ランセット(The Lancet)に掲載された。 出典:抗マラリア薬の危険性指摘した論文撤回 新型コロナ治療 問題となった論文は以下だ。 Hydroxychloroqu
著者のRahul Agarwal氏はインドで活躍するデータサイエンティストであり、AINOW翻訳記事『機械学習システムを構築するための6つの重要なステップ【前編】』と後編の著者でもあります。同氏が最近Mediumに投稿した記事『データサイエンスを過度に民主化するな』では、「データサイエンティストになるのは簡単」という風潮が批判されています。 データサイエンティストが「21世紀における最もセクシーな仕事」と呼ばれるようになって久しい現在では、この職種から得られる報酬や肩書を求めるデータサイエンティスト志望者があふれています。こうした志望者の少なからずは、オンライン講座で機械学習モデルを実装するコーディングスキルを学んだ後にデータサイエンティストを名乗るようになります。 こうしたコーディングスキルを習得しただけの自称データサイエンティストは自信過剰に陥っている、同氏は指摘します。というのも、実
高速にデータ処理を行いたい pandasをデータ処理で用いることが多いですが、データサイズが大きくなると遅くなり、待ち時間が長くなってしまいます。そこで今回はGPUを使用して高速に処理が可能なcudfの紹介をします。 環境構築 検証環境 Ubuntu 18.04メモリ:64GBGPU: Geforce 1080CPU : Intel(R) Core(TM) i7-6700 CPU @ 3.40GHz NVIDIA GPU CLOUDにすでに環境構築されたDocker環境が存在します。今回はDockerを使用して環境構築をできるだけスキップして行います。 NVIDIA GPU CLOUDとは Dockerコンテナ、学習済みモデル、学習用スクリプトなどを提供しているサイトです。ここにあるリソースを使用すればGPUを用いた処理を始めることが容易になります。 https://www.nvidia.
はじめに こんにちは! 18年10月にデータマイニング推進部に中途入社したY.Saと申します。 これまでは主にシステムの運用やSQLを使用してシステムテストなどを経験してきました。 エム・フィールド入社後も社内研修だけでなく、社外でもLT(Lightning talks、5~10分程度の短い発表)を行ったり、勉強会に参加しています。 今回の記事では18年10月に参加したPyData.tokyo One-day Conference 2018という勉強会で紹介されていたNVIDIAが開発したRAPIDSというライブラリ群の1つ、cuDFというライブラリについて紹介します。 コードを使った実例に入る前にNVIDIAとGPUについてすこし紹介します。 NVIDIAはGPU(Graphics Processing Unit)を開発して販売しているアメリカの企業です。 GPUは大量の単純な計算を高速
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く