先日、こちらのポストをお見かけしました。 AI技術開発部の高橋が社内勉強会の資料「時系列予測にTransformerを使うのは有効か?」を公開しました。 論文Are Transformers Effective for Time Series Forecastingの紹介を中心に、時系列予測について解説しています。ぜひご覧ください。https://t.co/LplxTT8b1d pic.twitter.com/nUXb4bGiQ3— GO Inc. AI Tech (@goinc_ai_tech) 2023年9月28日 なるほど、NN全盛というかNN一択の時代にあっては時系列予測もNNでやるのが当たり前になったのだなという感想でした。大昔「沖本本」で古典的な計量時系列分析を一通り学んだ身としては隔世の感がありますが、これもまたNN時代の趨勢なのでしょう。 なお、元論文2点は上記リンクから辿
Dockerを使った機械学習環境の構築方法 株式会社松尾研究所で働いているからあげ(@karaage0703)です。松尾研究所では、機械学習(ここでは、予測モデル、画像認識からLLMまで幅広く扱います)を使う多数のプロジェクトが走っています。プロジェクトの特性は多種多様なので、環境構築方法は様々なのですが、松尾研究所では、環境構築方法の1つとしてDockerを推奨していています。今回はDockerを使った機械学習環境の構築方法を紹介します。 松尾研究所の特にインターン生を想定した記事にはなりますが、他の組織、個人の方にも参考になる部分があるかと思いWebに広く公開させていただきます。 なぜDockerで機械学習環境を構築するのか? 具体的な手法に入る前に、まずはDockerで機械学習環境を構築する理由から説明したいと思います。説明が不要な方はここはスキップしてもOKです。 そのために、Do
こんにちは。私がAidemyでデータ分析講座コースを受講いたしました。今回は学んだスキルを活用して、上場企業を株価予測をしてみました。 ※私の環境: Python3 Chrome Google Colaboratory Windows 10 目次 1.目的 2. データセット 3. 機械学習モデル 4. 予測モデルの構築と検証 5. 結果 6. 反省 1.目的 上場会社の株価データセットを用いて、株価予測するLSTMの機械学習モデルを構築すること。 2.データセット Yahoo Financeである上場企業Lasertec(6920.T)の時列データ 3.機械学習モデル LSTM(Long Short-Term Memory: ニューラルネットワークの一種で、長期的な依存関係を学習することができる特徴ある。 4.予測モデルの構築と検証 4-1. ライブラリのインポート import ker
この記事について この記事では、プログラミング初心者の大学生である(であった)私が試行錯誤しながらなんとかスター数300越えのOSSライブラリを作った過程をまとめたものです。ライブラリ自体はまだまだ発展中のためこの記事も適宜更新してく予定です。ライブラリ自体の詳細というよりも、自作OSSの認知度を上げで他の人に使ってもらうために有用そうな知見をまとめていこうと思います。 ライブラリの概要 今私が作っているのは、AIJackという、機械学習モデルがもつセキュリティ・プライバシー上の脆弱性についての各種攻撃・防御手法を実験するためのPythonツールです。既存のライブラリの多くは特定の種類の攻撃や防御に特化したものが多く、複数のタイプの攻撃・防御を組み合わせて実験するためにはいくつものライブラリを組み合わせる必要がありました。そこでAIJackでは、できる限り統一的なAPIで様々な攻撃・防御手
こんにちは、Wantedlyで推薦システムを開発している樋口です。Kaggleや実務での機械学習の開発にて、過去に下記のような失敗がありました。 精度改善のために実験を繰り返し追加したら、PRが巨大になり、レビューに時間がかかった 学習結果を確認したら、パラメータを一部だけ間違えていて、再度長い実験をやり直した このような悩みを解決するために、書籍や経験で学んだプラクティスを取り組んできました。例をあげると以下のようなのものがあります。 小さい単位でPRを作成する パラメータを設定ファイルに切り出して、ヌケモレを減らす 学習データをサンプリングして、実行時間を短縮して結果を素早く確認する これらのプラクティスに取り組む中で、もっと "高速で正確な開発を行うための知見や方法が体系化されているのではないか" という疑問が湧きました。 この疑問を解決するべく"継続的デリバリーのためのソフトウェア
はじめに Streamlit vs Gradio Gradioの設計思想 Interface 入出力に応じたUI Interface String Shortcut 入力データのサンプルのセット ドキュメンテーション テーマの変更 タイムアウトへの対処 中級者への第一歩、デモを作る際に知っておきたい処理 Gradioが担当する前処理について プログレスバー もろもろの出力結果を保存するには? 認証認可(というか認可) その他、解説しないが需要の有りそうなもの まとめ 追記 : 動画になりました。 はじめに 機械学習系のデモアプリを作成することがしばしばありStreamlitを使用していたが、パラメーターなどをいじるたびに処理が最初から走るなどといった挙動に悩まされていた。 同僚がGradioというのを使っていたのでサーベイがてらメモしていたらブログが出来上がってしまった。 本ブログでは、G
毎日、様々なジャンルの新曲がリリースされている。音楽好きには嬉しいだろうが、できるだけ人気のある曲を流したいストリーミングサービスやラジオ局にとって、今の新曲ラッシュは人気になる曲の選定が難しく、悩みの種でもある。 これから人気が出る曲をどうやって見分ければよいか?もちろん、企業が莫大な資金を投入し、熱心なプロモーションを行った曲なら流行る可能性は高い。SNSのインフルエンサーの影響もあるだろう。 だが、それ以外にもヒット曲を特定する方法があるという。そう、AIである。 アメリカの研究チームは、AIとスマートウォッチを使うことで、97%の精度でヒット曲を言い当てることに成功したそうだ。その結果を『Frontiers in Artificial Intelligence』(2023年6月20日付)で発表している。
はじめに UKIです。久しぶりの記事執筆となります。 本記事は、仮想通貨botter Advent Calendar 2023の1日目の記事となります。 本記事の目的 仮想通貨botterと言っても様々なスタイルがあります。 筆者のbotスタイルは、「主に流動性の高いCEXにおいて、価格の上下を予測してトレードする」というオーソドックスなスタイルです。価格予測には単純なルールベースを使うこともありますが、最近ではガッツリ機械学習を用いてこれを予測することが多くなってきています。 さて本題に入りますが、皆さんは機械学習で価格予測モデルを構築するとき、「回帰問題」とするか「分類問題」とするか悩んだことはないでしょうか。 本記事では、トレーディングの効用を最大化するために、機械学習の問題設定をどのようにすべきか論じます。 参考書籍・参考文献 評価指標入門〜データサイエンスとビジネスをつなぐ架け橋
機械学習初心者がKaggleの「入門」を高速で終えるための、おすすめ資料などまとめ(2023年12月版) こんにちわ、カレーちゃんです。Kaggle GrandMasterです。 Kaggleはデータサイエンスに入門するのにとても適しています。ですが、英語の問題などがあり、入門するのが難しい。そこで、Kaggleの「入門」をこうすれば高速に完了できるというnoteを書きます。 同じタイトルの記事を、2020年8月にも書いたのですが、それから2年以上がたちました。それから、おすすめできる資料が増え、また、私が思う入門のコースもやや変わりましたので、更新をしたいと思います。 1.Kaggleに入門(はじめに取り組むと良い資料)Kaggleには、「タイタニックコンペ」という、練習用のコンペがあります。 これは、事故が起こったタイタニックの乗客のデータから、乗客の生死を予測するという、やりたいこと
米Microsoftは8月22日、Excelにプログラミング言語「Python」を搭載すると発表した。セルに「PY関数(=PY)」を入力するとPythonのコードを記述できるようになる。Pythonのライブラリとシート上のデータを参照して高度なグラフ作成や機械学習などができるという。 機能の名前は「Python in Excel」。利用には試験的に実装された機能を体験できるプログラム「Microsoft 365 Insider Program」への参加が必要。 Pythonコードは、クラウドプラットフォーム「Microsoft Cloud」上で実行。Pythonの各種ライブラリをまとめた「Anaconda」を活用しており、グラフ作成ライブラリを使ったデータの視覚化や、機械学習ライブラリを使った機械学習や予測分析などもできる。
Amazon BedrockのKnowledge BaseでRAGを構築し、RDSのデータを分析するアプリケーションを開発する はじめに こんにちは! 第一SAチームのshikaです。 普段、あるAmazon RDS上のデータベース(MySQL)に対し、SQLを実行してデータを参照しています。 毎回SQLクエリを実行するのが手間だったので、データ検索を容易にするWebアプリケーションを開発しました。 このアプリケーションには、AWSの生成AIサービス「Amazon Bedrock」を活用しており、生成AIを用いた対話式の検索機能を実現しています。 できあがったアプリケーションの画面は以下です。 データはテストデータを使ってます。以下の通り、架空の会社の従業員情報に関するデータです。 本記事ではこのアプリケーションの構成、仕組みについて、特にAmazon Bedrockの部分を重点を置いて解
大規模言語モデル(LLM)を、実際にプロダクトや実務に役立つかたちで利用している各社が見た使いどころや、実践の上での工夫について学び合うためのイベント第二弾。今回のテーマは「大規模言語モデルがつくる新しい顧客体験」。ここで登壇したのは、株式会社LayerXの松村優也氏。機械学習の民主化とMLPdMの重要性について発表しました。 LayerX社・機械学習チームのマネージャーの松村優也氏 松村優也氏:それでは、LayerXの松村優也が「機械学習エンジニアから見るプロダクト開発におけるLLM」を副題として、「機械学習の民主化とMLPdMの重要性」というタイトルで10分お話しします。お願いします。 簡単な自己紹介ですが、あらためて、松村です。(スライドの)右上の黒いアイコンでよくSNSをやっています。「Twitter」などのIDはご覧のとおりです。 バックグラウンド的には、もともと京都大学で情報検
機械学習を「社会実装」する際に待ち受けている罠と、その解決方法の考察 (2024年版) です。今回は、生成AI時代とも呼ばれる昨今において、我々は機械学習プロジェクトをどのように捉え、どのように向き合えばよいか?の羅針盤になる内容を盛り込みました。 ※この資料は、東京大学メタバース工学部リスキリング講座プログラム グローバル消費インテリジェンス寄付講座 (GCI) 2023 Winterの講義で使用したものです。 https://gci2.t.u-tokyo.ac.jp/archives/course/gci-2023-winter ※過去に同テーマで講義した際に使用した資料はこちら。 https://speakerdeck.com/moepy_stats/social-implementation-of-machine-learning-july-2023-version https:/
はじめに 機械学習に関する実用的な知見を知るために、「Kaggleで勝つデータ分析の技術」を読んだので、Kaggle以外の場面でも活用できる話題をまとめてみた。本書は機械学習の基本的な内容も含んでいるが、この記事では機会学習に関する一通りの知識を持ち、実問題に利用している読者を想定してまとめた。従って、勾配ブースティング木の仕組みや、回帰タスクの評価方法等、基本的な内容については解説しない。本記事では、評価の落とし穴や、モデルを改善するための特徴量の工夫、チューニングのTipsについて紹介する。 特徴量 Tips 1: 欠損値の扱い データにはしばしば欠損値が含まれている。欠損値は、そもそも値が存在していない場合の他に、ユーザが意図して入力していない場合や、観測器のエラーによって取得できていない場合等、様々な理由によって生じる。欠損がランダムに発生していない限り、欠損しているという事実が何
2023年に東京都立大学で非常勤講師として、学部3年生向けに「機械学習〜推薦システムを題材に〜」というテーマで講義をしました。 90分×3コマ×2日間の計6コマの集中講義で、Streamlitで映画のレコメンドアプリを実際に作ってみるなどの演習も含めたものです。 昨年、大学院生向けに同様の講義を3コマ分していたので、それを拡張する形で、最近話題の生成AIの話も1コマ分用意しました。(昨年の授業資料はこちらにあります。) 推薦システムや生成AI×推薦システムについて興味ある方のご参考になりましたら。 1日目(90分×3コマ) 推薦システムの概要 推薦システム-各推薦アルゴリズム 推薦システムの周辺技術(評価指標について)
ペパボ研究所 研究員の渡辺(@ae14watanabe)です。 先日、ペパボ研究所(以降、ペパ研)が社内で実施した新卒エンジニア向け機械学習研修についてご紹介します。 ペパボでは毎年新卒エンジニア向けの研修を実施していますが、2020年からその研修の一環としてペパ研が機械学習研修を担当しています。 毎年、その時々の社内外の状況を考慮しつつ研修コンテンツをアップデートしているのですが、今年はChatGPTを始めとする大規模言語モデル(Large Language Model: LLM)の発展と普及の勢いを鑑みて、研修目的やコンテンツを設定し、実施しました。このエントリでは研修の概要について述べるとともに、本研修オリジナルの資料を公開します。 本研修の目的 現在、多くのWebサービスが高度な自然言語処理機能を次々とリリースしているように感じます。我々GMOペパボでも例外ではなく、例えばロリポッ
AI創薬とは? AI創薬は、人工知能(AI)技術を利用して新しい薬物を発見、開発するプロセスです。AIは大量のデータを高速に処理し、薬物の候補を予測したり、薬物相互作用を評価したりします。また、AIは薬物の効果や安全性をシミュレートすることも可能で、臨床試験の前の段階でリスクを評価することができます。これにより、薬物開発のコストと時間を大幅に削減することが期待されています。AI創薬は、薬物開発の新しいパラダイムとして注目を集め、製薬企業や研究機関で積極的に研究、導入が進められています。また、バイオインフォマティクス、ケモインフォマティクス、機械学習、ディープラーニングなどの技術が組み合わされ、薬物開発のプロセスを革新しています。さらに、AI創薬は個人化医療の推進にも寄与し、患者にとって最適な治療法を提供する可能性を秘めています。 今回はAI創薬の中でも、in silico screeeni
はじめに みなさま、初めましての方もご無沙汰しておりますという方も、株式会社キカガク代表の吉崎(twitter:@yoshizaki_kkgk)です。 ちょうど1年ほど前に失敗して泣きながらこんな記事を書き、多くの方から反響をいただきました。 Qiita: 機械学習案件を納品するのは、そんなに簡単な話じゃないから気をつけて こちらの記事は2018/10/25現在、1118いいねをいただけるモンスター記事となりました。 いま思うと、契約に関する素人感丸出しの記事ですが、まだまだ黎明期のこの分野にとっては共感していただけるような内容だったのだと嬉しく思います。 この記事が関係あるかないかわかりませんが、これ以降、契約周りの話であったり、機械学習のモデルではなくプロジェクトとしての進め方の書籍や記事を2018年は多く見かけるようになりました。 まさに、技術から事業化への一歩を踏み出した1年であっ
共立出版さまより『Human-in-the-Loop 機械学習』をご恵贈いただきました。一通り読み終えたので感想を共有します。 映り込みが激しくて写真を撮るのが難しいことで有名な表紙 本書は機械学習モデルを訓練するためのデータを人間がどのように用意するかという問題を扱っています。本書の前半では能動学習というラベル付けデータの選び方の技法が、本書の後半では人間が付けたラベルの管理方法やラベル付けのための適切なインターフェースが紹介されています。 機械学習におけるデータをいかに作るかということは私自身とても注目している領域です。『Active Learning from the Web(能動学習を使ってウェブから機械学習データを収集する)』という論文を書いたこともありますし、PDF 翻訳サービスの Readable では能動学習に基づいたアノテーションを実際に行っています。そのため本書は非常に
機械学習の最も基礎的な手法が最小二乗法だ。この特集では、Pythonで最小二乗法のプログラムを実装することで、その仕組みを学んでいく。 最小二乗法は機械学習の中でも、最も基礎的な手法です。基礎的でありながら実用性も十分に高いので、様々な「予測」に用いることができます。また、視覚化による理解がしやすいので、機械学習の初学者が最初に学ぶ手法として最適と言えます。 視覚的に理解する 最小二乗法は、図1の2枚のグラフで直感的にわかるでしょう。 図1の左にあるグラフには、データを表す青い点が複数あります。個々のデータは、(8, 820)や(36, 1720)といった2つの値の組み合わせです。2つの値の組み合わせなので、横軸と縦軸のグラフにデータを配置できます。 ここで、「すべてのデータの傾向をうまく反映する1本の直線を描いてみよう」というのが最も基本的な最小二乗法です。描いた直線が、図1の右にあるグ
こんにちは,コミューンで一人目の機械学習(ML)エンジニアとして働いている柏木(@asteriam_fp)です. 入社して5ヶ月ほど経ちましたが,今回漸く最近の取り組みを紹介できそうです.ML エンジニアは僕一人なので,専らの相談相手は ChatGPT 君の今日この頃です笑 はじめに コミューンでは,企業とユーザーが融け合うコミュニティサクセスプラットフォームである commmune を提供しています.今回のブログは先日のプレスリリースでも発表された投稿レコメンド機能を commmune に導入したので,その機能を裏側で支えている機械学習基盤に関する内容を紹介します. エンドユーザーに対して提供される機械学習システムを導入するのは初めての試みになり,まさにゼロからの出発なので,これから徐々に大きく育てて行く予定です! はじめに コミュニティプラットフォームにおける機械学習の可能性 投稿レコ
2023年5月30日 ChatGPT IN ACTION #2 大規模言語モデルがつくる新しい顧客体験(https://rector.connpass.com/event/282064/) における10分LTの資料です。 ChatGPTをはじめとする大規模言語モデル(LLM)の普及を、プロダクト作りに関わる機械学習エンジニアとしてどう考えているか、という内容のLTです。 ChatGPTをはじめとする大規模言語モデル(LLM)の普及により、誰でも容易に高性能な機械学習モデルを活用できるAI・機械学習の民主化が進んだ一方で、きちんとした顧客体験を提供する難易度は高まったように思います。そこで機械学習を活用したプロダクトを作るのに必要な能力・職種であるMachine Learning Product Management(MLPdM)の重要性が高まってきているように思います。
粘菌100万体の振る舞いを個別計算、ラット脳細胞で機械学習──ライゾマ真鍋氏が見せた「AIの少し先の未来」(1/4 ページ) 2022年の夏以降、世の中はAIアート作品の話題でもちきりだ。そんな中、AIブーム以前からAIを活用した作品も手掛けてきた真鍋大度氏の個展「EXPERIMENT」が4月から5月にかけて開催されていた。頭の中に浮かんだイメージを映像化した作品や、ラットの脳細胞をコンピュータ代わりに使う作品など、AIよりもさらに先の未来を予見させる作品ばかりだとして話題になった。 作品作りには高性能なコンピュータや光無線通信などの技術が必要だったが、2022年に設立されたソフトバンク先端技術研究所(以下、ソフトバンクR&D)がこうした技術を提供。まさに「技術の粋(すい)」が感じられる展覧会となった。そこで展示があった“AIの少し先の未来”を、ここでは詳しく紹介したい。 真鍋氏はクリエイ
登壇者の自己紹介とアジェンダの紹介 sugasuga氏:こんにちは。今日は、ピクシブの機械学習基盤に関する発表をいたします。 まずは自己紹介から始めさせてください。自分は、機械学習チームでエンジニアをしているsugasugaといいます。サブで採用・広報活動にも関わっています。最近の趣味は、トレーニングです。 今日お話しすることは、(スライドを示して)こちらを予定しています。機械学習基盤について。そして、基盤で使われている技術について。運用してみて感じたメリットとデメリットについてお話しします。 大規模なデータの効率的な処理、機械学習サービスの展開のしやすさ、効率的な開発などに課題があった 本題に移る前に、導入として、どういったところで機械学習が活用されていて、なぜ機械学習基盤が必要かについてお話しします。 活用されている場面としては、違反検知、レコメンド、広告、3Dなど多岐にわたります。こ
こんにちは! 構造化データグループのグループリーダー小林広明です。 今回は表題について、いくつか資料の紹介と私なりに思うところを少し書いていきます。 免責事項 応募書類/履歴書 面接 終わりに 免責事項 弊社の選考基準について書いたものではありません。エクサウィザーズの他の面接官は異なる意見を持っていると思います。 ただし、私も書類選考や面接に関わっていて、その視点は入っています。 私は AI Frontier 部に所属していて、こちらのメンバーには基本的に機械学習エンジニアという職名を用いています。 ですが、特に私が所属している表形式データを主に扱うグループでは、一般にデータサイエンティストと呼ばれている職種が担う仕事も多く扱っていると思われるので、この記事では機械学習エンジニア・データサイエンティストの違いには触れずに書いていきます。*1 どちらかといえば中途採用(経験者)での転職希望
AI事業本部MLOps研修とは はじめまして、AI Labでリサーチエンジニアをしている岩崎(@chck)と、AI事業本部 Dynalystでデータサイエンティストをしている長江(@nsakki55)と干飯(@hosimesi)です。 今回は、AI事業本部研修で行われた講義のMLOps回の資料を公開します。 🔳 AI事業本部の事業を担う一員として、「AI事業本部で必要なドメイン知識を身につける・関係を構築する(縦・横・ななめまで)」が研修の目標 サイバーエージェントでは、入社後3週間ほどのエンジニア全体研修を行った後、各事業部に配属されます。AI事業本部では、事業部配属直後に2週間ほどエンジニア研修を行います。この研修では、全社研修とは異なり、AI事業本部に特化したアドテクや機械学習に関連する内容が取り扱われています。 ▼事業部研修全体スケジュール AI事業本部の研修は、以下の3つのパー
最終更新日: 2023年5月25日 こんにちは、AINOWインターンのゆかわです。 早速ですが、機械学習を勉強し始めたばかりの初級者の方は、機械学習に用いられている手法が多過ぎて、どれを知っておいた方がいいのかわからなくなっていませんか? また、ある程度勉強を進めてきた中級者の方の場合は、実際に機械学習を使うにあたって、どのようにして手法を選択すれば良いか困っていませんか? 今回はそのような初級者、中級者の方へ向けた記事となっています。 機械学習の分類 機械学習の手法は数多くありますが、大きく三つに分類することができます。 教師あり学習 教師なし学習 強化学習 こちらの3つになります。順番に解説していきます。 教師あり学習 教師あり学習は、正解となるデータを機械に与えて学習させることで最適なモデルを導き出させる手法です。 予測、データ認識、データ分類、特定などに利用されています。 この教師
はじめに テックリードの柿崎です。私たちは、機械学習のパラメータチューニングを効率よく行うため、KubernetesネイティブのワークフローエンジンであるArgo Workflowsを採用しています。この記事では、その導入手順の要点を紹介いたします。 導入の目的 Argo Workflows導入以前は機械学習のパラメータチューニングを行うにあたり以下の機能を独自に実装しており、属人化していました。 パラメータ探索のアルゴリズム インスタンスのスケーリング インスタンスの稼働状況の可視化 ジョブの進行状況の可視化 これらをより柔軟に活用できるようにして、開発、更新サイクルを早めていくことが導入の目的です。 前提条件 Kubernetes(EKS)はすでに構築済みであること Kubernetes、Helmについての基本的な知識があること Argo Workflowsの基本的な知識があること K
概要 はじめに Qlibの試用 動作条件 使用したrequirements.txt データの取得 予測の実施 出力 図示 ソースコード バックテストでのポートフォリオ分析 リスク分析、分析モデル おわりに 概要 本記事では、Qlibを使用して、機械学習パイプライン環境を構築する第一歩について述べる。 はじめに このブログの趣旨としては、当初は「戦略作成」→「戦略検証」→「戦略稼働」→「成果の評価」→「戦略へフィードバック」といったサイクルを管理できるような自動トレーディングシステムを作ることを考えていた。 最近、すこし株取引から離れていたのだが、最近になってまたやり始めようかなと思い、色々と現在の状況を調べはじめた。 その中で、MicrosoftのリポジトリにQlibというものがあるのを見つけた。これが2020年の8月から作られたもので、現在でもメンテされており、もしかするとこれがやりたい
大規模言語モデルや画像生成AIなどの機械学習モデルでは、ファインチューニングやLoRA(Low Rank Adaptation)といった手法によって、モデルの重みを微調整し、特定のタスクや目的に沿った出力を行うようにカスタマイズすることができます。香港科技大学の研究チームが、LoRAよりも計算コストと時間を削減できる新たな手法「DoRA(Weight-Decomposed Low-Rank Adaptation)」を発表しました。 [2402.09353] DoRA: Weight-Decomposed Low-Rank Adaptation https://arxiv.org/abs/2402.09353 Improving LoRA: Implementing Weight-Decomposed Low-Rank Adaptation (DoRA) from Scratch https
この記事は CyberAgent Developers Advent Calendar 2023 12日目の記事です。 はじめに CIU (CyberAgent group Infrastructure Unit) の西北(@nishi_network)です。 普段はプライベートクラウド (Cycloud) や機械学習基盤の運用、それに伴う開発業務に従事しています。 今回は、サイバーエージェントの生成AI開発を支える裏側にフォーカスを当て、機械学習基盤の設計や運用、また最新のNVIDIA H100 機械学習基盤構築プロジェクトの裏側について紹介していきます。 サイバーエージェントの機械学習基盤 サイバーエージェントでは、社内向けにAI用途向け機械学習基盤をパブリッククラウド環境だけではなくオンプレミス環境でも運用しています。これらは全社組織であるCIUが運用しており、データセンターの運用か
分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。 スモールデータ、すなわちサンプル数が小さいデータセットにおいては、データ解析・機械学習を慎重に行う必要があります。スモールデータにおける問題の詳細は、こちらに書いた通りです。 小さなデータセットが抱える大きな問題サンプル数が小さいデータセットには、データ解析で回帰分析やクラス分類をするとき、とてつもなく大きな問題があります。回帰分析やクラス分類における問題というと、精度の高いモデルが構築できないことを想像するかもしれません。
こちらはエムスリー Advent Calendar 2023 11日目の記事です。 DALL-Eでサムネ作るの楽勝だぜとなりそうでならない Overview A/Bテストをしまくっている、機械学習エンジニアの農見(@rookzeno)です。皆さんA/Bテストをしてますでしょうか。エムスリーでは色々な施策の効果を見るために沢山のA/Bテストをしています。そのためA/Bテストを簡易にできるような設計を作ることも大事なことです。 AI・機械学習チームには、Goで書かれた機械学習関連の機能を各サービスに提供するAPIサーバがあり、こちらのYAMLファイルを設定するだけでA/Bテストが出来るようにしました。 rules: - name: modelA random_seed: 42 threshold: 50 ctrl: weight: 0 test: weight: 1 - name: model
機械学習を学んで何かをコードを作ってみよう、と思うときにネックになるのが学習用データと実行環境ですよね。何千件もあるデータを用意するのは大変ですし、初学者にとって高価なGPUを購入するのはハードルが高いです。 そこで機械学習のプラットフォームであるKaggleを利用し、チュートリアルでタイタニック生存者予測に取り組んでみます。 Kaggleにユーザ登録する まずKaggleを開き、Registerボタンをクリックします。Googleアカウントでユーザ登録するか、メールからユーザ登録するか、お好きな方でどうぞ。 Kaggleは英語のみですので、DeepLなどで翻訳しながら進めると良いかもしれません。 コンペに参加する ユーザ登録できたら、「Competitions」を開き、おそらく先頭に表示されているであろう「Titanic」を選んでください。次のURLから直接アクセスしてもOK。 http
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く