You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第45回目は、生成AI最新論文の概要5つを紹介します。 生成AI論文ピックアップ 高精度なニューラルネットワーク・アーキテクチャ「KAN」をMITなどの研究者らが開発 1手先のトークン予測ではなく、4手先のトークンを同時に予測するモデルをMetaなどが開発 医療分野に特化したマルチモーダル大規模言語モデル「Med-Gemini」をGoogleが開発 大規模言語モデルが答えに相当するベンチマークを事前に学習し、高い評価を出していた? AIカンニング問題を指摘した研究 一貫性の高い長編ビデオをテキストから生成するAIモデル「StoryDiffusion」 高精度なニューラ
Inspired by the Kolmogorov-Arnold representation theorem, we propose Kolmogorov-Arnold Networks (KANs) as promising alternatives to Multi-Layer Perceptrons (MLPs). While MLPs have fixed activation functions on nodes ("neurons"), KANs have learnable activation functions on edges ("weights"). KANs have no linear weights at all -- every weight parameter is replaced by a univariate function parametriz
ごあいさつ はじめましての人ははじめまして、こんにちは!BASE BANK Divisionのフロントエンドエンジニアのがっちゃん( @gatchan0807 )です。 今回は、ここ数ヶ月の間にOIDC(OpenID Connect)という技術を使った開発を複数行い、この技術の概観を理解することができたので、OIDCの技術概要に触れつつBASE BANKの中でどのように使ったのかをご紹介しようと思います。 OIDCとは何なのか このパートでは、まずOIDCという技術について概要を紹介します。いくつかのWebページに記載されていた内容を参考にしてまとめさせて頂いているので、記事の最後に参照元のリンクを記載しておきます。 また、OIDCをはじめとした認証・認可の仕組みには様々な用語があり、自分自身も「調べれば調べるほど知らない用語が増えて、どんどんわからなくなってきた…」という経験をしたので、
PyTorch の社内勉強会の題材にしたいと思い立ち、畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)を用いた自己対戦型強化学習の三目並べ AI を実装したので公開します。見通しの良いシンプルな実装を目指しました。結局、それなりのコード量になってしまいましたが。 動作環境 Google Colaboratory の CPUランタイムにて動作を確認しました。 概略 おおまかな処理フローは次図の通りです。盤面情報を受け取った先攻方策と後攻方策は、○×を書き込む場所を返します。この先攻方策と後攻方策に AI を実装し自己対戦させます。 盤面情報は、空白マスをゼロ、先攻 ○ を+1、後攻 × を-1とした形状 (H,W)=(3,3) の二次元配列とします。 盤面座標は、場合により二次元座標と1次元に展開したフラット座標を使い分けます。 三目並べの
1 GPUとは GPU(Graphics Processing Unit)は、PC内で画像処理などの特定のタスクを高速に処理することを目的とした専用の装置です。 主に画像処理やAI(人工知能)、科学計算などの分野で活用されています。CPU(Central Processing Unit)が一般的な演算や制御を担当するのに対し、GPUは大量のデータを並行して処理することが得意で、これにより高速な演算処理を実現しています。もともとは画像処理を目的に誕生しましたが、近年では機械学習などAI関連分野での活用が増加しており、生成AIのブームを追い風に、世界的に需要が高まっています。 2 GPUとCPUの違い GPUとCPUには以下のような違いがあります。 2.1 設計思想と役割 CPUは一般的な演算や制御を担当するために設計されていて、プログラムの実行やOS(オペレーティングシステム)の管理などPC
The goal of this certificate is to provide everyone in the world the opportunity to showcase their expertise in ML in an increasingly AI-driven global job market. This certificate in TensorFlow development is intended as a foundational certificate for students, developers, and data scientists who want to demonstrate practical machine learning skills through the building and training of models usin
torchtune is a PyTorch-native library for easily authoring, fine-tuning and experimenting with LLMs. We're excited to announce our alpha release! torchtune provides: Native-PyTorch implementations of popular LLMs using composable and modular building blocks Easy-to-use and hackable training recipes for popular fine-tuning techniques (LoRA, QLoRA) - no trainers, no frameworks, just PyTorch! YAML co
「MLX」で「Llama 3」を試したので、まとめました。 1. Llama 3「Llama 3」は、Metaが開発したオープンモデルです。 2. 推論の実行「MLX」は、Appleが開発した新しい機械学習フレームワークで、「Apple Silicon」(M1/M2/M3など) を最大限に活用するように設計されています。 推論の実行手順は、次のとおりです。 (1) Pythonの仮想環境の準備。 今回は、「Python 3.10」の仮想環境を準備しました。 (2) パッケージのインストールと実行。 今回は「mlx-community/Meta-Llama-3-8B-Instruct-4bit」のモデルを利用します。 pip install mlx-lm mlx_lm.generate --model mlx-community/Meta-Llama-3-8B-Instruct-4bit -
このサイトはスパイキングニューラルネットワーク(SNN)を学びたい人に向けたオンライン学習サイトです. おすすめの対象者は, これからSNNを研究分野にしようとしている人 神経回路をモデル化してシミュレーションしようとしている人 新世代のAIモデルについてそれなりに詳しく知りたい人 暇つぶしの読み物を求めている理系の人 のいずれかに当てはまる人です. もちろん,いずれに該当しなくとも誰でもしっかりと知識として蓄えることができるように噛み砕いて, わかりやすく解説をすることを心がけて書いていますのでご安心ください. なお,プログラミングの知識は必要ありませんが,所々にPythonのサンプルコードを掲載しています. 必要なひとは参考にしてください. ちなみに掲載しているコードは以下の環境があれば動作します. Python 3.6以上 NumPy Matplotlib 本サイトに掲載しているPy
Winnyの金子勇さんが考案された機械学習アルゴリズムED法を再現して実装した人がいていま話題になっている。 『Winny』の金子勇さんの失われたED法を求めて…いたら見つかりました https://qiita.com/kanekanekaneko/items/901ee2837401750dfdad いまから書くことは私の記憶頼りなので間違ってたらコメント欄で教えて欲しい。 1998年ごろだと思うのだが、私はWinnyの金子勇さんのホームページの熱心な読者だった。(ページも全部保存してたので私のHDDを漁れば出てくると思うが、すぐには出せない。) Winnyのβ版が発表されたのが2002年なのでそれよりはずいぶん前である。 当時、金子さんはNekoFightという3D格闘ゲームを公開されていた。そのゲームには、自動的に対戦から学習するAIが搭載されていた。 当時の金子さんのホームページの
誤差拡散学習法のサンプルプログラム 99/7/12 公開 99/7/16 詳細追加 99/8/6 一部修正 99/8/19 論文追加 99/10/27 経過報告 ED法サンプルプログラム(UNIX汎用、tgz、4KB) 階層型神経回路網(ニューラルネットワーク)の教師あり学習アルゴリズムである誤差拡散学習法(ED法)のサンプルプログラムです。 比較のために用いたバックプロパゲーション法(BP法)のサンプルプログラムも示しておきます。 慣性項ありBP法のサンプルプログラム(UNIX汎用、tgz、4KB) なお、これらのプログラムでは、階層型構造をリカレント型の一種とみなして計算しています。また、パラメータ入力の際には、単にリターンを押すとデフォルト値(括弧の中の値)が用いられるようになっていますので、実行の際にはリターンを連打すればOKです。また、X-Windowを用いてトータルエラーのグラ
追記:続きを書きました。 はじめに 先日以下の記事が投稿され、その斬新な考え方に個人的ながら衝撃を受けました。 内容をざっくり言うと、ニューラルネットワークの学習を現在の主流であるBP法(誤差逆伝播法)ではなく、ED法(誤差拡散法)という新しい学習手法を提案しているものです。 もし記事の内容が本当ならニューラルネットワークの学習がO(1)でできてしまう事になり、まさしく革命が起きてしまいます。 (結論からいうと速度面はそこまででもなかったです(それでも早くなる可能性あり)) (ただこの新手法のポテンシャルは革命を起こす可能性は秘めているといっても過言ではありません) ED法に関してネットを探すとインターネットアーカイブに情報が少し残っていました。 このページですがED法のサンプルプログラム(C言語)が残っており、このサンプルプログラムをベースにpythonで書き起こしたものが本記事となりま
この記事は、金融チームエンジニアの今城(@imos)と金融チームリサーチャーの平野(@_mhirano)による寄稿です。 概要 本稿では、ドメインに特化したLLMの構築の一環として、金融ドメイン特化のLLMの構築の検証を行いました。継続事前学習によるドメイン知識の獲得を模索し、特定のドメイン向けに専用のパラメータ数が多い高性能なLLMを提供を可能にすることを目指します。 実験では、nekomata-14bとPFNで構築した金融に特化したデータセットを用いて、継続事前学習を実施しました。 継続事前学習の結果として、金融ベンチマーク性能が向上することが確認できました。 出力の差としては、Instruction Tuningを施していないため、大きな差は見られないものの、一定の差が見られるケースもありました。 継続事前学習後のモデルは、https://huggingface.co/pfnet/n
by Team PyTorch We’re pleased to announce the alpha release of torchtune, a PyTorch-native library for easily fine-tuning large language models. Staying true to PyTorch’s design principles, torchtune provides composable and modular building blocks along with easy-to-extend training recipes to fine-tune popular LLMs on a variety of consumer-grade and professional GPUs. torchtune supports the full f
ThanksSpecial thanks to those below for supporting the original video behind this post, and to current patrons for funding ongoing projects. If you find these lessons valuable, consider joining. .chanceA ZookAaron BinnsAda CohenAdam CedroneAdam Dřínekaeroeng15Alan SteinAlbin EgasseAlex Alex HackmanAlexandru IrimieaAlexis OlsonAli YahyaAljoscha SchulzeAlon AmitAlvin KhaledAman KarunakaranAndrea Di
1. はじめに 2012年から始まった深層学習の発展の過程で、さまざまな学習フレームワークが登場しました。中でもPyTorchとTensorflowは最も広く使われており、それぞれのフレームワークが支持されている背景には、柔軟性、拡張性、そして使いやすさがあります。 一方で、これらのフレームワークはその機能を拡張し続けてきた結果として、全体として非常に巨大で複雑なライブラリになっています。そのため、独自に機能拡張を行いたいユーザーにとっては扱いづらく、性能的にもオーバーヘッドを感じさせることがあります。 そこで新たに出てきたのが「JAX」とその関連ライブラリの組み合わせになります。2019年に登場して以降、特に海外の開発者に支持されてきました。近年注目されている大規模言語モデル(LLM)の分野においても、JAXによるモデルが公開されていることは珍しくなくなりつつあります。 PyTorch(
コメントの1行目ですが、コメントアウトしたコードを削除しました。筆者は開発時に元のコードを残すためにコメントアウトします。ですが、記事を執筆する時点ではある程度ソースコードの行番号を確定したいので、このような措置をしました。 コメントの2行目ですが学習済みデータを生成する際にノイズの混入を試みたのですが、執筆時までに想定した結果を得られなかったのでこのコードは取りあえずコメントアウトしています。 コメントの3行目は、LEDマトリクスに5×5ドットの文字を映すための処理ですが、前回示したコードで5行を要していたのに対して、今回はそれを1行に書き換えました。 また、これらのコメントでは触れてないのですが、推論結果に対して再度推論してみるモードを追加しました。これもコメントにはないのですが、入力文字をランダムに設定できるモードを用意しました。 なお、リスト2に示す4行目以降のソースコード本文は、
AIの本体と言える大規模言語モデル(LLM)のトレーニングはほとんどの場合PyTorchやPythonを使用して行われていますが、そうしたトレーニングを純粋なC言語のみで実装したツール「llm.c」が登場しました。まだ最適化が行われておらず従来の手法に速度面では敗北していますが、GPT-2のトレーニングを行う実装を約1000行のクリーンなコードで行えています。 GitHub - karpathy/llm.c: LLM training in simple, raw C/CUDA https://github.com/karpathy/llm.c 作者のアンドレイ・カルパシー氏はOpenAIの創設グループの一員で、テスラのAIディレクターだった事もある人物です。 llm.cを使用することで、245MBの容量を持つPyTorchや107MBの容量を持つcPythonを使用せずに大規模言語モデル
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く