タグ

ディープラーニングに関するmisshikiのブックマーク (1,193)

  • GitHub - KindXiaoming/pykan: Kolmogorov Arnold Networks

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - KindXiaoming/pykan: Kolmogorov Arnold Networks
    misshiki
    misshiki 2024/05/07
    “これは、論文「KAN: Kolmogorov-Arnold Networks」の github リポジトリです”
  • AIの新星ニューラルネットワーク「KAN」とは? LLMが“カンニング”して評価を盛ってた? など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge

    2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第45回目は、生成AI最新論文の概要5つを紹介します。 生成AI論文ピックアップ 高精度なニューラルネットワーク・アーキテクチャ「KAN」をMITなどの研究者らが開発 1手先のトークン予測ではなく、4手先のトークンを同時に予測するモデルをMetaなどが開発 医療分野に特化したマルチモーダル大規模言語モデル「Med-Gemini」をGoogleが開発 大規模言語モデルが答えに相当するベンチマークを事前に学習し、高い評価を出していた? AIカンニング問題を指摘した研究 一貫性の高い長編ビデオをテキストから生成するAIモデル「StoryDiffusion」 高精度なニューラ

    AIの新星ニューラルネットワーク「KAN」とは? LLMが“カンニング”して評価を盛ってた? など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge
  • KAN: Kolmogorov-Arnold Networks

    Inspired by the Kolmogorov-Arnold representation theorem, we propose Kolmogorov-Arnold Networks (KANs) as promising alternatives to Multi-Layer Perceptrons (MLPs). While MLPs have fixed activation functions on nodes ("neurons"), KANs have learnable activation functions on edges ("weights"). KANs have no linear weights at all -- every weight parameter is replaced by a univariate function parametriz

    misshiki
    misshiki 2024/05/02
    論文“MLP の有望な代替手段としてコルモゴロフ-アーノルド ネットワーク(KAN)を提案。MLPはノード(ニューロン) に固定の活性化関数を持つが、KANはエッジ (重み) に学習可能な活性化関数を持つ。”
  • BASEプロダクトチームブログ

    ごあいさつ はじめましての人ははじめまして、こんにちは!BASE BANK Divisionのフロントエンドエンジニアのがっちゃん( @gatchan0807 )です。 今回は、ここ数ヶ月の間にOIDC(OpenID Connect)という技術を使った開発を複数行い、この技術の概観を理解することができたので、OIDCの技術概要に触れつつBASE BANKの中でどのように使ったのかをご紹介しようと思います。 OIDCとは何なのか このパートでは、まずOIDCという技術について概要を紹介します。いくつかのWebページに記載されていた内容を参考にしてまとめさせて頂いているので、記事の最後に参照元のリンクを記載しておきます。 また、OIDCをはじめとした認証・認可の仕組みには様々な用語があり、自分自身も「調べれば調べるほど知らない用語が増えて、どんどんわからなくなってきた…」という経験をしたので、

    BASEプロダクトチームブログ
    misshiki
    misshiki 2024/05/02
    “ニューラルネットを使用したバーチャル試着技術について紹介”
  • 自己対戦で強化学習する三目並べ AI をPyTorchで実装 - Qiita

    PyTorch の社内勉強会の題材にしたいと思い立ち、畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)を用いた自己対戦型強化学習の三目並べ AI を実装したので公開します。見通しの良いシンプルな実装を目指しました。結局、それなりのコード量になってしまいましたが。 動作環境 Google Colaboratory の CPUランタイムにて動作を確認しました。 概略 おおまかな処理フローは次図の通りです。盤面情報を受け取った先攻方策と後攻方策は、○×を書き込む場所を返します。この先攻方策と後攻方策に AI を実装し自己対戦させます。 盤面情報は、空白マスをゼロ、先攻 ○ を+1、後攻 × を-1とした形状 (H,W)=(3,3) の二次元配列とします。 盤面座標は、場合により二次元座標と1次元に展開したフラット座標を使い分けます。 三目並べの

    自己対戦で強化学習する三目並べ AI をPyTorchで実装 - Qiita
    misshiki
    misshiki 2024/04/25
    “CNNを用いた自己対戦型強化学習の三目並べ AI を実装したので公開します。”
  • AI分野での活用も増加している「GPU」の種類と選び方を学ぼう

    1 GPUとは GPU(Graphics Processing Unit)は、PC内で画像処理などの特定のタスクを高速に処理することを目的とした専用の装置です。 主に画像処理やAI人工知能)、科学計算などの分野で活用されています。CPU(Central Processing Unit)が一般的な演算や制御を担当するのに対し、GPUは大量のデータを並行して処理することが得意で、これにより高速な演算処理を実現しています。もともとは画像処理を目的に誕生しましたが、近年では機械学習などAI関連分野での活用が増加しており、生成AIのブームを追い風に、世界的に需要が高まっています。 2 GPUCPUの違い GPUCPUには以下のような違いがあります。 2.1 設計思想と役割 CPUは一般的な演算や制御を担当するために設計されていて、プログラムの実行やOS(オペレーティングシステム)の管理などPC

    AI分野での活用も増加している「GPU」の種類と選び方を学ぼう
    misshiki
    misshiki 2024/04/25
    “機械学習やディープラーニングを実行する場合は、NVIDIA製のTensorコア(※2)やCUDAコア(※3)を搭載したGPUを使用します。”
  • TensorFlow デベロッパー認定証を取得する - TensorFlow

    The goal of this certificate is to provide everyone in the world the opportunity to showcase their expertise in ML in an increasingly AI-driven global job market. This certificate in TensorFlow development is intended as a foundational certificate for students, developers, and data scientists who want to demonstrate practical machine learning skills through the building and training of models usin

    TensorFlow デベロッパー認定証を取得する - TensorFlow
    misshiki
    misshiki 2024/04/25
    そういえば、TensorFlow デベロッパー認定資格がまもなく終了となるそうです……。
  • GitHub - pytorch/torchtune: A Native-PyTorch Library for LLM Fine-tuning

    torchtune is a PyTorch-native library for easily authoring, fine-tuning and experimenting with LLMs. We're excited to announce our alpha release! torchtune provides: Native-PyTorch implementations of popular LLMs using composable and modular building blocks Easy-to-use and hackable training recipes for popular fine-tuning techniques (LoRA, QLoRA) - no trainers, no frameworks, just PyTorch! YAML co

    GitHub - pytorch/torchtune: A Native-PyTorch Library for LLM Fine-tuning
    misshiki
    misshiki 2024/04/22
    “torchtune”のGitHubリポジトリ。
  • MLX で Llama 3 を試す|npaka

    「MLX」で「Llama 3」を試したので、まとめました。 1. Llama 3「Llama 3」は、Metaが開発したオープンモデルです。 2. 推論の実行「MLX」は、Appleが開発した新しい機械学習フレームワークで、「Apple Silicon」(M1/M2/M3など) を最大限に活用するように設計されています。 推論の実行手順は、次のとおりです。 (1) Pythonの仮想環境の準備。 今回は、「Python 3.10」の仮想環境を準備しました。 (2) パッケージのインストールと実行。 今回は「mlx-community/Meta-Llama-3-8B-Instruct-4bit」のモデルを利用します。 pip install mlx-lm mlx_lm.generate --model mlx-community/Meta-Llama-3-8B-Instruct-4bit -

    MLX で Llama 3 を試す|npaka
    misshiki
    misshiki 2024/04/22
    “「MLX」は、Appleが開発した新しい機械学習フレームワークで、「Apple Silicon」(M1/M2/M3など) を最大限に活用するように設計されています。”
  • ゼロから学ぶスパイキングニューラルネットワーク

    このサイトはスパイキングニューラルネットワーク(SNN)を学びたい人に向けたオンライン学習サイトです. おすすめの対象者は, これからSNNを研究分野にしようとしている人 神経回路をモデル化してシミュレーションしようとしている人 新世代のAIモデルについてそれなりに詳しく知りたい人 暇つぶしの読み物を求めている理系の人 のいずれかに当てはまる人です. もちろん,いずれに該当しなくとも誰でもしっかりと知識として蓄えることができるように噛み砕いて, わかりやすく解説をすることを心がけて書いていますのでご安心ください. なお,プログラミングの知識は必要ありませんが,所々にPythonのサンプルコードを掲載しています. 必要なひとは参考にしてください. ちなみに掲載しているコードは以下の環境があれば動作します. Python 3.6以上 NumPy Matplotlib サイトに掲載しているPy

    ゼロから学ぶスパイキングニューラルネットワーク
  • Winnyの金子さんのED法について | やねうら王 公式サイト

    Winnyの金子勇さんが考案された機械学習アルゴリズムED法を再現して実装した人がいていま話題になっている。 『Winny』の金子勇さんの失われたED法を求めて…いたら見つかりました https://qiita.com/kanekanekaneko/items/901ee2837401750dfdad いまから書くことは私の記憶頼りなので間違ってたらコメント欄で教えて欲しい。 1998年ごろだと思うのだが、私はWinnyの金子勇さんのホームページの熱心な読者だった。(ページも全部保存してたので私のHDDを漁れば出てくると思うが、すぐには出せない。) Winnyのβ版が発表されたのが2002年なのでそれよりはずいぶん前である。 当時、金子さんはNekoFightという3D格闘ゲームを公開されていた。そのゲームには、自動的に対戦から学習するAIが搭載されていた。 当時の金子さんのホームページの

  • EDLA

    誤差拡散学習法のサンプルプログラム 99/7/12 公開 99/7/16 詳細追加 99/8/6 一部修正 99/8/19 論文追加 99/10/27 経過報告 ED法サンプルプログラム(UNIX汎用、tgz、4KB) 階層型神経回路網(ニューラルネットワーク)の教師あり学習アルゴリズムである誤差拡散学習法(ED法)のサンプルプログラムです。 比較のために用いたバックプロパゲーション法(BP法)のサンプルプログラムも示しておきます。 慣性項ありBP法のサンプルプログラム(UNIX汎用、tgz、4KB) なお、これらのプログラムでは、階層型構造をリカレント型の一種とみなして計算しています。また、パラメータ入力の際には、単にリターンを押すとデフォルト値(括弧の中の値)が用いられるようになっていますので、実行の際にはリターンを連打すればOKです。また、X-Windowを用いてトータルエラーのグラ

  • 金子勇さんのED法を実装してMNISTを学習させてみた - Qiita

    追記:続きを書きました。 はじめに 先日以下の記事が投稿され、その斬新な考え方に個人的ながら衝撃を受けました。 内容をざっくり言うと、ニューラルネットワークの学習を現在の主流であるBP法(誤差逆伝播法)ではなく、ED法(誤差拡散法)という新しい学習手法を提案しているものです。 もし記事の内容が当ならニューラルネットワークの学習がO(1)でできてしまう事になり、まさしく革命が起きてしまいます。 (結論からいうと速度面はそこまででもなかったです(それでも早くなる可能性あり)) (ただこの新手法のポテンシャルは革命を起こす可能性は秘めているといっても過言ではありません) ED法に関してネットを探すとインターネットアーカイブに情報が少し残っていました。 このページですがED法のサンプルプログラム(C言語)が残っており、このサンプルプログラムをベースにpythonで書き起こしたものが記事となりま

    金子勇さんのED法を実装してMNISTを学習させてみた - Qiita
  • 継続事前学習による金融ドメイン特化LLMの構築の検証 - Preferred Networks Research & Development

    この記事は、金融チームエンジニアの今城(@imos)と金融チームリサーチャーの平野(@_mhirano)による寄稿です。 概要 稿では、ドメインに特化したLLMの構築の一環として、金融ドメイン特化のLLMの構築の検証を行いました。継続事前学習によるドメイン知識の獲得を模索し、特定のドメイン向けに専用のパラメータ数が多い高性能なLLMを提供を可能にすることを目指します。 実験では、nekomata-14bとPFNで構築した金融に特化したデータセットを用いて、継続事前学習を実施しました。 継続事前学習の結果として、金融ベンチマーク性能が向上することが確認できました。 出力の差としては、Instruction Tuningを施していないため、大きな差は見られないものの、一定の差が見られるケースもありました。 継続事前学習後のモデルは、https://huggingface.co/pfnet/n

    継続事前学習による金融ドメイン特化LLMの構築の検証 - Preferred Networks Research & Development
    misshiki
    misshiki 2024/04/18
    “ドメイン適合のための、継続事前学習を、日本語LLMに対して金融ドメインで実施しました。その結果、金融分野における、性能の向上を確認することができました。”
  • torchtune: Easily fine-tune LLMs using PyTorch

    by Team PyTorch We’re pleased to announce the alpha release of torchtune, a PyTorch-native library for easily fine-tuning large language models. Staying true to PyTorch’s design principles, torchtune provides composable and modular building blocks along with easy-to-extend training recipes to fine-tune popular LLMs on a variety of consumer-grade and professional GPUs. torchtune supports the full f

    torchtune: Easily fine-tune LLMs using PyTorch
    misshiki
    misshiki 2024/04/17
    “大規模言語モデルを簡単にファインチューニングするための PyTorch ネイティブ ライブラリである torchtune のアルファ版 リリースを発表” fine-tuneの民主化:専門知識がなくても簡単に使えるらしい。
  • 3Blue1Brown - Visualizing Attention, a Transformer's Heart | Chapter 6, Deep Learning

    ThanksSpecial thanks to those below for supporting the original video behind this post, and to current patrons for funding ongoing projects. If you find these lessons valuable, consider joining. .chanceA ZookAaron BinnsAda CohenAdam CedroneAdam Dřínekaeroeng15Alan SteinAlbin EgasseAlex Alex HackmanAlexandru IrimieaAlexis OlsonAli YahyaAljoscha SchulzeAlon AmitAlvin KhaledAman KarunakaranAndrea Di

    3Blue1Brown - Visualizing Attention, a Transformer's Heart | Chapter 6, Deep Learning
    misshiki
    misshiki 2024/04/16
    Transformaerの心、Attentionの可視化
  • 今こそはじめるJAX/Flax入門 Part 1

    1. はじめに 2012年から始まった深層学習の発展の過程で、さまざまな学習フレームワークが登場しました。中でもPyTorchとTensorflowは最も広く使われており、それぞれのフレームワークが支持されている背景には、柔軟性、拡張性、そして使いやすさがあります。 一方で、これらのフレームワークはその機能を拡張し続けてきた結果として、全体として非常に巨大で複雑なライブラリになっています。そのため、独自に機能拡張を行いたいユーザーにとっては扱いづらく、性能的にもオーバーヘッドを感じさせることがあります。 そこで新たに出てきたのが「JAX」とその関連ライブラリの組み合わせになります。2019年に登場して以降、特に海外の開発者に支持されてきました。近年注目されている大規模言語モデル(LLM)の分野においても、JAXによるモデルが公開されていることは珍しくなくなりつつあります。 PyTorch

    今こそはじめるJAX/Flax入門 Part 1
    misshiki
    misshiki 2024/04/16
    “本記事とそのシリーズでは、JAXとその機械学習用の高レベルAPIであるFlaxの基本から、具体的な実装例までを解説し、これらの技術が機械学習の最前線でどのように活用されているかを紹介していきます。”
  • 低価格FPGAでも文字認識AIの学習は可能なのか

    コメントの1行目ですが、コメントアウトしたコードを削除しました。筆者は開発時に元のコードを残すためにコメントアウトします。ですが、記事を執筆する時点ではある程度ソースコードの行番号を確定したいので、このような措置をしました。 コメントの2行目ですが学習済みデータを生成する際にノイズの混入を試みたのですが、執筆時までに想定した結果を得られなかったのでこのコードは取りあえずコメントアウトしています。 コメントの3行目は、LEDマトリクスに5×5ドットの文字を映すための処理ですが、前回示したコードで5行を要していたのに対して、今回はそれを1行に書き換えました。 また、これらのコメントでは触れてないのですが、推論結果に対して再度推論してみるモードを追加しました。これもコメントにはないのですが、入力文字をランダムに設定できるモードを用意しました。 なお、リスト2に示す4行目以降のソースコード文は、

    低価格FPGAでも文字認識AIの学習は可能なのか
    misshiki
    misshiki 2024/04/16
    “低価格FPGAである「Tang Nano 9K」ではこれまでうまくいかなかった文字認識AIの学習が可能になったので、その結果を紹介する。”
  • PyTorchやPythonなしの純粋なC言語を使用した大規模言語モデルトレーニングツール「llm.c」がリリースされる

    AI体と言える大規模言語モデル(LLM)のトレーニングはほとんどの場合PyTorchPythonを使用して行われていますが、そうしたトレーニングを純粋なC言語のみで実装したツール「llm.c」が登場しました。まだ最適化が行われておらず従来の手法に速度面では敗北していますが、GPT-2のトレーニングを行う実装を約1000行のクリーンなコードで行えています。 GitHub - karpathy/llm.c: LLM training in simple, raw C/CUDA https://github.com/karpathy/llm.c 作者のアンドレイ・カルパシー氏はOpenAIの創設グループの一員で、テスラのAIディレクターだった事もある人物です。 llm.cを使用することで、245MBの容量を持つPyTorchや107MBの容量を持つcPythonを使用せずに大規模言語モデル

    PyTorchやPythonなしの純粋なC言語を使用した大規模言語モデルトレーニングツール「llm.c」がリリースされる
    misshiki
    misshiki 2024/04/12
    “LLMのトレーニングを純粋なC言語のみで実装したツール「llm.c」。まだ最適化が行われておらず従来の手法に速度面では敗北していますが、GPT-2のトレーニングを行う実装を約1000行のクリーンなコードで行えています。”
  • GitHub - facebookresearch/schedule_free: Schedule-Free Optimization in PyTorch

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - facebookresearch/schedule_free: Schedule-Free Optimization in PyTorch
    misshiki
    misshiki 2024/04/08
    “スケジュールなしでトレーニングを高速化 - 事前に停止時間やステップを指定する必要はありません。”