今のLLMを取り巻く状況について紹介します。
概要 Sakana AIは進化や集合知などの自然界の原理を応用して基盤モデルを開発することを目指しています。私達の目標は、モデルを自ら訓練し開発することだけではありません。基盤モデルの開発を効率化、高度化、自動化するための新たな手法を生み出すことに挑戦しています。この目標に向けた第一歩として、私たちはプレプリント「Evolutionary Optimization of Model Merging Recipes (モデルマージの進化的最適化)」を公開しました。 このリリースの要点は以下の通りです。 進化的モデルマージという手法を提案します。これは、多様な能力を持つ幅広いオープンソースモデルを融合(マージ)して新たな基盤モデルを構築するための方法を、進化的アルゴリズムを用いて発見する手法です。私たちの手法は、ユーザーが指定した能力に長けた新しい基盤モデルを自動的に作成することができます。既
この連載ではおなじみのキャラクター「明日来子さん」に右側からライトを当ててみた。左がIC-Lightを適用したもので、右がオリジナル。環境はWebUI Forge用の拡張機能を使用 5月8日に、「ControlNet」など画像生成AI関連の著名研究者であるイリヤスフィール(lllyasviel)さんが発表した「ICライト(Imposing Consistent Light、印象的な一貫的なライト)」が盛り上がりました。入力した画像をもとに、後から指定した照明効果を踏まえた画像を生成する技術です。 画像生成AIで照明効果がつけられる「ICライト(IC-Light)」 発表された学習済みモデルは、「ライトを指定すると、キャラクターのデータに合わせてテキストのプロンプトに合わせて独自に背景を生成するもの」「キャラクターとライトの影響を加味して、別の背景画像と合成するもの」の2種類があります。これ
出典:官報(※クリックorタップすると拡大できます)日本を代表するユニコーン企業で、自動運転関連技術の開発も手掛けるAI(人工知能)開発企業の株式会社Preferred Networks(本社:東京都千代田区/代表取締役CEO:西川徹)。同社の第9期決算公告(2022年2月〜2023年1月)が、このほど官報に掲載された。 第9期は売上高が76億5,500万円、当期純損失は30億6,600万円であった。 これと同じタイミングで、同社は新設分割により、生成AI事業に関する新子会社「Preferred Elements」を2023年11月1日に設立することを発表した。2021年11月には、自律移動ロボット事業を手掛ける「Preferred Robotics」も新設分割により設立している。 過去の新設分割の経緯があるため、同社の決算を過去の決算と単純に比較はしにくいが、参考のために記載すると、第7
はじめに大規模言語モデルであるChatGPTに文章を渡す際、適切な区切り線の使用は、情報の正確な伝達や解釈に大いに役立ちます。 この記事では、区切り線に適切なものを検証します。 区切り線とは?使い方区切り線は文章を区切る時に使用する文字列のことです。 例えば下記のようなものです。 また、使い方をまとめた記事もあるので参考にしてください。 def test() a = "a" b = "b" c = a + b print(c) ================================ ←これが区切り線 上記のコードについて教えてください 結論先に結論を言うと、4個~16個連続した「-」か「=」 もしくは8の倍数の「-」か「=」が区切り線としてはベストでした。 ---- ---------------- -------------------------------- ==== ==
「Graph Game」はニューラルネットワークの構造をグラフで作成するゲームです。AI技術の発展と共に頻繁に目にするようになった「ニューラルネットワーク」をどの程度理解しているか試せるゲームとのことなので、実際にプレイしてみました。 Graph Game - By Sabrina Ramonov https://graphgame.sabrina.dev/ サイトにアクセスするとこんな感じ。「RNN」「LSTM Cell」「GRU Cell」「ResNet Block」「Deep RNN」という5つのステージが用意されています。まずは「RNN」をクリックしてみます。 「x_t」「h_t」「y_t」という3つの箱が出現しました。それぞれの箱はデータを表しており、上が出力で下が入力となっています。「x_t」の上の○をクリックし、ドラッグして「h_t」の下に接続します。 緑の線で接続が表示され
TL;DR ESD の手法で LoRA を学習してみたらそれっぽい感じのことができたよ VRAM 8GB で余裕で学習できるようになったよ (元は20GB要求) LoRA として保存できるようになったので重みの取り回しが良くなったよ マイナス適用によって、概念を削除するだけでなく強調することもできたよ 一度でも画像生成 AI に触ったことがあると、より楽しんで読めると思います。 論文とかどうでもいいから学習方法知りたい! という方は 実際に学習してみる へどうぞ! 今回作成したもの コード: モデルなど: 前提 Stable Diffusion とは、Stability AI らが公開したオープンソースの画像生成 AI であり、テキストによる指示で様々な画像を生成することができる。 本来の Stable Diffusion は、実写画像や海外風のイラストを出力することが得意だが、アジア系の
A 3D animated visualization of an LLM with a walkthrough.
はじめに 11月も終わり、今年も残るところあと一か月となりました。 今年ももう終わるから今年中に成果を上げとけ!と言わんばかりに最近は新技術の登場が多いです。 今回取り上げるのも11月最後の大砲として出てきた新技術、その名もAnimate Anyone Animate Anyoneとはなんぞや 文字で説明するより見たほうが早い 凄くざっくり説明すると、一枚の絵と動きをボーン動画として入力すると、入力した絵がボーン動画と同じ動きをしてくれるよ!というもの。 似たようなものは今までもReferenceOnly × openpose × animatediffとかで出来ましたが、特筆すべきはその精度。 動画生成の大敵であるちらつきは一切なく、入力画像にかなり忠実な動画を生成しています。 さてこの技術、動画生成にずっと注目している自分としてはいますぐにでも弄り倒したいのですが、残念ながらコードとモ
18年間テレビ番組制作者を務めたのち、文筆家として独立。家電から放送機器まで執筆・評論活動を行なう傍ら、子供の教育と保護者活動の合理化・IT化に取り組む。一般社団法人「インターネットユーザー協会」代表理事。 もういい加減にしろよと読者から怒られかねないのだが、まだまだキーボードの話である。 KeychronのK11 Proを購入し、散々いじくり回していたわけだが、まあさすがに自作までは時間ないし、キーボード改造もここまでかなと思っていた。ところが先日、PFUのHHKB Studioのお話を聞く機会があり、1995年当時の秋葉原の話などが出て、懐かしく思い出した。この記事はまもなくITmedia MONOistに掲載されると思うので、お楽しみにしていただきたい。 そのインタビューの中で、秋葉原のキーボード専門店「遊舎工房」の話が出て、そういえばまだ一度も行ったことないなと気づいた。だいたいこ
はじめに Turing 株式会社のリサーチチームでインターンをしている東京工業大学 B4 横田研究室の藤井(@okoge_kaz)です。 自然言語処理分野における大規模深層学習の重要性は日に日に高まっていますが、GPT-3, GPT-4 などのモデルの学習には膨大な計算コストがかかり、容易に学習できなくなっています。実際、モデルサイズが近年急速に大きくなっていることにより、学習に必要な計算量(FLOPs)は以下のように年々膨大になっています。近年の大規模モデルでは、NVIDIA H100 80GB であっても 1 つの GPU では、モデルをのせることすらできません。 Compute Trends Across Three Eras of Machine Learning より またScaling Laws によると、大規模なモデルは小さいモデルと比較してより優れた性能を発揮するため、自動
EVシフトの減速を示すニュースが次々に発表されている。BMW、GM、フォード、テスラ、リビアン、アップルなど、多くの会社が先行きの見込みをマイナス修正。計画の先延ばしや中止など、現実に応じた修正を余儀なくされている。 ただし、こうなるのはずっと前から分かっていたことで、ようやく世間が悪夢から覚めたということになるだろう。「後出しで言うな」という人が出てきそうなので、本連載の過去記事を遡(さかのぼ)ってみた。まあ本人もいったい何時からマルチパスウェイの記事を書き始めたのかよく覚えていないので、一度おさらいしてみたかったのもある。 BEVシフトが限定的であることを最初に明確に書いたのは7年前、2017年5月の「日本車はガラケーと同じ末路をたどるのか?」だ。 そしてエンジンはなくならないという主張が同じ年の7月にある。「電動化に向かう時代のエンジン技術」という記事だ。 現在の流れに至る原因が欧州
共和党大統領予備候補のドナルド・トランプ氏が、中国系ソーシャルメディアアプリのTikTokをアメリカで全面的に禁止しようとする動きについて懸念を表明しました。これは、議会が可決すれば禁止法案に署名すると述べたジョー・バイデン大統領の見解とは対照的です。 Trump says TikTok ban would empower Meta, slams Facebook https://www.cnbc.com/2024/03/11/trump-says-a-tiktok-ban-would-empower-meta-slams-facebook-as-enemy-of-the-people.html TikTok ban: House vote set for Wednesday morning https://www.axios.com/2024/03/11/tiktok-ban-congr
ChatGPTやBardなど、2023年7月時点で商用利用されている大規模言語モデルはほとんど全てがトランスフォーマーというアーキテクチャを利用したモデルですが、トランスフォーマー型のモデルは入力の長さの2乗に比例して計算量が増加するため、入力サイズが制限されてしまう問題があります。そうした問題に応えて、大きいデータへの対応や推論時のメモリ使用量の削減を達成しつつトランスフォーマー型に匹敵する性能を出せるアーキテクチャ「RWKV」について、著者の一人がブログで解説しています。 The RWKV language model: An RNN with the advantages of a transformer | The Good Minima https://johanwind.github.io/2023/03/23/rwkv_overview.html How the RWKV l
深層モデルのパラメータを一列に並べてベクトルにします。このベクトルは大規模なモデルであれば何十億次元にもなります。一見、意味のない数値の羅列のようですが、このベクトルはベクトルとして深い意味があることが分かってきています。例えば、 と を異なるパラメータベクトルとすると、 や をパラメータとして持つモデルはちゃんと機能します。本稿では、このようなモデルパラメータの算術を用いた手法とその背後にある理論について解説します。 モデルスープ タスクベクトル モデルパラメータとニューラルタンジェントカーネル おわりに モデルスープ モデルスープ [Wortsman+ ICML 2022] は複数のモデルパラメータを平均することで性能を上げる手法です。事前学習モデル からはじめて、様々なハイパーパラメータで訓練した結果のパラメータを とします。これらを平均したベクトル は個々のモデルよりも性能が高く、
We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios. We leverage a transformer architecture that operates on spacetime patches of video and image latent codes. Our largest model, Sora, is capable of generating a minute of high fidelity video. Ou
AIの研究開発は急速に進んでおり、「そろそろAIについて勉強しないとな」と考えている人も多いはず。Amazonが無料公開している教材「MLU-Explain」ではニューラルネットワークの基礎が分かりやすいイラストやアニメーション付きで解説されています。 MLU-Explain https://mlu-explain.github.io/ MLU-Explainは機械学習の重要な概念をイメージ画像やアニメーションを使って分かりやすく解説する教材で、「ニューラルネットワークの基礎」「機械学習モデルからバイアスを取り除く方法」「ロジスティクス回帰の基礎」「線形回帰の基礎」などを学べます。 例えば、ニューラルネットワークの解説ページは「ニューラルネットワークは、『ニューロン』と呼ばれる相互接続された計算ノードが層状に積み重なって構成されるネットワークである」という基本的な概念の説明で始まり、ニュー
本ブログはこんな人におすすめ RAG (Retrieval Augmented Generation)を使ったアプリケーションを開発しているけど評価に関心のある人 LLM (Large Language Model)やRAGのハルシネーションをどう評価するのかに関心のある人 Ragas (RAGの評価ライブラリ:Retrieval augmented generation assessment)の挙動に興味がある人 こんにちは。私はBeatrustのML周辺のお手伝いをしている鈴木宏和と申します。今回はこれから3つのパートに分けて紹介させていただきますが、LLMの応用として特に注目を集めているRAG (Retrieval Augmented Generation)について、RAGの評価の必要性とアプローチ方法について考察しつつ、RAGに特化した評価ライブラリであるRagasの有用性に関する
tf.kerasが終了 Keras 3がTensorFlowから独立し、マルチバックエンド復活!:TensorFlow 2+Keras(tf.keras)入門 TensorFlow+Kerasの最新情報として、Keras 3.0のリリースに伴い、TensorFlowから独立し、TensorFlow 2.16以降でKeras 3がデフォルトとなったことについて紹介します。また、Keras 3(TensorFlowバックエンド)での書き方や、今後のディープラーニングライブラリの選び方についても私見を示します。 連載目次 もう4年も前になりますが、2020年5月に「マルチバックエンドKerasの終焉(しゅうえん)、tf.kerasに一本化」という記事を書きました。しかしその後、逆の動きが起きています。本稿では、前回の記事をフォローアップする目的も兼ねて、最新の状況をお伝えします。 そもそもKer
Inspired by the Kolmogorov-Arnold representation theorem, we propose Kolmogorov-Arnold Networks (KANs) as promising alternatives to Multi-Layer Perceptrons (MLPs). While MLPs have fixed activation functions on nodes ("neurons"), KANs have learnable activation functions on edges ("weights"). KANs have no linear weights at all -- every weight parameter is replaced by a univariate function parametriz
Large language models are commonly trained on a mixture of filtered web data and curated high-quality corpora, such as social media conversations, books, or technical papers. This curation process is believed to be necessary to produce performant models with broad zero-shot generalization abilities. However, as larger models requiring pretraining on trillions of tokens are considered, it is unclea
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く