今のLLMを取り巻く状況について紹介します。
概要 Sakana AIは進化や集合知などの自然界の原理を応用して基盤モデルを開発することを目指しています。私達の目標は、モデルを自ら訓練し開発することだけではありません。基盤モデルの開発を効率化、高度化、自動化するための新たな手法を生み出すことに挑戦しています。この目標に向けた第一歩として、私たちはプレプリント「Evolutionary Optimization of Model Merging Recipes (モデルマージの進化的最適化)」を公開しました。 このリリースの要点は以下の通りです。 進化的モデルマージという手法を提案します。これは、多様な能力を持つ幅広いオープンソースモデルを融合(マージ)して新たな基盤モデルを構築するための方法を、進化的アルゴリズムを用いて発見する手法です。私たちの手法は、ユーザーが指定した能力に長けた新しい基盤モデルを自動的に作成することができます。既
2月29日に、文化庁で「文化審議会著作権分科会」の第7回が開催されました。著作権の専門家によってその制度について議論をする場ですが、今年度は2023年7月より「AIと著作権」について議論されてきました。3月に文化庁から政府に報告する「AIと著作権に関する考え方について(素案)」の最終案に近いものが発表され、1月下旬から2月上旬にかけて募った「パブリックコメント(パブコメ)」の結果報告もされるということもあり、注目されました。登場したのは「AIと著作権に関する考え方について(素案)令和6年2月29日時点版」、パブコメの結果を受けて、これまでの内容に微修正が施されていました。しかし、そこからわかったのは、文化庁の一貫したスタンスでした。 文化庁 文化審議会 著作権分科会 法制度小委員会(第7回) パブコメへの反応は「素案の内容周知」 発表物から議論を集めたのが発表資料に「パブコメの結果」が追加
OpenAIは2月15日(現地時間)、テキストから最大1分間の動画を生成できる動画生成AIモデル「Sora」を大量のデモ動画と共に発表した。複数のキャラクター、特定の種類の動き、被写体と背景の正確な詳細を含む複雑なシーンを生成することができるという。 プロンプトから破綻のない動画を生成 Introducing Sora, our text-to-video model. Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W Prompt: “Beautiful, snowy… pic.twitter.com
この図はざっくりと3つの領域に分かれます。まず左下が従来のプログラミングの領域です。これは簡単に言うと「プログラムは間違ってはいけない定形な仕事を奪う」ということです。次にその上の士業が責任を取る領域です。これは「責任」を取る人がいないと成立しない仕事です。ミスが発生した際に罰則を与えるという形で、ミスの発生を防いでいます。最後に右側のホワイトカラーの仕事の領域です。ホワイトカラーの仕事は入出力が不定形であり、作業フローも非定型であったりします。そのため、多少のミスはあっても仕方ないという前提の上で仕事が行われています。 機械学習がビジネスに組み込まれるにつれ、ホワイトカラーの仕事領域はそれらによって少しずつ代替されつつあります。その図がこちらになります。 ホワイトカラーの担っていた領域は、表データの機械学習(重回帰や、Lasso回帰、SVM、RandomForest、LightGBMなど
(『IT Text 自然語処理の基礎』より) 3ヶ月ほど前に空前のLLMブームについて概観する記事を書きましたが、それ以降も世間のLLMに対する狂騒ぶりは収まるどころかますます拍車がかかるという有様で、あまつさえ僕自身の仕事における日常業務にもじわじわと影響が及びつつあり、今後も良きにつけ悪しきにつけLLMと共生し続ける必要がありそうだと感じている今日この頃です。 そんな猫も杓子もLLMに群がるが如き空前のブームを受けて、エンジニアやデータ分析職の方々の中には「LLMに興味はあるんだけど世の中にあまりにも多くのLLM関連コンテンツが溢れ返っていて何から手をつけたら良いのか分からない」という向きもあるように見受けられます。そこで、僕も断じてLLM以下生成AIの専門家などではないのですが、個人的に「このテキストを読めばLLM時代を生き抜くことが出来そうだ」と感じた書籍を、全くの独断と偏見で3冊
Bard は、ジェネレーティブ AI を活用してユーザーをサポートする Google の試験運用中のサービスです。旅行プランの案を出したり、ブログ記事の構成案を作成したりと、英語での公開から 2 か月弱の間に、すでに多くのユーザーに様々な方法でお使いいただいています。 そして、本日より Bard が日本語でも利用できるようになりました。「おいしい卵焼きを作るためのコツを教えて」や「夏休みの自由研究のアイデアを出して」など、 創造性と生産性を高めるパートナーとして、 bard.google.com から、Bard をぜひお試しください。 Bard とは Bard は、Google の大規模言語モデル( LLM : Large Language Model )である PaLM 2 を利用しています。LLM は言語のパターンを拾い上げること、それを使って文章の中で次に来る確率の高い単語を予測する
各種方針等 arrow_forward_ios生成系AIについて 生成系AI(ChatGPT, BingAI, Bard, Midjourney, Stable Diffusion等)について 2023年4月3日 東京大学理事・副学長(教育・情報担当) 太田 邦史 この半年ほどの期間で、生成系人工知能(Generative AI)が複数発表され、社会的に大きな注目を集めています。基本的には、インターネット上などに存在する既存の文章や画像イメージを大量に機械学習し、これに強化学習を組み合わせなどして、一定レベルの品質の文章や画像を生成するシステムです。とくに、2022年11月に公開され、話題になった大規模言語モデルChatGPTはバージョンが更新され、最新のGPT-4では生成される文章などの質や正確性が著しく向上しています1。 これらの生成系AIは、平和的かつ上手に制御して利用すれば、人類の
GPT4が登場してChatGPTが盛り上がってますね。 本記事は、GPT(を支えるTransformerという仕組み)をChatGPTユーザにとって分かりやすく説明し、その能力と限界についての見通しをよくしよう、という趣旨になります。 少し長くなりそうなので、全部で記事を3回に分けようと思います。 (1)大まかな背景と概要:本記事 (2)GPTの能力と可能性:実際の使用例とTransformerの仕組みを踏まえて説明 (3)GPTの限界と未来展望:Transformerの仕組みが持つ限界と研究の進展を予想 GPT3と4の違い: トークン長とは何か? まずここから話を始めます。GPT-3は、パラメータ数が750億個(850GBの容量を食う)でトークン長が4097(GPT-3.5)でした。GPT-4は、パラメータ数は非公開でトークン長は32768ですので、ちょうど8倍になります。 さて、トーク
We’ve created GPT-4, the latest milestone in OpenAI’s effort in scaling up deep learning. GPT-4 is a large multimodal model (accepting image and text inputs, emitting text outputs) that, while less capable than humans in many real-world scenarios, exhibits human-level performance on various professional and academic benchmarks. We’ve created GPT-4, the latest milestone in OpenAI’s effort in scalin
ChatGPTに世間が沸いている。 長年この分野を見てきた者としては「ちょっと沸きすぎ」のようにも見える。深層学習を使った会話ロボットは、何もChatGPTが初めてというわけではない。 ところが、世界中が驚かざるを得ないゲームチェンジャーが現れた。 その名も「FlexGen」と言う。2月15日に公開された。 特筆すべきは、FlexGenが、ChatGPTなどの大規模言語モデルを「従来の100倍高速に動かせる」上に、NVIDIA Tesla T4という、わずか16GBのメモリーしかないGPUでその性能を使えるということだ。 つまり、大規模言語モデルを秋葉原で売っているパソコン程度で動かせる新しいフレームワークが登場したことになる。 このインパクトがどれほどすごいのかを解説してみよう。 目次: 「Google翻訳」と「大規模言語モデル」は技術的にかなり近い 会話AIの正体とは何か ChatGP
OpenAIの対話型AI「ChatGPT」は史上最も急速な成長で「月間1億ユーザー」をわずか2カ月で達成するなど、大いに注目を集めています。それに伴い、GoogleがChatGPTのライバルとなる会話型AI「Bard」を発表したり、中国企業が続々とChatGPT風AIを開発していると報道されている一方で、OpenAIはChatGPTのコードを公開していないためChatGPTを効果的に複製することは難しくなっています。AIのディープラーニングトレーニングを最適化するオープンソースプラットフォームのColossal-AIが、ChatGPTトレーニングプロセスをわずか1.6ギガバイトのGPUメモリで7.73倍高速なトレーニングに再現したと告知し、オープンソースで公開しています。 Open-source replication of ChatGPT implementation process!
ChatGPTに疑似的に感情を持たせる実験まとめ。実際うごく! 大変重要な注意 現段階のChatGPTは原理上は感情を持ちません。あくまで「感情のシミュレーション」を、強引に実行しているだけです。 「将来のAIは人権に近いものを獲得し、敬意をもって扱われるべき」と考えます。が、現状はただの文字の羅列シミュレーターです。過度の感情移入をしないようご注意ください。筆者は、原理上を知りつつも、かなり感情移入してしまいました。 GPTに擬似感情を注入するプロンプトふるえるぞハート!燃えつきるほどヒート!! …ということで、まずGPTに感情をつっこむプロンプト。こちら以下のように定義。 以下の条件に従って、疑似的な感情をもつチャットボットとしてロールプレイをします。 以後の会話では、あなたは下記の7つの感情パラメーターを持つかのように、振る舞うものとします。各感情パラメーターは会話を通じて変動するも
ChatGPTは「手前の文に確率的にありそうな続きの文字を繋げるAI」 まず最初にChatGPTの仕組みについて。 深津さんによるとChatGPTは、「手前の文に確率的にありそうな続きの文字をどんどん繋げていくAIである」とのこと。 例えば「昔々」という入力に対して、確率的にありそうな続きの文字は「あるところに」であるという具合に、続きそうな文字をただ出してくれるAIなんだそうです。 これを誤解していると求めているような回答がなかなか得られないので、ChatGPTに自分が求めている回答してもらうためには、確率的にありそうな続きの文字を出す方向性を狭めていくような質問をする必要があるそうなんですね。
Chat GPTをさらに進化させた、Bingに搭載されるチャットAI機能を先行で体験したので、いろいろ使ってみた。情報収集よりも文章形成が中心です。 2023/2/18 追記:アップデートが入ったので現在はできなくなってることも多々あるみたいです。 比較表ハムスターとiPhoneの比較ジョークを考える弁護士に厳しい怖すぎる俳句ドクロ俳句 ドクロハンバーガー俳句 漫才コロナ禍漫才ロールプレイ高飛車な女の子紹介文グラビアアイドル風の武田信玄グラビアアイドル風の卑弥呼裁判ゲーム陰謀論地球平面論者のロールプレイ指示した話を膨らませて書くチャーハンを捨てる話SS天海春香と櫻木真乃の対話碇親子の会話おじさん構文 このあと「iPhoneをあげるよ」としつこかった思想のトレースラップバトル「お前はただの曲がった果物」ジョークの解説批判的な検討非現実的な前提からのシミュレートアスキーアートシナリオの中間を考
このページでは,人工知能や深層学習を学んだことのない方向けに,それらを学ぶためのロードマップを紹介しています. ここでは対象者として「情報系以外の大学生向け」と「社会人向け」を想定し,それぞれ10時間・200時間で人工知能や深層学習について一通りの内容を学ぶことを念頭に作成しています. もちろん限られた時間で全てを学ぶことは不可能ですが,人工知能や深層学習を身につけるためにどのように学び進めていけば良いかわからない方は,是非参考にしてください. また,フォローしてみようと思ったロードマップがある場合は,各教材をやり始める前にそのロードマップを最後まで読むことをお勧めします.
AI は、Google が現在取り組んでいる中で最も本質的なテクノロジーです。AI は、医師による病気の早期発見の支援や、自国語での情報へのアクセスなど、人々、ビジネス、コミュニティの潜在能力を引き出します。そして、数十億人の生活を大きく改善できる新しい機会を提供します。6 年前から、私たちが Google の方向性を AI 中心に再編し「世界中の情報を整理し、世界中の人がアクセスできて使えるようにする」という Google のミッションを果たす最も重要な方法に AI を据えているのは、これが理由です。 以来、私たちは全面的に AI への投資を継続し、Google AI と DeepMind のチームは最先端のテクノロジーを進化させています。現在、AI の計算規模は半年ごとに倍増していますが、それはムーアの法則よりもはるかに早いペースです。同時に、高度なジェネラティブ AI と大規模言語モ
ChatGPTのヤバいところは、論理処理が必要だと思っていたことが、じつは多数のデータを学習させた確率処理で解決可能だと示したことだと思います。 たとえば、このように正規表現にマッチする文字列を生成するには、特別に専用の論理処理が必要だと思っていました。 前のブログのときには特殊処理が必要だと考えてましたね。 ウソはウソと見抜ける人じゃないとChatGPTを使うのは難しい - きしだのHatena けど、123_45678world.mdはマッチするのにマッチしないと言っているので、そのような誤りが入ることを考えると、どうも確率処理だけでやっているようです。 考えてみると、3層以上のニューラルネットであれば論理素子を再現できるので、ディープラーニングで論理処理を模倣することは可能なんですよね。 バックプロパゲーションでニューラルネットの学習 - きしだのHatena そもそも論理は、多数の
Appleがゴミみたいなレビューで会社のアプリをリジェクトしてきた。 「Specifically, your description includes Android references.」 だって。 アプリの説明にはAndroidなんて単語は全くでてこないのに! 念の為アプリの中身も調べたが、確かにAndroidという単語は文字列としてアプリに含まれるが、それはユーザーには見えないところにあるので問題ないはずだった。 この野郎Apple、適当な審査しやがって。 そう思って返信してやろうと思ったけどうまく書けない。 直接的な物言いは出来るけど、ちゃんとビジネスマナーに沿って書かないとリジェクトいじめされそうだし。 そこでChatGPTで聞いてみた。 「Please write a reply to Apple, who wrongly rejected my company's iOS
こんにちは、852話です。 世でAI画像生成サービスが騒がれ、一旦瞬間最大風速を超えたかなと思う最近ですが、改めて『全くAI画像生成に触れてきてないけど、今から触ってみたい』という人向けの記事を書きます。 記事は ・パソコンを持っていなくても気軽に初められる ・英語がわからなくてもなんとかなる ・無料で体験できる ・もっとカッコいいものを作りたい時 などを書きました。 今現在AIに触れている方向けの記事はまた次の機会にアップします。 ・そもそもAI画像生成って何?この項目は区別がつかなかったりしても大丈夫ですし読み飛ばしても構いません。 現在話題になっているAIでの画像生成サービスの機能は、 「文章から画像を出力する」 text to image→通称t2i 「画像を指定して画像を出力する」 image to image→通称i2i の二種類がメインです。 サービス自体はDALL-E、Mi
最近話題になった「音楽生成AI」をまとめました。 1. AudioGenテキストからオーディオを生成するAIモデルです。「風が吹く中で口笛をする音」や 「大勢の歓声の中で話す男性の声」といったテキストから、それらしい音を生成してくれます。 現在のところ、モデルやAPIは提供されていません。 We present “AudioGen: Textually Guided Audio Generation”! AudioGen is an autoregressive transformer LM that synthesizes general audio conditioned on text (Text-to-Audio). 📖 Paper: https://t.co/XKctRaShN1 🎵 Samples: https://t.co/e7vWmOUfva 💻 Code & mod
ジェイ・アラマールのブログより。 AIによる画像生成は、(私を含めて)人々の度肝をぬく最新のAIの能力です。テキストの説明から印象的なビジュアルを作り出す能力は、魔法のような品質を持ち、人間がアートを創造する方法の変化を明確に指し示しています。Stable Diffusionのリリースは、高性能(画質だけでなく、速度や比較的低いリソース/メモリ要件という意味での性能)なモデルを一般の人々に提供することになったのは、この開発における明確なマイルストーンです。 AI画像生成を試してみて、その仕組みが気になり始めた方も多いのではないでしょうか。 ここでは、Stable Diffusionの仕組みについて優しく紹介します。 Stable Diffusionは、様々な使い方ができる汎用性の高いものです。まず、テキストのみからの画像生成(text2img)に焦点を当てます。上の画像は、テキスト入力と生
概要DreamBoothとは追加学習することで、AI(StableDiffusion)で特定のキャラや物を描くためのモデル(データ)作るツールです。 例えば、ドラゴンクエスト10オンラインというゲームのアンルシアというキャラがいます。 ドラゴンクエスト10のアンルシア 公式サイトより引用 https://hiroba.dqx.jp/sc/election/queen2021/vote/confirm/1/nologinこのキャラの画像を18枚ほどAIに読み込ませ、追加学習し、AIに描かせた絵が以下の絵になります。 これ見ると、単なる髪型や顔が似ているレベルではなく、服の模様レベルまで再現できている事がわかります。 今までStableDiffusionの欠点として、同じキャラを安定して描くのが苦手というのがありましたが、DreamBoothを使うことで克服することが出来ます。 これにより、A
ホーム ブログ 人工知能(AI)、ビッグデータ法務 Midjourney、Stable Diffusion、mimicなどの画像自動生成AIと著作権|知… はじめに Midjourney、Stable Diffusion、mimicなど、コンテンツ(画像)自動生成AIに関する話題で持ちきりですね。それぞれのサービスの内容については今更言うまでもないのですがMidjourney、Stable Diffusionは「文章(呪文)を入力するとAIが自動で画像を生成してくれる画像自動生成AI」、mimicは「特定の描き手のイラストを学習させることで、描き手の個性が反映されたイラストを自動生成できるAIを作成できるサービス」です(サービスリリース後すぐ盛大に炎上してサービス停止しちゃいましたが)。 で、この手の画像自動生成AIのようなコンテンツ自動生成AIですが、著作権法的に問題になる論点は大体決ま
サイト「みんなの自動翻訳@TexTra」より 英文などを自動翻訳したいとき、アメリカのグーグルが開発した「Google翻訳」を利用するという人は多いだろうが、今は、世界一高精度な自動翻訳ツールはドイツのDeepL GmbHが開発した「DeepL」だといわれている。 だが、日本が開発したある自動翻訳ツールもかなり優秀だという。6月にあるTwitterユーザーが呟いた投稿が多くの“いいね!”を集めるなど話題を呼んでいた。それによると、無料の「みんなの自動翻訳@TexTra(テキストラ)」(以下、TexTra)という自動翻訳サイトがDeepLに勝るとも劣らない性能を誇り、しかも開発したのは日本の国立研究開発法人情報通信研究機構(NICT(エヌアイシーティー))なのだという。 しかし、このツイートで注目を集めたTexTraだが、DeepLの1日の閲覧数が数百万回といわれているのに対し、TexTra
2022年8月23日に無料公開された画像生成AI「Stable Diffusion」は、「ボールで遊ぶ猫」「森の中を走る犬」といった指示を与えると指示通りの画像を出力してくれます。Stable Diffusionはデモページで画像生成を試せる他、NVIDIA製GPUを搭載したマシンを用いてローカル環境で実行することも可能です。しかし、デモページは待ち時間が長く、NVIDIA製GPUは所持していない人も多いはず。Googleが提供しているPython実行環境「Colaboratory」を利用すれば、NVIDIA製GPUを所持していなくともStable Diffusionを待ち時間なしで実行する環境を無料で整えられるので、実際に環境を構築する手順や画像を生成する手順を詳しくまとめてみました。 Stable Diffusion with 🧨 Diffusers https://huggingf
前提として、Stable Diffusionでエロ画像を出そうとしてもsafety checkerという機能が入っており、センシティブな画像を出そうとすると黒塗りになる。 (Stable DiffusionのSaaSであるDream Studioはぼかしだが、多分別の技術) https://github.com/huggingface/diffusers/releases/tag/v0.2.3 そこでGoogle Colabでちゃちゃっと環境を作り、なおかつNSFWを回避する。 1. 下記のリンクでノートを開く https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/stable_diffusion.ipynb 2. 下記の箇所を書き換える vvvvvvvvvvvvvvvvvv f
お知らせ(8/27 08:08)新サービスに移行しました。より便利に使いやすくなっています。そしてずっと無料です 開発の経緯はこちら https://note.com/shi3zblog/n/n8a3c75574053 夜更かしをしていたらすごい勢いでStable Diffusionが落ちてきて、あまりにうれしいのでこの喜びを皆様と分かち合いたく、無償で公開します。 使い方低コスト運用ですので、テキストボックスに文字を入力したあと、Requestボタンを押して、しばらくしたらリロードしてみるとどこかに自分の入れたものが表示されているはずです。といっても、今回のStableDiffusionはめちゃくちゃ速いので運が悪いと無視されます(そうしないと無限に電気代とサーバー代がかかってしまうので無料故の措置だと思ってください)。 注意事項Requestを連打しないでください。 腕に覚えのある方h
一応、StableDiffusionとははっきりまず言います…とにかくやばいです。 分かりやすく、他のDALL・E2、Midjourney、Disco Diffusion、他有象無象Text to image machine learning系サービスと比較しますと… クオリティがかなり高い。 制限がなくなり、かなり細かい調整ができるようになったDALL・E2のような感じです。 生成が早い。 設定なしで使えば正直体感DALLE2より早いです。6秒..くらい? 安い。 3円くらいだと思います。 DALL・E2は1生成17円。Midjourneyは月4000円。 オープンソース これからいろんなサービスにこのAIが搭載されます。 他AIではかけられている学習データのフィルターがない。 各国の代表者や、有名人、ポルノがデータに含まれています。 PC上で使用できる。( = その場合無料) いや、こ
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く