リンク pixiv aiWaifumaker aiを使って美しい女性を描いています drawing beautiful gorgeus woman with stablediffusion Thankyou for watching! https://twitter.com/aiWaifumaker 1
概要DreamBoothとは追加学習することで、AI(StableDiffusion)で特定のキャラや物を描くためのモデル(データ)作るツールです。 例えば、ドラゴンクエスト10オンラインというゲームのアンルシアというキャラがいます。 ドラゴンクエスト10のアンルシア 公式サイトより引用 https://hiroba.dqx.jp/sc/election/queen2021/vote/confirm/1/nologinこのキャラの画像を18枚ほどAIに読み込ませ、追加学習し、AIに描かせた絵が以下の絵になります。 これ見ると、単なる髪型や顔が似ているレベルではなく、服の模様レベルまで再現できている事がわかります。 今までStableDiffusionの欠点として、同じキャラを安定して描くのが苦手というのがありましたが、DreamBoothを使うことで克服することが出来ます。 これにより、A
今年に入り、AI歌声合成の動きが激しく、その進化のすごさ、クオリティーの高さには驚くばかりです。中でも注目すべきは今年2月に彗星のように登場し、フリーウェアとして公開されたNEUTRINO(ニュートリノ)です。これはSHACHI(@SHACHI_NEUTRINO)さんが開発するフリーのソフトであり、これまで東北きりたん、謡子、そしてJSUT(いずれも学術的に公開されている歌声データベースを利用して開発している)の3つの歌声ライブラリが同梱されてました。そこに9月18日、新たに東北イタコが追加されたのです(9月18日現在、公開されている0.400には東北きりたん、東北イタコのみが同梱。それ以外については後日公開される模様です)。 先日、「AIきりたんに次ぐ第2のAIシンガー、東北イタコの歌唱データベース制作プロジェクトのクラウドファンディングスタート」という記事でも紹介し、無事にクラウドファ
2022年度に未踏ジュニアに採択されたクリエイターが、5月から半年間取り組んできたプロジェクトについて発表を行う「未踏ジュニア 成果報告会」。ここで五島氏と、メンターの尾藤氏が登壇。「カラスからゴミを守るシステム」の開発理由から成果について報告します。 五島氏の自己紹介 尾藤正人(以下、尾藤):メンターの尾藤です。僕がメンターをさせてもらった、五島くんのカラスを追い返すシステムの発表をお願いしたいと思います。五島くん、どうぞ。 五島舜太郎氏(以下、五島):はい。みなさんこんにちは。五島舜太郎です。僕は今回「scairecrow」という、カラスからゴミを守るシステムの開発を行いました。 (会場拍手) ありがとうございます。scarecrowとは英語でカカシを意味する単語ですが、今回は「AIの機能を内蔵したカカシ」という意味を込めて名付けました。 では自己紹介です。年齢は13歳、中学1年生です
皆さん初めまして! 先日kaggleのARCコンペで2位になったのですが、 2位で終了しました!みなさんお疲れさまでした。コード書くの楽しかった。 pic.twitter.com/dLxl6Mlgoe — Aryyyyy (@aryyyyy13) 2020年5月28日 僕のkaggle歴が浅めということもありtwitterでも結構反響があって、何人かの方にはわざわざDMまで頂いてどんな勉強をしたか聞いていただきました。なるほど需要があるならということで、今までのことをまるっと振り返ってみようと思います。 これからkaggle始める方のためになれば幸いです。 機械学習を始める前のスペック 準備期間:2019年7月〜 kaggle初参加:2019年9月〜 kaggleちゃんと始める:2019年10月〜 DSB参加:2019年10月〜 会社を休職して本格的に勉強開始:2020年1月前半〜 手頃な
保険証や運転免許証との一体化など、デジタル化の鍵を握っていくのが、「マイナンバーカード」。 近い将来、小中学生の学校の成績も管理することになる可能性も。 政府は、小中学生の学習履歴や試験の成績を、マイナンバーカードにひも付け、オンラインで管理する仕組み作りに着手した。 そもそも文科省は、教育データの利活用を進めていて、児童・生徒の個人の学習意欲の変化や理解度をデータとして記録するのは、1人ひとりに合った効果的な学びの実現が目的。 蓄積された記録データをもとに、教員が、1人ひとりに合った指導を行うことができるとしている。 また政府は、こうした個人の学習データのマイナンバーカードへのひも付けを検討していて、2023年度以降の実現を目指している。 小中学生の学習履歴や試験の成績をマイナンバーカードにひも付けることについて、教育評論家の石川幸夫さんは、「メリットとしては、成績そのものが一元管理でき
こんにちは。一般クリエイターです。前回からlineart(AI着色)を利用したイラスト製作を色々と試していましたが、lineartを使用することでかなり細部に渡って生成物の形状を制御できることが分かってきました。3D背景と併用することで、統一性のある背景を様々なアングルから描写することができます。これによって「AIが生成する背景は描写毎に形が変わってしまうので、同一室内の複数カットを作成できない」という問題がある程度解決されてしまいました。されてしまいましたよ!ある程度! なので今回は3D背景モデルを使用して3カットほどシーンを生成させて何かアニメっぽいやつ作りたいと思います。作業手順はだいぶ複雑になりますので、「AIを活かしてなんか作品作りてえな~」と思ってる人向けの内容となっております。AI着色を使用したイラスト作成に関しては前回記事を参照してください。 まずは今回のアニメの舞台となる
はじめに ChatGPTをはじめとしたLLMを使いこなすための必須スキル、プロンプトエンジニアリング について解説します。 最近は動きが早すぎてキャッチアップが難しくなっていますが、特に以下のような手法が注目されているようです。 In-context Learning (ICL) Chain-of Thought (CoT) Zero-shot CoT ReAct Self-Consistency Program-aided Language Model (PAL) 今回は、6つのテクニックの中からPart1として、ICL、CoT、そしてZero-shot CoTの3つを紹介します。 これらのテクニックは、ChatGPTをはじめとするLLMのポテンシャルを最大限に引き出すために必要不可欠です。 さらに、各テクニックを詳しく解説した論文も紹介していますので、是非ご一読ください。 In-con
みなさんこんにちは。くにです。 データ分析の世界に足を踏み入れてから9年が過ぎました。 分析実務未経験でキャリアチェンジできたのは幸運としか言えませんが、ある意味無知だったからこそ無謀な挑戦ができたのかもしれません。この挑戦の泥臭い記録は、この記事に書きました。 ポジションは変われど、データを扱う仕事をまだ続けています。 私は実務で手を動かしつつ、不格好に失敗しながら学んできました。わからないことにぶつかるたびに本を買い、その本でわからないことがあればまた本屋に行き、自分が少しでも理解できそうな本を探して買いました。そして、気になる参考文献があれば、それも買って読んでみる…。 こんな生活を続けているうちに、部屋が本だらけになってしまいました。 正直に言って読み切ったという実感のある本はありません。しかし、実務で何かしらお世話になった本は数多くあり、そういう本は手放さずに手元に置いています。
コンピュータは非常に便利なのだが、ほとんどのコンピュータユーザーがその能力の1%も使えてないのではないか。そんな気がするのだ。 というか、コンピュータの能力が人類の進歩に比べて上がり過ぎてる。 おかげでゲームもAIもビデオ編集も手軽になった。 MacBookの新しいCPUが発表されたのだが、40%高速化したというニューラルエンジンを一体全体何に使えばいいのか、人工知能の研究者である吾輩にもわからないので、これを使いこなすことができる人は将来登場するのだろうか。 コンピュータの能力を真に最大限引き出すには、残念ながらプログラマーになるしかない。しかも、マシン語レベルの最適化ができるプログラマーである。 プログラムさえ丁寧につくればコンピュータの持つ潜在能力は圧倒的に高い。だがコンピュータに比べて人間は頭が悪すぎる。 結局のところ、道具がどれだけ進歩しても使う側の人間の想像力が追いつかないと全
米Alphabet傘下の英DeepMindが、遺伝子配列情報からタンパク質の立体構造を解析するAI「AlphaFold v2.0」(以下、AlphaFold2)をGitHub上で無償公開し、ネット上で注目を集めている。Twitterを利用する生物系の研究者からは「革命的な成果だ」「これからの研究の前提が変わっていく」など、AlphaFold2の予測精度に対して驚きの声が相次いだ。 なぜAlphaFold2はこれほどの驚きや賞賛をもって迎えられているのか。タンパク質構造解析の難しさをひも解く。 未知の部分が多いタンパク質の構造 タンパク質は数十種類のアミノ酸からできており、配列によってさまざまな性質に変化する。例えば筋肉、消化酵素、髪の毛はそれぞれ役割が異なるが、いずれもタンパク質で作られている。タンパク質の構造が分かれば、生体内の化学反応の理解が進む。アルツハイマー型認知症やパーキンソン病
個人用メモです。 機械学習は素材集めがとても大変です。 でもこの素材集め、実は無理してやらなくても、元から良質な無料データベースがあったようなのです。 URLはこちら YouTube8-M https://research.google.com/youtube8m/explore.html 提供されているサービスは以下の通り 800万個の動画 19億個のフレーム 4800個の分類 使い方はExploreから画像セットを探し、ダウンロードするだけ。 他の方法も見つけた open images dataset 「すごい神だな」と思ったのは これもう完成されてますよね もちろんこの認識前の画像もセットでダウンロードできます。 Youtube-8Mとは、画像数を取るか、精度で取るか、という違いでしょうか。 他にも良い素材集を教えていただきました (はてなブックマーク情報 @sek_165 さん )
リアルタイムでおっさんから美女の映像を作り出すAI実験が、「す、すごすぎる!」「ライブでしたらだまされるレベル」と話題になっています。 す、すげーーー! 実験をしているのは、3DアーティストのHirokazu Yokoharaさん(@Yokohara_h)。Twitterに変換前後の映像を並べた動画を投稿しました。 その結果は驚くべきもの。動きが少々カクカクしているものの、Web会議を通じてであれば本物と信じてしまいそうなレベルです。 動作はもちろん、表情も追従。さらに顔だけでなく体形まで女性らしくなっています。髪形は、黒いTシャツをかぶることでロングヘアに変換させました。Tシャツの柄などがときどき変わってしまうので、よく見ていればおかしいと思えますが、ボーッと見ていたらわからないでしょう。ましてや、中身がおっさんなんて絶対に思えない! 黒いTシャツをかぶり、ロングヘアーを再現させました
今朝方GPT-4が発表されて、みなさん死ぬほど盛り上がってますねー。 GPT-4を使えば一発でできそうなネタではありますが、GPT-4 APIのお値段は3.5よりもお高めの設定なので、これからはどのように上手くGPTのバージョンを使い分けていくかが問われていくと思います。 というわけで今日は非構造化データを構造化データに変換する話です。 問題の背景行政が定期的に公開している統計資料をご覧になったことはありますでしょうか。ディスる訳ではないですが、以下に示すのは私が住んでいる富士吉田市の統計資料です。 統計ふじよしだ令和元年度版 - 商業 このように分かりやすい表で情報を提供してくれるのはありがたいのですが、数値データにはなっていないので分析に活用することができません。 GPTのパワーを使って、このような非構造化データを構造化データに変換できないか?というのが本日のお題になります。 コードP
本日8月1日、音声合成技術の世界に、また画期的な動きがありました。「Seiren Voice」や「Yukarinライブラリ」の開発者としても知られるヒロシバ(@hiho_karuta)さんが、ITAコーパスを利用した商用利用も可能なAI音声合成システム、VOICEVOXなるソフトウェアをオープンソースのとして無料でリリースしたのです。具体的には現時点Windowsで動くシステムで、「ずんだもん」および「四国めたん」の声でテキストを読み上げるシステムとなっています。 これがオープンソースとなったことで、一般ユーザーが自由に利用できるというだけでなく、さまざまなシステムに組み込んで喋らせることが可能になったのが画期的なところ。たとえばロボットなどに組み込んで対話型のシステムを作ることや、観光案内システムに導入して喋らせる……といったこともできるほか、クラウド型のシステムを構築し、ブラウザを経由
ChatGPTが思いがけずいろいろなことを人間より賢くやっているのを見てシンギュラリティという言葉を使う人が増えたように思いますが、逆に、シンギュラリティは来ないのではという思いを強くしています。 まず、この文章でのシンギュラリティがなにかという話ですが、レイ・カーツワイルが「シンギュラリティは近い」の1章の終わりで「さあ、これが特異点だ」といっている特異点、そのシンギュラリティです。 シンギュラリティは近い―人類が生命を超越するとき 作者:レイ・カーツワイルNHK出版Amazon この特異点は単にAIが人間より賢くなるというだけではありません。人間より賢くなるだけだと、便利な道具が増えるだけなので、大騒ぎするほどの変化は起きません。人の仕事を奪うといっても、蒸気機関ほどでもないですね。印刷機などと並んで、人の生活を変える転換点にすぎず、ただひとつの点をあらわすシンギュラリティには なりま
近年の AI の進歩により、論文の読み方も大きく変化を遂げました。AI を活用することで以前と比べてはるかに簡単かつ早く論文が読めるようになりました。 以前私の個人ブログにて、論文の読み方やまとめ方を紹介しました。その時には要約ツールは用いていませんでしたが、最近はすっかり要約ツールを多用するようになりました。 本稿では、最新の AI を使った論文の読み方を丁寧に紹介します。 基本的な流れ 本稿でおすすめするのは ChatGPT か Claude で要約を生成して論文の概要をつかみ、Readable で精読するという方法です。ChatGPT や Claude では単に全体の要約を生成するだけでなく、肝となる箇所を特定したり理解するためにも用います。具体的な手順については後の項で解説します。 私が特定のテーマについて調査を行う場合には、テーマに関係する論文を被引用数の多いものを中心に 10
イントロNetflixは、スマホやPCがあれば、どこでもいつでも、映画やドラマを見放題で楽しむことができます。今年はお家時間が増えたことで、Netflixをより満喫している方も多いのではないでしょうか。実際に、2020年1月〜3月に会員が全世界で1600万人ほど増え、合計1億8000万人を超えています。 Netflixをいくつかの数字で見てみると、さらにその凄さに驚かされます。 ・全世界のインターネット通信量(下り)の15%をNetflixが占めており、YouTubeを超える世界一の動画サービス ・時価総額が20兆円超え ・サブスクリプション収入が月々約1500億円 そんな多くのユーザーを有するNetflixの魅力の1つに、推薦システムがあります。Netflixのホーム画面には、今話題の作品やユーザーにパーソナライズ化されたおすすめの作品が並びます。 Googleの検索と違って、Netfl
自分がよく使用する日本語自然言語処理のテンプレをまとめたものです。 主に自分でコピペして使う用にまとめたものですが、みなさんのお役に立てれば幸いです。 環境はPython3系、Google Colaboratory(Ubuntu)で動作確認しています。 Pythonの標準機能とpipで容易にインストールできるライブラリに限定しています。 機械学習、ディープラーニングは出てきません!テキストデータの前処理が中心です。 前処理系 大文字小文字 日本語のテキストにも英語が出てくることはあるので。 s = "Youmou" print(s.upper()) # YOUMOU print(s.lower()) # youmou 全角半角 日本語だとこちらのほうが大事。 全角半角変換のライブラリはいくつかありますが、自分はjaconv派。 MIT Licenseで利用可能です。 import jaco
(『IT Text 自然語処理の基礎』より) 3ヶ月ほど前に空前のLLMブームについて概観する記事を書きましたが、それ以降も世間のLLMに対する狂騒ぶりは収まるどころかますます拍車がかかるという有様で、あまつさえ僕自身の仕事における日常業務にもじわじわと影響が及びつつあり、今後も良きにつけ悪しきにつけLLMと共生し続ける必要がありそうだと感じている今日この頃です。 そんな猫も杓子もLLMに群がるが如き空前のブームを受けて、エンジニアやデータ分析職の方々の中には「LLMに興味はあるんだけど世の中にあまりにも多くのLLM関連コンテンツが溢れ返っていて何から手をつけたら良いのか分からない」という向きもあるように見受けられます。そこで、僕も断じてLLM以下生成AIの専門家などではないのですが、個人的に「このテキストを読めばLLM時代を生き抜くことが出来そうだ」と感じた書籍を、全くの独断と偏見で3冊
【JS/ Python両方OK!】「データ可視化」が歴史から実装まで体系的に学べるStanford講座の独習ノートJavaScriptd3.jsデータ分析データサイエンスcolaboratory CS 448B Visualization (2020 Winter)は、Maneesh Agrawala氏による、Stanford大で行われた、データの可視化に関する体系的な講義です。 スタンフォード大の"CS 448B Visualization (2020 Winter)" がすごい。 データ可視化の体系的講義。どう図表に変換するかの理論、探索的データ分析、ネットワーク分析等の実践と盛り沢山。 スライドに加え、Observable(JavaScript), Colab(Python)どちらでも例を試せる。https://t.co/lGyPElrihg pic.twitter.com/mWZn
ジェイ・アラマールのブログより。 AIによる画像生成は、(私を含めて)人々の度肝をぬく最新のAIの能力です。テキストの説明から印象的なビジュアルを作り出す能力は、魔法のような品質を持ち、人間がアートを創造する方法の変化を明確に指し示しています。Stable Diffusionのリリースは、高性能(画質だけでなく、速度や比較的低いリソース/メモリ要件という意味での性能)なモデルを一般の人々に提供することになったのは、この開発における明確なマイルストーンです。 AI画像生成を試してみて、その仕組みが気になり始めた方も多いのではないでしょうか。 ここでは、Stable Diffusionの仕組みについて優しく紹介します。 Stable Diffusionは、様々な使い方ができる汎用性の高いものです。まず、テキストのみからの画像生成(text2img)に焦点を当てます。上の画像は、テキスト入力と生
AI は、Google が現在取り組んでいる中で最も本質的なテクノロジーです。AI は、医師による病気の早期発見の支援や、自国語での情報へのアクセスなど、人々、ビジネス、コミュニティの潜在能力を引き出します。そして、数十億人の生活を大きく改善できる新しい機会を提供します。6 年前から、私たちが Google の方向性を AI 中心に再編し「世界中の情報を整理し、世界中の人がアクセスできて使えるようにする」という Google のミッションを果たす最も重要な方法に AI を据えているのは、これが理由です。 以来、私たちは全面的に AI への投資を継続し、Google AI と DeepMind のチームは最先端のテクノロジーを進化させています。現在、AI の計算規模は半年ごとに倍増していますが、それはムーアの法則よりもはるかに早いペースです。同時に、高度なジェネラティブ AI と大規模言語モ
画像生成AIの躍進が目覚ましい。エンジニア兼SF作家の筆者としては、AIが絵を描けるようになるのなら、絵が描けない自分でも漫画制作ができるようになるのではという期待があった。実際に2022年の末頃にはstable diffusionを使った漫画制作UIのプロトタイプを作ってみたこともある。 Google ColabでAI漫画制作用のUIを試作してみた。コマごとにプロンプトが割り当ててあって、AIが裏でたくさん選択肢を作りまくってくれる。人間が大量の絵からベストなものを選んだり、構図やセリフの調整に集中できるようなワークフローがいいのではないかという仮説 #stablediffusion pic.twitter.com/zI64zm3cNI — 安野貴博 (@takahiroanno) November 10, 2022 それから半年以上の月日が経ち、世の中でもMulti ControlNe
ChatGPTを業務に組み込むためのハンズオン 2023/06/26 一般公開用 デジタル庁 Fact&Data Unit 大杉直也 ↑マイナンバー交付数のダッシュボードを作っているところです 「Microsoft でテストされたアイデアのうち、改善を示すメトリクスを実際に改善できたのは3分の1にすぎない」 (Microsoft社 元Vice President) 「もしあなたが実験主導のチームにいるなら、70%の仕事が捨てられることに慣れてください。それに応じてプロセスを構築しましょう」(Slack社 Director) A/Bテスト実践ガイド p14より 一方で 「アイデアの価値を見積もることは難しい。このケースでは、年間1億ドルの価値ある単純な変更が何か月も遅れていた。」(同著 p5より) こともあります 午前中のアイデアソンで出たアイデアはちゃんと検証するまで価値があるかは不明です
社内向けに公開している記事「統計・機械学習の理論を学ぶ手順」の一部を公開します。中学数学がわからない状態からスタートして理論に触れるにはどう進めばいいのかを簡潔に書きました。僕が一緒に仕事をしやすい人を作るためのものなので、異論は多くあると思いますがあくまでも一例ですし、社員に強制するものではありません。あと項目の順番は説明のため便宜上こうなっているだけで、必ずしも上から下へ進めというわけでもありません。 (追記)これもあるといいのではないかというお声のあった書籍をいくつか追加しました。 数学 残念ながら、統計モデルを正しく用いようと思うと数学を避けることはできません。ニューラルネットワークのような表現力が高くて色々と勝手にやってくれるような統計モデルでも、何も知らずに使うのは危険です。必ず数学は学んでおきましょう。理想を言えば微分トポロジーや関数解析のような高度な理論を知っておくのがベス
メルカリで写真検索とEdge AIチームに所属している澁井(しぶい)です。機械学習のモデルを本番サービスに組み込むための設計やワークフローをパターンにして公開しました。 GithubでOSSとして公開しているので、興味ある方はぜひご笑覧ください! PRやIssueも受け付けています。私の作ったパターン以外にも、有用なパターンやアンチパターンがあれば共有してみてください! GitHub:https://github.com/mercari/ml-system-design-pattern GitHub Pages:https://mercari.github.io/ml-system-design-pattern/README_ja.html なぜ機械学習システムのデザインパターンが必要なのか 機械学習モデルが価値を発揮するためには本番サービスや社内システムで利用される必要があります。そのた
どんな人向けの記事? レビューによって心理的なダメージを受けやすい方 非エンジニアだが、エンジニアチームがどんな機能を作っているか知りたい方 業務が溜まっていて、レビューに割く時間を捻出するのに苦労している方 コピペできるコードも公開します 初回レビューをAIに任せると、いろんなロールの人の役に立つ レビューは得意ですか? 優秀なエンジニアしかいないチームであれば、PRは1トピックに絞って小さく明確なコミットによって作成され、適切な要約とともに提供されることでしょう。 しかし、実際にはいろいろな制約から、PRが想定よりずっと大きくなってしまったり、関連トピックと異なるコードが混じってしまうこともあります。 実際のところ、大きなPRを適切にレビューするのは難しいことです。また、自分が詳しくない領域のレビューを行わなければいけない機会もあります。 今回の記事は、レビューを作成してくれるAI C
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く