リアルタイムでおっさんから美女の映像を作り出すAI実験が、「す、すごすぎる!」「ライブでしたらだまされるレベル」と話題になっています。 す、すげーーー! 実験をしているのは、3DアーティストのHirokazu Yokoharaさん(@Yokohara_h)。Twitterに変換前後の映像を並べた動画を投稿しました。 その結果は驚くべきもの。動きが少々カクカクしているものの、Web会議を通じてであれば本物と信じてしまいそうなレベルです。 動作はもちろん、表情も追従。さらに顔だけでなく体形まで女性らしくなっています。髪形は、黒いTシャツをかぶることでロングヘアに変換させました。Tシャツの柄などがときどき変わってしまうので、よく見ていればおかしいと思えますが、ボーッと見ていたらわからないでしょう。ましてや、中身がおっさんなんて絶対に思えない! 黒いTシャツをかぶり、ロングヘアーを再現させました
今朝方GPT-4が発表されて、みなさん死ぬほど盛り上がってますねー。 GPT-4を使えば一発でできそうなネタではありますが、GPT-4 APIのお値段は3.5よりもお高めの設定なので、これからはどのように上手くGPTのバージョンを使い分けていくかが問われていくと思います。 というわけで今日は非構造化データを構造化データに変換する話です。 問題の背景行政が定期的に公開している統計資料をご覧になったことはありますでしょうか。ディスる訳ではないですが、以下に示すのは私が住んでいる富士吉田市の統計資料です。 統計ふじよしだ令和元年度版 - 商業 このように分かりやすい表で情報を提供してくれるのはありがたいのですが、数値データにはなっていないので分析に活用することができません。 GPTのパワーを使って、このような非構造化データを構造化データに変換できないか?というのが本日のお題になります。 コードP
ChatGPTが思いがけずいろいろなことを人間より賢くやっているのを見てシンギュラリティという言葉を使う人が増えたように思いますが、逆に、シンギュラリティは来ないのではという思いを強くしています。 まず、この文章でのシンギュラリティがなにかという話ですが、レイ・カーツワイルが「シンギュラリティは近い」の1章の終わりで「さあ、これが特異点だ」といっている特異点、そのシンギュラリティです。 シンギュラリティは近い―人類が生命を超越するとき 作者:レイ・カーツワイルNHK出版Amazon この特異点は単にAIが人間より賢くなるというだけではありません。人間より賢くなるだけだと、便利な道具が増えるだけなので、大騒ぎするほどの変化は起きません。人の仕事を奪うといっても、蒸気機関ほどでもないですね。印刷機などと並んで、人の生活を変える転換点にすぎず、ただひとつの点をあらわすシンギュラリティには なりま
(『IT Text 自然語処理の基礎』より) 3ヶ月ほど前に空前のLLMブームについて概観する記事を書きましたが、それ以降も世間のLLMに対する狂騒ぶりは収まるどころかますます拍車がかかるという有様で、あまつさえ僕自身の仕事における日常業務にもじわじわと影響が及びつつあり、今後も良きにつけ悪しきにつけLLMと共生し続ける必要がありそうだと感じている今日この頃です。 そんな猫も杓子もLLMに群がるが如き空前のブームを受けて、エンジニアやデータ分析職の方々の中には「LLMに興味はあるんだけど世の中にあまりにも多くのLLM関連コンテンツが溢れ返っていて何から手をつけたら良いのか分からない」という向きもあるように見受けられます。そこで、僕も断じてLLM以下生成AIの専門家などではないのですが、個人的に「このテキストを読めばLLM時代を生き抜くことが出来そうだ」と感じた書籍を、全くの独断と偏見で3冊
ジェイ・アラマールのブログより。 AIによる画像生成は、(私を含めて)人々の度肝をぬく最新のAIの能力です。テキストの説明から印象的なビジュアルを作り出す能力は、魔法のような品質を持ち、人間がアートを創造する方法の変化を明確に指し示しています。Stable Diffusionのリリースは、高性能(画質だけでなく、速度や比較的低いリソース/メモリ要件という意味での性能)なモデルを一般の人々に提供することになったのは、この開発における明確なマイルストーンです。 AI画像生成を試してみて、その仕組みが気になり始めた方も多いのではないでしょうか。 ここでは、Stable Diffusionの仕組みについて優しく紹介します。 Stable Diffusionは、様々な使い方ができる汎用性の高いものです。まず、テキストのみからの画像生成(text2img)に焦点を当てます。上の画像は、テキスト入力と生
ChatGPTを業務に組み込むためのハンズオン 2023/06/26 一般公開用 デジタル庁 Fact&Data Unit 大杉直也 ↑マイナンバー交付数のダッシュボードを作っているところです 「Microsoft でテストされたアイデアのうち、改善を示すメトリクスを実際に改善できたのは3分の1にすぎない」 (Microsoft社 元Vice President) 「もしあなたが実験主導のチームにいるなら、70%の仕事が捨てられることに慣れてください。それに応じてプロセスを構築しましょう」(Slack社 Director) A/Bテスト実践ガイド p14より 一方で 「アイデアの価値を見積もることは難しい。このケースでは、年間1億ドルの価値ある単純な変更が何か月も遅れていた。」(同著 p5より) こともあります 午前中のアイデアソンで出たアイデアはちゃんと検証するまで価値があるかは不明です
4月23日、彗星のように現れたネット上のサービス、CoeFont STUDIO(コエ・フォント・スタジオ)は、誰でも無料で使える音声合成サービスということで、瞬く間に広がり、2日で累計ユーザー数が6万人を突破。すでに20万人を超えるところまで来ているようです。日本語でテキストを入力すれば、非常に滑らかな声でしゃべってくれ、その音声をユーザーは商用を含めて自由に利用できるという画期的ともいえるサービスとなっているのです。 このサービスを立ち上げたのは、なんと東京工業大学2年生、19歳の早川尚吾さん。株式会社Yellstonを立ち上げ、その新サービスとして、CoeFont STUDIOをスタートさせたのです。もちろん株式会社ですから、今後ビジネス展開をしていくことを目論んでいるわけですが、それはCoeFont STUDIOの延長線上にあるもので、世の中を大きく変えていく可能性もありそうです。先
Amazon Web Services(AWS)は、米ラスベガスで開催中の年次イベント「AWS re:Invent 2019」の基調講演で、機械学習を用いて自動的にコンピュータがコードレビューをしてくれる「Amazon CodeGuru」を発表しました。 Amazon CodeGuruのコードレビュー機能は、Amazon自身のこれまでの大量のコードと、GitHubで公開されているポピュラーな1万のオープンソースソフトウェアのコードを基に機械学習のトレーニングを行ったモデルを用いて、対象となるコードを解析。 GitHubやCodeCommitのプルリクエストと連係し、問題があるとされた個所には人間に読める形式でコメントをしてくれるというもの。 並列処理や脆弱性の問題あるコードを指摘 例えばAWSにおけるベストプラクティスのコードから外れているものや、並列処理における問題などの指摘。
株式会社デジサク がお送りするプログラミング記事、 今回はAI(機械学習)について扱っていこうと思います。 ※ 無料セミナーも開催中なので、ぜひご覧になってみて下さい。 はじめに kaggleや学習サイトなど誰でも機械学習を学べる機会が増えてきました。 その反面、情報量が多すぎて全体感を掴めていない人が多いと感じています。 そこで、様々な参考書や記事で紹介されている機械学習で使用する手法を全公開しようと思います。 細かなコーディングはリンクを貼っておくので、そちらを参照されてください。 SNS でも色々な情報を発信しているので、記事を読んで良いなと感じて頂けたら Twitterアカウント「Saku731」 もフォロー頂けると嬉しいです。 機械学習の一連手順 まず、機械学習を習得するために必要なスキルは下記です。 実務の場では数段細かな作業が必要になりますが、最初は下記を勉強するだけで十分で
概要 Sakana AIは進化や集合知などの自然界の原理を応用して基盤モデルを開発することを目指しています。私達の目標は、モデルを自ら訓練し開発することだけではありません。基盤モデルの開発を効率化、高度化、自動化するための新たな手法を生み出すことに挑戦しています。この目標に向けた第一歩として、私たちはプレプリント「Evolutionary Optimization of Model Merging Recipes (モデルマージの進化的最適化)」を公開しました。 このリリースの要点は以下の通りです。 進化的モデルマージという手法を提案します。これは、多様な能力を持つ幅広いオープンソースモデルを融合(マージ)して新たな基盤モデルを構築するための方法を、進化的アルゴリズムを用いて発見する手法です。私たちの手法は、ユーザーが指定した能力に長けた新しい基盤モデルを自動的に作成することができます。既
人は運命のイタズラで道を踏み外すことがある。 だがその裏にはメカニズムが存在する。 感情の仕組みを理解して、人生をコントロールする術を授けよう。 高さ20mでの懸垂 こんなツイートが流れてきた。 精通が登り棒で股間を擦ったせいだったので、何故か性的快感と「高さ」が結びついてしまい、小学校3~4年の頃にマンションの7階か8階からブラ下がり、懸垂みたいな感じで壁に局部を擦りつける自慰行為をしていた。あれは一歩間違えれば死んでいたので、やはり性教育は大事だと思う。— 加藤よしき (@DAITOTETSUGEN) September 15, 2020 読んだ時、思わず笑ってしまう。この人の自慰行為が命がけだからではない。「これ、本で読んだやつだ」となったからである。しかも複数のメカニズムが加藤少年に影響を及ぼしたように見受けられる。その結果、彼は性的快感を求めて命を危険に晒すようになったのだ。 人
2020年9月10日公開 担当:畠山 公大先生 所属:脳神経内科学分野 はじめに 私たちが見ている世界は,私たちの目に映った世界そのものではない.私たちが見ていると感じるのは,視覚情報をもとに,脳が都合よく解釈し,作り出した虚構の世界だ1. この虚構性を実感できる具体例として,生理的錯視が挙げられる.図1は生理的錯視の一例である,Kanizsaの三角形と呼ばれる図形である2.真ん中に白い三角形が浮き出て見えるだろう.しかし,実際には三角形は存在しない.あるのは,切れ込みの入った3つの円と,一辺の欠けた3つの小さい三角形である.しかし,そう分かっていても白い三角形が見えてしまうのは,我々が体験している視覚世界が,脳の作り出した虚構であることの証左に他ならない.すなわち,偶然3つの円に入った切れ込みが,それぞれ他の円の切れ込みと一直線に並ぶよりも,3つの円の上に白い三角形が載っていると解釈した
自分の声をまったく別のキャラクタの声に変えることを実現するAIボイスチェンジャー。エフェクトを使って自分の声を加工する従来のボイスチェンジャーとは異なり、自分の声は完全に消えて、まったく別人になりきれるのが特徴で、これまでもVoidolやCoeFontボイスチェンジャーといったものを記事でも紹介してきたほか、中国系のフリーウェアでもかなりの精度を持ったものがいろいろ登場してきています。 そうした中、12月25日、まったく新たなAIボイスチェンジャー、Parakeet.VC(パラキート・ブイシー)が、福島県のベンチャー企業、Parakeet株式会社からリリースされました。ここには東北ずん子や東北きりたん、またずんだもんをはじめ、計109種類の声が収録されており、ユーザーはそれらを選んで、マイクで話せばリアルタイムにキャラクタの声に変換することが可能です。既存のAIボイスチェンジャーと比較して
2022年11月にChatGPTが公開され、たった1週間で100万ユーザーを超えたのをきっかけに、GoogleのBardやMicrosoftのBing AI Chatなど、大規模言語モデルを利用したチャットAIが続々とリリースされています。チャットAIを研究しているセバスティアン・ラシュカさんが、チャットAIが実用化されるまでの研究の軌跡を重要な論文24個に絞って要約しています。 Understanding Large Language Models - by Sebastian Raschka https://magazine.sebastianraschka.com/p/understanding-large-language-models ◆目次 ・主要なアーキテクチャとタスク ・スケーリングと効率性の向上 ・言語モデルを意図した方向へ誘導する ・人間のフィードバックによる強化学習(
ChatWithChatGPT.md 結城浩とChatGPTの対話 2022年12月2日 「質問」は結城浩の文章です。 「回答」はChatGPTの文章です。 質問 ChatGPTという対話するAIツールがあります。人間が質問を投げかけるとそれらしく対話して回答してくれるツールです。こういうツールに対してどんな質問を投げかけたらおもしろい対話になるでしょうかね。何かアイディアがあったら聞かせてください。具体的な質問を知りたいなあ。 回答 ChatGPTは自然言語処理能力が高いため、人間が自然に投げかける質問をそれらしく受け答えることができます。例えば、ニュースやスポーツに関する話題、人間の心理や行動、哲学的な問題、文化や歴史に関する話題など、様々なテーマについて対話することができます。また、ChatGPTを用いた対話は、人間のようなスムーズな会話のように進むことができますので、おもしろい対話
はじめに 初めまして。ZENKIGENデータサイエンスチームのはまなすです。正式な所属はDeNAデータ本部AI技術開発部なのですが[1]、業務委託という形で今年度から深層学習系の開発等に携わっています。 深層学習界隈では、2017年に衝撃的なタイトル(Attention Is All You Need)の論文が発表されてから早5年半、元出自の機械翻訳タスクを大きく越えて、Transformer関連の技術が様々な領域で用いられる汎用アーキテクチャとして目覚ましく発展し続けています。 今回はそんなTransformerが現時点までにどのように活用されてきたか、また、どのように工夫されてきたかをざっくりと俯瞰し、流れをおさらいする目的の記事になります。本記事の大枠は、2021年時点でのサーベイ論文である A Survey of Transformers に倣いつつ、適宜、2023年2月上旬現在ま
この時期だからこそ自学しよう 海外って太っ腹な組織が多いのか、無料で読める専門書がすごく多い。 これ系のまとめ記事は他にもありますが、 翻訳済の日本の本と、原著を並べて表示していきたいと思います。 特にデータサイエンス分野に限って紹介。 お高いあの名著も実は原著なら無料かも? (2020年5月時点) 続編、データサイエンスの名大学講座 を書きました (2020年8月) 1冊目 邦題 : 統計的学習の基礎(1万5千円) 俗に言う「カステラ本」です。 日本では2014年に翻訳されましたが、原著は2001年と今から約20年前に出版されました。 内容からしても、当時は体系的に理論学習ができる刷新的な一冊だったのでしょう。 まさに「アルゴリズム・理論の辞書」。 年代的に古い感じはしますが、基礎はいつだって大切です。 数字に強くないと絶対読み切れない。。。 原著 : The Elements of S
歩行者をはねたAIは、最後までそれが「人間」だと認識できなかった――。 米国家運輸安全委員会(NTSB)は、2018年3月に米アリゾナ州フェニックス郊外で起きたウーバー(Uber)の自動運転車による歩行者死亡事故に関する報告書を公表した。 米国内ではこのほかにテスラの自動運転車による2件の死亡事故が明らかになっているが、いずれも犠牲となったのは運転していたドライバー。自動運転車による死亡事故で歩行者が犠牲になったのは、この件が初めてだった。 440ページにのぼる報告書では、ウーバー車のAIは車道に歩行者がいることをそもそも想定していなかったため、最後まで「歩行者」とは認識できていなかったことが、明らかにされた。 また、急ブレーキも作動しないなど、様々なシステムの欠陥の連鎖があったことが指摘されている。 一方、この死亡事故の余波で、フェニックス郊外の別の街ではグーグル系列の自動運転車に対し、
www.oreilly.com オライリー・メディアのコンテンツ戦略部門のバイスプレジデントであるマイク・ルキダスの文章だが、彼が数週間前、「コードを書くことが問題なのではない。複雑さをコントロールすることが問題なのだ」というツイートを見かけた話から始まる。彼はこれに感心したようで、これから何度も引用すると思うので、誰のツイートか思い出せればいいのにと書いている(ご存じの方は彼にご一報を)。 件のツイートは、プログラミング言語の構文の詳細や API が持つ多くの関数を覚えることは重要じゃなくて、解決しようとしている問題の複雑さを理解し、管理することこそが重要だと言ってるわけですね。 これは皆、覚えがある話だろう。アプリケーションやツールの多くは、最初はシンプルである。しかも、それでやりたいことの80%、いやもしかしたら90%をやれている。でも、それじゃ十分ではないと、バージョン1.1でいく
イントロChatGPTやBing、NotionAIなどの大規模自然言語モデル(LLM)を活用したサービスが注目を集めています。対話、要約、翻訳、アイデア生成などの多様なタスクにおいて、とても性能が高いです。ただ、ChatGPTでは、ときどき嘘が混じっていたり、文献が捏造されたりすることがあります。 ChatGPTとの対話画面(結果の書籍は存在しない)それを防ぐために、BingやPerplexityでは、文献を引用した上で、なるべく嘘が紛れ込まない形で回答してくれます。 Perplexityでは引用もつけてくれるしかし、これらのAIは、Web上の公開されている一部のデータを元に学習しているので、公開されてないデータに対しては当然ながら、正しく回答できません。 そこで、この記事では、自社が保有しているデータをChatGPTに組み込んで、自社オリジナルのPerplexityのようなシステムを作る
AIイラストが理解る!StableDiffusion超入門【2024年最新版】A1111、Forge対応 こんにちは、2022年10月からAIイラストの技術解説記事を連載してます、賢木イオです。この記事は、これまでFANBOXで検証してきた120本(約70万文字)を超える記事をもとに、2024年春現在、画像生成を今から最短距離で学ぶための必要情報をまとめたメインコンテンツです。 これから画像生成を学びたい初心者の方や、手描きイラストにAI技術を取り入れてみたい方が最初に読む記事として、必要知識が網羅的に備わるよう解説しています。素敵なイラストを思い通りに生成するために覚えるべきことを紹介しつつ、つまずきやすいポイントや参照すべき過去記事、やってはいけないことなどを紹介していますので、最初にこの記事から読んでいただくとスムーズに理解できるはずです。 解説役は更木ミナちゃんです。よろしくお願い
追記: U-Netの中間層は常にSelf-Attentionとなります。ご指摘いただきました。ありがとうございます。(コード) オミータです。ツイッターで人工知能のことや他媒体の記事など を紹介しています。 @omiita_atiimoもご覧ください! 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説! 未来都市にたたずむサンタクロース(Stable Diffusionで生成) 2022年8月、世界に大きな衝撃が走りました。それは、Stable Diffusionの公開です。Stable Diffusionは、テキストを受け取るとそれに沿った画像を出力してくれるモデルです1。Stable Diffsuionは10億個近いパラメータ数をもち、およそ20億個の画像とテキストのペア(LAION-2B)で学習されています。これにより、Stable Diffusionは入
はじめに 最近ついに、Google Meet に背景ぼかし機能が利用可能になりましたよね。日本語だとインプレスのケータイ Watchの記事などで紹介されてます。確か 2020 年 9 月末前後で順次リリースされていたと記憶しています。 このときは「背景ぼかし」の機能しかなかったのですが、最近(私が気づいたのは 2020/10/30)更にアップデートされました。アップデートで「背景差し替え」機能が付いて、ぼかし機能もぼかし効果が強弱 2 つから選べるようになりました。まだ日本語のニュース記事は見てないですが、Googleによるアップデートの発表はちゃんとされています。 そして、Google AI Blog でBackground Features in Google Meet, Powered by Web MLという記事が公開され、実装についての解説がされました。 この記事はその解説記事を
1.はじめに ディープラーニングを学び始めた方にとって、東京大学/松尾教授の動画を見ることは、とても刺激的で勉強になり面白いものだと思います。今回、松尾教授の講演に加えて対談やパネルディスカッションも含めた動画のリンクをまとめましたので、よろしかったら見て下さい。 おすすめは、01, 05, 14, 16, 23, 27 です。 2.動画リンク 講演には★の表示がしてあります。 □2012年 ★01.Computer will be more clever than human beings 東京大学版TEDです(もちろん日本語です)。ウェブを利用した情報の利用と人工知能の可能性についてコンパクトにまとめています。ディープラーニングには触れていませんが、若々しい松尾教授の姿が見れて、内容も興味深いです。<おすすめです。>(15分) □2013年 02.IT融合シンポジウム ~企業・研究者に
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く