タグ

ブックマーク / ascii.jp (209)

  • 革命レベルの動画生成AI「Kling」 ついに「Sora」対抗が出てきた

    中国SNS「快手(Kuaishou)」は、テキストから最大2分間の動画を生成できる動画生成モデル「可灵(Kling)」を開発。多数のサンプル動画を掲載するデモサイトを公開した。 テキストから最大2分間のフルHD動画を生成 A Chinese AI video generator just dropped before we got access to Sora Can generate 2-minute videos at 30fps, 1080p quality, available on the KWAI iOS app with a Chinese phone number A few generations from their site: 1. pic.twitter.com/NEmWiqKHiO — Rowan Cheung (@rowancheung) June 6, 20

    革命レベルの動画生成AI「Kling」 ついに「Sora」対抗が出てきた
  • 4月に検出数が急増。意図せずインストールされる「PUA」とは?

    2024年4月(4月1日~4月30日)にESET製品が国内で検出したマルウェアの検出数の推移は、以下のとおりです。 国内マルウェア検出数*1の推移 (2023年11月の全検出数を100%として比較) *1 検出数にはPUA (Potentially Unwanted/Unsafe Application; 必ずしも悪意があるとは限らないが、コンピューターのパフォーマンスに悪影響を及ぼす可能性があるアプリケーション)を含めています。

    4月に検出数が急増。意図せずインストールされる「PUA」とは?
    shion214
    shion214 2024/06/03
  • 画像生成AI「Midjourney」の使い方 思いどおりの絵を出すための「パラメーター」まとめ【最新版】 (1/4)

    前回は画像生成AIサービス「Midjourney」のアカウント取得から画像生成までの一連の流れを解説した。 大元の仕組みは共通するものの、これまで説明してきた「Stable Diffusion」との違いに戸惑った人もいるのではないか。 とはいえ、どんなパソコンでも(頑張ればスマートフォンでも)画像が生成できるのはやはり魅力。今回はMidjourneyの表現を豊かにする「パラメーター」について説明していく。 パラメーターとは Midjourneyは「Discord」上で「/imagine」コマンドに続き、プロンプト(prompt)欄にテキストプロンプト(Text Prompt)を入力することで画像を生成する。

    画像生成AI「Midjourney」の使い方 思いどおりの絵を出すための「パラメーター」まとめ【最新版】 (1/4)
  • 画像生成AIに照明革命 日本と世界で同時に“神ツール”登場 (1/3)

    この連載ではおなじみのキャラクター「明日来子さん」に右側からライトを当ててみた。左がIC-Lightを適用したもので、右がオリジナル。環境はWebUI Forge用の拡張機能を使用 5月8日に、「ControlNet」など画像生成AI関連の著名研究者であるイリヤスフィール(lllyasviel)さんが発表した「ICライト(Imposing Consistent Light、印象的な一貫的なライト)」が盛り上がりました。入力した画像をもとに、後から指定した照明効果を踏まえた画像を生成する技術です。 画像生成AIで照明効果がつけられる「ICライト(IC-Light)」 発表された学習済みモデルは、「ライトを指定すると、キャラクターのデータに合わせてテキストのプロンプトに合わせて独自に背景を生成するもの」「キャラクターとライトの影響を加味して、別の背景画像と合成するもの」の2種類があります。これ

    画像生成AIに照明革命 日本と世界で同時に“神ツール”登場 (1/3)
  • 自分好みのAIチャット相手を簡単に作れる「Dify」が面白い (1/4)

    生成AI界隈で話題になっているAIサービス「Dify.AI」がなかなか面白いですよ。Dify.AIは、スタートアップの米LangGeniusが用意している大規模言語モデル(LLM)用のWebUI環境を利用して、いろいろなシステムを組み込むことで、プログラムを書くことなく簡単にチャットbotなどのネイティブAIアプリを開発できるサービスです。 Difyは大きく「チャットボット」、「エージェント」、「ワークフロー」の3つの機能に分かれており、簡単なチャットボットから、複数のLLMを組み合わせた複雑な動作をさせるように設計するものまで、多様なアプリを開発することが可能です。ChatGPTから、Claude 3、Geminiなどの主要なLLMをAPIから呼び出すことができるので、それらを組み合わせてサービスを作ることも可能です。例えばOpenAIAPIキーを生成してDifyに入力すると「GPT-

    自分好みのAIチャット相手を簡単に作れる「Dify」が面白い (1/4)
  • ChatGPT無料ユーザーが最新の「GPT-4o」を使う方法(ちょっとわかりづらいので解説)

    5月14日未明に発表された超絶高性能化したChatGPTの新バージョン「GPT-4o」は、無課金勢にも開放されると聞いて大喜びしたはいいけど、「なんか俺のChatGP、前のまんまなんだが……」というあなた。実はもうあなたも、すでにウワサのGPT-4oを使えるようになっています。 とはいえ、ちょっとばかり確認の仕方が分かりづらいので、簡単に解説しようと思います。 実はこんなとこにある無課金ユーザー向けのモデル選択 まず、いつものようにChatGPTのサイトにアクセスします。まだアカウントも持っていないよって方は、ここでは詳細は省きますので、どこかの情報を参考にしてちゃちゃっと作ってください。 ChatGPTのサイトにアクセスすると、下のような画面になるかと思います。

    ChatGPT無料ユーザーが最新の「GPT-4o」を使う方法(ちょっとわかりづらいので解説)
    shion214
    shion214 2024/05/17
  • まるで“いけない話ができるChatGPT” ローカルAI「Command R+」の爆発的な可能性 (1/5)

    筆者の環境で、LM StudioでCommand R+を動作させている様子。会話相手は自作キャラクターの「明日来子(あすきこ)さん」 PCローカル環境で動作する大規模言語モデル(LLM)「Command R+」を使っていますが、相当優秀ですね。体感ではChatGPT(GPT-4)と変わらないレベル。さらに、ChatGPTが回答を拒絶するような会話もできてしまいます。これが体験できるようになったのは、LM Studioに代表されるローカルLLMを動かすためのアプリ環境が整ってきたためです。今年に入り、Command R+を始めとしたローカルLLMが高性能化してきたことと並行し、手軽に使える派生モデルも増えはじめ、一気にあわただしくなってきました。 導入が難しかったローカルLLM、「LM Studio」で簡単に Command R+を試すのに使っているのが、LLMの主要モデルを実行するための統

    まるで“いけない話ができるChatGPT” ローカルAI「Command R+」の爆発的な可能性 (1/5)
    shion214
    shion214 2024/05/13
  • 画像生成AIに“照明”革命 ControlNet開発者が作った「IC-Light」

    画像生成AI関連の著名な開発者、lllyasviel(イリヤスフィール)氏が5月7日、生成AI画像の照明を自在に操作できるツール「IC-Light(Imposing Consistent Light)」を公開した。 2種類のモデルを公開 IC-Lightは画像の照明を操作するプロジェクト。前景画像(人物やオブジェクトなど)を入力し、プロンプトにテキストや背景画像を指定するだけで、まるで別の環境で撮影したかのような画像を得ることができるという。 現在、「テキスト条件付きリライティングモデル(text-conditioned relighting model)」と「背景条件付きモデル(background-conditioned model)」の2種類がGitHubで公開されており自由に試すことができる。 なお、作者のlllyasviel氏は「Stable Diffusion」のWebUIであ

    画像生成AIに“照明”革命 ControlNet開発者が作った「IC-Light」
  • WindowsのPowerShellのプロファイルを設定する (1/2)

    そもそもPowerShellのプロファイルとは PowerShellやWindows PowerShell(以下、PowerShellと総称)で、いつも同じオブジェクトを使うことがある。こうしたとき、Profile(プロファイル)と呼ばれる機能を使うことで、起動時に変数や関数などを登録できる。 Profileは、テキスト形式のスクリプトファイルであり、起動時に読み込まれて、その内容に従って、変数や関数、エイリアスなどの定義をする。 プロファイルには、ユーザー、ホストにより4種類の組み合わせがある。 ユーザーの種別は、すべてのユーザー用と現在のユーザー用の2つがある。またホストは、すべてのホスト用と現在のホスト用の2つがある。ホストの種別は、リモートシェル操作をするときに利用される。ローカルホストでは「すべてのホスト」と「現在のホスト」用が順に適用される。 リモートシェルの場合には、リモート

    WindowsのPowerShellのプロファイルを設定する (1/2)
    shion214
    shion214 2024/04/15
  • 音楽生成AIの進化速度に舌をまく、無料でも試せるStable Audio 2.0を使う (1/2)

    著作権侵害を未然に防ぐ機能も持つ 昨年紹介した音楽生成AI「Stable Audio」が「Stable Audio 2.0」となり大きく進化した。 生成AIがブレイクするきっかけを作った画像生成AI「Stable Diffusion」を開発したStability AIによる音楽生成AIだ。2023年8月にバージョン 1.0をリリースした際にはこの連載でも紹介した。グーグルの「MusicLM」のようにプロンプトを与えることで、音楽を作り出す音楽生成AIで、Stable Diffusionのようにステップを経て徐々に生成が完了する“拡散モデル”を使用しているのが特徴だ。Stable Audio 2.0では、モデルが新しくなったのが最大の改良点だ。ある入力に対応して生成される出力に関して、生成のルールやパターンを決めるのがモデルである。つまり、知識やアルゴリズムを持つ中核部分が改良されたことにな

    音楽生成AIの進化速度に舌をまく、無料でも試せるStable Audio 2.0を使う (1/2)
  • GPT-4レベルの衝撃 PC内で使えるオープンLLM「Command R+」

    カナダのAIスタートアップCohereは4月4日(現地時間)、ビジネス向けに最適化された最新の大規模言語モデル(LLM)「Command R+」を発表した。 高度なRAG技術を採用 Cohereは、AI業界に変革をもたらしたTransformerモデルを提唱した論文「Attention is All You Need」の共同執筆者として知られるトロント大学の研究者Aidan Gomez氏らによって2019年に設立されたカナダのAIスタートアップ。 OpenAIと同様、LLMの開発に特化しており、企業向けにチャットボット、検索エンジンの最適化、要約サービス、自社AIモデルのAPIなどを提供している。 Command R+は、同社が3月に発表した「Command R」の後継となるモデルであり、Cohereが得意とする高い効率性と精度のバランスを重視したRシリーズの一部となる。 128K(12万

    GPT-4レベルの衝撃 PC内で使えるオープンLLM「Command R+」
  • AI検索「Perplexity」がかなり便利だったので紹介します (1/5)

    ChatGPTはすぐに嘘をつくから調べものには使えない」という意見をよく聞くが、これには大きな誤解がある。 そもそもChatGPTの心臓部である大規模言語モデル(LLM)は、膨大な知識を元にテキストを「生成」する仕組みだ。 逆に言うと、知識として持っていないことは一切わからないので、知らないことについて説明を求められても能力的に不可能なのだ。 だから、知識にない質問をされると答えられないだけでなく、苦し紛れに幻覚(ハルシネーション)を起こしてしまう。これが「すぐに嘘をつく」と言われる理由だ。 結論を書いてしまうと「ChatGPTは検索ツールではない」のだ。むしろ「ChatGPTがいちばん苦手とすることが検索」なのだ。 今回はこの欠点を補い、AIを活用した新しい検索の形を実現するという触れ込みのサービス「Perplexity.ai」を紹介していく。 Perplexity.aiとは Perp

    AI検索「Perplexity」がかなり便利だったので紹介します (1/5)
  • PowerShellの今を見る 2つあるPowerShellはどっち使えばいい? (1/2)

    PowerShellに関しては、2021年に1回まとめたのだが、あれから3年も経過したので最新情報も含めて、簡単に解説したい。なお、それぞれのこれまでの経緯などは、過去記事に記載しているので参考にしてほしい。 ●あらためて「PowerShell」の現状と登場後の経緯を整理する https://ascii.jp/elem/000/004/052/4052789/ 結論から言えば、PowerShellには、Windowsに同梱されている「Windows PowerShell」と、ユーザーがインストールする必要がある「PowerShell」がある。コマンドラインを使う頻度が高いようならば、最新のPowerShellをインストール、そうでなければWindows PowerShellで十分である。 PowerShellのインストーラーなどに表示される奇妙な人物イラストを見たことがある人もいるだろう。

    PowerShellの今を見る 2つあるPowerShellはどっち使えばいい? (1/2)
    shion214
    shion214 2024/03/18
  • 画像生成AIでオリジナルキャラのLoRAができたぞ〜〜〜!!!

    筆者は、オリジナルキャラクターを持っている。機田ゆんという。 通常、イラストレーターさんにキャラクターデザインを渡していろんな構図の機田ゆんのイラストを描いてもらっている。 常々、生成AIでキャラクターデザインを反映させてイラストを生成するにはどうしたらいいのだろうかと考えていた。 機田ゆんの髪型はボブに襟足の長い、くらげのような髪型をしている。 ChatGPT画像生成AI「DALL・E」を使って言葉(テキスト)で試してみたところ、この髪型を再現して生成させることができなかった。 ChatGPTにキャラクターの画像を読み込ませて、言語化してもらって、その言葉を使ってまた生成するのをやってみても、無理らしい。 言葉でキャラクターデザインを伝えるのは無理そうだ。服装も安定しない。 言葉でダメなら、絵から絵を生成するのはどうだろうか? 下絵のようなものを読み込ませて、そこから生成したらキャラク

    画像生成AIでオリジナルキャラのLoRAができたぞ〜〜〜!!!
    shion214
    shion214 2024/03/17
  • 古い言語のプログラムを生成AIで統廃合 住友ゴムが“Gemini”で進める開発効率化

    Google Cloud は、2024年3月7日、生成AIをテーマとしたイベント「Generative AI Summit Tokyo '24」を開催。同イベントでは、生成AI活用を実践に移す、各業界のユーザー企業が登壇した。 記事では、設計におけるシミュレーションの現場で開発効率化に取り組む住友ゴム工業の「製造業における生成AIを使った業務効率化への取り組み」と題したセッションの様子をお届けする。 住友ゴムのシミュレーション手法開発部門が抱える悩み 住友ゴムは、タイヤ製品を中核に、ゴルフやテニスなどのスポーツ用品や、地震による建物の揺れを低減する制振ダンパーといった産業品も手掛けている。 このうちタイヤ製品の設計では、開発初期段階から車両メーカーとの間で設計データをやり取りするため、「デジタル化が重要だ」と住友ゴム工業の研究開発部 研究第一部長である角田昌也氏は言う。 加えて、タイヤ

    古い言語のプログラムを生成AIで統廃合 住友ゴムが“Gemini”で進める開発効率化
    shion214
    shion214 2024/03/15
  • これは便利!「Stable Diffusion」が超簡単に始められる「Stability Matrix」 (1/3)

    これは便利!「Stable Diffusion」が超簡単に始められる「Stability Matrix」 複数のUI環境のインストールや更新がワンクリックで可能に 画像生成AI「Stable Diffusion」をブラウザーで使うために必要なのがUI環境。筆者が入門したときは「Stable Diffusion WebUI(AUTOMATIC1111版)」しか選択肢がなかったが、現在は「ComfyUI」「Fooocus」「Stable Diffusion WebUI Forge」など様々な種類が出ている。 これらは基的に別のアプリケーションなので、それぞれ環境設定・インストールをする必要があり、パソコンの中に複数の環境が乱立しがちだ。 さらに、これらのUIで利用するモデル(Checkpoint)やVAE(高画質化ツール)、LoRA(追加学習モデル)などもUIごとに必要になる。シンボリックリ

    これは便利!「Stable Diffusion」が超簡単に始められる「Stability Matrix」 (1/3)
  • 「ExcelでChatGPTを再現するシート」が想像以上に素晴らしかった (1/4)

    先日サイトで「めちゃくちゃ重いけど動くぞ!Excelで『GPT-2』を再現したスプレッドシート」というニュースを執筆したのだが、実際に触ってみたところ想像以上に素晴らしかったのでレポートする。 「Spreadsheets-are-all-you-need」とは 記事で紹介した「Spreadsheets are all you need」とは、Excelの標準的なスプレッドシート機能を使ってGPT2(ChatGPTの先祖)のフォワードパス(入力から出力までのプロセス)をExcelの中で完全に実装したものだ。 と言ってももちろんExcel内で「ChatGPT」的な会話ができるわけではない。ChatGPTの心臓である大規模言語モデル(LLM)のごくごく基的な機能をシミュレートできるだけだ。 シートの説明文には「開発者でない人でも物のLLMが内部でどのように機能しているのかを、最小限の抽象

    「ExcelでChatGPTを再現するシート」が想像以上に素晴らしかった (1/4)
    shion214
    shion214 2024/03/09
  • 昔はまったく売れなかった「電気の要らない自動ドア」が人気を集めているらしい

    Newtonプラスが、3月2日、日トーターグリーンドーム前橋で開催中の「UPDATE EARTH 2024 ミライMATSURI@前橋」で「電気を使わない自動ドア」を展示した。 電気で開閉するから自動ドアなのに、電気を使わないとはどういうことか? 聞けば、床板に荷重がかかるとドアが開く構造を持った、機械式の自動ドアだという。 電気によるランニングコストが発生しないことに加え、災害時や停電時でも開かなくなることがない安全性、人が乗っている限りは閉まることがないので、挟まれる心配もないなど、メリットは複数ある。 建物の構造的に建築基準法をクリアできない場合を除き、既存の自動ドアを置き換える形で設置することも可能。主に自治体や、ビル内の授乳室、災害時の避難所の役割を果たしている地域の店舗やビルといった、公共性の高い場所への導入が進んでいるという。 この製品、実は14年前に発売されているが、ほと

    昔はまったく売れなかった「電気の要らない自動ドア」が人気を集めているらしい
    shion214
    shion214 2024/03/04
  • 女子大生が100日連続で生成AIで100本のプログラムを書いたらどうなったか?

    ボードゲームやアクションゲーム、各種ツールやシミュレーションなどさまざまなソフトが100日間に作られた いままで数えきれないほどのプログラマーに会ってインタビューもさせてもらってきたが、久しぶりに若いプログラマーの話を聞いてきた。ここ1、2年では U22グランプリの男子中学生や全国小中学生プログラミング大会の受賞者たちだが、今回は、ChatGPTを使ってプログラムを書きまくった女子大生である。 彼女は X(Twitter)の自分のアカウントで1日1のソフトを100日間連続で作るというイベントをやっていて「おっ、頑張っているな!」と思って応援していた。「こんなゲームを作ってほしい」などとリクエストを出したりもしていたのだが、どうも私が想像していたものと内容もやり方も違っていたようである。 目下、ソフトウェア産業の最大のテーマは「我々は人間の言葉でプログラムを書くようになるだろうか」というこ

    女子大生が100日連続で生成AIで100本のプログラムを書いたらどうなったか?
    shion214
    shion214 2024/02/26
  • 画像生成AI、安いPCでも高速に 衝撃の「Stable Diffusion WebUI Forge」 (1/4)

    Stable Diffusion Forgeを表示した様子。基的な操作は既存のStable Diffusion WebUI AUTOMATIC1111とほぼ同じ 画像生成AI「Stable Diffusion」用の新しいユーザーインターフェース「Forge」が2月6日に登場しました。開発したのは、これまで「Controlnet」や「Fooocus」などStable Diffusion関連の様々な重要技術を開発してきたillyasviel(イリヤスベル)さん。何よりインパクトが大きいのは、グラフィックボードのVRAM容量が小さい安価なPCでも最新版のStable Diffusion XL(SDXL)が動かせることです。 RTX 40シリーズが求められたSDXL SDXLは、2023年8月にStablity AIが発表した画像生成AI。高画質な出力ができる一方、コミュニティーサイトで話題にな

    画像生成AI、安いPCでも高速に 衝撃の「Stable Diffusion WebUI Forge」 (1/4)