[B! コンピュータビジョン][プログラミング] misshikiのブックマーク

misshiki id:misshiki

コンピュータビジョンとプログラミングに関するmisshikiのブックマーク (18)

Stable Diffusion 3 API のご紹介 — Stability AI Japan
misshiki 2024/04/18
“Stable Diffusion 3 と Stable Diffusion 3 Turbo が Developer Platform API に登場。”

人工知能

コンピュータビジョン

自然言語処理

プログラミング
リンク
文字を正しく出力できる画像生成AI「Stable Diffusion 3」がAPI経由で利用可能に
高画質画像生成AI「Stable Diffusion 3」のAPIが2024年4月17日に公開されました。Stable Diffusion 3は既存のAIでは失敗することの多い「文字の出力」を得意としています。 Stable Diffusion 3 API のご紹介 — Stability AI Japan https://ja.stability.ai/blog/stable-diffusion-3-api Stable Diffusion 3はStability AIが開発する画像生成AIで、DALL-E 3やMidjourney v6といった画像生成AIと比べてプロンプトに対する忠実性が高いことが人間による評価で確かめられています。また、Stable Diffusion 3はプロンプトの指示通りに文字を出力できることを大きな特徴としており、狙い通りの文章を好みの見た目で描画することが
misshiki 2024/04/18
“「Stable Diffusion 3」のAPIが2024年4月17日に公開されました。Stable Diffusion 3は既存のAIでは失敗することの多い「文字の出力」を得意としています。”

人工知能

コンピュータビジョン

自然言語処理

プログラミング
リンク
Stability AI Developer Platform APIでStable Video Diffusionが利用可能になりました — Stability AI Japan
ポイント Developer Platform APIに、ビデオ生成の基盤モデルであるStable Video Diffusionを追加しました。モデルは、平均41秒以内に、25フレームの生成フレームと24フレームのFILM補間からなる2秒間のビデオを生成することができます。 APIを通じたStable Video Diffusionの活用に関心のある開発者は、Stability AI Developer Platformで今すぐアクセスできます。私たちの基盤となる画像-動画モデルであるStable Video Diffusionが、Stable AIのDeveloper Platform APIに追加されました。この新しい追加機能により、広告、マーケティング、テレビ、映画、ゲームなど、さまざまな分野向けに設計された最先端の動画モデルへのプログラムアクセスが可能になります。このリリース
misshiki 2024/01/22
“Developer Platform APIに、ビデオ生成の基盤モデルであるStable Video Diffusionを追加しました。”

Stability AI

コンピュータビジョン

プログラミング
リンク
Stability AI、動画生成AI「Stable Video Diffusion」のAPIを公開
Stability AI、動画生成AI「Stable Video Diffusion」のAPIを公開：1枚の画像から2秒の動画を生成できる Stability AIは、同社が提供するDeveloper Platformで「Stable Video Diffusion」のAPIを公開した。
misshiki 2024/01/19
“開発者向けプラットフォームの「Stability AI Developer Platform」で「Stable Video Diffusion」のAPIを公開した。”

コンピュータビジョン

自然言語処理

プログラミング
リンク
Google Colab で Gemini API を試す｜npaka
「Google Colab」で「Gemini API」を試したので、まとめました。 1. Gemini API「Gemini API」は、「Google DeepMind」が開発したマルチモーダル大規模言語モデル「Gemini」を利用するためのAPIです。 3. Gemini API の準備Colabでの「Gemini API」の準備手順は、次のとおりです。 (1) パッケージのインストール。 # パッケージのインストール !pip install -q -U google-generativeai(2) 「Google AI Studio」からAPIキーを取得し、Colabのシークレットマネージャーに登録。キーは「GOOGLE_API_KEY」とします。 import google.generativeai as genai from google.colab import userd
misshiki 2023/12/14
使うのは簡単そう。

Google

自然言語処理

コンピュータビジョン

プログラミング
リンク
Gemini のドキュメントと API リファレンス | Google AI for Developers
フィードバックを送信コレクションでコンテンツを整理必要に応じて、コンテンツの保存と分類を行います。 Gemini は、Google の最大かつ最も高性能な AI モデルです。このサイトには、Gemini を使用してアプリケーションの構築を開始するために必要なすべての情報が記載されています。
misshiki 2023/12/14
“Gemini API のスタートガイド”

Google

自然言語処理

コンピュータビジョン

プログラミング
リンク
Gemini API: Quickstart with Python | Google AI for Developers
Send feedback Gemini API: Quickstart with Python Stay organized with collections Save and categorize content based on your preferences. This quickstart demonstrates how to use the Python SDK for the Gemini API, which gives you access to Google's Gemini large language models. In this quickstart, you will learn how to: Set up your development environment and API access to use Gemini. Generate text r
misshiki 2023/12/14
公式チュートリアル “Gemini API: Python のクイックスタート”

人工知能

Google

自然言語処理

コンピュータビジョン

プログラミング
リンク
Gemini API | Generative AI on Vertex AI | Google Cloud
Send feedback Gemini API Stay organized with collections Save and categorize content based on your preferences. The Vertex AI Gemini API supports multimodal prompts as input and output text or code. HTTP request The following Gemini models are supported: Gemini ProPOST https://{REGION}-aiplatform.google apis.com/v1/projects/{PROJECT_ID}/locations/{REGION}/publishers/google/models/gemini-1.0-pro:str
misshiki 2023/12/14
公式APIドキュメント。“Vertex AI Gemini API は、入力としてマルチモーダルプロンプトをサポートし、テキストまたはコードを出力します。”

Google

自然言語処理

コンピュータビジョン

プログラミング
リンク
It’s time for developers and enterprises to build with Gemini Pro
misshiki 2023/12/14
“Gemini Pro は今日から利用可能。Gemini Pro の最初のバージョンは、Gemini API経由でアクセスできるようになりました。...Google AI Studio は、無料の Web ベースの開発者ツール”

Google

人工知能

自然言語処理

コンピュータビジョン

プログラミング
リンク
https://twitter.com/ctgptlb/status/1735057964380389567
misshiki 2023/12/14
“Google は、本日予告通りに Gemini Pro の API をパブリックに公開しました。以下に Gemini API の概要をまとめ”

Google

自然言語処理

コンピュータビジョン

プログラミング
リンク
初心者でも大丈夫！GitHub Copilot Chatで始めるKaggle画像系コンペ - Qiita
この記事は Safie Engineers' Blog! Advent Calendar 2023 の3日目の記事です！はじめにセーフィー株式会社で画像認識AIの開発エンジニアをしている水野です。2023年10月1日付で現職にジョインしたのですが、本業で語れるネタがまだ無いので趣味でたまに参加している Kaggle と流行りの生成AIを絡めた記事を投稿します。KaggleについてはKaggle Competitions Masterのランクを保持していますので、コンペに関する知見も織り交ぜながらお話しできればと思います。早速ですが、このような悩みをお持ちの方はいないでしょうか？ Kaggleに登録し、定番のタイタニックコンペを終えて、次は画像系コンペに参加してみたいが、どのように進めたらいいのか分からない公開Notebookをベースラインとして作業をしているが、コードの意味が理解
misshiki 2023/12/04
Kaggle

人工知能

プログラミング

コンピュータビジョン
リンク
OpenAI Vision API の使い方や料金について｜ChatGPT研究所
OpenAI Vision API とはOpenAIは、自然言語処理の分野で広く認識されているGPT-4というモデルを提供しています。そして最近、このモデルに画像認識の機能を追加したGPT-4 with Vision（以下、Vision API）がリリースされました。この記事では、そのVision APIについて詳しく解説します。 Vision APIは、テキストだけでなく画像も理解することができるAIモデルです。これにより、GPT-4が利用できる領域が大幅に広がりました。 Vision APIの使い方Vision APIは、画像のURLを指定するか、Base64でエンコードされた画像を直接リクエストに含めることで、画像をモデルに提供できます。画像はuser、system、assistantのメッセージのいずれにも含めることができます。以下に、Pythonでの使用例を示します。
misshiki 2023/11/09
OpenAI

コンピュータビジョン

自然言語処理

プログラミング
リンク
Stable Diffusionでの画像生成をPythonとWeb APIで実装してみた記録 - Qiita
Supershipの名畑です。ツイステッドワンダーランドの7章のChapter 3がついに公開されたわけなんですが、すぐに読み終わってしまい、続きはよ。はよ。はじめにこれまでOpenAIで遊ぶ記事を色々と公開してきまして、また今更感ありまくりなのですが、最近はstability.aiのAPI群で遊んでおります。テキストからの画像生成モデルであるStable Diffusionがめちゃくちゃ有名ですね。今回の記事ではアカウントの作成とAPIを呼び出しての画像生成をPythonで実装した記録を残しておきます。登場するコードはREST API referenceのv1/generationのままです。自環境 macOS(Monterey)です。 Pythonはすでにインストール済みです。
misshiki 2023/05/24
“アカウントの作成とAPI（stability.aiのAPI）を呼び出しての画像生成をPythonで実装”

人工知能

コンピュータビジョン

プログラミング
リンク
Build with the Gemini API | Google AI for Developers
Send feedback Stay organized with collections Save and categorize content based on your preferences.
misshiki 2023/05/11
“PaLM API と MakerSuite により、Google の大規模な言語モデルを使用して革新的な AI アプリケーションを迅速かつ簡単に構築できるようになります”

Google

自然言語処理

プログラミング
リンク
AWSによる生成AIの新サービス「Amazon Bedrock」の可能性を考察する - Qiita
はじめに 2023/4/13に、AWSが新しい生成AIプラットフォームである「Amazon Bedrock」を発表しました。この「Amazon Bedrock」を通じて、ビジネスやアプリケーションに最適な生成AIモデルを見つけるための幅広いFoundation Model (FM)を提供するとの発表がされています。この記事では、Amazon Bedrockがどのように機能し、どのようにしてビジネスに価値をもたらす可能性を秘めているのかを解説します。 1. Amazon Bedrockの仕組み簡単にまとめると、次のような機能や特徴を持つようです。 AIスタートアップやAmazonが開発した幅広いFMから選択できます。サーバレスでプライベートにカスタマイズでき、独自のデータを使ってFMを調整できます。 AWSの既存サービスや機能（Amazon SageMakerおよびSageMaker
misshiki 2023/04/14
“「Amazon Bedrock」で、...AI21 Labs、Anthropic、Stability AIなどのAIスタートアップが提供するモデルや、Titan FMsと呼ばれるAmazonが提供するモデルを組み合わせて、様々な用途でAIを活用できる”

AWS

自然言語処理

コンピュータビジョン

プログラミング
リンク
Build Generative AI Applications with Foundation Models - Amazon Bedrock - AWS
Amazon Bedrock The easiest way to build and scale generative AI applications with foundation models Amazon Bedrock is a fully managed service that offers a choice of high-performing foundation models (FMs) from leading AI companies like AI21 Labs, Anthropic, Cohere, Meta, Mistral AI, Stability AI, and Amazon via a single API, along with a broad set of capabilities you need to build generative AI a
misshiki 2023/04/14
Amazon Bedrock“基盤モデル (FM) を使用してジェネレーティブ AI アプリケーションを構築およびスケーリングする最も簡単な方法”

AWS

人工知能

プログラミング

コンピュータビジョン

自然言語処理
リンク
Luma AI - Video to 3D API
Luma's NeRF and meshing models are now available on our API, giving developers access to world's best 3D modeling and reconstruction capabilities. At a dollar a scene or object. Today it costs anywhere from $60-$1500 and 2-10wk, and rounds of back and forth to have 3D models created. At a dollar a model, and around 30 min of compute now we can imagine 3D models for entire inventories for e-commerc
misshiki 2023/03/29
“Luma の NeRF とメッシングモデルが API で利用できるようになり、開発者は世界最高の 3D モデリングと再構築機能にアクセスできるようになりました。1 ドルでシーンまたはオブジェクト。”

人工知能

コンピュータビジョン

プログラミング
リンク
OpenAI API
An API for accessing new AI models developed by OpenAI
misshiki 2023/03/02
ChatGPT APIのチュートリアル。ChatGPT＝「gpt-3.5-turbo」モデル。

OpenAI

プログラミング

人工知能

コンピュータビジョン

自然言語処理
リンク
1