[B! 機械学習] kns_1234のブックマーク

kns_1234 id:kns_1234

機械学習に関するkns_1234のブックマーク (224)

Deep Learning入門
はじめてDeep Learningに触れる方を対象に、Deep Learningの基礎とポイントをできるだけ分かりやすく解説します。
kns_1234 2023/11/04
機械学習

あとで読む
リンク
オーディオ超解像技術 AudioSR を試す｜はまち
低解像度の音声データを超解像化をする拡散ベースの生成モデル AudioSR が公表されていました。リンク先に変換サンプルなどもあり、音声や自然音、音楽など幅広いジャンルの例が示されています。高い再現度であるようなので、さっそく試してみました。インストール!pip install git+https://github.com/haoheliu/versatile_audio_super_resolution実行！GPUメモリを16GBくらい消費します。Google Colab無料枠だとメモリが足らなくて動かない感じでした。 !audiosr -i /content/kurumi.wav変換例変換前（サンプリングレート8kHz）
kns_1234 2023/09/16
機械学習

音楽

技術

人工知能
リンク
TypeScriptでGPT-3.5を使ってChatGPTクローンを作る1 - GPTで検索エージェント
OpenAI が提供している ChatGPT は非常に面白いですね。今年以後、GPTやChatGPT周りがさらに流行ると思います。この記事は、TypeScriptでChatGPTクローンを作る第一弾です。長くなりすぎるため、この記事では、GPTを使った検索エージェントを実行するまでを取り上げます。検索エージェントは「ぼっち・ざ・ろっくの作者は？」と尋ねたら検索エンジンとGPTを使って「はまじあき」という結果を生成できる技術です。またこの記事や、続く記事でLangChainのプロンプトをあれこれ読み解いていこうと考えています。筆者は機械学習の初心者であるため、間違ったことが書かれている可能性があります。間違いがあった場合は、ぜひご指摘いただけると幸いです。なお、この記事では添削にChatGPTおよびGPT-3.5を使っています[1]。どうやってTypeScriptでChatGPT
kns_1234 2023/01/16
自然言語処理

機械学習
リンク
文字を入力するだけで「萌え声」を簡単一発生成してくれる「Moe TTS」
萌(も)え声を出したくても出せない人でも簡単に簡単に萌え声を生成できる「Moe TTS」が公開されていたので利用してみました。Moe TTSは機械学習を用いて実際のゲームソフトの音声等を合成しており、機械学習でアプリケーションを開発するコミュニティ「Hugging Face」内で公開されています。 Moe TTS - a Hugging Face Space by skytnt https://huggingface.co/spaces/skytnt/moe-tts Moe TTSにアクセスするとこんな感じの画面が表示されます。そのまま上にスクロールすると文字の入力ボックスが現れます。デフォルトで「こんにちは。」と入力されていたので、今回はこれに続けて「今日も寒いですね。」と入力。そして、「Generate」をクリックします。すると、ページ下部に再生ボタンが現れます。そのまま再生ボタン
kns_1234 2022/11/15
DTM

機械学習
リンク
Stable Diffusion を基礎から理解したい人向け論文攻略ガイド【無料記事】
kns_1234 2022/10/11
機械学習

StableDiffusion
リンク
Artbreeder
Create like never before Create characters, artworks and more with multiple tools, powered by AI.
kns_1234 2022/08/31
写真から顔のイラストを生成するなど

機械学習

人工知能
リンク
「好きなキャラに近い絵をAIが量産」――ある概念を“単語”に圧縮し入力テキストに使える技術
Innovative Tech：このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。イスラエルのTel-Aviv UniversityとNVIDIAの研究チームが開発した「An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion」は、ある概念を新しい単語（論文ではnew pseudo-wordと表現している）に置き換え、その新しい単語を一部に用いた文章を画像生成AIの入力に使用するシステムだ。指定したキャラクターや物、絵などが持つ概念（形、質感、雰囲気、構成、デザインなど）を単語に圧縮し、入力テキストに活用することでその概念に沿ったさまざまな画像を
kns_1234 2022/08/30
技術

機械学習

人工知能
リンク
Stable Diffusion メモ(2): 絵の描けない人がimg2imgでいろいろやる - jt_noSke's diary
昨日の続き。 jtnoske.hateblo.jp やはり構図を決めるにはimg2imgや、と思い立つ promptとキャンバス縦横比とかで構図のコントロールに挑戦したけど、いやこりゃ無理だわやっぱ構図を自分で決めるならimg2imgでいろいろ指定してやらないといかんのだろな、ということでimg2imgを導入する。導入導入方法は各所で上がっていますが、自分は↓のコードをコピペして、 github.com ↓ のコードを参考に実行をしました。 www.12-techno logy.com Hな方々は↓を(トラバ含めて)参照し、safety_checkerを切りましょう。変更箇所はStableDiffusionPipelineとほとんど同じです。 anond.hatelabo.jp 絵が描けないので img2img(1): 全身立ち絵絵を用意しよう、なんだけどどう用意するか。まず思いつい
kns_1234 2022/08/29
StableDiffusion

機械学習

人工知能
リンク
mimic（ミミック）
mimic（ミミック）は、描き手の個性が反映されたキャラクター生成AIを描き手のために提供するサービスです。30枚以上のイラストがあれば、あなたの個性が反映されたAIを作ることが出来ます。
kns_1234 2022/08/29
イラスト

機械学習

人工知能
リンク
文字列から画像を生成するAI「DALL・E 2」でイメージ通りの画像を生成するまで試行錯誤してみた記録
OpenAI開発の入力したテキストから画像を生成するAI「DALL・E 2」は2022年4月に研究者・専門家向けに公開され、2022年7月に一般向けに公開されました。AIプログラミングコンテスト・Coder Oneの共同創設者であるジョイ・チャン氏が、自身が出力したい画像をDALL・E2に生成してもらうまでの試行錯誤をブログで公開しています。 I spent $15 in DALL·E 2 credits creating this AI image, and here’s what I learned | by Joy Zhang | Aug, 2022 | Towards AI https://pub.towardsai.net/i-spent-15-in-dall-e-2-credits-creating-this-ai-image-and-heres-what-i-learned-
kns_1234 2022/08/26
機械学習

人工知能
リンク
画像生成AI「Stable Diffusion」を低スペックPCでも無料かつ待ち時間なしで使う方法まとめ
2022年8月23日に無料公開された画像生成AI「Stable Diffusion」は、「ボールで遊ぶ猫」「森の中を走る犬」といった指示を与えると指示通りの画像を出力してくれます。Stable Diffusionはデモページで画像生成を試せる他、NVIDIA製GPUを搭載したマシンを用いてローカル環境で実行することも可能です。しかし、デモページは待ち時間が長く、NVIDIA製GPUは所持していない人も多いはず。Googleが提供しているPython実行環境「Colaboratory」を利用すれば、NVIDIA製GPUを所持していなくともStable Diffusionを待ち時間なしで実行する環境を無料で整えられるので、実際に環境を構築する手順や画像を生成する手順を詳しくまとめてみました。 Stable Diffusion with 🧨 Diffusers https://huggingf
kns_1234 2022/08/25
機械学習

StableDiffusion
リンク
Google Colab で、お手軽 Text-to-Image
最近話題のお絵描きAIをGoogle Colabで試してみようという記事です。ここで使うAIは、stability.aiの stable diffusion というモデルで、つい最近 CreativeML Open RAIL-Mライセンスの下、オープンソースでリリースされました。 StableDiffusionに関する日本語記事は、深津貴之さんの記事が面白いので是非こちらをお読みください。 stability.aiの記事で、Google Colabを用いて使う方法についての説明があり、試してみたところ本当に簡単に実行できてしまったので、その手軽さを紹介できればと思います。実際に試したい場合は、元記事のGoogle Colabのノートブックが丁寧に説明しているので、そちらをご覧いただければと思います。試してみる。必要なもの Google アカウント Hugging Face アカウ
kns_1234 2022/08/24
StableDiffusion

機械学習
リンク
話題のStable Diffusionがオープンソース化されたのでローカルで動かしてみる
話題のStableDiffusionがオープンソースで8/23に公開されたので、手元のマシンで動かすまで試したいと思います🖼 (下記に記載していますが、自分の環境だとVRAMが不足しているエラーが出てしまったのでイレギュラーな対応をしています🙏) ※ ↑追記コメント欄にて、 @kn1chtさんが紹介してくださっているように、マシンのVRAMが10GB未満の環境では半精度（float16）のモデルがオススメされています。本記事では、別の最適化されたものを紹介していますが、こちらの利用も検討してみると良さそうです👉 https://zenn.dev/link/comments/7a470dc767d8c8 StableDiffusionがどんなものかは、深津さんの記事が参考になります。 1. 環境 Razer Blade (RTX 2070, VRAM 8GB) CUDA Toolk
kns_1234 2022/08/23
機械学習
リンク
5つの文字から1万4000文字を自動生成　筑波大発AIベンチャーがフォント生成システム　特許出願
筑波大学発AIスタートアップのAIdeaLab（東京都千代田区）は8月17日、5つの文字から1万4000以上の文字をAIで自動生成するフォント生成システムの特許を出願したと発表した。システムは、敵対生成ネットワーク（GAN）をベースに、大量のフォントを学習させた上で、手作業でデザインした数個の文字から、太さやセリフ（装飾）の形状を抽出し、生成する。パラメーターの値を調整することで、新しいフォントとして出力することも可能。ピクセル画像ではなく、ベクター画像として生成する独自技術により、フォントファイルとしての出力を可能にしたという。特許は、フォント生成モデルだけでなく、アプリケーションUIも含む。パラメーター調整でフォントを生成するUI、少ない文字数でのアップロードでフォントを生成するUIなど、さまざまなパターンのサービス展開を織り込んでおり、特許出願技術をベースに、フォント制作会社向け
kns_1234 2022/08/18
フォント

技術

機械学習
リンク
【やじうまPC Watch】あの「waifu2x」を超えた！？アニメに特化したAI超解像技術
kns_1234 2022/05/31
技術

機械学習
リンク
機械学習の進化が、「レンズ」というカメラの当たり前を覆す次世代イメージセンシング・ソリューション開発を加速
要点最先端機械学習モデル「Vision Transf ormer」に基づく、新たなレンズレスカメラの画像再構成手法を提案提案した画像処理技術は高速に高品質な画像を生成できることを実証小型・低コストかつ高機能であるため、IoT向け画像センシング等への活用に期待概要東京工業大学工学院情報通信系の潘秀曦（Pan Xiuxi）大学院生（博士後期課程3年）、陈啸（Chen Xiao）大学院生（博士後期課程2年）、武山彩織助教、山口雅浩教授らは、レンズレスカメラの画像処理を高速化し、高品質な画像を取得できる、Vision Transf ormer（ViT）[用語1]と呼ばれる最先端の機械学習技術を用いた新たな画像再構成手法を開発した。カメラは通常、焦点の合った画像を撮影するためにレンズを必要とする。現在、IoT[用語2]の普及に伴い、場所を選ばず設置できるコンパクトで高機能な次世代カメラが
kns_1234 2022/05/13
技術

カメラ

機械学習
リンク
東京工業大学、機械学習の講義ノートが無料公開 Pythonの実装も学べる | Ledge.ai
サインインした状態で「いいね」を押すと、マイページの「いいね履歴」に一覧として保存されていくので、再度読みたくなった時や、あとでじっくり読みたいときに便利です。
kns_1234 2021/12/09
機械学習

Python
リンク
合成背景に人が溶け込むよう照明を調節する技術　Googleが開発
Innovative Tech：このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。米Google Researchが開発した「Total Relighting」は、人物画像を切り抜いて別の背景に置き換えた際、被写体の照明変更を行う深層学習を用いた技術だ。静止画像だけでなく、映像内で動く人物も新しい背景に応じた照明で合成し、違和感のない動画コンテンツに仕上げる。
kns_1234 2021/10/18
技術

機械学習
リンク
手書き文字を認識できるAIを無償公開自社サービスでAI OCRが利用可能に | Ledge.ai
サインインした状態で「いいね」を押すと、マイページの「いいね履歴」に一覧として保存されていくので、再度読みたくなった時や、あとでじっくり読みたいときに便利です。
kns_1234 2021/07/02
機械学習
リンク
Interpretable Machine Learning
Interpretable Machine Learning A Guide for Making Black Box Models Explainable. Christoph Molnar 2021-05-31 要約機械学習は、製品や処理、研究を改善するための大きな可能性を秘めています。しかし、コンピュータは通常、予測の説明をしません。これが機械学習を採用する障壁となっています。本書は、機械学習モデルや、その判断を解釈可能なものにすることについて書かれています。解釈可能性とは何かを説明した後、決定木、決定規則、線形回帰などの単純で解釈可能なモデルについて学びます。その後の章では、特徴量の重要度 (feature importance)やALE(accumulated local effects)や、個々の予測を説明するLIMEやシャープレイ値のようなモデルに非依存な手法(mo
kns_1234 2021/05/18
機械学習

人工知能
リンク
1 2 3 4 5 6 7 8 9 10 次のページ