secondlifeのブックマーク - はてなブックマーク

大規模言語モデル開発のための日本語 Instruction データセット作成の取り組み

日本語LLMチューニングデータ最前線 - W&B ミートアップ #12 in 東京での発表資料になります。 https://wandb.connpass.com/event/313036/

secondlife 2024/04/02

リンク

新連載「AIだけで作った曲を音楽配信する」。生成AIが作り上げた架空バンド「The Midnight Odyssey」を世界デビューさせる、その裏側 | テクノエッジ TechnoEdge

大規模言語モデル（LLM）でコンセプトを考えて、AI作曲サービスでボーカル入り楽曲を作り出す。そんなやり方で制作したコンセプトアルバムを音楽配信に載せるという話を、自ら音楽レーベルを主宰し、テクノロジー関連の執筆もこなしている山崎潤一郎さんに、数回にわたって執筆いただきます。

secondlife 2024/04/02

リンク

音楽の作り方が決定的に変わる。架空のロックバンドのコンセプトアルバムを丸ごとAIで作れてしまいました（CloseBox） | テクノエッジ TechnoEdge

では、一人の音楽素人がAIの力を借りたら、どの程度までコンセプトアルバムが作れるか、試してみました。思いついたのは、今日（2月27日）の11時30分ごろ。まず、ChatGPTにこう指令することから始めました。ロックのコンセプトアルバムを作りたいので、12曲のタイトルと歌詞、そしてその曲調をそれぞれ英語で記述してそうすると、ChatGPTは12曲の概要を作ってくれました。 1. "Echoes of Eternity"曲調: エピックなインストゥルメンタルイントロ。壮大なストリングスとパワフルなドラムス。歌詞の一部: （インストゥルメンタル） 2. "Shadows in the Moonlight"曲調: ミステリアスなヴァースとクライマックスへ向けて構築されるコーラス。歌詞の一部: "In the silver glow, secrets come to dance, / Sha

secondlife 2024/04/02

リンク

きちんとチェックすると「781年」かかるAI用データセット「LAION-5B」の課題がよくわかる「Models All The Way Down」

Stable Diffusionをはじめとする主要な画像生成AIのトレーニングには、50億枚超の画像とテキストのセットである「LAION-5B」が用いられています。週5で働くフルタイム労働者が1秒ずつ画像を目視確認すると781年かかるといわれているデータセットの膨大さや、その問題点がまとめられたサイト「Models All The Way Down」が公開されました。 Models All The Way Down https://knowingmachines.org/models-all-the-way 上記のURLにアクセスしてスクロールすると、背景にさまざまな画像とそれに紐付けられたテキストデータが現れては消えていきます。これは、LAION-5Bに収録されているデータセットとのこと。 LAION-5Bの公開ページには「すぐに使える製品の作成に使用することはお勧めしません」との注意書

secondlife 2024/04/02

リンク

クレディセゾンでDXを進めてきた5年間を振り返る｜小野和俊

はじめにクレディセゾンに来てちょうど５年が経ったので、これまでの取り組みをまとめてみようかと思う。書き進めていくうちにとても長くなってしまったので、1年につき3トピックに絞ってあとはカットした。それでも5年分なこともありかなり長くなったので、目次から各トピックに飛んでもらえればと思う。社内の関係者も読むかもしれず、「自分のやったことが載ってない！」と思うこともあるかもしれないが、内製開発案件だけでも53案件あり全部載せるととんでもない量になるので許してほしい。それから、振り返ってまとめると退職すると勘違いされるかもしれないけれど、退職するわけではありません！ 2019年：ゼロからのスタート1-1. 内製開発エンジニア募集を始める「日本のそれなりの規模の事業会社の中に、内製開発チームを立ち上げることはできるのだろうか？」 2019年3月、クレディセゾンに来たばかりの私にとってはこの質問への答

secondlife 2024/04/02

リンク

Half-Quadratic Quantization

secondlife 2024/04/02

“Half-Quadratic Quantization of Large Machine Learning Models ”

リンク

RAFT: Adapting Language Model to Domain Specific RAG

Pretraining Large Language Models (LLMs) on large corpora of textual data is now a standard paradigm. When using these LLMs for many downstream applications, it is common to additionally bake in new knowledge (e.g., time-critical news, or private domain knowledge) into the pretrained model either through RAG-based-prompting, or fine-tuning. However, the optimal methodology for the model to gain su

secondlife 2024/04/02

RAG結果も考慮したドメイン固有学習。間違った入力がある前提で学習させる。

リンク

ローカルLLM : 最近作成したデータセットについての記録｜AIサトシ

📢日本最大規模のAIハッカソンやります「ローカルLLMに向き合う会」は「LOCAL AI HACKATHON」を行います！Witness氏、メタデータラボ株式会社さんと共同開催です。各チームはVRAM168GBをクラウドで駆使してOSS成果物を作ります。… https://t.co/391RvnJakD — saldra(サルドラ) (@sald_ra) March 12, 2024 VRAM 168GB の GPU サーバーを無料で使用できる意欲的なハッカソンです私は最近、日本語のデータセット不足と日本語を堪能な言語モデル(LLM)の不足を強く感じています。この課題を解決したいと考えています。データ不足を解決する手段の一つとして、合成データセットに着目し、ライセンスの縛りのない LLM を利用してデータ生成の実験を行っています。しかし、LLMでの翻訳やデータ合成には GPU

secondlife 2024/04/02

リンク

JMultiWOZ: A Large-Scale Japanese Multi-Domain Task-Oriented Dialogue Dataset

Dialogue datasets are crucial for deep learning-based task-oriented dialogue system research. While numerous English language multi-domain task-oriented dialogue datasets have been developed and contributed to significant advancements in task-oriented dialogue systems, such a dataset does not exist in Japanese, and research in this area is limited compared to that in English. In this study, toward

secondlife 2024/03/31

リンク

intfloat/multilingual-e5-large-instruct · Hugging Face

secondlife 2024/03/29

指示付きembeddingsモデル。学習データセットに対して、instructをつけ学習することで、より類似するベクトルを作れる

リンク

Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives

secondlife 2024/03/29

“Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives ”

リンク

GitHub - texttron/tevatron: Tevatron - A flexible toolkit for neural retrieval research and development.

secondlife 2024/03/29

"Tevatron aims to provide a flexible and efficient toolkit that enables training and inference for neural retrieval models at scale."

リンク

unilm/simlm at master · microsoft/unilm

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

secondlife 2024/03/29

検索のための pre-training アーキテクチャ

リンク

antoinelouis/colbert-xm · Hugging Face

secondlife 2024/03/28

リンク

Using GitHub Copilot in your IDE: Tips, tricks and best practices

AI has become an integral part of my workflow these days, and with the assistance of GitHub Copilot, I move a lot faster when I’m building a project. Having used AI tools to increase my productivity over the past year, I’ve realized that similar to learning how to use a new framework or library, we can enhance our efficiency with AI tools by learning how to best use them. In this blog post, I’ll s

secondlife 2024/03/28

リンク

かっこいいSSH鍵が欲しい - アリ

例えばこのSSH公開鍵、末尾に私の名前(akiym)が入っています。 ssh-ed25519 AAAAC3NzaC1lZDI1NTE5AAAAIFC90x6FIu8iKzJzvGOYOn2WIrCPTbUYOE+eGi/akiym そんなかっこいいssh鍵が欲しいと思いませんか？ ed25519のSSH公開鍵の構造 SSH鍵の形式にはRSAやDSA、ed25519などがありますが、最近のssh-keygenではデフォルトでed25519の鍵を生成するということもあり、ed25519を利用していることを前提として進めます。なにより、RSAの公開鍵に比べると短いので末尾部分が目立つはずです。そもそも、ed25519のSSH公開鍵のフォーマットはどのようなものになっているか確認してみます。まずはssh-keygenコマンドで秘密鍵と公開鍵を生成します。 % ssh-keygen -t ed25

secondlife 2024/03/26

リンク

nreimers/mmarco-mMiniLMv2-L12-H384-v1 · Hugging Face

secondlife 2024/03/26

cross-encoder-mmarco-mMiniLMv2-L12-H384-v1 の大元?

リンク

Introducing LlamaCloud and LlamaParse — LlamaIndex, Data Framework for LLM Applications

secondlife 2024/03/24

リンク

pyvespa/docs/sphinx/source/examples/mother-of-all-embedding-models-cloud.ipynb at master · vespa-engine/pyvespa

secondlife 2024/03/23

BGE-M3 を vespaで動かす例

リンク

BAAI/bge-reranker-v2-m3 · Hugging Face

","cls_token":"","eos_token":"","mask_token":"","pad_token":"","sep_token":"","unk_token":""}},"discussionsDisabled":false,"downloads":23569,"downloadsAllTime":23569,"id":"BAAI/bge-reranker-v2-m3","isLikedByUser":false,"isWatchedByUser":false,"inference":"PipelineLibraryPairNotSupported","lastModified":"2024-03-19T09:26:24.000Z","likes":16,"pipeline_tag":"text-classification","library_name":"sente

secondlife 2024/03/23

性能良すぎじゃん

リンク

はてなブックマーク

タグ

secondlifeのブックマーク (8,050)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第4週）

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス