[B! 日本語] kutakutatriangleのブックマーク

MetaのLlama 3を日本語でさらに学習したAIモデル、rinnaが公開

kutakutatriangle 2024/05/08

リンク

動画編集ツール「DaVinci Resolve 18」公式ビギナーズガイドの日本語版が無償公開／学生や初心者に向けた実践的レッスンで操作方法を学べる【Book Watch/ニュース】

kutakutatriangle 2024/02/08

リンク

superwhisperでの音声入力を試す

superwhisperという、whisper.cppを使った音声入力ができるmacOSアプリケーションを最近使っています。基本的にはggerganov/whisper.cppのモデルを使って、音声認識しながら文字入力ができるアプリケーションです。特徴 Whisperの認識精度が高いかなり早く喋っても認識してくれる日本語も認識してくれるモデルがある日本語で喋って英語に翻訳してくれる機能もあるオフライン対応有料: サブスクと買い切りの2種類のプランがある無料で15分のトライアル、その後は選べるモデルが制限される公式サイトのデモをみると、かなり早く喋っても認識してくれるのがわかります。大抵の人にとっては、多分文字入力するよりしゃべったほうが早いぐらいの入力速度が出ると思います。 superwhisper 長文はそこまで得意じゃないけど、1行とか2行ぐらいの文章はかなり

kutakutatriangle 2024/01/18

リンク

Lightblue、商用利用可能な日本語LLM「Karasu」「Qarasu」を公開

Lightblue、商用利用可能な日本語LLM「Karasu」「Qarasu」を公開既存の日本語公開モデルの中で最高性能を達成、オンプレミス環境でのLLM利用を実現可能に生成AIの研究開発「LLab」を運営し、日本語LLMの開発・提供を手掛ける株式会社Lightblue（代表取締役：園田亜斗夢、本社：東京都千代田区、以下「Lightblue」）は商用利用可能な日本語LLM「Karasu」「Qarasu」を公開したことをお知らせします。 ■ Karasu/Qarasuシリーズについて Karasuシリーズは70億パラメータのShisa（ https://huggingface.co/augmxnt/shisa-7b-v1 ）に対して、日本語と英語の学習データを用いて70億トークンで継続事前学習とファインチューニングを実施したモデルです。またQarasuシリーズは、140億パラメータのQw

kutakutatriangle 2023/12/31

リンク

日本語に強い大規模言語モデル「Swallow」を公開英語が得意な大規模言語モデルに日本語を教える

要点日本語能力に優れビジネスにも安心して活用できる大規模言語モデルを公開継続事前学習により大規模言語モデルの日本語能力を改善高度な日本語処理が求められる多くの場面で、生成AI 技術の利活用を推進概要東京工業大学（以下、東工大）情報理工学院情報工学系の岡崎直観教授と横田理央教授らの研究チームと国立研究開発法人産業技術総合研究所（以下、産総研）は、日本語能力に優れた生成AIの基盤である大規模言語モデル[用語1]「Swallow」を公開した[参考リンク1]。本モデルは現在公開されている日本語に対応した大規模言語モデルとしては最大規模であり、オープンで商用利用が可能であるため、ビジネスに安心して用いることができる。東工大と産総研の研究チームは、英語の言語理解や対話で高い能力を持つ大規模言語モデル（米Meta社 Llama 2）の日本語能力を拡張することで「Swallow」を構築した

kutakutatriangle 2023/12/20

リンク

ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (2) 評価編

はじめにこんにちは。ELYZA の研究開発チームの中村 (@tyo_yo_)、佐々木 (@hikomimo)、堀江 (@eemon18)、平川 (@h__must__) です。先日弊社株式会社 ELYZAでは以下のようなリリースをさせていただきました。 Meta の「Llama 2」をベースとした商用利用可能な日本語 LLM「ELYZA-japanese-Llama-2-7b」を公開しました ELYZA では複雑な指示に従い、ユーザーの役に立つ回答ができるモデルを作成しようとしています。例えば、次のように適切な言い換え表現を探しているユーザーがいるとします。

kutakutatriangle 2023/09/27

リンク

Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました｜ELYZA, Inc.

Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました本記事のサマリーELYZAが「Llama 2」ベースの商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を一般公開性能は「GPT-3.5 (text-davinci-003)」に匹敵、日本語の公開モデルのなかでは最高水準 Chat形式のデモや評価用データセットも合わせて公開既に社内では、130億、700億パラメータのモデルの開発も進行中はじめにこんにちは。ELYZAの研究開発チームの佐々木、中村、平川、堀江です。この度ELYZAは、Metaの「Llama 2」をベースに、日本語による追加事前学習を行なった日本語言語モデル「ELYZA-japanese-Llama-2-7b」と、そこにELYZA独自の事後学習を施した「

kutakutatriangle 2023/08/29

リンク

LINE、商用利用が可能な日本語大規模言語モデルをOSSで公開

「japanese-large-lm」は、同社が以前から取り組んでいる日本語の大規模言語モデル「HyperCLOVA」の研究開発プロジェクトと並行して、Massive LM開発ユニットにより開発された。なお、本モデルのライセンスは、商用利用が可能な「Apache License 2.0」となっている。同モデルの訓練には、同社独自の大規模日本語Webコーパスが利用され、Web由来のテキスト特有のノイズを除去するために、同社NLPチームのメンバーが開発したOSSの「HojiChar」によるフィルタリング処理が適用されている。また、最終的な学習には約650GBのコーパスが利用されている。加えて本モデルでは、「3D Parallelism」「Activation Checkpointing」などの手法を用い、学習を高速化している。学習したモデルの性能評価には、Perplexityスコア（PP

kutakutatriangle 2023/08/22

リンク

日本語画像言語モデル「Japanese InstructBLIP Alpha」をリリースしました — Stability AI Japan

Stability AIは日本語向け画像言語モデル「Japanese InstructBLIP Alpha」を一般公開しました。入力した画像に対して文字で説明を生成できる画像キャプション機能に加え、画像についての質問を文字で入力することで回答することもできます。 Japanese InstructBLIP Alpha「Japanese InstructBLIP Alpha」は、先日公開された日本語向け指示応答言語モデル「Japanese Stabl eLM Instruct Alpha 7B」を拡張した、画像を元にしたテキストが生成されるモデルです。「Japanese InstructBLIP Alpha」は、高いパフォーマンスが報告されている画像言語モデルInstructBLIPのモデル構造を用いております。少ない日本語データセットで高性能なモデルを構築するために、モデルの一部を大規模な

kutakutatriangle 2023/08/17

リンク

英語圏の開発現場から語る「STEAMのインディーゲームに日本語対応を実現するための誰でもできる応援方法」 — Neon Noroshi

今日はわりとシンプルかつ、日本のゲーマーのみなさんが気になる話をしようと思います。ズバリ、Steamで遊びたいゲームに日本語対応してもらう方法とは!? 自分の遊びたいゲームが日本語に対応していなくて、悔しい気持ちになったことはありませんか？そんなみなさまに朗報、以下の3つを心掛ければ日本語に対応してくれる可能性は上がります。遊びたいゲームがあったらウィッシュリスト登録をする Steamのゲームのページを友達にシェアする発売済のゲームなら購入するこれだけです。この積み重ねがスタジオや開発者の日本語への意識を変えます。私自身、マーケターとして多くのゲームに関わっていて実際に開発現場にもいますが、現場の感覚としてこれは間違いありません。発売済みゲームの購入はハードルが高いかもしれませんが、ウィッシュリスト登録だけでも効果があります。なぜなら、Steamに登録しているスタジオは、ダッ

kutakutatriangle 2023/08/16

リンク

36億パラメータの日本語言語モデルを公開しました

LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは。 LINEのNLP Foundation Devチームの清野舜と高瀬翔とoverlastです。 LINEでは2020年11月から日本語に特化した大規模言語モデル「HyperCLOVA」の構築と応用に関わる研究開発に取り組んできましたが、この「HyperCLOVA」と並行するかたちで複数の大規模言語モデルの研究開発プロジェクトが進行しています。今回はそれらの研究開発プロジェクトのうち、我々を含むMassive LM開発ユニットから、日本語言語モデル「japanese-large-lm（ジャパニーズラージエルエム）」をOSSとして公開できる状況になりましたので、本ブログを通じてお伝えすることにしました。この記事

kutakutatriangle 2023/08/15

リンク

日本語言語モデル「Japanese StableLM Alpha」をリリースしました — Stability AI Japan

Stability AI Japan は70億パラメータの日本語向け汎用言語モデル「Japanese Stabl eLM Base Alpha 7B」及び、指示応答言語モデル「Japanese Stabl eLM Instruct Alpha 7B」を一般公開しました（略して「JSLM」)。これらのモデルはベンチマークスイート「lm-evaluation-harness」による複数の日本語タスクを用いた性能評価において、一般公開されている日本語向けモデルで最高の性能を発揮しています。汎用言語モデル「Japanese Stabl eLM Base Alpha 7B」「Japanese Stabl eLM Base Alpha 7B」はウェブを中心とした大規模なデータを用いてテキスト生成を学習したモデルです。学習データは主に日本語と英語で、それに加えソースコードが約2%含まれています。学習データに

kutakutatriangle 2023/08/10

リンク

日本語指示データ・日本語擬似レビューの公開 - Megagon Labs | リクルート AI研究機関

このたび以下の2種類のデータを公開しましたので，簡単にご紹介いたします．日本語指示データ大規模言語モデル（LLM）の開発に必要なものの1つは高品質なデータです．英語では様々なデータが公開されていますが，日本語ではまだ少ないのが現状です．そこで，LLM研究の一助となるよう，小規模ではありますが，人力で作成した日本語指示データmegagonlabs/instruction_jaを公開いたします．このデータは以下の特徴をもちます．オープンソースライセンス社会や料理など様々な話題を含む対話自然な日本語表現からなる対話この1と2を満たすデータとしてAnthropicが英語の指示データを公開しています．そしてそれを元に機械翻訳した日本語の指示データが，有志によって公開されています．今回それをもとに，3を満たすために人手による補足や日本語表現の変更といった改変を行いました．（改変の結

kutakutatriangle 2023/08/10

リンク

6年ぶりのATOK新エンジン、パーソナルAIでどう変わったのか。「ATOK2023」の今（小寺信良） | テクノエッジ TechnoEdge

18年間テレビ番組制作者を務めたのち、文筆家として独立。家電から放送機器まで執筆・評論活動を行なう傍ら、子供の教育と保護者活動の合理化・IT化に取り組む。一般社団法人「インターネットユーザー協会」代表理事。モノカキにとって、キーボードは絵筆のようなものであるが、日本語変換エンジンはさらにもっと奥深いところにあるツールである。自分の頭の中にある文章を実際に文字化していく際に、同音異義語で誤変換されたり、あるいは求める漢字が全然出てこないと、思考が止まってしまい、どう話を展開したかったのか忘れてしまうことがある。これはストレスというより、まあまあ死活問題となり得る。現在日本語変換エンジンは無料でも優秀なものが多く、Windows付属のIME、macOS付属の日本語変換、Google日本語入力などを使っている人も多いだろう。ライターでもこれらを使う人は多い。そんな中で有料の日本語変換エンジ

kutakutatriangle 2023/08/08

リンク

サイバーエージェント、独自の日本語LLM（大規模言語モデル）を開発 ―自然な日本語の文章生成を実現―

株式会社サイバーエージェント（本社：東京都渋谷区、代表取締役：藤田晋、東証プライム市場：証券コード4751）は、独自の日本語LLM（Large Language Model、大規模言語モデル）を開発したことをお知らせいたします。本モデルはすでに130億パラメータまでの開発が完了しており、当社が提供する「極予測AI」「極予測TD」「極予測LP」などAIを活用した広告クリエイティブ制作領域のサービスにおいて活用を始めています。近年、OpenAI社が開発した「ChatGPT」※1 を始めとする生成AI・LLMが世界的に注目を集めており、あらゆる業界において急速に活用が進んでいます。一方、既存のLLMのほとんどは英語を中心に学習されており、現状では日本語および日本文化に強いLLMは少ない状況です。このような背景のもと、このたび当社では日本語に特化した独自の大規模モデルを開発いたしました。当

kutakutatriangle 2023/05/12

リンク

Shigeto Kawahara@Keio on Twitter: "オレゴン大学の出丸先生から連絡があり、ネット上に掲載された記事が音声学的な観点から明らかに間違っている議論に基づいていることから、連名で反論させて頂きます。当該記事はこちら： https://t.co/hJXLNQt84y 日本人がマスクを取らないのは日本語の音声学的特徴に起因するとしています。"

kutakutatriangle 2023/05/08

リンク

日本語Alpacaデータを用いてJapanese-Alpaca-LoRAを作ったので公開します【期間限定デモページあり】｜kun1emon

⚠️注意今回公開するのはLoRAを用いて作成したLLaMAの日本語化Adapterでありモデル自体ではありません。 LoRAをマージするベースのLLaMAは商用不可であり、今回公開するAdapterで日本語化したモデルも商用利用はできません。 OpneAIの利用規約で、OpenAIサービス、ChatGPTの出力結果を競合モデル開発用途に利用することはできませんコンテンツ生成者はできません。詳細は記事後半で述べていますが利用規約が適用されるのはコンテンツ生成者までです。概要2022年の11月末にOpenAIからChatGPTが発表されてから、それに追随するようにGoogleからBard、MetaからLLaMAなど大規模言語モデル（LLM）が発表されました。さらにLLaMA 7Bを「text-davinci-003」を用いて「Self-Instruct」で作成された52Kのデータセット（

kutakutatriangle 2023/03/27

リンク

超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開

株式会社レアゾン・ホールディングス(本社：東京都新宿区、代表取締役：渡邉真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日株式会社レアゾン・ホールディングス(本社：東京都新宿区、代表取締役：渡邉真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。プロジェクトwebサイト：https://

kutakutatriangle 2023/01/20

リンク

去年は182本の記事を書いた人から見た、技術的なアウトプットに疲弊しないようにするコツ - Lambdaカクテル

文脈: blog.arthur1.dev 自分は割とガンガンアウトプットする方で、たまにバズって嬉しいという品質のブログ(これ)をやっている。普段どのような心構えでやっているのか、そして続けるコツみたいなものについて書いてみようと思う(参考になるかは全くわかりません)。あと一応断っておくと、タイトルにある "去年書いた182本の記事" は非-技術的な記事も含んでいる(けど、だいたい技術記事なので許してほしい)。どういうときに書くかどういうモチベーションで書くかどういうときにバズるかどのようにして続けるか余談: 箇条書きの型を統一する参考文献あわせて読みたいどういうときに書くか自分は基本的にブログを「1年前(後)の自分が泣いて喜ぶ記事」というテイで書いている。自分が知りたかったことは他人も知りたかったはずだという仮説で書いていて、それを知りたかった人の総量はその技術のシェ

kutakutatriangle 2023/01/10

リンク

オンラインドキュメントと日本語全文検索

自社では Sphinx というドキュメントツールを利用しているのですが、残念ながらこれに付属している検索機能の日本語検索はかなり厳しいです。また残念ながら Sphinx 開発側も検索周りを改善するという予定は直近ではないようです。そして検索というのはとても難しい技術なため自分のような素人では導入して「普通に期待する動作」をさせるまでの距離はとても遠いです。ただ、なんとかして日本語全文検索を実現したいという思いはここ10 年くらいずっと思っていました。これは自社の Sphinx テーマを作ってくれている社員ともよく話をしていたのですが、どうしてもリソースをつぎ込めずにいました。まとめ日本語検索に対応している Meilisearch を採用したドキュメントスクレイパーの実行は GItHub Actions (Self-hosted Runner) を採用した自社 Sphinx テーマの検

kutakutatriangle 2022/08/18

リンク

はてなブックマーク

タグ

関連タグで絞り込む (120)

日本語に関するkutakutatriangleのブックマーク (75)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス