「コーパス」を検索 - はてなブックマーク

1 - 40 件 / 829件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

コーパスの検索結果1 - 40 件 / 829件

最新研究からわかる学習効率の高め方 - 分裂勘違い君劇場 by ふろむだ
- 1784 users
- www.furomuda.com
- 学び
- 2020/10/04
本書は、Amazon総合1位(無料)となった科学的学習法の本のWeb版です。１２万部のベストセラーとなった前著と同様、図とイラストを使って分かりやすく解説しています。英語学習者・教師・受験生・小学生～高校生の親御さんに読んでいただきたいです。全５巻(派生巻も含めると全８巻)構成で、これは第１巻です。それでは、さっそく、サイエンス誌に掲載された論文を解説します。 (サイエンス誌は、ネイチャー誌と双璧をなす、世界最高峰の学術誌です) この論文からは、学習効率に関する重要ポイントをいくつも学べます。本書は、基本的には中学生でも読めるように書いてあります。実際、本書をある中学３年生の女の子に読んでいただいたところ、たいへん好評でした。実際に期末試験の成績も上がり、志望校にも合格し、ご両親も喜んでおられました。では、以下、論文の解説をどうぞ。 ■カーピキー2008実験たとえば、英語
- 学習
- あとで読む
- 勉強
- 本
- 教育
- 研究
- education
- 考え方
- book
- study
【英会話独学】英語学習ロードマップ　第二言語習得研究と行動科学に基づく英語を話す方法 - ポリグロットライフ | 言語まなび∞ラボ
- 1576 users
- www.sunafuki.com
- 学び
- 2022/02/13
はじめに今回は英語を話す方法の完全英語学習ロードマップを丁寧に解説していきます。私の第二言語習得研究の知見と行動科学（私自身の語学学習の経験を観察して得られた実証結果・多言語話者に取材をして気づいた彼らに共通した行動の特徴）に基づく学習マップを始めから丁寧に解説していきます。英会話の完全独学ができますので、今回のブログをしっかり理解して英語を話せるようになりましょう。「ポリィの英語講義」というYoutubeチャンネルも開設致しましたので、ぜひこちらもチェックしみてください。こちらのチャンネルでは、今後英語学習ロードマップの実践動画をアップしていきたいと思います。 www.youtube.com 英語学習ロードマップ Phase1 学習方略に基づく学習計画（公開済み） Phase2 発音と単語で気づきを促す（公開済み） Phase3 浅い理解を深い理解に転換（公開済み） Phase4 英
- 英語
- あとで読む
- 学習
- 英語学習
- 勉強
- english
- 言語
- 語学
- トレーニング
- 研究
探しものがはかどる検索エンジンDuckDuckGo、NDC順Bangリスト
- 941 users
- readingmonkey.blog.fc2.com
- テクノロジー
- 2020/07/13
DuckDuckGo（https://duckduckgo.com）はプライバシーの保護に重きを置いている検索エンジンのひとつである。特筆すべきは、Bangという機能があって、探しものがとてもはかどる。たとえば「!a 図書館」（ビックリマーク＋アルファベットのa＋スペース＋検索語）と入力するとAmazonを検索してくれる。こんな風に「!＋何か」で特定のサイトのみの検索ができる機能がBangである。検索エンジンが使えなくなった（クズみたいなサイトが上位に来て、欲しい情報が見つからない等）と言われて久しいが、探すべきサイトにダイレクトで検索することで、この問題のかなりの部分が解決する。よく使いそうなのは ! （キーワード）　最初の検索結果へ直接ジャンプ !i　イメージ検索 !m　地図検索 !n　ニュース検索 !v　動画検索 !w　ウィキペディア検索 !pdf PDFファイルだけを検
現代英語の９割をカバーする基本英単語 NGSL（New General Service List）を７クリックで覚えるための新しい表
- 722 users
- readingmonkey.blog.fc2.com
- 学び
- 2019/09/28
Author:くるぶし（読書猿） twitter:@kurubushi_rm カテゴリ別記事一覧新しい本が出ました。読書猿『独学大全』ダイヤモンド社 2020/9/29書籍版刊行、電子書籍10/21配信。 ISBN-13 : 978-4478108536 2021/06/02 11刷決定累計200,000部（紙＋電子） 2022/10/26　１４刷決定累計260,000部（紙＋電子）紀伊國屋じんぶん大賞2021　第３位アンダー29.5人文書大賞2021 新刊部門第１位第２の著作です。 2017/11/20刊行、４刷まで来ました。読書猿 (著) 『問題解決大全』 ISBN:978-4894517806 2017/12/18 電書出ました。 Kindle版・楽天Kobo版・iBooks版韓国語版『문제해결 대전』、繁体字版『線性VS環狀思考』も出ています。こちらは１０刷
- 英語
- あとで読む
- english
- 辞典
- 学習
- list
- 読書
- 言吾
- 書
- リスト
誰の声でも100人の声に変えられる声変換システム - Dwango Media Village(ドワンゴメディアヴィレッジ,dmv)
- 688 users
- dmv.nico
- テクノロジー
- 2020/09/14
著者の声を録画・録音して声を変換し元の映像と組み合わせてみた映像です。このときの変換元の音声は撮影用のスマートフォンで録音しており、部屋の残響が含まれるなど声が少し不鮮明になる収録環境ですが、それでもしっかり声変換できていることがわかると思います。概要 Dwango Media Villageの廣芝です。誰の声でも狙った複数の人の声に変えることができる声変換システムを開発し、実際に声を変えることができるデモページを公開しました。 (2022年5月 SeirenVoiceシリーズの製品化に伴いデモページは終了しました。) この記事では、声変換技術を研究開発する際に取り組んだ課題について紹介します。声の変換技術には、リアルタイム性と品質のトレードオフがあります。既存の声変換システムはリアルタイム性を重視する傾向がある一方、品質を重視したものはあまり見かけません。品質を優先した声変換
- 音声合成
- あとで読む
- 機械学習
- 技術
- 音声
- 学習
- technology
- システム
- データ
- deeplearning
「実用的でないPythonプログラミング」がよかった - Stimulator
- 638 users
- vaaaaaanquish.hatenablog.com
- テクノロジー
- 2020/08/30
はじめに 2020/8/12に発売されたImpractical Python Projects: Playful Programming Activities to Make You Smarterの日本語訳書である、「実用的でないPythonプログラミング」をひょんな事から献本していただく事になった。（訳者が同僚である）実用的でないPythonプログラミング: 楽しくコードを書いて賢くなろう! 作者:ヴォーン,リー発売日: 2020/08/12メディア: 単行本ありがちなプログラミング初学者向けの本から1段上がった中級者向けの良い本だと感じたので、当ブログでたまにやっている筆者、訳者に媚びを売るシリーズの一貫として、感想を記す。書籍の概要「実用的でないPythonプログラミング」は、想定する中級レベルのアルゴリズムの問題を例に取り、Pythonでの美しいコードの書き方や、コンピュ
商用でも利用可能なAI音声合成ソフトウェア『VOICEVOX』がオープンソースとして無料でリリース｜DTMステーション
- 592 users
- www.dtmstation.com
- テクノロジー
- 2021/08/01
本日8月1日、音声合成技術の世界に、また画期的な動きがありました。「Seiren Voice」や「Yukarinライブラリ」の開発者としても知られるヒロシバ（@hiho_karuta）さんが、ITAコーパスを利用した商用利用も可能なAI音声合成システム、VOICEVOXなるソフトウェアをオープンソースのとして無料でリリースしたのです。具体的には現時点Windowsで動くシステムで、「ずんだもん」および「四国めたん」の声でテキストを読み上げるシステムとなっています。これがオープンソースとなったことで、一般ユーザーが自由に利用できるというだけでなく、さまざまなシステムに組み込んで喋らせることが可能になったのが画期的なところ。たとえばロボットなどに組み込んで対話型のシステムを作ることや、観光案内システムに導入して喋らせる……といったこともできるほか、クラウド型のシステムを構築し、ブラウザを経由
- AI
- あとで読む
- DTM
- 音声合成
- ソフトウェア
- 音声
- VOICEVOX
- ツール
- software
- voice
エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ
- 589 users
- tjo.hatenablog.com
- テクノロジー
- 2023/07/02
（『IT Text 自然語処理の基礎』より） 3ヶ月ほど前に空前のLLMブームについて概観する記事を書きましたが、それ以降も世間のLLMに対する狂騒ぶりは収まるどころかますます拍車がかかるという有様で、あまつさえ僕自身の仕事における日常業務にもじわじわと影響が及びつつあり、今後も良きにつけ悪しきにつけLLMと共生し続ける必要がありそうだと感じている今日この頃です。そんな猫も杓子もLLMに群がるが如き空前のブームを受けて、エンジニアやデータ分析職の方々の中には「LLMに興味はあるんだけど世の中にあまりにも多くのLLM関連コンテンツが溢れ返っていて何から手をつけたら良いのか分からない」という向きもあるように見受けられます。そこで、僕も断じてLLM以下生成AIの専門家などではないのですが、個人的に「このテキストを読めばLLM時代を生き抜くことが出来そうだ」と感じた書籍を、全くの独断と偏見で3冊
- LLM
- あとで読む
- 機械学習
- 学習
- エンジニア
- AI
- 自然言語処理
- データ
- 本
- 勉強
単語はわかるのに英文がわからない人のための頻出英熟語６５０選【PHRASE List & PHaVE List】｜相川真司（かわんじ） #DiQt
- 574 users
- note.com/kawanjin01
- 学び
- 2021/01/28
【要約】英語力の向上のためには、英熟語を覚えることは重要です。しかし、英熟語には、単語から意味を推測しにくいものも多く、覚えるのが難しいという課題がありました。このnoteでは、その課題を解決する『頻出英熟語リスト』を紹介し、その英熟語データを無料で配布いたします。昨年、『この英単語を覚えるだけで、英文の９割は読めるようになる話』というnoteを書きました。ありがたいことに、このnoteは多くの方々にご評価いただき、なんと『2020年はてなブックマーク年間ランキング』で第６位にノミネートいただきました。うれしい！！！！このnoteをきっかけに、DiQtは多くの方々に使っていただけるようになりました。とりわけ嬉しかったのが、短期的な利用ではなく、現在に至るまでずっと継続してDiQtを使っていただけるユーザーに多く出会えたこと。そしてユーザーインタビューから、DiQtが実際に
- 英語
- あとで読む
- 学習
- 英熟語
- 英語学習
- 語学
- english
- 勉強
- note
- 文章
AIはどのような仕事ができるようになったのか？ChatGPTで変わる「優秀な人材」
- 547 users
- tokoroten.medium.com
- テクノロジー
- 2023/08/17
この図はざっくりと3つの領域に分かれます。まず左下が従来のプログラミングの領域です。これは簡単に言うと「プログラムは間違ってはいけない定形な仕事を奪う」ということです。次にその上の士業が責任を取る領域です。これは「責任」を取る人がいないと成立しない仕事です。ミスが発生した際に罰則を与えるという形で、ミスの発生を防いでいます。最後に右側のホワイトカラーの仕事の領域です。ホワイトカラーの仕事は入出力が不定形であり、作業フローも非定型であったりします。そのため、多少のミスはあっても仕方ないという前提の上で仕事が行われています。機械学習がビジネスに組み込まれるにつれ、ホワイトカラーの仕事領域はそれらによって少しずつ代替されつつあります。その図がこちらになります。ホワイトカラーの担っていた領域は、表データの機械学習（重回帰や、Lasso回帰、SVM、RandomForest、LightGBMなど
- AI
- ChatGPT
- あとで読む
- 仕事
- LLM
- 人工知能
- 機械学習
- 人材
- 学習
- work
30分で完全理解するTransformerの世界
- 546 users
- zenn.dev/zenkigen_tech
- テクノロジー
- 2023/02/14
はじめに初めまして。ZENKIGENデータサイエンスチームのはまなすです。正式な所属はDeNAデータ本部AI技術開発部なのですが[1]、業務委託という形で今年度から深層学習系の開発等に携わっています。深層学習界隈では、2017年に衝撃的なタイトル（Attention Is All You Need）の論文が発表されてから早5年半、元出自の機械翻訳タスクを大きく越えて、Transformer関連の技術が様々な領域で用いられる汎用アーキテクチャとして目覚ましく発展し続けています。今回はそんなTransformerが現時点までにどのように活用されてきたか、また、どのように工夫されてきたかをざっくりと俯瞰し、流れをおさらいする目的の記事になります。本記事の大枠は、2021年時点でのサーベイ論文である A Survey of Transformers に倣いつつ、適宜、2023年2月上旬現在ま
- 機械学習
- あとで読む
- Transformer
- AI
- 学習
- 自然言語処理
- 勉強
- algorithm
- deeplearning
- ChatGPT
ポケモンの「ゴース」が「ゴースト」に進化し「ゲンガー」に進化することなどを言語学的に考察した論文が興味深くて最高すぎる
- 534 users
- togetter.com
- アニメとゲーム
- 2021/11/25
齊藤輝(まんちゅう）💪✨英検1級再挑戦（6月2日） @manchuu11355 amazon.co.jp ちなみに川原先生の著作で個人的に一番好きなのはひつじ書房から出てる『「あ」は「い」より大きい』です。これを読むと音象徴のことが頭から離れなくなるのでオススメです。 2021-11-24 19:25:02 リンク Wikipedia 川原繁人川原繁人（かわはらしげと、1980年 - ）は、日本の言語学者、認知科学者、音声学者、理論音韻論者、実験音韻論者。専門は主にインターフェイス論（特に、音韻論と音声学、形態論や統語論とのインターフェイス）や音象徴、実験言語学一般。実験やコーパス分析に基づいた言語理論の研究を多く行っている。ジョージア大学、ラトガーズ大学助教授(Assistant professor)を経て、現在慶應義塾大学言語文化研究所准教授。東京都世田谷区出身。和光幼稚
- 言語
- あとで読む
- 研究
- ポケモン
- ゲーム
- Togetter
- 考察
- 文化
- game
- 論文
AIの力で自分の声を好きな声にリアルタイム変換できるボイスチェンジャー「MMVC」が登場
- 496 users
- gigazine.net
- テクノロジー
- 2022/03/27
自分の声を美少女ボイスやイケメンボイスに変換してくれるボイスチェンジャーは、ライブ配信やムービー投稿の際にありがたい存在です。しかし、ボイスチェンジャーによって変換できる音声は固定されており、自分好みの音声に変換できるボイスチェンジャーを見つけるのは困難です。天王洲アイル氏は、この問題をAIを用いて解決する方法について解説し、さらにAIの力で自分の声を好みの声にリアルタイム変換できるボイスチェンジャー「MMVC」を公開しています。 VRChatなどの登場によって誰でも好きなアバターを使って好きなキャラクターになりきることが可能となりました。また、自分の声を美少女ボイスやイケメンボイスに変換できるボイスチェンジャーも多くの種類が存在しています。しかし、既存のボイスチェンジャーには「理想的な結果を得るためにはボイスチェンジャーに合わせた発声練習が必要」「リアルタイム変換が不可能なため、会話やラ
- AI
- あとで読む
- voice
- 音声
- 機械学習
- 学習
- software
- 技術
- データ
- ソフトウェア
pdfからtextを抜き出す試行錯誤のメモ｜Kan Hatakeyama
- 465 users
- note.com/kan_hatakeyama
- テクノロジー
- 2024/02/23
これは二段構えの構成を持っています。この二段構えを正確に検出し、テキストを理解することが望ましいです。 Unstructuredを使うPythonのライブラリであるUnstructuredを試してみましょう。参考記事導入は非常に簡単です。 pip install 'unstructured[pdf]' 実装も簡単です。解析コード： from unstructured.partition.pdf import partition_pdf pdf_elements = partition_pdf("pdf/7_71_5.pdf") 表示コード： for structure in pdf_elements: print(structure) 結果：残念ながら、2段組のカラムを正確に検出することはできませんでした。 Grobidを使うGrobidは、peS2oというオープンアクセス論文のコ
- PDF
- あとで読む
- python
- AI
- LLM
- テキスト
- ツール
- ドキュメント
- 自然言語処理
- メモ
超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
- 452 users
- prtimes.jp
- テクノロジー
- 2023/01/19
株式会社レアゾン・ホールディングス(本社：東京都新宿区、代表取締役：渡邉真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日株式会社レアゾン・ホールディングス(本社：東京都新宿区、代表取締役：渡邉真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。プロジェクトwebサイト：https://
- AI
- あとで読む
- 日本語
- 音声認識
- 音声
- voice
- 技術
- フリーソフト
- コーパス
- 機械学習
「焼き立てパン買ってきたよ」「逮捕」～ブリテン島から自由が消えた日　戦時下のイギリス①第一次世界大戦編～｜枢密院勅令
- 446 users
- note.com/wa8492
- 学び
- 2020/10/26
「緊急事態」と聞くと、何を思い描きますか？　２０２０年コロナ禍以前なら、自然災害を思い描いた人が多かったのでは無いだろうか。皆様もご存知の通り伊邪那岐命と伊邪那美命が不動産屋に騙されて以来、我が日本はスナック感覚で自然災害に見舞われる立地にあり、我が国の緊急事態法制も概ね自然災害を想定したものが多い。自然災害の発生には「人間の悪意」は介在しない。阪神淡路大震災にしても、東日本大震災にしても、誰かが願って起きたわけではない。大自然は平等であり、一連の経済制裁に激怒した習近平国家主席がトランプ大統領のズラを吹き飛ばすようなハリケーンの発生を願ったところで聞き入れてはくれない。人間の悪意が介在する緊急事態は大変厄介な存在である。何故なら人間は自然とは異なり、知性があり、何処を攻撃すれば相手に致命的なダメージを与える事ができるかを理解しているからである。特に「戦争」という緊急事態では人間の悪意は
- 歴史
- イギリス
- 戦争
- あとで読む
- 法律
- note
- 司法
- 軍事
- 政治
- history
大学以外で言語学を勉強する方法｜長屋尚典
- 440 users
- note.com/norinagaya
- 暮らし
- 2022/09/09
「大学には所属していないけれど言語学を勉強してみたい。どうしたらいいの?」という質問をよくいただきます。たしかに本屋さんや図書館には「言語学入門」と銘打った本がたくさんありますが、なかなか独学するのは難しいですよね。かといって、大学あるいは大学院に入学するというのも大変ですし、そもそも大学院に行くために言語学を勉強してみたいという方もいらっしゃるかもしれません。そこで、今回は大学以外で言語学を勉強する方法を考えてみたいと思います。いくつか方法があります。大学以外で言語学を勉強する動機意外に思われるかもしれませんが、「大学には所属していないけれど言語学を勉強してみたい! どうしたらいいの?」という質問、さまざまな場所でよくいただきます。たとえば、一般向け講演会などで質問なさる方がいます。「自分は社会人で大学には通えないが言語に興味がある。言語学を勉強してみたい」とよくおっしゃって
- 言語
- あとで読む
- 勉強
- 言語学
- language
- 教育
- 学び
- 大学
- study
- linguistics
2019年末版形態素解析器の比較 - Qiita
- 416 users
- qiita.com/hi-asano
- テクノロジー
- 2019/12/17
形態素解析は日本語処理の初歩であり、文を単語に分割したり、品詞や活用形、基本形を分析するために行います。本記事では形態素解析のツールをいくつかの出力例を交えて比較していきます。（SentencePieceでいいじゃん、という人はお呼びでないですが、そういう方には、Twitterのトレンドが変な分割になってたら嫌では？と申し上げておきたいです） MeCab 言わずと知れた形態素解析器。とりあえずMeCabを使うという人は今なお多いことでしょう。とにかく高速であるということと、システムと辞書が分離されているのが特徴です。またPythonから使うのも簡単になりました（Janomeというものがありましたがmecab-python3の方が高速です）。Javaから使いたい人はKuromojiを使えばmecab(+ipadic)相当の結果が得られるはずです。辞書はIPA辞書が推奨されていますが、Un
LLM chatbotが人類にもたらすのは、絶望なのか希望なのか - 渋谷駅前で働くデータサイエンティストのブログ
- 400 users
- tjo.hatenablog.com
- テクノロジー
- 2023/03/24
ちょっと前に以下のようなことを放言したら、思いの外反響が多くてちょっとびっくりしたのでした。それだけ、現代のLLM chatbot / generative AIの台頭に期待と不安を抱いている人が多いということの裏返しなのでしょう。既に色々コメントが出ているけど、我々人類が「知的労働」だと思っていることの大半が実は「過去実績をなぞって適当にその場に合わせて組み立てているだけ」なんじゃないかと訝っているので、そういう「自称知的労働」は多分LLMで代替されると思う。新奇なものを生み出す仕事は相変わらず残る https://t.co/GGK41vSDcn— TJO (@TJO_datasci) 2023年3月15日昨年の年末振り返り記事でも話題にしたChatGPT（そして後続の各種LLM chatbot）ですが、今年に入ってからの話題の広がり方には想像を超えるものがあり、ついに朝の情報番組な
- AI
- ChatGPT
- あとで読む
- GPT
- 機械学習
- 人工知能
- LLM
- 自然言語処理
- nlp
- 仕事
AIで“ASMR”が作れる時代に　ささやき声も出せる音声合成「九州そら」無料公開
- 351 users
- www.itmedia.co.jp
- テクノロジー
- 2022/03/16
音声合成ソフトの開発や販売を手掛けるSSS（仙台市）は3月16日、音声合成ソフト「VOICEVOX」用音源「九州そら」をリリースした。九州そらは、せりふを入力するだけで人間らしい“ささやき声”を出力できるAIだ。 VOICEVOXは、ドワンゴでAIの研究に携わっているヒホ（ヒロシバ）さん（@hiho_karuta）さんが開発した無料の音声合成ソフト。AI技術を活用して、人間らしい話し声を合成できる。イントネーションや話す速さなどの調整も可能。立体音声を制作できるソフトを活用すれば「ASMR動画」の制作にも使える。九州そらはVOICEVOX用音源として初めてささやき声の合成に対応した。ソフトのダウンロードと利用は無料。「VOICEVOX：九州そら」とクレジットを記入すれば商用利用も無償でできる。関連記事「VOICEPEAK」と「CeVIO Pro」、新しい音声・歌声合成製品はどこがす
- 音声合成
- あとで読む
- AI
- 技術
- ボカロ
- webサービス
- DTM
- VOICEVOX
- 音声
- 研究
実用的でないPythonプログラミング - 共立出版
- 334 users
- www.kyoritsu-pub.co.jp
- テクノロジー
- 2020/08/05
本書ではPythonを使い、火星や木星や銀河の最果てを、詩人の魂を、高度な金融の世界を、選挙の不正を、ゲーム・ショーのトリックを、探っていく。マルコフ連鎖解析のような技術を使って俳句を詠み、モンテカルロ・シミュレーションで金融市場をモデル化し、イメージ・スタッキングで天体写真を改善し、遺伝的アルゴリズムで巨大なネズミを育てる。それとともにpygame、Pylint、pydocstyle、tkinter、python-docx、matplotlib、pillowといったモジュールの経験を楽しく積むことができる。この本は2冊目のPythonの本とみなすことができる。完全な初心者向けの本や入門クラスの後に続く本、あるいは補完する本となることを狙っている。「impractical」（実用的でない）というタイトルに反して、本書の内容はかなり実用的で、文字列やコレクションの操作といった基本的なことか
「すてき」は死語か？: 極東ブログ
- 328 users
- finalvent.cocolog-nifty.com
- 学び
- 2020/04/20
「すてき」という言葉を聞かなくなって久しい。自分も使わない。ためしに、「まあ、すてき」と口に出してみると、なんともいえない、もにょ〜んとした感じがする。これは、もう死語なんじゃないか。なぜ死んだのか。と考え、まあ、完全に死んだわけでもなく、この微妙な「もにょ〜ん」感に生きているのかもしれないが、それはたぶん、受け手の感覚で、そうした感覚なく自然に使っている人もいるだろう。ニュースとかではどう使われているのかと、検索すると、おや？　日経新聞（2020/4/19 15:16）より。金氏から「すてきな手紙」　米大統領、関係良好と強調【ワシントン=共同】トランプ米大統領は18日の記者会見で、北朝鮮の金正恩朝鮮労働党委員長から「最近すてきな手紙を受け取った」と語り、良好な関係を維持していると強調した。内容や詳しい時期は明らかにしなかった。この検索過程で聯合ニュース（2020.04.19 22
- 言葉
- 日本語
- ことば
- 言語
- あとで読む
- 文化
超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた
- 324 users
- gigazine.net
- テクノロジー
- 2023/01/20
東京に拠点を置くテクノロジー企業「レアゾン・ホールディングス」が、1万9000時間に及ぶ国内最大級の日本語音声コーパス「ReazonSpeech」を無償公開しました。同時に、OpenAIが開発した超高性能音声認識AI「Whisper」に匹敵する性能をアピールする文字起こしサービスも公開されていたので、実際に使ってみました。超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開 - Reazon Human Interaction Lab https://research.reazon.jp/news/reazonspeech.html ReazonSpeech - Reazon Human Interaction Lab https://research.reazon.jp/projects/ReazonSpeech/ レアゾン・ホールディングスは「R
- AI
- あとで読む
- 音声認識
- webサービス
- voice
- Python
- GIGAZINE
- 人工知能
- techfeed
- 音声
36億パラメータの日本語言語モデルを公開しました
- 305 users
- engineering.linecorp.com
- テクノロジー
- 2023/08/14
LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは。 LINEのNLP Foundation Devチームの清野舜と高瀬翔とoverlastです。 LINEでは2020年11月から日本語に特化した大規模言語モデル「HyperCLOVA」の構築と応用に関わる研究開発に取り組んできましたが、この「HyperCLOVA」と並行するかたちで複数の大規模言語モデルの研究開発プロジェクトが進行しています。今回はそれらの研究開発プロジェクトのうち、我々を含むMassive LM開発ユニットから、日本語言語モデル「japanese-large-lm（ジャパニーズラージエルエム）」をOSSとして公開できる状況になりましたので、本ブログを通じてお伝えすることにしました。この記事
- LLM
- あとで読む
- AI
- LINE
- 機械学習
- 開発
- ChatGPT
- 自然言語処理
- nlp
- 日本語
もし明日、上司に「GPT-4を作れ」と言われたら？　Stability AIのシニアリサーチサイエンティストが紹介する「LLM構築タイムアタック」
- 298 users
- logmi.jp
- テクノロジー
- 2023/12/04
オープンLLMの開発をリードする現場の視点から、開発の実情や直面する課題について発表したのは、Stability AI Japan株式会社の秋葉拓哉氏。Weights & Biasesのユーザーカンファレンス「W＆Bカンファレンス」で、LLM開発のポイントを紹介しました。全2記事。前半は、LLM構築タイムアタック。「GPT-4を作ってください」と言われたらどう答える？秋葉拓哉氏：みなさん、こんにちは。秋葉と申します。それでは、発表させていただきたいと思います。みなさん、さっそくですが、「GPT-4」ってすごいですよね。ここにいらっしゃっている方々はこれについては、もう疑いの余地なく、同意してくださるかなと思います。では、質問なんですが、もし「GPT-4を作ってください。予算はあるんだよ」と上司に言われたら、どう答えますか？　ということをちょっと聞いてみたいですね。これはけっこう意
- AI
- LLM
- あとで読む
- ChatGPT
- 画像生成AI
- 人工知能
- 文章生成AI
- 学習
- GPT
- techfeed
話題爆発中のAI「ChatGPT」の仕組みにせまる！ - Qiita
- 294 users
- qiita.com/omiita
- テクノロジー
- 2022/12/12
オミータです。ツイッターで人工知能のことや他媒体の記事などを紹介しています。 @omiita_atiimoもご覧ください！話題爆発中のAI「ChatGPT」の仕組みにせまる！注意：ChatGPTはまだ論文が出ていないため、細かい箇所は不明です。本記事では公式から出た記事およびInstructGPTの論文をもとにChatGPTの仕組みを探っていきます本記事の流れ: 忙しい方へ ChatGPTとは GPT-3 InstructGPT ChatGPT まとめと所感参考 0. 忙しい方へ ChatGPTは、InstructGPTをベースとしたモデルだよ InstructGPTは、「人間の好みに合った文を出力するように微調整したGPT-3」だよ InstructGPTの学習では、以下の3つが重要だよ GPT-3の教師ありファインチューニング Reward Modelの学習 RLHF（＝Re
- AI
- ChatGPT
- あとで読む
- 機械学習
- 言語
- 学習
- 人工知能
- qiita
- ML
- 自然言語処理
「ひとりごちる」という現代語はあるのか、ツイッターでの論議に日本語学者・飯間先生のご意見
- 288 users
- togetter.com
- 学び
- 2021/03/14
くろの @kurononbiri 継続調査・ひとりごつは現代においてあまり使用されない語であることは確かだが継続して使われてきた語・「ひとりごちた」はひとりごつの連用形+過去の助動詞、「ひとりごちる」は辞書には載っていない。造語というよりは誤用か(誤用と載せている辞書もあった) twitter.com/kurononbiri/st… 2021-03-13 16:41:51 くろの @kurononbiri 現代日本語書き言葉均衡コーパス少納言で検索すると「ひとりごちる」用例は赤川次郎など8例、連用形「ひとりごち-」は27例、終止形「ひとりごつ」は1例。連用形での使用が一般的であるため、ひとりごちるが一般化しつつあるということかな。ただ、辞書に登録されるほどの用例がないということか。 2021-03-13 16:53:53
- togetter
- 言葉
- 日本語
- ことば
- あとで読む
- 歴史
- twitter
- language
- 謎
- 文化
225行のコードでGPTの仕組みを理解する
- 286 users
- zenn.dev/hijikix
- テクノロジー
- 2023/08/27
概要 LLMに関心があり、ChatGPTやtransformerの仕組みを理解したいと思っていたところ、雰囲気を掴むのにこちらの動画がとても参考になりました。動画の内容としては、以下のコーパスを学習して、直前の数文字から次の1文字（単語ではないことに注意）予測機を作成するというものです。この動画で完成するコードは以下で、225行しかなくとても読みやすいです。また短いですがtransformerのエッセンスが詰まっていて勉強になりそうです。このコードを読み解くことでGPTやtransformerがどのように動いているのか、ざっくり理解してみようと思います。ちなみに完成するとこんな感じの文字列が生成されます。ぱっと見文章っぽいですね。 first Scitizen: He's enough; but he cannot give his friends. MARCIUS: Do yo
- LLM
- あとで読む
- ChatGPT
- AI
- 機械学習
- transformer
- 自然言語処理
- programming
- Python
GPT-4レベルの衝撃 PC内で使えるオープンLLM「Command R+」
- 276 users
- ascii.jp
- テクノロジー
- 2024/04/08
カナダのAIスタートアップCohereは4月4日（現地時間）、ビジネス向けに最適化された最新の大規模言語モデル（LLM）「Command R+」を発表した。高度なRAG技術を採用 Cohereは、AI業界に変革をもたらしたTransformerモデルを提唱した論文「Attention is All You Need」の共同執筆者として知られるトロント大学の研究者Aidan Gomez氏らによって2019年に設立されたカナダのAIスタートアップ。 OpenAIと同様、LLMの開発に特化しており、企業向けにチャットボット、検索エンジンの最適化、要約サービス、自社AIモデルのAPIなどを提供している。 Command R+は、同社が3月に発表した「Command R」の後継となるモデルであり、Cohereが得意とする高い効率性と精度のバランスを重視したRシリーズの一部となる。 128K（12万
- AI
- あとで読む
- LLM
- 人工知能
- GPT
- 文章生成AI
- techfeed
- api
- 自然言語処理
グーグルが普及する前、みんな何使ってた？
- 274 users
- www.gizmodo.jp
- テクノロジー
- 2020/08/01
グーグルが普及する前、みんな何使ってた？2020.08.01 11:0026,182 Daniel Kolitz - Gizmodo US ［原文］（ Rina Fukazu ）今でこそ、たいていのことは｢ググればわかる｣時代だけど...。 1997年、最近お気に入りの映画『オースティン・パワーズ』のことを友達にアツ〜く語るあなた。すると友達は｢ランディ・クエイドが最高だった｣と一言。あなたの頭のなかでは｢あれ？｣と戸惑いつつ、話を聞いていたら友達がクリント・ハワードのことを言っていることに気づく。友達にそう伝えてみるも、お互い納得しあえず...。一日モヤモヤしつつ、家に帰ってパソコンを立ち上げてから40分ほど経過...｢やっぱり、ランディ・クエイドは出演してないよ！｣ 2020年、Google（グーグル）が広く使われる前の時代、人々はどのようにして日常の疑問を解決したり、情報収集し
- 検索
- web
- 歴史
- google
- あとで読む
- search
- インターネット
- history
- ネット
AWS、PythonでMeCabを使う際の語彙データを無料公開 | Ledge.ai
- 245 users
- ledge.ai
- テクノロジー
- 2020/11/20
アマゾンウェブサービスジャパン株式会社（Amazon Web Services、AWS）は、同社のオープンデータセットに、日本語自然言語処理で定番の形態素解析器である「MeCab」を、ラッパーライブラリであるfugashi経由でPythonで使用する際の語彙（ごい）データに加えた、と公式ブログで明らかにした。多くの機械学習デベロッパーが、AWS上でさまざまなアルゴリズムの開発やモデルを構築している。なかでも、自然言語処理をする際には、対象言語の特性に即した形で前処理をする必要がある。日本語の自然言語処理を実施する際には、一般的に「形態素解析」と呼ばれる文章の分解処理を前位処理として実施する。日本語形態素解析をするためには、日本語の語彙データが必要になる。語彙データは大きなサイズになるだけではなく、これらを用いた計算の際にも大量のGPUおよびCPUが求められる。そのため、従来このよ
- mecab
- あとで読む
- aws
- python
- 形態素解析
- 自然言語処理
- nlp
- 学習
- データ
最近またLinux用の日本語IMEを作っている - tokuhirom's blog
- 237 users
- blog.64p.org
- テクノロジー
- 2023/01/16
最近またLinux用の日本語IMEを作っている本件は mozc の ut がどうこうとかは関係なくて、ふと linux desktop を使おうと昨年末に思いまして、昨年末からちまちまやってます https://github.com/tokuhirom/akaza かな漢字変換って作るの難しいのかなぁ、と思ったので作ってみている。これはまさに Just for Fun でやっている。わりと普通に自分で常用してる分には困らないかな、というところまできている。以下は、思ってることの垂れ流しという感じで、まとまってないですが。「日本語入力を支える技術」という本が 2018年に出ていて、この本の内容を読めば、だいたいエンジン部分は実装できる。Amazon のレビューではこの本よんでも実装できないって書いてあるけど、変換エンジン自体は実装できます。 UI が辛い。けど。エンジンは、ビタビア
- IME
- linux
- rust
- あとで読む
- 日本語
- algorithm
- 日本語入力
- 技術
- GitHub
- NLP
ChatGPTを探す旅に出させていただきます | DevelopersIO
- 236 users
- dev.classmethod.jp
- テクノロジー
- 2023/04/09
文書の数が多い場合、単語の種類(ボキャブラリ)も多くなり単語の次元が大幅に増えていきます。一方、一つの文書に含まれる単語の数には限りがあるため、これは全体として疎行列になります。また、単語が各次元として扱われますが、文書ごとの出現順序など、単語間での関連性を示す情報は抜け落ちたものとなります。それに対して低次元(通常数百次元程度)の密な行列で単語の意味を定義する方法があります。これは、「分散表現」や「埋め込み表現」と言われるものになっております。この表現を獲得するため手法は様々なものがありますが、ここではWord2Vecを紹介します。元論文 : Efficient Estimation of Word Representations in Vector Space 具体的な実装についての解説 : word2vec Parameter Learning Explained Wor
東工大など、日本語に強い大規模言語モデル「Swallow」を無償で公開
- 231 users
- news.mynavi.jp
- テクノロジー
- 2024/01/13
東京工業大学(東工大)と産業技術総合研究所(産総研)の両者は12月19日、現在公開されている中で、日本語に強い生成AIの基盤である「大規模言語モデル」(LLM)としては最大規模となる「Swallow」を、米・MetaのLLM「Llama 2」の日本語能力を拡張することで構築し、Webサイト「TokyoTech-LLM」にて一般公開したこと、またオープンで商用利用も可能なことを共同で発表した。同成果は、東工大情報理工学院情報工学系の岡崎直観教授、同・横田理央教授、産総研の共同研究チームによるもの。今回、東工大は主にデータの語彙拡張によるモデル学習・推論効率の改善に取り組み、産総研はモデル構築に必須である大規模計算資源としてAI橋渡しクラウド(ABCI)を提供すると同時に、主に継続学習によるモデルの日本語能力の改善を担当したとしている。産総研のAI橋渡しクラウド「ABCI」(出所:東工
- LLM
- あとで読む
- AI
- 日本語
- 言語モデル
- 研究
- 人工知能
- 言語
- 学習
- 自然言語処理
無料＆音声をリアルタイムで変換できるAIボイスチェンジャー「Koemake RVC Player」レビュー
- 230 users
- gigazine.net
- テクノロジー
- 2023/05/14
オープンソースのAIボイスチェンジャー「Retrieval-based Voice Changer(RVC)」は、あらかじめ用意した音声から学習したモデルを作成し、リアルタイムで声質を変換することが可能です。このRVCで作成した音声変換モデルを手軽に実行できるボイスチェンジャーソフト「Koemake RVC player」を電々メイさんが無償でリリースしたので、実際に使ってみました。 Koemake Project https://koemake.com/ Koemake RVC Playerを動かすための推奨スペックは「VRAM4GB以上、NVIDIA製GPU搭載、Windows 10以上」となっているので注意が必要です。 Koemake RVC Playerをダウンロードするには、上記の配布サイトでユーザー登録をする必要があります。配布サイトにアクセスしたら、右上の「ログイン」をクリッ
- AI
- あとで読む
- DTM
- 音声
- audio
- 機械学習
- 音声合成
- ソフトウェア
- ソフト
- 学習
歴代チャットボットと最近のLLMのまとめ - Qiita
- 186 users
- qiita.com/Ted-HM
- テクノロジー
- 2023/06/02
LLMs The History of Chatbots ELIZA (1966) 初期の人工知能プログラムのひとつ。ルールベースの簡単なパターンマッチングで返答していた。心理療法士の会話を模したELIZA(DOCTOR)が有名。 PARRY (1972) PARRYは偏執病的統合失調症患者をシミュレートしようとしたもの。 ELIZA(DOCTOR)と通信し話題となった。 Jabberwacky (1982, 1988, 1997) ユーモラスな人間同士の自然な会話をシミュレートすることを目的としていた。ユーザーとの会話の大規模なデータベースを構築し、言語と文脈を学習することができた。プロジェクト自体は1982年から開始されていたが、当初は学習機能は有していなかった。ローブナー賞を2005年(George)、2006年(Joan)に受賞している。ローブナー賞(Loebner P
- AI
- 機械学習
- あとで読む
- 人工知能
- BERT
- 学習
- techfeed
- Qiita
- 勉強
Wikipedia"「白い象」はなぜ厄介か？" - 🍉しいたげられたしいたけ
- 174 users
- www.watto.nagoya
- 世の中
- 2020/05/26
わざわざ自ブログにエントリーを立てるまでもなく、ウィキペディアの項目へのリンクを貼れば済むことではあったのだが… タイの王は昔、自分の嫌いな家臣に白い象を贈った。贈られたほうは、白い象など珍しいもので、しかも王から贈られたものだからまさか捨ててしまうわけにもいかない。すなわち、森の中に逃がしたり、あるいは殺したりは絶対にできない。ところが象だから大食らいであるため莫大な金がかかり、しかも物を踏みつぶすので、家の中が目茶苦茶になるが、それでも捨てることもできず、その家臣はほとほと困ってしまう…というものである[2]。 "「白い象」はなぜ厄介か？ - Wikipedia" より [2] というのは脚注で、クリックすると ”語学春秋社「早わかり英熟語」110頁初版1996年宮崎尊” と表示される。学習参考書のようだ。思えば私も英語の "white elephant" という熟語は、受験勉
月ノ美兎さんの音声合成ツール(Text To Speech) を作ってみた - Qiita
- 171 users
- qiita.com/K2_ML
- テクノロジー
- 2020/05/29
何をした？ Youtube上に公開されている動画の音声から、ディープラーニング技術を用いた音声合成ツールを構築しました。今回対象にしたのは、バーチャルユーチューバー・にじさんじの委員長こと月ノ美兎さん（Youtubeチャンネル）　です。 ※選出理由は、単純に私がYoutube上で一番推している方だからです。成果動画から抽出した音声と、音声を文章に起こしたテキストの組み合わせのデータセット約50分ぶんを教師データとして学習した結果 ※学習に必要なデータ量は最低でも1時間程度と言われているので、まだまだ足りていません… 月ノ美兎さんの音声合成ツールを作ってみた https://t.co/YVdWW9vREb via @YouTube — K2 (@K2ML2) May 29, 2020 発話内容が不明瞭な箇所がありますが、一応ご本人の声に近い音声を作成することができているかと思います
textlint - Linterの作り方
- 166 users
- azu.github.io
- テクノロジー
- 2022/11/18
[fit] textlint - Linterの作り方自己紹介 Name : azu Twitter : @azu_re Website: Web scratch, JSer.info Book: JavaScript Primer アジェンダ Linterを作る人向けの話 Linterの考え方とアーキテクチャを一致させる使うものを作ろう、作るために使おう textlint とは自然言語(日本語や英語など)に対するLinter MarkdownやHTMLなどのマークアップ言語に対応しているビルトインのルールは0 利用できるルールは100以上ある多くのルールはオフラインで動くので、外部に入力してる内容を送信しない CI/CDに組み込める自然言語のチェッカー(表記揺れ、スペルチェック、誤用、読みやすさのチェックなど) textlint users Translation: Angul
- textlint
- lint
- あとで読む
- linter
- プログラミング
- 言語
- vscode
- アーキテクチャ
- 開発
- slide
ゼロから始める異体字の世界【レトロデザインのための近代日本語講座〈2〉】 - マチポンブログ
- 166 users
- shokaki.hatenablog.jp
- 学び
- 2023/03/09
今回は「異体字」についてお話しします。すこし専門的な部分もあるので、適宜不要な部分は読み飛ばすことをお勧めします。こんな問題から始めてみましょう。世田谷区の区章とその説明文は以下のように書かれています。外輪の円は区内の平和、中心は「世」の文字が三方に広がり、人びとの協力と区の発展を意味しています。（世田谷区の紋章、シンボル | 世田谷区ホームページより）「中心は『世』の文字」とありますが、そうは見えません。なぜこのような形なのでしょうか。前回の記事本記事は連載形式で、前回の補足のような内容になっています。前回の記事もご参照ください。 shokaki.hatenablog.jp クリックで目次の表示／非表示前回の記事異体字とは異体字の認識異体字の使われ方どこまでが同じ漢字か誤字か異体字か異体字はどうできるのかよく使う字は略字化する画数の多い字は正確でなくても読める
- 漢字
- あとで読む
- 日本語
- 文字
- 言語
- デザイン