並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 829件

新着順 人気順

コーパスの検索結果1 - 40 件 / 829件

  • 最新研究からわかる 学習効率の高め方 - 分裂勘違い君劇場 by ふろむだ

    本書は、Amazon総合1位(無料)となった科学的学習法の本のWeb版です。 12万部のベストセラーとなった前著と同様、図とイラストを使って分かりやすく解説しています。 英語学習者・教師・受験生・小学生~高校生の親御さんに読んでいただきたいです。 全5巻(派生巻も含めると全8巻)構成で、これは第1巻です。 それでは、さっそく、サイエンス誌に掲載された論文を解説します。 (サイエンス誌は、ネイチャー誌と双璧をなす、世界最高峰の学術誌です) この論文からは、学習効率に関する重要ポイントをいくつも学べます。 本書は、基本的には中学生でも読めるように書いてあります。 実際、本書をある中学3年生の女の子に読んでいただいたところ、たいへん好評でした。 実際に期末試験の成績も上がり、志望校にも合格し、ご両親も喜んでおられました。 では、以下、論文の解説をどうぞ。 ■カーピキー2008実験 たとえば、英語

      最新研究からわかる 学習効率の高め方 - 分裂勘違い君劇場 by ふろむだ
    • 【英会話独学】英語学習ロードマップ 第二言語習得研究と行動科学に基づく英語を話す方法 - ポリグロットライフ | 言語まなび∞ラボ

      はじめに 今回は英語を話す方法の完全英語学習ロードマップを丁寧に解説していきます。私の第二言語習得研究の知見と行動科学(私自身の語学学習の経験を観察して得られた実証結果・多言語話者に取材をして気づいた彼らに共通した行動の特徴)に基づく学習マップを始めから丁寧に解説していきます。英会話の完全独学ができますので、今回のブログをしっかり理解して英語を話せるようになりましょう。 「ポリィの英語講義」というYoutubeチャンネルも開設致しましたので、ぜひこちらもチェックしみてください。こちらのチャンネルでは、今後英語学習ロードマップの実践動画をアップしていきたいと思います。 www.youtube.com 英語学習ロードマップ Phase1 学習方略に基づく学習計画(公開済み) Phase2 発音と単語で気づきを促す(公開済み) Phase3 浅い理解を深い理解に転換(公開済み) Phase4 英

        【英会話独学】英語学習ロードマップ 第二言語習得研究と行動科学に基づく英語を話す方法 - ポリグロットライフ | 言語まなび∞ラボ
      • 探しものがはかどる検索エンジンDuckDuckGo、NDC順Bangリスト

        DuckDuckGo(https://duckduckgo.com)はプライバシーの保護に重きを置いている検索エンジンのひとつである。 特筆すべきは、Bangという機能があって、探しものがとてもはかどる。 たとえば「!a 図書館」(ビックリマーク+アルファベットのa+スペース+検索語)と入力するとAmazonを検索してくれる。 こんな風に「!+何か」 で特定のサイトのみの検索ができる機能がBangである。 検索エンジンが使えなくなった(クズみたいなサイトが上位に来て、欲しい情報が見つからない等)と言われて久しいが、探すべきサイトにダイレクトで検索することで、この問題のかなりの部分が解決する。 よく使いそうなのは ! (キーワード) 最初の検索結果へ直接ジャンプ !i イメージ検索 !m 地図検索 !n ニュース検索 !v 動画検索 !w ウィキペディア検索 !pdf PDFファイルだけを検

          探しものがはかどる検索エンジンDuckDuckGo、NDC順Bangリスト
        • 現代英語の9割をカバーする基本英単語 NGSL(New General Service List)を7クリックで覚えるための新しい表

          Author:くるぶし(読書猿) twitter:@kurubushi_rm カテゴリ別記事一覧 新しい本が出ました。 読書猿『独学大全』ダイヤモンド社 2020/9/29書籍版刊行、電子書籍10/21配信。 ISBN-13 : 978-4478108536 2021/06/02 11刷決定 累計200,000部(紙+電子) 2022/10/26 14刷決定 累計260,000部(紙+電子) 紀伊國屋じんぶん大賞2021 第3位 アンダー29.5人文書大賞2021 新刊部門 第1位 第2の著作です。 2017/11/20刊行、4刷まで来ました。 読書猿 (著) 『問題解決大全』 ISBN:978-4894517806 2017/12/18 電書出ました。 Kindle版・楽天Kobo版・iBooks版 韓国語版 『문제해결 대전』、繁体字版『線性VS環狀思考』も出ています。 こちらは10刷

            現代英語の9割をカバーする基本英単語 NGSL(New General Service List)を7クリックで覚えるための新しい表
          • 誰の声でも100人の声に変えられる声変換システム - Dwango Media Village(ドワンゴメディアヴィレッジ,dmv)

            著者の声を録画・録音して声を変換し元の映像と組み合わせてみた映像です。 このときの変換元の音声は撮影用のスマートフォンで録音しており、部屋の残響が含まれるなど声が少し不鮮明になる収録環境ですが、それでもしっかり声変換できていることがわかると思います。 概要 Dwango Media Villageの廣芝です。 誰の声でも狙った複数の人の声に変えることができる声変換システムを開発し、実際に声を変えることができるデモページを公開しました。 (2022年5月 SeirenVoiceシリーズの製品化に伴いデモページは終了しました。) この記事では、声変換技術を研究開発する際に取り組んだ課題について紹介します。 声の変換技術には、リアルタイム性と品質のトレードオフがあります。 既存の声変換システムはリアルタイム性を重視する傾向がある一方、品質を重視したものはあまり見かけません。 品質を優先した声変換

              誰の声でも100人の声に変えられる声変換システム - Dwango Media Village(ドワンゴメディアヴィレッジ,dmv)
            • 「実用的でないPythonプログラミング」がよかった - Stimulator

              はじめに 2020/8/12に発売されたImpractical Python Projects: Playful Programming Activities to Make You Smarterの日本語訳書である、「実用的でないPythonプログラミング」をひょんな事から献本していただく事になった。(訳者が同僚である) 実用的でないPythonプログラミング: 楽しくコードを書いて賢くなろう! 作者:ヴォーン,リー発売日: 2020/08/12メディア: 単行本 ありがちなプログラミング初学者向けの本から1段上がった中級者向けの良い本だと感じたので、当ブログでたまにやっている筆者、訳者に媚びを売るシリーズの一貫として、感想を記す。 書籍の概要 「実用的でないPythonプログラミング」は、想定する中級レベルのアルゴリズムの問題を例に取り、Pythonでの美しいコードの書き方や、コンピュ

                「実用的でないPythonプログラミング」がよかった - Stimulator
              • 商用でも利用可能なAI音声合成ソフトウェア『VOICEVOX』がオープンソースとして無料でリリース|DTMステーション

                本日8月1日、音声合成技術の世界に、また画期的な動きがありました。「Seiren Voice」や「Yukarinライブラリ」の開発者としても知られるヒロシバ(@hiho_karuta)さんが、ITAコーパスを利用した商用利用も可能なAI音声合成システム、VOICEVOXなるソフトウェアをオープンソースのとして無料でリリースしたのです。具体的には現時点Windowsで動くシステムで、「ずんだもん」および「四国めたん」の声でテキストを読み上げるシステムとなっています。 これがオープンソースとなったことで、一般ユーザーが自由に利用できるというだけでなく、さまざまなシステムに組み込んで喋らせることが可能になったのが画期的なところ。たとえばロボットなどに組み込んで対話型のシステムを作ることや、観光案内システムに導入して喋らせる……といったこともできるほか、クラウド型のシステムを構築し、ブラウザを経由

                  商用でも利用可能なAI音声合成ソフトウェア『VOICEVOX』がオープンソースとして無料でリリース|DTMステーション
                • エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ

                  (『IT Text 自然語処理の基礎』より) 3ヶ月ほど前に空前のLLMブームについて概観する記事を書きましたが、それ以降も世間のLLMに対する狂騒ぶりは収まるどころかますます拍車がかかるという有様で、あまつさえ僕自身の仕事における日常業務にもじわじわと影響が及びつつあり、今後も良きにつけ悪しきにつけLLMと共生し続ける必要がありそうだと感じている今日この頃です。 そんな猫も杓子もLLMに群がるが如き空前のブームを受けて、エンジニアやデータ分析職の方々の中には「LLMに興味はあるんだけど世の中にあまりにも多くのLLM関連コンテンツが溢れ返っていて何から手をつけたら良いのか分からない」という向きもあるように見受けられます。そこで、僕も断じてLLM以下生成AIの専門家などではないのですが、個人的に「このテキストを読めばLLM時代を生き抜くことが出来そうだ」と感じた書籍を、全くの独断と偏見で3冊

                    エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ
                  • 単語はわかるのに英文がわからない人のための頻出英熟語 650選【PHRASE List & PHaVE List】|相川真司(かわんじ) #DiQt

                    【要約】 英語力の向上のためには、英熟語を覚えることは重要です。 しかし、英熟語には、単語から意味を推測しにくいものも多く、覚えるのが難しいという課題がありました。 このnoteでは、その課題を解決する『頻出英熟語リスト』を紹介し、その英熟語データを無料で配布いたします。 昨年、『この英単語を覚えるだけで、英文の9割は読めるようになる話』というnoteを書きました。 ありがたいことに、このnoteは多くの方々にご評価いただき、なんと『2020年はてなブックマーク年間ランキング』で第6位にノミネートいただきました。 うれしい!!!! このnoteをきっかけに、DiQtは多くの方々に使っていただけるようになりました。 とりわけ嬉しかったのが、短期的な利用ではなく、現在に至るまでずっと継続してDiQtを使っていただけるユーザーに多く出会えたこと。 そしてユーザーインタビューから、DiQtが実際に

                      単語はわかるのに英文がわからない人のための頻出英熟語 650選【PHRASE List & PHaVE List】|相川真司(かわんじ) #DiQt
                    • AIはどのような仕事ができるようになったのか?ChatGPTで変わる「優秀な人材」

                      この図はざっくりと3つの領域に分かれます。まず左下が従来のプログラミングの領域です。これは簡単に言うと「プログラムは間違ってはいけない定形な仕事を奪う」ということです。次にその上の士業が責任を取る領域です。これは「責任」を取る人がいないと成立しない仕事です。ミスが発生した際に罰則を与えるという形で、ミスの発生を防いでいます。最後に右側のホワイトカラーの仕事の領域です。ホワイトカラーの仕事は入出力が不定形であり、作業フローも非定型であったりします。そのため、多少のミスはあっても仕方ないという前提の上で仕事が行われています。 機械学習がビジネスに組み込まれるにつれ、ホワイトカラーの仕事領域はそれらによって少しずつ代替されつつあります。その図がこちらになります。 ホワイトカラーの担っていた領域は、表データの機械学習(重回帰や、Lasso回帰、SVM、RandomForest、LightGBMなど

                        AIはどのような仕事ができるようになったのか?ChatGPTで変わる「優秀な人材」
                      • 30分で完全理解するTransformerの世界

                        はじめに 初めまして。ZENKIGENデータサイエンスチームのはまなすです。正式な所属はDeNAデータ本部AI技術開発部なのですが[1]、業務委託という形で今年度から深層学習系の開発等に携わっています。 深層学習界隈では、2017年に衝撃的なタイトル(Attention Is All You Need)の論文が発表されてから早5年半、元出自の機械翻訳タスクを大きく越えて、Transformer関連の技術が様々な領域で用いられる汎用アーキテクチャとして目覚ましく発展し続けています。 今回はそんなTransformerが現時点までにどのように活用されてきたか、また、どのように工夫されてきたかをざっくりと俯瞰し、流れをおさらいする目的の記事になります。本記事の大枠は、2021年時点でのサーベイ論文である A Survey of Transformers に倣いつつ、適宜、2023年2月上旬現在ま

                          30分で完全理解するTransformerの世界
                        • ポケモンの「ゴース」が「ゴースト」に進化し「ゲンガー」に進化することなどを言語学的に考察した論文が興味深くて最高すぎる

                          齊藤 輝(まんちゅう)💪✨英検1級再挑戦(6月2日) @manchuu11355 amazon.co.jp ちなみに川原先生の著作で個人的に一番好きなのはひつじ書房から出てる『「あ」は「い」より大きい』です。これを読むと音象徴のことが頭から離れなくなるのでオススメです。 2021-11-24 19:25:02 リンク Wikipedia 川原繁人 川原 繁人(かわはら しげと、1980年 - )は、日本の言語学者、認知科学者、音声学者、理論音韻論者、実験音韻論者。 専門は主にインターフェイス論(特に、音韻論と音声学、形態論や統語論とのインターフェイス)や音象徴、実験言語学一般。実験やコーパス分析に基づいた言語理論の研究を多く行っている。ジョージア大学、ラトガーズ大学助教授(Assistant professor)を経て、現在慶應義塾大学言語文化研究所准教授。 東京都世田谷区出身。和光幼稚

                            ポケモンの「ゴース」が「ゴースト」に進化し「ゲンガー」に進化することなどを言語学的に考察した論文が興味深くて最高すぎる
                          • AIの力で自分の声を好きな声にリアルタイム変換できるボイスチェンジャー「MMVC」が登場

                            自分の声を美少女ボイスやイケメンボイスに変換してくれるボイスチェンジャーは、ライブ配信やムービー投稿の際にありがたい存在です。しかし、ボイスチェンジャーによって変換できる音声は固定されており、自分好みの音声に変換できるボイスチェンジャーを見つけるのは困難です。天王洲アイル氏は、この問題をAIを用いて解決する方法について解説し、さらにAIの力で自分の声を好みの声にリアルタイム変換できるボイスチェンジャー「MMVC」を公開しています。 VRChatなどの登場によって誰でも好きなアバターを使って好きなキャラクターになりきることが可能となりました。また、自分の声を美少女ボイスやイケメンボイスに変換できるボイスチェンジャーも多くの種類が存在しています。しかし、既存のボイスチェンジャーには「理想的な結果を得るためにはボイスチェンジャーに合わせた発声練習が必要」「リアルタイム変換が不可能なため、会話やラ

                              AIの力で自分の声を好きな声にリアルタイム変換できるボイスチェンジャー「MMVC」が登場
                            • pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama

                              これは二段構えの構成を持っています。この二段構えを正確に検出し、テキストを理解することが望ましいです。 Unstructuredを使うPythonのライブラリであるUnstructuredを試してみましょう。 参考記事 導入は非常に簡単です。 pip install 'unstructured[pdf]' 実装も簡単です。 解析コード: from unstructured.partition.pdf import partition_pdf pdf_elements = partition_pdf("pdf/7_71_5.pdf") 表示コード: for structure in pdf_elements: print(structure) 結果: 残念ながら、2段組のカラムを正確に検出することはできませんでした。 Grobidを使うGrobidは、peS2oというオープンアクセス論文のコ

                                pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama
                              • 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開

                                株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日 株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。 プロジェクトwebサイト:https://

                                  超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
                                • 「焼き立てパン買ってきたよ」「逮捕」~ブリテン島から自由が消えた日 戦時下のイギリス①第一次世界大戦編~|枢密院勅令

                                  「緊急事態」と聞くと、何を思い描きますか? 2020年コロナ禍以前なら、自然災害を思い描いた人が多かったのでは無いだろうか。皆様もご存知の通り伊邪那岐命と伊邪那美命が不動産屋に騙されて以来、我が日本はスナック感覚で自然災害に見舞われる立地にあり、我が国の緊急事態法制も概ね自然災害を想定したものが多い。自然災害の発生には「人間の悪意」は介在しない。阪神淡路大震災にしても、東日本大震災にしても、誰かが願って起きたわけではない。大自然は平等であり、一連の経済制裁に激怒した習近平国家主席がトランプ大統領のズラを吹き飛ばすようなハリケーンの発生を願ったところで聞き入れてはくれない。 人間の悪意が介在する緊急事態は大変厄介な存在である。何故なら人間は自然とは異なり、知性があり、何処を攻撃すれば相手に致命的なダメージを与える事ができるかを理解しているからである。特に「戦争」という緊急事態では人間の悪意は

                                    「焼き立てパン買ってきたよ」「逮捕」~ブリテン島から自由が消えた日 戦時下のイギリス①第一次世界大戦編~|枢密院勅令
                                  • 大学以外で言語学を勉強する方法|長屋尚典

                                    「大学には所属していないけれど言語学を勉強してみたい。どうしたらいいの?」という質問をよくいただきます。 たしかに本屋さんや図書館には「言語学入門」と銘打った本がたくさんありますが、なかなか独学するのは難しいですよね。 かといって、大学あるいは大学院に入学するというのも大変ですし、そもそも大学院に行くために言語学を勉強してみたいという方もいらっしゃるかもしれません。 そこで、今回は大学以外で言語学を勉強する方法を考えてみたいと思います。 いくつか方法があります。 大学以外で言語学を勉強する動機意外に思われるかもしれませんが、「大学には所属していないけれど言語学を勉強してみたい! どうしたらいいの?」という質問、さまざまな場所でよくいただきます。 たとえば、一般向け講演会などで質問なさる方がいます。「自分は社会人で大学には通えないが言語に興味がある。言語学を勉強してみたい」とよくおっしゃって

                                      大学以外で言語学を勉強する方法|長屋尚典
                                    • 2019年末版 形態素解析器の比較 - Qiita

                                      形態素解析は日本語処理の初歩であり、文を単語に分割したり、品詞や活用形、基本形を分析するために行います。本記事では形態素解析のツールをいくつかの出力例を交えて比較していきます。 (SentencePieceでいいじゃん、という人はお呼びでないですが、そういう方には、Twitterのトレンドが変な分割になってたら嫌では?と申し上げておきたいです) MeCab 言わずと知れた形態素解析器。とりあえずMeCabを使うという人は今なお多いことでしょう。とにかく高速であるということと、システムと辞書が分離されているのが特徴です。またPythonから使うのも簡単になりました(Janomeというものがありましたがmecab-python3の方が高速です)。Javaから使いたい人はKuromojiを使えばmecab(+ipadic)相当の結果が得られるはずです。 辞書はIPA辞書が推奨されていますが、Un

                                        2019年末版 形態素解析器の比較 - Qiita
                                      • LLM chatbotが人類にもたらすのは、絶望なのか希望なのか - 渋谷駅前で働くデータサイエンティストのブログ

                                        ちょっと前に以下のようなことを放言したら、思いの外反響が多くてちょっとびっくりしたのでした。それだけ、現代のLLM chatbot / generative AIの台頭に期待と不安を抱いている人が多いということの裏返しなのでしょう。 既に色々コメントが出ているけど、我々人類が「知的労働」だと思っていることの大半が実は「過去実績をなぞって適当にその場に合わせて組み立てているだけ」なんじゃないかと訝っているので、そういう「自称知的労働」は多分LLMで代替されると思う。新奇なものを生み出す仕事は相変わらず残る https://t.co/GGK41vSDcn— TJO (@TJO_datasci) 2023年3月15日 昨年の年末振り返り記事でも話題にしたChatGPT(そして後続の各種LLM chatbot)ですが、今年に入ってからの話題の広がり方には想像を超えるものがあり、ついに朝の情報番組な

                                          LLM chatbotが人類にもたらすのは、絶望なのか希望なのか - 渋谷駅前で働くデータサイエンティストのブログ
                                        • AIで“ASMR”が作れる時代に ささやき声も出せる音声合成「九州そら」無料公開

                                          音声合成ソフトの開発や販売を手掛けるSSS(仙台市)は3月16日、音声合成ソフト「VOICEVOX」用音源「九州そら」をリリースした。九州そらは、せりふを入力するだけで人間らしい“ささやき声”を出力できるAIだ。 VOICEVOXは、ドワンゴでAIの研究に携わっているヒホ(ヒロシバ)さん(@hiho_karuta)さんが開発した無料の音声合成ソフト。AI技術を活用して、人間らしい話し声を合成できる。イントネーションや話す速さなどの調整も可能。立体音声を制作できるソフトを活用すれば「ASMR動画」の制作にも使える。 九州そらはVOICEVOX用音源として初めてささやき声の合成に対応した。ソフトのダウンロードと利用は無料。「VOICEVOX:九州そら」とクレジットを記入すれば商用利用も無償でできる。 関連記事 「VOICEPEAK」と「CeVIO Pro」、 新しい音声・歌声合成製品はどこがす

                                            AIで“ASMR”が作れる時代に ささやき声も出せる音声合成「九州そら」無料公開
                                          • 実用的でないPythonプログラミング - 共立出版

                                            本書ではPythonを使い、火星や木星や銀河の最果てを、詩人の魂を、高度な金融の世界を、選挙の不正を、ゲーム・ショーのトリックを、探っていく。マルコフ連鎖解析のような技術を使って俳句を詠み、モンテカルロ・シミュレーションで金融市場をモデル化し、イメージ・スタッキングで天体写真を改善し、遺伝的アルゴリズムで巨大なネズミを育てる。それとともにpygame、Pylint、pydocstyle、tkinter、python-docx、matplotlib、pillowといったモジュールの経験を楽しく積むことができる。 この本は2冊目のPythonの本とみなすことができる。完全な初心者向けの本や入門クラスの後に続く本、あるいは補完する本となることを狙っている。「impractical」(実用的でない)というタイトルに反して、本書の内容はかなり実用的で、文字列やコレクションの操作といった基本的なことか

                                              実用的でないPythonプログラミング - 共立出版
                                            • 「すてき」は死語か?: 極東ブログ

                                              「すてき」という言葉を聞かなくなって久しい。自分も使わない。ためしに、「まあ、すてき」と口に出してみると、なんともいえない、もにょ〜んとした感じがする。これは、もう死語なんじゃないか。なぜ死んだのか。と考え、まあ、完全に死んだわけでもなく、この微妙な「もにょ〜ん」感に生きているのかもしれないが、それはたぶん、受け手の感覚で、そうした感覚なく自然に使っている人もいるだろう。 ニュースとかではどう使われているのかと、検索すると、おや? 日経新聞(2020/4/19 15:16)より。 金氏から「すてきな手紙」 米大統領、関係良好と強調 【ワシントン=共同】トランプ米大統領は18日の記者会見で、北朝鮮の金正恩朝鮮労働党委員長から「最近すてきな手紙を受け取った」と語り、良好な関係を維持していると強調した。内容や詳しい時期は明らかにしなかった。 この検索過程で聯合ニュース(2020.04.19 22

                                              • 超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた

                                                東京に拠点を置くテクノロジー企業「レアゾン・ホールディングス」が、1万9000時間に及ぶ国内最大級の日本語音声コーパス「ReazonSpeech」を無償公開しました。同時に、OpenAIが開発した超高性能音声認識AI「Whisper」に匹敵する性能をアピールする文字起こしサービスも公開されていたので、実際に使ってみました。 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開 - Reazon Human Interaction Lab https://research.reazon.jp/news/reazonspeech.html ReazonSpeech - Reazon Human Interaction Lab https://research.reazon.jp/projects/ReazonSpeech/ レアゾン・ホールディングスは「R

                                                  超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた
                                                • 36億パラメータの日本語言語モデルを公開しました

                                                  LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは。 LINEのNLP Foundation Devチームの清野舜と高瀬翔とoverlastです。 LINEでは2020年11月から日本語に特化した大規模言語モデル「HyperCLOVA」の構築と応用に関わる研究開発に取り組んできましたが、この「HyperCLOVA」と並行するかたちで複数の大規模言語モデルの研究開発プロジェクトが進行しています。 今回はそれらの研究開発プロジェクトのうち、我々を含むMassive LM開発ユニットから、日本語言語モデル「japanese-large-lm(ジャパニーズ ラージ エルエム)」をOSSとして公開できる状況になりましたので、本ブログを通じてお伝えすることにしました。 この記事

                                                    36億パラメータの日本語言語モデルを公開しました
                                                  • もし明日、上司に「GPT-4を作れ」と言われたら? Stability AIのシニアリサーチサイエンティストが紹介する「LLM構築タイムアタック」

                                                    オープンLLMの開発をリードする現場の視点から、開発の実情や直面する課題について発表したのは、Stability AI Japan株式会社の秋葉拓哉氏。Weights & Biasesのユーザーカンファレンス「W&Bカンファレンス」で、LLM開発のポイントを紹介しました。全2記事。前半は、LLM構築タイムアタック。 「GPT-4を作ってください」と言われたらどう答える? 秋葉拓哉氏:みなさん、こんにちは。秋葉と申します。それでは、発表させていただきたいと思います。 みなさん、さっそくですが、「GPT-4」ってすごいですよね。ここにいらっしゃっている方々はこれについては、もう疑いの余地なく、同意してくださるかなと思います。 では、質問なんですが、もし「GPT-4を作ってください。予算はあるんだよ」と上司に言われたら、どう答えますか? ということをちょっと聞いてみたいですね。 これはけっこう意

                                                      もし明日、上司に「GPT-4を作れ」と言われたら? Stability AIのシニアリサーチサイエンティストが紹介する「LLM構築タイムアタック」
                                                    • 話題爆発中のAI「ChatGPT」の仕組みにせまる! - Qiita

                                                      オミータです。ツイッターで人工知能のことや他媒体の記事など を紹介しています。 @omiita_atiimoもご覧ください! 話題爆発中のAI「ChatGPT」の仕組みにせまる! 注意:ChatGPTはまだ論文が出ていないため、細かい箇所は不明です。本記事では公式から出た記事およびInstructGPTの論文をもとにChatGPTの仕組みを探っていきます 本記事の流れ: 忙しい方へ ChatGPTとは GPT-3 InstructGPT ChatGPT まとめと所感 参考 0. 忙しい方へ ChatGPTは、InstructGPTをベースとしたモデルだよ InstructGPTは、「人間の好みに合った文を出力するように微調整したGPT-3」だよ InstructGPTの学習では、以下の3つが重要だよ GPT-3の教師ありファインチューニング Reward Modelの学習 RLHF(=Re

                                                        話題爆発中のAI「ChatGPT」の仕組みにせまる! - Qiita
                                                      • 「ひとりごちる」という現代語はあるのか、ツイッターでの論議に日本語学者・飯間先生のご意見

                                                        くろの @kurononbiri 継続調査 ・ひとりごつは現代においてあまり使用されない語であることは確かだが継続して使われてきた語 ・「ひとりごちた」はひとりごつの連用形+過去の助動詞、「ひとりごちる」は辞書には載っていない。造語というよりは誤用か(誤用と載せている辞書もあった) twitter.com/kurononbiri/st… 2021-03-13 16:41:51 くろの @kurononbiri 現代日本語書き言葉均衡コーパス少納言で検索すると「ひとりごちる」用例は赤川次郎など8例、連用形「ひとりごち-」は27例、終止形「ひとりごつ」は1例。連用形での使用が一般的であるため、ひとりごちるが一般化しつつあるということかな。ただ、辞書に登録されるほどの用例がないということか。 2021-03-13 16:53:53

                                                          「ひとりごちる」という現代語はあるのか、ツイッターでの論議に日本語学者・飯間先生のご意見
                                                        • 225行のコードでGPTの仕組みを理解する

                                                          概要 LLMに関心があり、ChatGPTやtransformerの仕組みを理解したいと思っていたところ、雰囲気を掴むのにこちらの動画がとても参考になりました。 動画の内容としては、以下のコーパスを学習して、直前の数文字から次の1文字(単語ではないことに注意)予測機を作成するというものです。 この動画で完成するコードは以下で、225行しかなくとても読みやすいです。 また短いですがtransformerのエッセンスが詰まっていて勉強になりそうです。 このコードを読み解くことでGPTやtransformerがどのように動いているのか、ざっくり理解してみようと思います。 ちなみに完成するとこんな感じの文字列が生成されます。ぱっと見文章っぽいですね。 first Scitizen: He's enough; but he cannot give his friends. MARCIUS: Do yo

                                                            225行のコードでGPTの仕組みを理解する
                                                          • GPT-4レベルの衝撃 PC内で使えるオープンLLM「Command R+」

                                                            カナダのAIスタートアップCohereは4月4日(現地時間)、ビジネス向けに最適化された最新の大規模言語モデル(LLM)「Command R+」を発表した。 高度なRAG技術を採用 Cohereは、AI業界に変革をもたらしたTransformerモデルを提唱した論文「Attention is All You Need」の共同執筆者として知られるトロント大学の研究者Aidan Gomez氏らによって2019年に設立されたカナダのAIスタートアップ。 OpenAIと同様、LLMの開発に特化しており、企業向けにチャットボット、検索エンジンの最適化、要約サービス、自社AIモデルのAPIなどを提供している。 Command R+は、同社が3月に発表した「Command R」の後継となるモデルであり、Cohereが得意とする高い効率性と精度のバランスを重視したRシリーズの一部となる。 128K(12万

                                                              GPT-4レベルの衝撃 PC内で使えるオープンLLM「Command R+」
                                                            • グーグルが普及する前、みんな何使ってた?

                                                              グーグルが普及する前、みんな何使ってた?2020.08.01 11:0026,182 Daniel Kolitz - Gizmodo US [原文] ( Rina Fukazu ) 今でこそ、たいていのことは「ググればわかる」時代だけど...。 1997年、最近お気に入りの映画『オースティン・パワーズ』のことを友達にアツ〜く語るあなた。すると友達は「ランディ・クエイドが最高だった」と一言。あなたの頭のなかでは「あれ? 」と戸惑いつつ、話を聞いていたら友達がクリント・ハワードのことを言っていることに気づく。友達にそう伝えてみるも、お互い納得しあえず...。一日モヤモヤしつつ、家に帰ってパソコンを立ち上げてから40分ほど経過...「やっぱり、ランディ・クエイドは出演してないよ!」 2020年、Google(グーグル)が広く使われる前の時代、人々はどのようにして日常の疑問を解決したり、情報収集し

                                                                グーグルが普及する前、みんな何使ってた?
                                                              • AWS、PythonでMeCabを使う際の語彙データを無料公開 | Ledge.ai

                                                                アマゾン ウェブ サービス ジャパン株式会社(Amazon Web Services、AWS)は、同社のオープンデータセットに、日本語自然言語処理で定番の形態素解析器である「MeCab」を、ラッパーライブラリであるfugashi経由でPythonで使用する際の語彙(ごい)データに加えた、と公式ブログで明らかにした。 多くの機械学習デベロッパーが、AWS上でさまざまなアルゴリズムの開発やモデルを構築している。なかでも、自然言語処理をする際には、対象言語の特性に即した形で前処理をする必要がある。日本語の自然言語処理を実施する際には、一般的に「形態素解析」と呼ばれる文章の分解処理を前位処理として実施する。 日本語形態素解析をするためには、日本語の語彙データが必要になる。語彙データは大きなサイズになるだけではなく、これらを用いた計算の際にも大量のGPUおよびCPUが求められる。そのため、従来このよ

                                                                  AWS、PythonでMeCabを使う際の語彙データを無料公開 | Ledge.ai
                                                                • 最近またLinux用の日本語IMEを作っている - tokuhirom's blog

                                                                  最近またLinux用の日本語IMEを作っている 本件は mozc の ut がどうこうとかは関係なくて、ふと linux desktop を使おうと昨年末に思いまして、昨年末からちまちまやってます https://github.com/tokuhirom/akaza かな漢字変換って作るの難しいのかなぁ、と思ったので作ってみている。これはまさに Just for Fun でやっている。 わりと普通に自分で常用してる分には困らないかな、というところまできている。 以下は、思ってることの垂れ流しという感じで、まとまってないですが。 「日本語入力を支える技術」という本が 2018年に出ていて、この本の内容を読めば、だいたいエンジン部分は実装できる。Amazon のレビューではこの本よんでも実装できないって書いてあるけど、変換エンジン自体は実装できます。 UI が辛い。けど。 エンジンは、ビタビア

                                                                  • ChatGPTを探す旅に出させていただきます | DevelopersIO

                                                                    文書の数が多い場合、単語の種類(ボキャブラリ)も多くなり単語の次元が大幅に増えていきます。 一方、一つの文書に含まれる単語の数には限りがあるため、これは全体として疎行列になります。 また、単語が各次元として扱われますが、文書ごとの出現順序など、単語間での関連性を示す情報は抜け落ちたものとなります。 それに対して低次元(通常数百次元程度)の密な行列で単語の意味を定義する方法があります。 これは、「分散表現」や「埋め込み表現」と言われるものになっております。 この表現を獲得するため手法は様々なものがありますが、ここではWord2Vecを紹介します。 元論文 : Efficient Estimation of Word Representations in Vector Space 具体的な実装についての解説 : word2vec Parameter Learning Explained Wor

                                                                      ChatGPTを探す旅に出させていただきます | DevelopersIO
                                                                    • 東工大など、日本語に強い大規模言語モデル「Swallow」を無償で公開

                                                                      東京工業大学(東工大)と産業技術総合研究所(産総研)の両者は12月19日、現在公開されている中で、日本語に強い生成AIの基盤である「大規模言語モデル」(LLM)としては最大規模となる「Swallow」を、米・MetaのLLM「Llama 2」の日本語能力を拡張することで構築し、Webサイト「TokyoTech-LLM」にて一般公開したこと、またオープンで商用利用も可能なことを共同で発表した。 同成果は、東工大 情報理工学院 情報工学系の岡崎直観教授、同・横田理央教授、産総研の共同研究チームによるもの。今回、東工大は主にデータの語彙拡張によるモデル学習・推論効率の改善に取り組み、産総研はモデル構築に必須である大規模計算資源としてAI橋渡しクラウド(ABCI)を提供すると同時に、主に継続学習によるモデルの日本語能力の改善を担当したとしている。 産総研のAI橋渡しクラウド「ABCI」(出所:東工

                                                                        東工大など、日本語に強い大規模言語モデル「Swallow」を無償で公開
                                                                      • 無料&音声をリアルタイムで変換できるAIボイスチェンジャー「Koemake RVC Player」レビュー

                                                                        オープンソースのAIボイスチェンジャー「Retrieval-based Voice Changer(RVC)」は、あらかじめ用意した音声から学習したモデルを作成し、リアルタイムで声質を変換することが可能です。このRVCで作成した音声変換モデルを手軽に実行できるボイスチェンジャーソフト「Koemake RVC player」を電々メイさんが無償でリリースしたので、実際に使ってみました。 Koemake Project https://koemake.com/ Koemake RVC Playerを動かすための推奨スペックは「VRAM4GB以上、NVIDIA製GPU搭載、Windows 10以上」となっているので注意が必要です。 Koemake RVC Playerをダウンロードするには、上記の配布サイトでユーザー登録をする必要があります。配布サイトにアクセスしたら、右上の「ログイン」をクリッ

                                                                          無料&音声をリアルタイムで変換できるAIボイスチェンジャー「Koemake RVC Player」レビュー
                                                                        • 歴代チャットボットと最近のLLMのまとめ - Qiita

                                                                          LLMs The History of Chatbots ELIZA (1966) 初期の人工知能プログラムのひとつ。 ルールベースの簡単なパターンマッチングで返答していた。 心理療法士の会話を模したELIZA(DOCTOR)が有名。 PARRY (1972) PARRYは偏執病的統合失調症患者をシミュレートしようとしたもの。 ELIZA(DOCTOR)と通信し話題となった。 Jabberwacky (1982, 1988, 1997) ユーモラスな人間同士の自然な会話をシミュレートすることを目的としていた。 ユーザーとの会話の大規模なデータベースを構築し、言語と文脈を学習することができた。 プロジェクト自体は1982年から開始されていたが、当初は学習機能は有していなかった。 ローブナー賞を2005年(George)、2006年(Joan)に受賞している。 ローブナー賞(Loebner P

                                                                            歴代チャットボットと最近のLLMのまとめ - Qiita
                                                                          • Wikipedia"「白い象」はなぜ厄介か?" - 🍉しいたげられたしいたけ

                                                                            わざわざ自ブログにエントリーを立てるまでもなく、ウィキペディアの項目へのリンクを貼れば済むことではあったのだが… タイの王は昔、自分の嫌いな家臣に白い象を贈った。贈られたほうは、白い象など珍しいもので、しかも王から贈られたものだからまさか捨ててしまうわけにもいかない。すなわち、森の中に逃がしたり、あるいは殺したりは絶対にできない。ところが象だから大食らいであるため莫大な金がかかり、しかも物を踏みつぶすので、家の中が目茶苦茶になるが、それでも捨てることもできず、その家臣はほとほと困ってしまう…というものである[2]。 "「白い象」はなぜ厄介か? - Wikipedia" より [2] というのは脚注で、クリックすると ”語学春秋社「早わかり 英熟語」110頁 初版1996年 宮崎尊” と表示される。学習参考書のようだ。 思えば私も英語の "white elephant" という熟語は、受験勉

                                                                              Wikipedia"「白い象」はなぜ厄介か?" - 🍉しいたげられたしいたけ
                                                                            • 月ノ美兎さんの音声合成ツール(Text To Speech) を作ってみた - Qiita

                                                                              何をした? Youtube上に公開されている動画の音声から、ディープラーニング技術を用いた音声合成ツールを構築しました。 今回対象にしたのは、バーチャルユーチューバー・にじさんじの委員長こと 月ノ美兎 さん(Youtubeチャンネル) です。 ※選出理由は、単純に私がYoutube上で一番推している方だからです。 成果 動画から抽出した音声と、音声を文章に起こしたテキストの組み合わせのデータセット約50分ぶんを教師データとして学習した結果 ※学習に必要なデータ量は最低でも1時間程度と言われているので、まだまだ足りていません… 月ノ美兎さんの音声合成ツールを作ってみた https://t.co/YVdWW9vREb via @YouTube — K2 (@K2ML2) May 29, 2020 発話内容が不明瞭な箇所がありますが、一応ご本人の声に近い音声を作成することができているかと思います

                                                                                月ノ美兎さんの音声合成ツール(Text To Speech) を作ってみた - Qiita
                                                                              • textlint - Linterの作り方

                                                                                [fit] textlint - Linterの作り方 自己紹介 Name : azu Twitter : @azu_re Website: Web scratch, JSer.info Book: JavaScript Primer アジェンダ Linterを作る人向けの話 Linterの考え方とアーキテクチャを一致させる 使うものを作ろう、作るために使おう textlint とは 自然言語(日本語や英語など)に対するLinter MarkdownやHTMLなどのマークアップ言語に対応している ビルトインのルールは0 利用できるルールは100以上ある 多くのルールはオフラインで動くので、外部に入力してる内容を送信しない CI/CDに組み込める自然言語のチェッカー(表記揺れ、スペルチェック、誤用、読みやすさのチェックなど) textlint users Translation: Angul

                                                                                • ゼロから始める異体字の世界【レトロデザインのための近代日本語講座〈2〉】 - マチポンブログ

                                                                                  今回は「異体字」についてお話しします。すこし専門的な部分もあるので、適宜不要な部分は読み飛ばすことをお勧めします。 こんな問題から始めてみましょう。世田谷区の区章とその説明文は以下のように書かれています。 外輪の円は区内の平和、中心は「世」の文字が三方に広がり、人びとの協力と区の発展を意味しています。(世田谷区の紋章、シンボル | 世田谷区ホームページより) 「中心は『世』の文字」とありますが、そうは見えません。なぜこのような形なのでしょうか。 前回の記事 本記事は連載形式で、前回の補足のような内容になっています。前回の記事もご参照ください。 shokaki.hatenablog.jp クリックで目次の表示/非表示 前回の記事 異体字とは 異体字の認識 異体字の使われ方 どこまでが同じ漢字か 誤字か異体字か 異体字はどうできるのか よく使う字は略字化する 画数の多い字は正確でなくても読める

                                                                                    ゼロから始める異体字の世界【レトロデザインのための近代日本語講座〈2〉】 - マチポンブログ