並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 64件

新着順 人気順

コーパスの検索結果1 - 40 件 / 64件

コーパスに関するエントリは64件あります。 自然言語処理機械学習NLP などが関連タグです。 人気エントリには 『プログラミング必須英単語600+ | プログラミング英語検定』などがあります。
  • プログラミング必須英単語600+ | プログラミング英語検定

    概要 プログラミングをする際には、APIリファレンスやソースコードのコメントなどを英語で読むことが求められます。場合によっては英語で関数名を付けたり、ちょっとしたマニュアルを書いたりする機会もあります。ただしプログラミング時に求められる英単語は、一般的な英語で求められる英単語とは異なります。 本必須英単語リストでは、プログラミング時に求められ、特に目にすることが多い英単語を以下のカテゴリーに分けて選定しています(注1)。プログラミング英語の学習や知識確認にご活用ください。

      プログラミング必須英単語600+ | プログラミング英語検定
    • プロとアマの小説の特徴を数値化して比較してみたらやっぱり差があったので、それを埋めるための型付き小説記述用言語 TypeNovel を公開した件について - anti scroll

      ラノベのタイトルみたいな記事を書く、という夢が叶いました。 github.com 開発に至った動機 以前から、アマチュアの小説はプロに比べると、描写不足な傾向があるのかもしれない、と思っていました。 特に不足がちだと感じるのは「時間」に関する描写です。 季節がわからなかったり、昼か夜か、平日か休日かみたいなことが不明瞭な作品が多い気がします。 しかし印象だけで語ってもアレなので、実際に差があるのかどうかを計測してみました。 計算式は、 時間描写の文の数 * 時間描写分布のエントロピー / 文の数 です。 「時間描写分布のエントロピー」というのは「全体を通じて、どれだけ満遍なく時間表現が書かれているか」という数字だと思ってください。 例えば時間描写が冒頭部にしかなかったりすると数値が小さくなり、全編を通じて満遍なく描写されていると、数値が大きくなります。 あと時間描写というのは、一応「季節、

        プロとアマの小説の特徴を数値化して比較してみたらやっぱり差があったので、それを埋めるための型付き小説記述用言語 TypeNovel を公開した件について - anti scroll
      • 現代英語の9割をカバーする基本英単語 NGSL(New General Service List)を7クリックで覚えるための新しい表

        Author:くるぶし(読書猿) twitter:@kurubushi_rm カテゴリ別記事一覧 新しい本が出ました。 読書猿『独学大全』ダイヤモンド社 2020/9/29書籍版刊行、電子書籍10/21配信。 ISBN-13 : 978-4478108536 2021/06/02 11刷決定 累計200,000部(紙+電子) 2022/10/26 14刷決定 累計260,000部(紙+電子) 紀伊國屋じんぶん大賞2021 第3位 アンダー29.5人文書大賞2021 新刊部門 第1位 第2の著作です。 2017/11/20刊行、4刷まで来ました。 読書猿 (著) 『問題解決大全』 ISBN:978-4894517806 2017/12/18 電書出ました。 Kindle版・楽天Kobo版・iBooks版 韓国語版 『문제해결 대전』、繁体字版『線性VS環狀思考』も出ています。 こちらは10刷

          現代英語の9割をカバーする基本英単語 NGSL(New General Service List)を7クリックで覚えるための新しい表
        • 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開

          株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日 株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。 プロジェクトwebサイト:https://

            超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
          • LINE、NAVERと共同で、世界初、日本語に特化した超巨大言語モデルを開発 新規開発不要で、対話や翻訳などさまざまな日本語AIの生成を可能に | ニュース | LINE株式会社

            LINE、NAVERと共同で、世界初、日本語に特化した超巨大言語モデルを開発 新規開発不要で、対話や翻訳などさまざまな日本語AIの生成を可能に 従来の特化型言語モデルとは異なる、汎用型言語モデルを実現予定。 処理インフラには世界でも有数の、700ペタフロップス以上の高性能スーパーコンピュータを活用 LINE株式会社(所在地:東京都新宿区、代表取締役社長:出澤剛)はNAVERと共同で、世界でも初めての、日本語に特化した超巨大言語モデル開発と、その処理に必要なインフラ構築についての取り組みを発表いたします。 超巨大言語モデル(膨大なデータから生成された汎用言語モデル)は、AIによる、より自然な言語処理・言語表現を可能にするものです。日本語に特化した超巨大言語モデル開発は、世界でも初めての試みとなります。 従来の言語モデルは、各ユースケース(Q&A、対話、等)に対して、自然言語処理エンジニアが個

              LINE、NAVERと共同で、世界初、日本語に特化した超巨大言語モデルを開発 新規開発不要で、対話や翻訳などさまざまな日本語AIの生成を可能に | ニュース | LINE株式会社
            • PDFをコピペするとなぜ“文字化け”が起きてしまうのか 変換テーブル“ToUnicode CMap”が原因だった

              NTT Tech Conferenceは、NTTグループのエンジニアたちが一堂に会し、NTTグループ内外のエンジニアたちと技術交流を行うためのカンファレンスです。ここで、細田氏が「PDFのコピペが文字化けするのはなぜか?〜CID/GIDと原ノ味フォント〜」をテーマに話します。まずは文字化けが起こってしまう原因について。 原ノ味フォントの作成者 細田真道氏(以下、細田):細田です。ふだんはNTTグループのどこかでDXな仕事をしていますが、今日はぜんぜん仕事とは関係なく、個人的にやっているオープンソースなどの話をしたいと思います。よろしくお願いします。 簡単に自己紹介をします。楽譜を作成するプログラム「LilyPond」のコミッターと、GNUの公式文書フォーマット「Texinfo」のコミッターをしています。あとで話しますが、「原ノ味フォント」を作っていて、すごく似たような名前で「原ノ町」という

                PDFをコピペするとなぜ“文字化け”が起きてしまうのか 変換テーブル“ToUnicode CMap”が原因だった
              • Excelで誰でも簡単言語処理 (感情推定, 固有表現抽出, キーワード抽出, 文類似度推定 etc...) - Qiita

                Excelで誰でも簡単言語処理 (感情推定, 固有表現抽出, キーワード抽出, 文類似度推定 etc...)ExcelAPIVBA自然言語処理COTOHA 3行まとめ Excel関数一発で高度な言語処理を使えるようにしました 感情推定、固有表現抽出など日本語を分析・整理するのにいろいろ使えます Windows + Officeユーザならマクロファイルで誰でも簡単に使えます ※Macだと多分動かないと思います。VBAのHTTPリクエストを有効にできないため。。。 9/1追記: コメント頂きましたが、64bit版OfficeだとjsonParseが動かないようなのでアップデートしてみました。動作確認できていないので自己責任でお願いします https://github.com/korinzuz2/excelcotoha/blob/master/COTOHA公開用64bitExcel対応版.xls

                  Excelで誰でも簡単言語処理 (感情推定, 固有表現抽出, キーワード抽出, 文類似度推定 etc...) - Qiita
                • 「クソゲー・オブ・ザ・イヤー」を一変させた『四八(仮)』ショックとはなんだったのか? “テキストの量的分析”からクソゲーの定義とレビューの変容を見る

                  「クソゲー・オブ・ザ・イヤー」を一変させた『四八(仮)』ショックとはなんだったのか? “テキストの量的分析”からクソゲーの定義とレビューの変容を見る ビデオゲームの文化で「クソゲー」という極めて暴力的な単語が一般化してからどれくらいが経っただろうか。みうらじゅん氏が『いっき』に対して使ったなど起源には諸説あるが、ともかくその言葉は死滅せずに現代まで生きながらえてきた。 制作者が心血を注いで創りあげた一個のゲームという作品。それをたった一言で簡単に断罪できてしまうその言葉は、無残なほどにネガティブなパワーを持っており、ゲームメディアでは忌避すべきワードのひとつである。 しかし口をつぐんだところで、いままでプレイヤー間で何年にもわたり続いてきた「クソゲーを語る」という文化が、無かったものになるわけでもない。たった4文字でゲームを語ることができるこの魔法の言葉は、その時代や個々人の認識によって極

                    「クソゲー・オブ・ザ・イヤー」を一変させた『四八(仮)』ショックとはなんだったのか? “テキストの量的分析”からクソゲーの定義とレビューの変容を見る
                  • 高精度でテキスト分類を行えるAIの環境を用意しました【BERT】 - ニートの言葉

                    こんにちは、あんどう(@t_andou)です。 最近、自然言語処理のAIの一種であるBERTをよく触っています。 今回はBERTのソースを読まなくてもサクッと試せる環境を用意しましたので、メモとして残しておきます。 BERTとはどういうものか 画像引用:https://arxiv.org/pdf/1810.04805.pdf 凄くざっくりと説明すると、BERTとは2018年末にGoogleの人たちが開発した自然言語処理において汎用的に使えて精度の良いAIです。 自然言語処理において精度を測るためにいくつかのタスクがあるのですが、発表された時点ではダントツの成績でした。 仕組みなどの詳細については論文を読むか解説記事をググってください。 2019/09/22時点で既により精度の良い手法がどんどん発表されていますが、BERTの情報量と比べるとまだ少ないため、入門としてはBERTを触ってみるのが

                      高精度でテキスト分類を行えるAIの環境を用意しました【BERT】 - ニートの言葉
                    • AWS、PythonでMeCabを使う際の語彙データを無料公開 | Ledge.ai

                      アマゾン ウェブ サービス ジャパン株式会社(Amazon Web Services、AWS)は、同社のオープンデータセットに、日本語自然言語処理で定番の形態素解析器である「MeCab」を、ラッパーライブラリであるfugashi経由でPythonで使用する際の語彙(ごい)データに加えた、と公式ブログで明らかにした。 多くの機械学習デベロッパーが、AWS上でさまざまなアルゴリズムの開発やモデルを構築している。なかでも、自然言語処理をする際には、対象言語の特性に即した形で前処理をする必要がある。日本語の自然言語処理を実施する際には、一般的に「形態素解析」と呼ばれる文章の分解処理を前位処理として実施する。 日本語形態素解析をするためには、日本語の語彙データが必要になる。語彙データは大きなサイズになるだけではなく、これらを用いた計算の際にも大量のGPUおよびCPUが求められる。そのため、従来このよ

                        AWS、PythonでMeCabを使う際の語彙データを無料公開 | Ledge.ai
                      • Python による日本語自然言語処理 〜系列ラベリングによる実世界テキスト分析〜 / PyCon JP 2019

                        PyCon JP 2019 での発表スライドです。 GitHub: https://github.com/taishi-i/nagisa-tutorial-pycon2019

                          Python による日本語自然言語処理 〜系列ラベリングによる実世界テキスト分析〜 / PyCon JP 2019
                        • 自然言語系AIサービスと著作権侵害|知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】

                          第1 はじめに 自然言語処理技術の発展に伴い、自然言語AIを利用したサービスが大変盛り上がっています。 たとえば、検索、要約、翻訳、チャットボット、文章の自動生成、入力補完などのサービスで、近いところで有名なのは、2020年にOpenAIが発表した「GPT-3」ですかね。これは約45TBにおよぶ大規模なテキストデータを学習し、あたかも人間が書いたような文章を自動で生成することが可能な自然言語モデルです。 【参考リンク】 自然言語処理モデル「GPT-3」の紹介 進化が止まらない自然言語処理技術ですが、事業者が自然言語AIを利用したサービス(*ここでは、データの処理がクラウド上で自動的に行われるサービスを前提とします)を提供する際に検討しなければならないことは、大きく分けると、学習済みモデルの構築フェーズの問題と、モデルを利用したサービス提供フェーズに関する問題に分かれます。 このうち、モデル

                            自然言語系AIサービスと著作権侵害|知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】
                          • コワクナイWebクローリング&スクレイピング - 初心者とPython使いのための作法とノウハウ - Lean Baseball

                            名著です,まじでオススメ 個人的にすごく気に入っているかつオススメな「Pythonクローリング&スクレイピング」の増補改訂版が出てました. Pythonクローリング&スクレイピング[増補改訂版] -データ収集・解析のための実践開発ガイド 作者: 加藤耕太出版社/メーカー: 技術評論社発売日: 2019/08/10メディア: 単行本(ソフトカバー)この商品を含むブログを見る 早速読みましたが,初版からのアップデートに加え元々の構成の良さに感激しました.*1 本の内容そのものの解説は, 著者である加藤さんのエントリー @iktakahiroさんの感想エントリー をご覧いただくとして*2,このエントリーでは, Webクローリングとスクレイピングはコワクナイヨ! っていう話をルール・ノウハウという「お作法」の面でポエムしたいと思います. TL;DR インターネットおよび, リアル(現実世界)に迷惑

                              コワクナイWebクローリング&スクレイピング - 初心者とPython使いのための作法とノウハウ - Lean Baseball
                            • AIはハチ=米津玄師を見破れるか ? -J-popアーティストの歌詞を分析してみた- - Qiita

                              はじめに 一年前にこんな記事を書きました。未だにちょくちょくいいねを頂いているので、自然言語処理の練習を兼ねて久しぶりに遊んでみた系の記事を投稿しようと思います。 やったこと 歌詞データのクローリング Mecabによる分かち書き tf-idfによるベクトル化 ベクトル化した歌詞によるアーティストのクラスタリングとUMAPでの可視化 (おまけ) fastTextでハチ=米津玄師を見分けられるのか? 分析にはJupyter Labを用いました。 歌詞データ 今回用いる歌詞データについて説明します。 クローリングで取得 先立って歌詞データのクローリングをしました。とある人気アーティスト順に歌詞を取得できるサイトより、45人のJ-popアーティストにつき、最大50曲分の歌詞を取得しCSVに保存しました。 実際にクローリングに用いたコードを公開するのもどうかと思うので、ここでは割愛します。。。Bea

                                AIはハチ=米津玄師を見破れるか ? -J-popアーティストの歌詞を分析してみた- - Qiita
                              • 今年読んだNLP系論文で面白かった5つ - 株式会社ホクソエムのブログ

                                ホクソエムサポーターの白井です。学生時代は自然言語処理の研究をしていました。 「今年読んだ論文、面白かった5つ」というテーマで、自然言語処理(NLP)の論文を紹介します。 主にACL anthologyに公開されている論文から選んでいます。 はじめに 今年のNLP界隈の概観 1. Text Processing Like Humans Do: Visually Attacking and Shielding NLP Systems 面白いと思った点 2. Errudite: Scalable, Reproducible, and Testable Error Analysis 面白いと思った点 3. Language Models as Knowledge Bases? 面白いと思った点 余談 4. A Structural Probe for Finding Syntax in Word

                                  今年読んだNLP系論文で面白かった5つ - 株式会社ホクソエムのブログ
                                • AIのべりすと

                                  Write Stories, with the Largest Public Japanese AI ever! AIで小説を書こう! AI Novelist is the largest public Japanese storywriting AI, trained from scratch by more than 2TB corpus. You may start from one of the example prompts or start with your own text! Tips: You may want to enter at the least 5-6 lines worth of a seed text to make sure the AI understands the context/genre.

                                    AIのべりすと
                                  • コーパスとは? 使い方をわかりやすく解説 無料英語学習最ツール coca corpus・SKELLも紹介 - ポリグロットライフ | 言語まなび∞ラボ

                                    はじめに コーパスとは?今回は英語学習無料ツールであるコーパスの使い方をわかりやすく解説します。コーパスとは膨大の言語データベースで言語学の研究のために使用されています。まず始めに、コーパスの意味や活用方法、無料で利用できるcoca corpusを紹介します。英語学習への効果やコロケーションについても解説します。実際にSKELLというサービスを使って、頻出動詞のコロケーションも完全整理したので、ぜひチェックしてみてください。コーパスを活用すれば、頻出の動詞やコロケーションを知ることができます。英語話者が実際に使用している語句を網羅すれば、効率よく英語学習を進めることができます。 ↓↓こちらの動画でも解説してます www.youtube.com 英単語の覚え方はこちら↓↓ www.sunafuki.com 英語脳についてはこちらで解説↓↓ www.sunafuki.com 主な参考文献 「英

                                      コーパスとは? 使い方をわかりやすく解説 無料英語学習最ツール coca corpus・SKELLも紹介 - ポリグロットライフ | 言語まなび∞ラボ
                                    • Googleが自然言語処理の弱点「言い換え」を克服するデータセットを公開

                                      by Nicole Honeywill 自然言語処理のアルゴリズムは言葉の順序や構造の理解を不得意としてきました。この課題を克服すべく、Googleが新たにデータセットを公開。このデータセットで訓練を行うと、機械学習モデルのテキスト分類精度が50%から80%にまで向上するとのことです。 Google AI Blog: Releasing PAWS and PAWS-X: Two New Datasets to Improve Natural Language Understanding Models https://ai.googleblog.com/2019/10/releasing-paws-and-paws-x-two-new.html Googleは機械翻訳や音声認識で自然言語処理を取り入れていますが、自然言語処理では最先端のアルゴリズムでも「ニューヨークからフロリダへのフライト」

                                        Googleが自然言語処理の弱点「言い換え」を克服するデータセットを公開
                                      • SKELL

                                        v1.11.5

                                        • 無償入手可能な音声コーパス/音声データベースの一覧 - Qiita

                                          無償かつ入手しやすい音声データセットをメモしています。 ライセンス・利用規約は「商用利用可能」「研究用途のみ」ともに紹介します。 コーパスを探すときに有用なサイト コーパス配布元サイト 音声資源コンソーシアム : 日本語コーパスが豊富、無償または有償で利用可能 緩いライセンスのコーパスでなくても良いときはここ 自発的発話の日本語音声コーパスはだいたいここにある 入手は要申請 所属や責任者を記入する必要があるため、研究者や企業でないと厳しい? (この記事では音声資源コンソーシアムのコーパスは未掲載) Shinnosuke Takamichi: コーパス一覧 : 日本語中心。高道先生が携わっている音声コーパス 大量の日本語音声コーパスが配布されている 音声合成のコーパスをつくろう (Slideshare) : 2021年6月時点の音声コーパス事情 あなたにどうしても伝えたい30の音声コーパス

                                            無償入手可能な音声コーパス/音声データベースの一覧 - Qiita
                                          • NII、130億パラメータのLLM構築 コーパスなども全公開 「今後の研究に資するため」

                                            国立情報学研究所(NII)は10月20日、パラメータ数130億の大規模言語モデル(LLM)「LLM-jp-13B」を公開した。初期段階のモデルだが、アカデミアや産業界の研究開発に資するため、コーパスやツールなどを含めてすべてオープンにする。 公開したLLMの学習データ量は合計約3000億トークン。うち日本語は約1450億トークン(mC4/Wikipedia)、英語は約1450億トークン(The Pile/Wikipedia)、プログラムコード約100億トークン。 計算資源としては、大学や研究機関が共同運営する仮想化環境・データ活用社会創成プラットフォーム「mdx」を12ノード活用。モデル構築にはMicrosoftのDeepSpeedを、モデル構築時の監視やログの保存には、モデル開発プラットフォームのWeights&Biasesを利用した。 NIIが主宰するLLM勉強会(LLM-jp)で7月

                                              NII、130億パラメータのLLM構築 コーパスなども全公開 「今後の研究に資するため」
                                            • BERTで英検を解く - Qiita

                                              英検の大問1は、短文穴埋め問題になっています。例えば、こういう問題です。 My sister usually plays tennis (   ) Saturdays. 1. by  2. on  3. with  4. at Bob (   ) five friends to his party. 1. made  2. visited  3. invited  4. spoke 文の中の隠された部分に入るものを、選択肢の中から答える問題です。文法的な判断もあれば、文脈から意味の通りが良い単語を選ぶ問題もあります。5級から1級まですべての難易度で出題される形式です。 この問題形式は、BERT (Bidirectional Encoder Representations from Transformers)の学習アルゴリズム(のうちの1つ)とよく似ています。ということは、事前学習済みのBE

                                                BERTで英検を解く - Qiita
                                              • AI業界の不都合な真実 ラベル付け作業の底辺競争 フェアトレードは実現するか

                                                These companies claim to provide “fair-trade” data work. Do they? AI業界の不都合な真実 ラベル付け作業の底辺競争 フェアトレードは実現するか 人工知能(AI)サービスを支える大量の訓練用データの作成は、多くの場合、劣悪な条件で働く人々に頼っている。しかし、自らを「インパクト」企業と呼び、訓練用データ作成の作業に従事する労働者に対し、従来より好待遇の労働環境を提供していると主張する企業のグループが登場している。 by Kate Kaye2019.10.04 128 181 39 9 ニューヨーク独特の寒さが厳しいある2月の午後、レオン・キャンベルはマンハッタンのミッドタウンにあるオフィスのデスクに身を潜めた。ゲーム関連のポッドキャストを準備し、ノートパソコンのソフトウェア・プラットフォームを立ち上げると、キャンベルは数時間、

                                                  AI業界の不都合な真実 ラベル付け作業の底辺競争 フェアトレードは実現するか
                                                • ざっくり理解する分散表現, Attention, Self Attention, Transformer - Qiita

                                                  Transformerで用いられているのはSelf AttentionとMulti-Head Attentionです。 co-attentionの例 : 提示した写真に関する質問をするVisual Question Answering等。 Self Attentionを用いる事で、自分自身のどの部分に注目すればよいかわかります。 例えば、以下のようなQ&Aタスクがあるとします。 「私はトムの部屋に入りました。(略)。彼の部屋を出ました。この『彼』とは誰?」 この時、文中で彼〜トムの距離が遠ければどうなってしまうでしょうか。 CNNでは畳み込めないため、「彼=トム」の情報を手に入れられません。 RNNでは距離が遠すぎるため、「部屋の主=トム」の情報を忘れてしまう可能性があります。 Self Attentionならば、彼とトム間のAttention weightを大きくする事で「彼=トム」と理

                                                    ざっくり理解する分散表現, Attention, Self Attention, Transformer - Qiita
                                                  • Shinnosuke Takamichi (高道 慎之介) - jvs_corpus

                                                    This corpus consists of Japanese text (transcripts) and multi-speaker voice data. The specification is as follows. 100 professional speakers Each speaker utters: "parallel100" ... 100 reading-style utterances that are common among speakers "nonpara30" ... 30 reading-style utterances that are completely different among speakers "whisper10" ... 10 whispered utterances "falsetto10" ... 10 falsetto ut

                                                      Shinnosuke Takamichi (高道 慎之介) - jvs_corpus
                                                    • 言語処理100本ノック2020年版が公開!どこが変わったの? - Qiita

                                                      はじめに 自然言語処理の基礎を楽しく学べる問題集として長らく親しまれてた言語処理100本ノック、その2020年版が4/6に公開されました!これは5年振りの改訂です。 2015年版をやったけど興味ある人、15年版のQiita記事が役立たなくなって残念に思ってる人、15年版を途中までやってたけど20年版が出て心が折れそう、という人のために、どこが変わったのかをまとめていきます。もちろん非公式なので変更箇所の見逃し等はあるかもしれません。 改訂の概要 4/7現在、公式の更新履歴によると、次の3点が大きく変わったようです。 深層ニューラルネットワークに関する問題を追加 第8, 9, 10章が全て新規に作成された問題になっている 英語版の公開(39番まで) 40番以降も順次公開予定とのこと(著者Twitter) 旧第6章(英語テキストの処理)が英語版に移動 該当する英語版は未公開。作成中のようだ(G

                                                        言語処理100本ノック2020年版が公開!どこが変わったの? - Qiita
                                                      • 中俣尚己の日本語チャンネル

                                                        日本語学の研究者、中俣尚己によるチャンネルです。しばらくは、拙著『「中納言」を活用したコーパス日本語研究入門』をベースにしたコーパスの解説動画をアップする予定です。

                                                          中俣尚己の日本語チャンネル
                                                        • GitHub - Qithub-BOT/Qiita-SPAMS: ✅ 【Qiita記事墓場】Qiita のスパム記事をアーカイブしています。

                                                          A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?

                                                            GitHub - Qithub-BOT/Qiita-SPAMS: ✅ 【Qiita記事墓場】Qiita のスパム記事をアーカイブしています。
                                                          • テーブルデータ向けの自然言語特徴抽出術

                                                            例としてあげるデータは全て、atmaCup#10のものです。また、この記事の内容はこちらのノートブックで実験を行っています。 データの例。'title'、'description'など自然言語を含むカラムが存在する。 参考: 自然言語処理におけるEmbeddingの方法一覧とサンプルコード Bag of Wordsベースの手法 文書をトークンの集合として扱う手法です。トークンとしてはよく単語が選ばれますが、自分でtokenizerを設定して文章を単語以外のtokenの集合として扱うこともできます。また、日本語などの言語においてはトークン化が自明でないため、MeCabなどを用いてトークン化することがかなり多いです。 コラム MeCabを用いたトークン化

                                                              テーブルデータ向けの自然言語特徴抽出術
                                                            • Large Movie Review:IMDb映画レビューコメントの「肯定的/否定的」感情分析用データセット

                                                              Large Movie Review:IMDb映画レビューコメントの「肯定的/否定的」感情分析用データセット:AI・機械学習のデータセット辞典 データセット「Large Movie Review」について説明。IMDbサイト上での5万件の「テキスト(映画レビューコメント)」+「ラベル(ポジティブ/ネガティブの感情)」が無料でダウンロードでき、二値分類問題などのディープラーニングや機械学習に利用できる。元データの内容や、TensorFlow、Keras、PyTorchなどにおける利用コードも紹介。

                                                                Large Movie Review:IMDb映画レビューコメントの「肯定的/否定的」感情分析用データセット
                                                              • 現代日本語書き言葉均衡コーパス検索システム (BCCWJ):Version 1.1

                                                                • 大規模日本語ビジネスニュースコーパスを学習したELMo(MeCab利用)モデルの紹介 - Qiita

                                                                  はじめに 以前、日本語のBERT事前学習済モデルの紹介記事を投稿しましたストックマークの森長です。 前回の記事を多くの皆様に読んでいただき、大変ありがたく思っております。 そこで、今回はBERTに続いて、ELMoの日本語学習済モデルを公開いたします。 ELMoとは ELMoは双方向LSTMを用いて学習させた言語モデルです。 ELMoによって、文脈を考慮した単語分散表現(単語ベクトル)を獲得できます。 自然言語処理では、文脈を考慮した単語ベクトルを用いることで、語義の曖昧性解消が見込めます。 例えば、以下の「人気」という単語のように、文脈によって意味が異なる単語でも、ELMoでは文脈を考慮して文脈ごとの「人気」の単語ベクトルを獲得可能です。 あのキャラクターは人気がある。 この道路は、夜に人気がなくて、危ない。 ELMoの単語ベクトルの具体的な利用方法としては、ELMoで獲得した単語ベクトル

                                                                    大規模日本語ビジネスニュースコーパスを学習したELMo(MeCab利用)モデルの紹介 - Qiita
                                                                  • 日本語対話コーパス一覧

                                                                    日本語対話コーパス一覧 これは日本語を対象とした、対話システムの構築に利用できる言語資源のリストです。 本リストは、理化学研究所 吉野 幸一郎さん発案のもと、C4A研究所 中野 幹生さん、東北大学 赤間 怜奈さん、大阪大学 駒谷 和範さん、JAIST 吉川 禎洋さん、リクルート 林部 祐太さん、京都大学 児玉 貴志さん、愛知工業大学 徳久 良子さんにご協力をいただき、水上雅博が作成いたしました(所属はリスト作成または更新時のものです)。 もしこのリストに載っていないものや、リストのまちがいに気づかれた場合、新たにコーパスをリリースした際には是非、issueやメールで教えてください。 対話コーパス 主に人同士または人とシステム間(2名以上の場合を含む)で、対話(模擬対話等を含む)を行ったコーパスです。 名前 データ量 形式 研究利用 商用利用 概要

                                                                    • CC-100: Monolingual Datasets from Web Crawl Data

                                                                      This corpus is an attempt to recreate the dataset used for training XLM-R. This corpus comprises of monolingual data for 100+ languages and also includes data for romanized languages (indicated by *_rom). This was constructed using the urls and paragraph indices provided by the CC-Net repository by processing January-December 2018 Commoncrawl snapshots. Each file comprises of documents separated b

                                                                      • JParaCrawl

                                                                        License JParaCrawl and the trained models are distributed under the following license. For commercial use, please contact us. Terms of Use for Bilingual Data, Monolingual Data and Trained Models Nippon Telegraph and Telephone Corporation (Hereinafter referred to as "our company".) will provide bilingual data, monolingual data and trained models (Hereinafter referred to as "this data.") subject to

                                                                        • じゃらんnetに投稿された宿クチコミを用いた感情極性分析・含意関係認識の一例 - Megagon Labs | リクルート AI研究機関

                                                                          より良い顧客体験を生み出すには、カスタマーに好評を博したサービスや製品の特徴や要因を知る必要があります。Megagon Labs Tokyo は旅行情報サイト『じゃらんnet』上で公開されている宿泊施設へのクチコミと、それを基に加工・作成した文章にラベル付け(アノテーション)を行ったJapanese Realistic Textual Entailment Corpus (以下JRTEコーパス)を開発し、日本語自然言語処理における学術コミュニティ向けに公開しました。本記事ではJRTEコーパスと、利用例として簡単な機械学習を紹介します。 オンラインサービスにおけるクチコミは、サービスや製品の利用を検討しているユーザには不可欠な存在です。土地勘のない地域がどのような特徴をもっているか、初めて利用する施設のどのような点が他者から好評を博しているかといった知識があれば、私たちは納得して選べるように

                                                                            じゃらんnetに投稿された宿クチコミを用いた感情極性分析・含意関係認識の一例 - Megagon Labs | リクルート AI研究機関
                                                                          • Z会、英語スピーキングの採点をAIで自動化へ 公正な採点を低コストで実現する狙い

                                                                            Z会と、教育ITシステムなどを手掛けるEdulab(東京都渋谷区)は9月10日、AIを活用して英語のスピーキングテストを自動採点する技術の共同研究を始めたと発表した。 約8000人が受験するZ会の「英語CAN-DOテスト」で集まった数万点の音声データと評価データを活用。EdulabのAIを使った自動採点技術を組み合わせ、受験者が話した英語を自動採点する技術の研究開発を進める。 開発の背景には、学習指導要領の改訂や、大学入試センター試験が大学入学共通テストに変わる大学入試改革がある。グローバル化が進む中で、読み書きだけでなく「話す」「聞く」などの技能も教育で重要視するようになったが、話す技能の測定には人件費がかかるうえ、評価する人によって測定結果にばらつきが出るなどの懸念もある。 関連記事 英検の採点にAI ライティング・スピーキングも自動採点 英検のライティングとスピーキング試験に、AIに

                                                                              Z会、英語スピーキングの採点をAIで自動化へ 公正な採点を低コストで実現する狙い
                                                                            • GitHub - ku-nlp/KWDLC: Kyoto University Web Document Leads Corpus

                                                                              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.

                                                                                GitHub - ku-nlp/KWDLC: Kyoto University Web Document Leads Corpus
                                                                              • Automate Data Cleaning with Unsupervised Learning

                                                                                I like working with textual data. As for Computer Vision, in NLP nowadays there are a lot of ready accessible resources and opensource projects, which we can directly download or consume. Some of them are cool and permit us to speed up and bring to another level our…

                                                                                  Automate Data Cleaning with Unsupervised Learning
                                                                                • 数式抜きでWord2vecを話す

                                                                                  社内勉強用の資料です。 フォローお願いします。https://twitter.com/Ishitonton

                                                                                    数式抜きでWord2vecを話す

                                                                                  新着記事