コーパスの人気記事 64件 - はてなブックマーク

1 - 40 件 / 64件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

コーパスの検索結果1 - 40 件 / 64件

コーパスに関するエントリは64件あります。自然言語処理、機械学習、 NLP などが関連タグです。人気エントリには『プログラミング必須英単語600+ | プログラミング英語検定』などがあります。

プログラミング必須英単語600+ | プログラミング英語検定
- 1741 users
- progeigo.org
- 学び
- 2019/09/05
概要プログラミングをする際には、APIリファレンスやソースコードのコメントなどを英語で読むことが求められます。場合によっては英語で関数名を付けたり、ちょっとしたマニュアルを書いたりする機会もあります。ただしプログラミング時に求められる英単語は、一般的な英語で求められる英単語とは異なります。本必須英単語リストでは、プログラミング時に求められ、特に目にすることが多い英単語を以下のカテゴリーに分けて選定しています（注1）。プログラミング英語の学習や知識確認にご活用ください。
- 英語
- プログラミング
- あとで読む
- 学習
- 英単語
- english
- programming
- コード
- 知識
- api
プロとアマの小説の特徴を数値化して比較してみたらやっぱり差があったので、それを埋めるための型付き小説記述用言語 TypeNovel を公開した件について - anti scroll
- 949 users
- tategakibunko.hatenablog.com
- テクノロジー
- 2019/07/06
ラノベのタイトルみたいな記事を書く、という夢が叶いました。 github.com 開発に至った動機以前から、アマチュアの小説はプロに比べると、描写不足な傾向があるのかもしれない、と思っていました。特に不足がちだと感じるのは「時間」に関する描写です。季節がわからなかったり、昼か夜か、平日か休日かみたいなことが不明瞭な作品が多い気がします。しかし印象だけで語ってもアレなので、実際に差があるのかどうかを計測してみました。計算式は、時間描写の文の数 * 時間描写分布のエントロピー / 文の数です。「時間描写分布のエントロピー」というのは「全体を通じて、どれだけ満遍なく時間表現が書かれているか」という数字だと思ってください。例えば時間描写が冒頭部にしかなかったりすると数値が小さくなり、全編を通じて満遍なく描写されていると、数値が大きくなります。あと時間描写というのは、一応「季節、
- 小説
- あとで読む
- 言語
- 文章
- F#
- novel
- 書き物
- 文学
- 自然言語処理
- program
現代英語の９割をカバーする基本英単語 NGSL（New General Service List）を７クリックで覚えるための新しい表
- 723 users
- readingmonkey.blog.fc2.com
- 学び
- 2019/09/28
Author:くるぶし（読書猿） twitter:@kurubushi_rm カテゴリ別記事一覧新しい本が出ました。読書猿『独学大全』ダイヤモンド社 2020/9/29書籍版刊行、電子書籍10/21配信。 ISBN-13 : 978-4478108536 2021/06/02 11刷決定累計200,000部（紙＋電子） 2022/10/26　１４刷決定累計260,000部（紙＋電子）紀伊國屋じんぶん大賞2021　第３位アンダー29.5人文書大賞2021 新刊部門第１位第２の著作です。 2017/11/20刊行、４刷まで来ました。読書猿 (著) 『問題解決大全』 ISBN:978-4894517806 2017/12/18 電書出ました。 Kindle版・楽天Kobo版・iBooks版韓国語版『문제해결 대전』、繁体字版『線性VS環狀思考』も出ています。こちらは１０刷
- 英語
- あとで読む
- english
- 辞典
- 学習
- list
- 読書
- 言吾
- 書
- リスト
超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
- 452 users
- prtimes.jp
- テクノロジー
- 2023/01/19
株式会社レアゾン・ホールディングス(本社：東京都新宿区、代表取締役：渡邉真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日株式会社レアゾン・ホールディングス(本社：東京都新宿区、代表取締役：渡邉真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。プロジェクトwebサイト：https://
- AI
- あとで読む
- 日本語
- 音声認識
- 音声
- voice
- 技術
- フリーソフト
- コーパス
- 機械学習

LINE、NAVERと共同で、世界初、日本語に特化した超巨大言語モデルを開発　新規開発不要で、対話や翻訳などさまざまな日本語AIの生成を可能に | ニュース | LINE株式会社
- 430 users
- linecorp.com
- テクノロジー
- 2020/11/25
LINE、NAVERと共同で、世界初、日本語に特化した超巨大言語モデルを開発　新規開発不要で、対話や翻訳などさまざまな日本語AIの生成を可能に従来の特化型言語モデルとは異なる、汎用型言語モデルを実現予定。処理インフラには世界でも有数の、700ペタフロップス以上の高性能スーパーコンピュータを活用 LINE株式会社（所在地：東京都新宿区、代表取締役社長：出澤剛）はNAVERと共同で、世界でも初めての、日本語に特化した超巨大言語モデル開発と、その処理に必要なインフラ構築についての取り組みを発表いたします。超巨大言語モデル（膨大なデータから生成された汎用言語モデル）は、AIによる、より自然な言語処理・言語表現を可能にするものです。日本語に特化した超巨大言語モデル開発は、世界でも初めての試みとなります。従来の言語モデルは、各ユースケース（Q&A、対話、等）に対して、自然言語処理エンジニアが個
- AI
- あとで読む
- LINE
- 機械学習
- 言語
- NLP
- 開発
- 日本語
- 自然言語処理
- データ
PDFをコピペするとなぜ“文字化け”が起きてしまうのか　変換テーブル“ToUnicode CMap”が原因だった
- 380 users
- logmi.jp
- テクノロジー
- 2021/05/26
NTT Tech Conferenceは、NTTグループのエンジニアたちが一堂に会し、NTTグループ内外のエンジニアたちと技術交流を行うためのカンファレンスです。ここで、細田氏が「PDFのコピペが文字化けするのはなぜか？〜CID/GIDと原ノ味フォント〜」をテーマに話します。まずは文字化けが起こってしまう原因について。原ノ味フォントの作成者細田真道氏（以下、細田）：細田です。ふだんはNTTグループのどこかでDXな仕事をしていますが、今日はぜんぜん仕事とは関係なく、個人的にやっているオープンソースなどの話をしたいと思います。よろしくお願いします。簡単に自己紹介をします。楽譜を作成するプログラム「LilyPond」のコミッターと、GNUの公式文書フォーマット「Texinfo」のコミッターをしています。あとで話しますが、「原ノ味フォント」を作っていて、すごく似たような名前で「原ノ町」という
- pdf
- 文字コード
- あとで読む
- フォント
- font
- unicode
- tech
- 仕事
- 漢字
- 技術
Excelで誰でも簡単言語処理 (感情推定, 固有表現抽出, キーワード抽出, 文類似度推定 etc...) - Qiita
- 376 users
- qiita.com/Harusugi
- テクノロジー
- 2019/08/05
Excelで誰でも簡単言語処理 (感情推定, 固有表現抽出, キーワード抽出, 文類似度推定 etc...)ExcelAPIVBA自然言語処理COTOHA 3行まとめ Excel関数一発で高度な言語処理を使えるようにしました感情推定、固有表現抽出など日本語を分析・整理するのにいろいろ使えます Windows + Officeユーザならマクロファイルで誰でも簡単に使えます ※Macだと多分動かないと思います。VBAのHTTPリクエストを有効にできないため。。。 9/1追記: コメント頂きましたが、64bit版OfficeだとjsonParseが動かないようなのでアップデートしてみました。動作確認できていないので自己責任でお願いします https://github.com/korinzuz2/excelcotoha/blob/master/COTOHA公開用64bitExcel対応版.xls
- excel
- あとで読む
- 形態素解析
- API
- 言語
- Qiita
- VBA
- 自然言語処理
- nlp
- tips
「クソゲー・オブ・ザ・イヤー」を一変させた『四八（仮）』ショックとはなんだったのか？ “テキストの量的分析”からクソゲーの定義とレビューの変容を見る
- 353 users
- news.denfaminicogamer.jp
- アニメとゲーム
- 2020/03/27
「クソゲー・オブ・ザ・イヤー」を一変させた『四八（仮）』ショックとはなんだったのか？ “テキストの量的分析”からクソゲーの定義とレビューの変容を見るビデオゲームの文化で「クソゲー」という極めて暴力的な単語が一般化してからどれくらいが経っただろうか。みうらじゅん氏が『いっき』に対して使ったなど起源には諸説あるが、ともかくその言葉は死滅せずに現代まで生きながらえてきた。制作者が心血を注いで創りあげた一個のゲームという作品。それをたった一言で簡単に断罪できてしまうその言葉は、無残なほどにネガティブなパワーを持っており、ゲームメディアでは忌避すべきワードのひとつである。しかし口をつぐんだところで、いままでプレイヤー間で何年にもわたり続いてきた「クソゲーを語る」という文化が、無かったものになるわけでもない。たった4文字でゲームを語ることができるこの魔法の言葉は、その時代や個々人の認識によって極
- KOTY
- ゲーム
- game
- あとで読む
- インタビュー
- 論文
- クソゲー
- ネタ
- 言葉
- 分析
高精度でテキスト分類を行えるAIの環境を用意しました【BERT】 - ニートの言葉
- 252 users
- blog.takuya-andou.com
- テクノロジー
- 2019/09/22
こんにちは、あんどう（@t_andou）です。最近、自然言語処理のAIの一種であるBERTをよく触っています。今回はBERTのソースを読まなくてもサクッと試せる環境を用意しましたので、メモとして残しておきます。 BERTとはどういうものか画像引用：https://arxiv.org/pdf/1810.04805.pdf 凄くざっくりと説明すると、BERTとは2018年末にGoogleの人たちが開発した自然言語処理において汎用的に使えて精度の良いAIです。自然言語処理において精度を測るためにいくつかのタスクがあるのですが、発表された時点ではダントツの成績でした。仕組みなどの詳細については論文を読むか解説記事をググってください。 2019/09/22時点で既により精度の良い手法がどんどん発表されていますが、BERTの情報量と比べるとまだ少ないため、入門としてはBERTを触ってみるのが
- bert
- あとで読む
- AI
- 自然言語処理
- 機械学習
- google
- NLP
- データセット
- 学習
AWS、PythonでMeCabを使う際の語彙データを無料公開 | Ledge.ai
- 245 users
- ledge.ai
- テクノロジー
- 2020/11/20
アマゾンウェブサービスジャパン株式会社（Amazon Web Services、AWS）は、同社のオープンデータセットに、日本語自然言語処理で定番の形態素解析器である「MeCab」を、ラッパーライブラリであるfugashi経由でPythonで使用する際の語彙（ごい）データに加えた、と公式ブログで明らかにした。多くの機械学習デベロッパーが、AWS上でさまざまなアルゴリズムの開発やモデルを構築している。なかでも、自然言語処理をする際には、対象言語の特性に即した形で前処理をする必要がある。日本語の自然言語処理を実施する際には、一般的に「形態素解析」と呼ばれる文章の分解処理を前位処理として実施する。日本語形態素解析をするためには、日本語の語彙データが必要になる。語彙データは大きなサイズになるだけではなく、これらを用いた計算の際にも大量のGPUおよびCPUが求められる。そのため、従来このよ
- mecab
- あとで読む
- aws
- python
- 形態素解析
- 自然言語処理
- nlp
- 学習
- データ
Python による日本語自然言語処理〜系列ラベリングによる実世界テキスト分析〜 / PyCon JP 2019
- 232 users
- speakerdeck.com/taishii
- テクノロジー
- 2019/09/16
PyCon JP 2019 での発表スライドです。 GitHub: https://github.com/taishi-i/nagisa-tutorial-pycon2019
- python
- あとで読む
- nlp
- 自然言語処理
- slide
- analysis
- presentation
- 分析
自然言語系AIサービスと著作権侵害｜知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】
- 226 users
- storialaw.jp
- テクノロジー
- 2021/10/25
第1　はじめに自然言語処理技術の発展に伴い、自然言語AIを利用したサービスが大変盛り上がっています。たとえば、検索、要約、翻訳、チャットボット、文章の自動生成、入力補完などのサービスで、近いところで有名なのは、2020年にOpenAIが発表した「GPT-3」ですかね。これは約45TBにおよぶ大規模なテキストデータを学習し、あたかも人間が書いたような文章を自動で生成することが可能な自然言語モデルです。【参考リンク】自然言語処理モデル「GPT-3」の紹介進化が止まらない自然言語処理技術ですが、事業者が自然言語AIを利用したサービス（＊ここでは、データの処理がクラウド上で自動的に行われるサービスを前提とします）を提供する際に検討しなければならないことは、大きく分けると、学習済みモデルの構築フェーズの問題と、モデルを利用したサービス提供フェーズに関する問題に分かれます。このうち、モデル
- 著作権
- 機械学習
- 自然言語処理
- AI
- あとで読む
- 法律
- NLP
- 言語
- 人工知能
- Corpus
コワクナイWebクローリング&スクレイピング - 初心者とPython使いのための作法とノウハウ - Lean Baseball
- 159 users
- shinyorke.hatenablog.com
- テクノロジー
- 2019/08/12
名著です,まじでオススメ個人的にすごく気に入っているかつオススメな「Pythonクローリング&スクレイピング」の増補改訂版が出てました. Pythonクローリング&スクレイピング[増補改訂版] -データ収集・解析のための実践開発ガイド作者: 加藤耕太出版社/メーカー: 技術評論社発売日: 2019/08/10メディア: 単行本（ソフトカバー）この商品を含むブログを見る早速読みましたが,初版からのアップデートに加え元々の構成の良さに感激しました.*1 本の内容そのものの解説は, 著者である加藤さんのエントリー @iktakahiroさんの感想エントリーをご覧いただくとして*2,このエントリーでは, Webクローリングとスクレイピングはコワクナイヨ！っていう話をルール・ノウハウという「お作法」の面でポエムしたいと思います. TL;DR インターネットおよび, リアル（現実世界）に迷惑
AIはハチ=米津玄師を見破れるか ? -J-popアーティストの歌詞を分析してみた- - Qiita
- 100 users
- qiita.com/kazuya-n
- テクノロジー
- 2019/09/14
はじめに一年前にこんな記事を書きました。未だにちょくちょくいいねを頂いているので、自然言語処理の練習を兼ねて久しぶりに遊んでみた系の記事を投稿しようと思います。やったこと歌詞データのクローリング Mecabによる分かち書き tf-idfによるベクトル化ベクトル化した歌詞によるアーティストのクラスタリングとUMAPでの可視化 (おまけ) fastTextでハチ=米津玄師を見分けられるのか? 分析にはJupyter Labを用いました。歌詞データ今回用いる歌詞データについて説明します。クローリングで取得先立って歌詞データのクローリングをしました。とある人気アーティスト順に歌詞を取得できるサイトより、45人のJ-popアーティストにつき、最大50曲分の歌詞を取得しCSVに保存しました。実際にクローリングに用いたコードを公開するのもどうかと思うので、ここでは割愛します。。。Bea
今年読んだNLP系論文で面白かった5つ - 株式会社ホクソエムのブログ
- 77 users
- blog.hoxo-m.com
- テクノロジー
- 2019/10/24
ホクソエムサポーターの白井です。学生時代は自然言語処理の研究をしていました。「今年読んだ論文、面白かった５つ」というテーマで、自然言語処理(NLP)の論文を紹介します。主にACL anthologyに公開されている論文から選んでいます。はじめに今年のNLP界隈の概観 1. Text Processing Like Humans Do: Visually Attacking and Shielding NLP Systems 面白いと思った点 2. Errudite: Scalable, Reproducible, and Testable Error Analysis 面白いと思った点 3. Language Models as Knowledge Bases? 面白いと思った点余談 4. A Structural Probe for Finding Syntax in Word
- NLP
- 機械学習
- あとで読む
- 論文
- 自然言語処理
- 研究
- paper
- 言語
AIのべりすと
- 77 users
- ai-novel.com
- テクノロジー
- 2021/10/21
Write Stories, with the Largest Public Japanese AI ever! AIで小説を書こう！ AI Novelist is the largest public Japanese storywriting AI, trained from scratch by more than 2TB corpus. You may start from one of the example prompts or start with your own text! Tips: You may want to enter at the least 5-6 lines worth of a seed text to make sure the AI understands the context/genre.
- AI
- 文章
- webサービス
- 小説
- 日本語
- 人工知能
- 機械学習
- あとで読む
- あとで
コーパスとは？使い方をわかりやすく解説　無料英語学習最ツール　coca corpus・SKELLも紹介 - ポリグロットライフ | 言語まなび∞ラボ
- 75 users
- www.sunafuki.com
- 学び
- 2022/05/15
はじめにコーパスとは？今回は英語学習無料ツールであるコーパスの使い方をわかりやすく解説します。コーパスとは膨大の言語データベースで言語学の研究のために使用されています。まず始めに、コーパスの意味や活用方法、無料で利用できるcoca corpusを紹介します。英語学習への効果やコロケーションについても解説します。実際にSKELLというサービスを使って、頻出動詞のコロケーションも完全整理したので、ぜひチェックしてみてください。コーパスを活用すれば、頻出の動詞やコロケーションを知ることができます。英語話者が実際に使用している語句を網羅すれば、効率よく英語学習を進めることができます。 ↓↓こちらの動画でも解説してます www.youtube.com 英単語の覚え方はこちら↓↓ www.sunafuki.com 英語脳についてはこちらで解説↓↓ www.sunafuki.com 主な参考文献「英
- 英語
- あとで読む
- 語学
- 言語
- english
- language
Googleが自然言語処理の弱点「言い換え」を克服するデータセットを公開
- 73 users
- gigazine.net
- テクノロジー
- 2019/10/04
by Nicole Honeywill 自然言語処理のアルゴリズムは言葉の順序や構造の理解を不得意としてきました。この課題を克服すべく、Googleが新たにデータセットを公開。このデータセットで訓練を行うと、機械学習モデルのテキスト分類精度が50％から80％にまで向上するとのことです。 Google AI Blog: Releasing PAWS and PAWS-X: Two New Datasets to Improve Natural Language Understanding Models https://ai.googleblog.com/2019/10/releasing-paws-and-paws-x-two-new.html Googleは機械翻訳や音声認識で自然言語処理を取り入れていますが、自然言語処理では最先端のアルゴリズムでも「ニューヨークからフロリダへのフライト」
SKELL
- 63 users
- skell.sketchengine.eu
- 学び
- 2020/12/28
v1.11.5
- 英語
- english
- 英語学習
- コーパス
- corpus
- search
- 検索
無償入手可能な音声コーパス／音声データベースの一覧 - Qiita
- 57 users
- qiita.com/nakakq
- テクノロジー
- 2021/09/08
無償かつ入手しやすい音声データセットをメモしています。ライセンス・利用規約は「商用利用可能」「研究用途のみ」ともに紹介します。コーパスを探すときに有用なサイトコーパス配布元サイト音声資源コンソーシアム : 日本語コーパスが豊富、無償または有償で利用可能緩いライセンスのコーパスでなくても良いときはここ自発的発話の日本語音声コーパスはだいたいここにある入手は要申請所属や責任者を記入する必要があるため、研究者や企業でないと厳しい？（この記事では音声資源コンソーシアムのコーパスは未掲載） Shinnosuke Takamichi: コーパス一覧 : 日本語中心。高道先生が携わっている音声コーパス大量の日本語音声コーパスが配布されている音声合成のコーパスをつくろう (Slideshare) : 2021年6月時点の音声コーパス事情あなたにどうしても伝えたい30の音声コーパス
NII、130億パラメータのLLM構築　コーパスなども全公開　「今後の研究に資するため」
- 50 users
- www.itmedia.co.jp
- テクノロジー
- 2023/10/20
国立情報学研究所（NII）は10月20日、パラメータ数130億の大規模言語モデル（LLM）「LLM-jp-13B」を公開した。初期段階のモデルだが、アカデミアや産業界の研究開発に資するため、コーパスやツールなどを含めてすべてオープンにする。公開したLLMの学習データ量は合計約3000億トークン。うち日本語は約1450億トークン（mC4／Wikipedia）、英語は約1450億トークン（The Pile／Wikipedia）、プログラムコード約100億トークン。計算資源としては、大学や研究機関が共同運営する仮想化環境・データ活用社会創成プラットフォーム「mdx」を12ノード活用。モデル構築にはMicrosoftのDeepSpeedを、モデル構築時の監視やログの保存には、モデル開発プラットフォームのWeights＆Biasesを利用した。 NIIが主宰するLLM勉強会（LLM-jp）で7月
BERTで英検を解く - Qiita
- 44 users
- qiita.com/kota9
- テクノロジー
- 2021/08/03
英検の大問１は、短文穴埋め問題になっています。例えば、こういう問題です。 My sister usually plays tennis (　　　) Saturdays. 1. by　　2. on　　3. with　　4. at Bob (　　　) five friends to his party. 1. made　　2. visited　　3. invited　　4. spoke 文の中の隠された部分に入るものを、選択肢の中から答える問題です。文法的な判断もあれば、文脈から意味の通りが良い単語を選ぶ問題もあります。5級から1級まですべての難易度で出題される形式です。この問題形式は、BERT (Bidirectional Encoder Representations from Transformers)の学習アルゴリズム（のうちの１つ）とよく似ています。ということは、事前学習済みのBE
- BERT
- NLP
- あとで読む
- HotEntry
- qiita
- Python
- プログラミング
AI業界の不都合な真実ラベル付け作業の底辺競争フェアトレードは実現するか
- 39 users
- www.technologyreview.jp
- テクノロジー
- 2019/10/04
These companies claim to provide “fair-trade” data work. Do they? AI業界の不都合な真実ラベル付け作業の底辺競争フェアトレードは実現するか人工知能（AI）サービスを支える大量の訓練用データの作成は、多くの場合、劣悪な条件で働く人々に頼っている。しかし、自らを「インパクト」企業と呼び、訓練用データ作成の作業に従事する労働者に対し、従来より好待遇の労働環境を提供していると主張する企業のグループが登場している。 by Kate Kaye2019.10.04 128 181 39 9 ニューヨーク独特の寒さが厳しいある2月の午後、レオン・キャンベルはマンハッタンのミッドタウンにあるオフィスのデスクに身を潜めた。ゲーム関連のポッドキャストを準備し、ノートパソコンのソフトウェア・プラットフォームを立ち上げると、キャンベルは数時間、
- 人工知能
- あとで読む
- AI
- 労働
- 社会
ざっくり理解する分散表現, Attention, Self Attention, Transformer - Qiita
- 33 users
- qiita.com/norihitoishida
- テクノロジー
- 2020/04/08
Transformerで用いられているのはSelf AttentionとMulti-Head Attentionです。 co-attentionの例 : 提示した写真に関する質問をするVisual Question Answering等。 Self Attentionを用いる事で、自分自身のどの部分に注目すればよいかわかります。例えば、以下のようなQ&Aタスクがあるとします。「私はトムの部屋に入りました。(略)。彼の部屋を出ました。この『彼』とは誰？」この時、文中で彼〜トムの距離が遠ければどうなってしまうでしょうか。 CNNでは畳み込めないため、「彼＝トム」の情報を手に入れられません。 RNNでは距離が遠すぎるため、「部屋の主＝トム」の情報を忘れてしまう可能性があります。 Self Attentionならば、彼とトム間のAttention weightを大きくする事で「彼＝トム」と理
Shinnosuke Takamichi (高道慎之介) - jvs_corpus
- 30 users
- sites.google.com
- エンタメ
- 2019/08/17
This corpus consists of Japanese text (transcripts) and multi-speaker voice data. The specification is as follows. 100 professional speakers Each speaker utters: "parallel100" ... 100 reading-style utterances that are common among speakers "nonpara30" ... 30 reading-style utterances that are completely different among speakers "whisper10" ... 10 whispered utterances "falsetto10" ... 10 falsetto ut
- dataset
- language
- 日本語
- 言語
- データ
- research
- 研究
言語処理100本ノック2020年版が公開！どこが変わったの？ - Qiita
- 23 users
- qiita.com/hi-asano
- テクノロジー
- 2020/04/08
はじめに自然言語処理の基礎を楽しく学べる問題集として長らく親しまれてた言語処理100本ノック、その2020年版が4/6に公開されました！これは5年振りの改訂です。 2015年版をやったけど興味ある人、15年版のQiita記事が役立たなくなって残念に思ってる人、15年版を途中までやってたけど20年版が出て心が折れそう、という人のために、どこが変わったのかをまとめていきます。もちろん非公式なので変更箇所の見逃し等はあるかもしれません。改訂の概要 4/7現在、公式の更新履歴によると、次の3点が大きく変わったようです。深層ニューラルネットワークに関する問題を追加第8, 9, 10章が全て新規に作成された問題になっている英語版の公開（39番まで） 40番以降も順次公開予定とのこと（著者Twitter）旧第6章（英語テキストの処理）が英語版に移動該当する英語版は未公開。作成中のようだ（G
- 自然言語処理
- 教材
- edu
- NLP
- あとで読む
中俣尚己の日本語チャンネル
- 22 users
- www.youtube.com
- 学び
- 2022/08/01
日本語学の研究者、中俣尚己によるチャンネルです。しばらくは、拙著『「中納言」を活用したコーパス日本語研究入門』をベースにしたコーパスの解説動画をアップする予定です。
GitHub - Qithub-BOT/Qiita-SPAMS: ✅ 【Qiita記事墓場】Qiita のスパム記事をアーカイブしています。
- 22 users
- github.com/Qithub-BOT
- テクノロジー
- 2019/12/02
A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?
テーブルデータ向けの自然言語特徴抽出術
- 21 users
- zenn.dev/koukyo1994
- テクノロジー
- 2021/05/07
例としてあげるデータは全て、atmaCup#10のものです。また、この記事の内容はこちらのノートブックで実験を行っています。データの例。'title'、'description'など自然言語を含むカラムが存在する。参考: 自然言語処理におけるEmbeddingの方法一覧とサンプルコード Bag of Wordsベースの手法文書をトークンの集合として扱う手法です。トークンとしてはよく単語が選ばれますが、自分でtokenizerを設定して文章を単語以外のtokenの集合として扱うこともできます。また、日本語などの言語においてはトークン化が自明でないため、MeCabなどを用いてトークン化することがかなり多いです。コラム MeCabを用いたトークン化
Large Movie Review：IMDb映画レビューコメントの「肯定的／否定的」感情分析用データセット
- 20 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2020/07/09
Large Movie Review：IMDb映画レビューコメントの「肯定的／否定的」感情分析用データセット：AI・機械学習のデータセット辞典データセット「Large Movie Review」について説明。IMDbサイト上での5万件の「テキスト（映画レビューコメント）」＋「ラベル（ポジティブ／ネガティブの感情）」が無料でダウンロードでき、二値分類問題などのディープラーニングや機械学習に利用できる。元データの内容や、TensorFlow、Keras、PyTorchなどにおける利用コードも紹介。
現代日本語書き言葉均衡コーパス検索システム (BCCWJ)：Version 1.1
- 18 users
- bonten.ninjal.ac.jp
- 世の中
- 2021/02/17
- webサービス
- 日本語
- ことば
- 検索
- 言葉
大規模日本語ビジネスニュースコーパスを学習したELMo（MeCab利用）モデルの紹介 - Qiita
- 16 users
- qiita.com/mkt3
- テクノロジー
- 2019/08/05
はじめに以前、日本語のBERT事前学習済モデルの紹介記事を投稿しましたストックマークの森長です。前回の記事を多くの皆様に読んでいただき、大変ありがたく思っております。そこで、今回はBERTに続いて、ELMoの日本語学習済モデルを公開いたします。 ELMoとは ELMoは双方向LSTMを用いて学習させた言語モデルです。 ELMoによって、文脈を考慮した単語分散表現(単語ベクトル)を獲得できます。自然言語処理では、文脈を考慮した単語ベクトルを用いることで、語義の曖昧性解消が見込めます。例えば、以下の「人気」という単語のように、文脈によって意味が異なる単語でも、ELMoでは文脈を考慮して文脈ごとの「人気」の単語ベクトルを獲得可能です。あのキャラクターは人気がある。この道路は、夜に人気がなくて、危ない。 ELMoの単語ベクトルの具体的な利用方法としては、ELMoで獲得した単語ベクトル
- あとで読む
日本語対話コーパス一覧
- 14 users
- individuality.jp
- 学び
- 2022/04/23
日本語対話コーパス一覧これは日本語を対象とした、対話システムの構築に利用できる言語資源のリストです。本リストは、理化学研究所吉野幸一郎さん発案のもと、C4A研究所中野幹生さん、東北大学赤間怜奈さん、大阪大学駒谷和範さん、JAIST 吉川禎洋さん、リクルート林部祐太さん、京都大学児玉貴志さん、愛知工業大学徳久良子さんにご協力をいただき、水上雅博が作成いたしました（所属はリスト作成または更新時のものです）。もしこのリストに載っていないものや、リストのまちがいに気づかれた場合、新たにコーパスをリリースした際には是非、issueやメールで教えてください。対話コーパス主に人同士または人とシステム間（2名以上の場合を含む）で、対話（模擬対話等を含む）を行ったコーパスです。名前データ量形式研究利用商用利用概要
- nlp
- language
- 言語
- dataset
CC-100: Monolingual Datasets from Web Crawl Data
- 13 users
- data.statmt.org
- テクノロジー
- 2020/11/02
This corpus is an attempt to recreate the dataset used for training XLM-R. This corpus comprises of monolingual data for 100+ languages and also includes data for romanized languages (indicated by *_rom). This was constructed using the urls and paragraph indices provided by the CC-Net repository by processing January-December 2018 Commoncrawl snapshots. Each file comprises of documents separated b
- 自然言語処理
- dataset
JParaCrawl
- 12 users
- www.kecl.ntt.co.jp
- 世の中
- 2019/11/26
License JParaCrawl and the trained models are distributed under the following license. For commercial use, please contact us. Terms of Use for Bilingual Data, Monolingual Data and Trained Models Nippon Telegraph and Telephone Corporation (Hereinafter referred to as "our company".) will provide bilingual data, monolingual data and trained models (Hereinafter referred to as "this data.") subject to
- コーパス
じゃらんnetに投稿された宿クチコミを用いた感情極性分析・含意関係認識の一例 - Megagon Labs | リクルート AI研究機関
- 11 users
- megagon.ai
- テクノロジー
- 2021/08/23
より良い顧客体験を生み出すには、カスタマーに好評を博したサービスや製品の特徴や要因を知る必要があります。Megagon Labs Tokyo は旅行情報サイト『じゃらんnet』上で公開されている宿泊施設へのクチコミと、それを基に加工・作成した文章にラベル付け（アノテーション）を行ったJapanese Realistic Textual Entailment Corpus （以下JRTEコーパス）を開発し、日本語自然言語処理における学術コミュニティ向けに公開しました。本記事ではJRTEコーパスと、利用例として簡単な機械学習を紹介します。オンラインサービスにおけるクチコミは、サービスや製品の利用を検討しているユーザには不可欠な存在です。土地勘のない地域がどのような特徴をもっているか、初めて利用する施設のどのような点が他者から好評を博しているかといった知識があれば、私たちは納得して選べるように
- 機械学習
- HotEntry
- tech
- ツール
Z会、英語スピーキングの採点をAIで自動化へ　公正な採点を低コストで実現する狙い
- 11 users
- www.itmedia.co.jp
- テクノロジー
- 2019/09/10
Z会と、教育ITシステムなどを手掛けるEdulab（東京都渋谷区）は9月10日、AIを活用して英語のスピーキングテストを自動採点する技術の共同研究を始めたと発表した。約8000人が受験するZ会の「英語CAN-DOテスト」で集まった数万点の音声データと評価データを活用。EdulabのAIを使った自動採点技術を組み合わせ、受験者が話した英語を自動採点する技術の研究開発を進める。開発の背景には、学習指導要領の改訂や、大学入試センター試験が大学入学共通テストに変わる大学入試改革がある。グローバル化が進む中で、読み書きだけでなく「話す」「聞く」などの技能も教育で重要視するようになったが、話す技能の測定には人件費がかかるうえ、評価する人によって測定結果にばらつきが出るなどの懸念もある。関連記事英検の採点にAI　ライティング・スピーキングも自動採点英検のライティングとスピーキング試験に、AIに
- English
- Education
- ai
- business
- あとで読む
GitHub - ku-nlp/KWDLC: Kyoto University Web Document Leads Corpus
- 9 users
- github.com/ku-nlp
- テクノロジー
- 2019/11/06
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.
Automate Data Cleaning with Unsupervised Learning
- 7 users
- towardsdatascience.com
- テクノロジー
- 2020/07/19
I like working with textual data. As for Computer Vision, in NLP nowadays there are a lot of ready accessible resources and opensource projects, which we can directly download or consume. Some of them are cool and permit us to speed up and bring to another level our…
- NLP
- text
- 機械学習
数式抜きでWord2vecを話す
- 6 users
- speakerdeck.com/ronasama
- テクノロジー
- 2019/08/30
社内勉強用の資料です。フォローお願いします。https://twitter.com/Ishitonton
- NLP