[B! corpus] chezouのブックマーク

GitHub - malmaud/whats_cookin: Dataset generated by the methods in "What's Cookin'? Interpreting Cooking Videos using Text, Speech and Vision"

chezou 2015/06/25

Googleの料理動画と音声認識したテキストのalignmentのコーパス/著者のmalmaudさんJulia好きな人だったのか

corpus

リンク

研究用にニコニコ大百科の記事とコメント約24GBを公開‐ニコニコインフォ

いつもniconicoをご利用いただきありがとうございます。このたび、国立情報学研究所情報学研究データリポジトリ(IDR)ご協力の元、ニコニコ大百科の記事データを「ニコニコデータセット」に公開しました。提供するデータ内容は記事ヘッダデータ、記事本文データ(履歴含む)、掲示板データとなっています。形式はCSVで約24GBあります。非公開の記事や、ユーザーを特定できるIDは含まれていません。本データは研究目的であればどなたでもご利用いただけます。希望される方は国立情報学研究所サイトより利用申請をして下さい。ニコニコ大百科は未来検索ブラジルが運営する『あらゆる言葉について定義や意味、元ネタを解説する辞書・辞典』です。wikipediaと異なり、客観的で真面目な記事だけでなく、主観的で面白い記事も歓迎しています。HTMLやCSSも用いることができるため、見た目に意味を持たせた記事もあるこ

chezou 2014/03/19

やばい、きた

corpus

リンク

NFL Tweet Dataset

This page provides a link to a dataset of NFL game data from the 2010-2012 NFL seasons along with IDs of tweets from the Twitter gardenhose that were automatically aligned to particular games/teams. It is released for non-commercial use under the CC BY-NC-SA 3.0 license. The release was prepared by Shiladitya Sinha, Brendan O'Connor, Chris Dyer, and Kevin Gimpel. We thank NFLdata.com for partnerin

chezou 2013/10/29

リンク

LastFM-ArtistTags2007

chezou 2013/04/15

Last.fmのデータセット。Mahout in actionで例示されている

corpus

リンク

Google Ngram Viewer

The Google Books Ngram Viewer is optimized for quick inquiries into the usage of small sets of phrases. If you're interested in performing a large scale analysis on the underlying data, you might prefer to download a portion of the corpora yourself. Or all of it, if you have the bandwidth and space. We're happy to oblige. These datasets were generated in July 2012 (Version 2) and July 2009 (Versio

chezou 2013/02/12

corpus

リンク

Common Crawl - Registry of Open Data on AWS

The Registry of Open Data on AWS is now available on AWS Data Exchange All datasets on the Registry of Open Data are now discoverable on AWS Data Exchange alongside 3,000+ existing data products from category-leading data providers across industries. Explore the catalog to find open, free, and commercial data sets. Learn more about AWS Data Exchange Description A corpus of web crawl data composed

chezou 2013/01/29

corpus

リンク

#696. Log-Likelihood Test

Log-Likelihood Test に用いる Log-Likelihood ratio 「対数尤度比」は，上の表の要領で各サブコーパスの総語数 ( c, d ) と，各サブコーパスでの f*ck の頻度数 ( a, b ) を分割表にまとめた上で，それぞれの期待頻度 E1 と E2 を下の (1) の式で求め，その値を (2) の式に代入して求める． (1) E1 = c*(a+b)/(c+d); E2 = d*(a+b)/(c+d) (2) LL = 2*((a*log(a/E1))+(b*log(b/E2))) f*ck の数値で計算すると，以下のようになる． E1 = 10409858*(579+743)/(10409858+87903571) = 139.979170861796 E2 = 87903571*(579+743)/(10409858+87903571)

chezou 2012/07/10

Log-Likelihoodで2コーパス中の単語の出現頻度より検定する

corpus

リンク

日本語ウェブコーパス 2010

概要本コーパスの HTML アーカイブは，ipadic-2.7.0 の見出し語をシードとして，かつての Yahoo! Web API による検索結果に含まれるウェブページを収集したものです．テキストの抽出においては，文字コードを UTF-8 に統一した後，いくつかの記号をデリミタとして文への分割をおこない，さらに文を構成する文字の種類や数によるフィルタリングを施しています．N-gram コーパスについては，テキストアーカイブに出現する頻度 10 以上の N-gram を収録しています．本コーパスの英語名称は Nihongo Web Corpusn 2010 (NWC 2010) です．謝辞本コーパスの作成においては，様々なウェブサービス，ツール，コーパスを利用させていただきました．開発者・研究者の皆様に感謝いたします．コーパスの作成・保存・配布には Amazon Web Serv

chezou 2012/07/05

nlp
corpus

リンク

はてなブックマーク

タグ

関連タグで絞り込む (2)

corpusに関するchezouのブックマーク (8)

お知らせ

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

今週のはてなブックマーク数ランキング（2024年5月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス