いつもniconicoをご利用いただきありがとうございます。 このたび、国立情報学研究所情報学研究データリポジトリ(IDR)ご協力の元、ニコニコ大百科の記事データを「ニコニコデータセット」に公開しました。 提供するデータ内容は記事ヘッダデータ、記事本文データ(履歴含む)、掲示板データとなっています。形式はCSVで約24GBあります。非公開の記事や、ユーザーを特定できるIDは含まれていません。 本データは研究目的であればどなたでもご利用いただけます。 希望される方は国立情報学研究所サイトより利用申請をして下さい。 ニコニコ大百科は未来検索ブラジルが運営する『あらゆる言葉について定義や意味、元ネタを解説する辞書・辞典』です。wikipediaと異なり、客観的で真面目な記事だけでなく、主観的で面白い記事も歓迎しています。HTMLやCSSも用いることができるため、見た目に意味を持たせた記事もあるこ
This page provides a link to a dataset of NFL game data from the 2010-2012 NFL seasons along with IDs of tweets from the Twitter gardenhose that were automatically aligned to particular games/teams. It is released for non-commercial use under the CC BY-NC-SA 3.0 license. The release was prepared by Shiladitya Sinha, Brendan O'Connor, Chris Dyer, and Kevin Gimpel. We thank NFLdata.com for partnerin
The Google Books Ngram Viewer is optimized for quick inquiries into the usage of small sets of phrases. If you're interested in performing a large scale analysis on the underlying data, you might prefer to download a portion of the corpora yourself. Or all of it, if you have the bandwidth and space. We're happy to oblige. These datasets were generated in July 2012 (Version 2) and July 2009 (Versio
The Registry of Open Data on AWS is now available on AWS Data Exchange All datasets on the Registry of Open Data are now discoverable on AWS Data Exchange alongside 3,000+ existing data products from category-leading data providers across industries. Explore the catalog to find open, free, and commercial data sets. Learn more about AWS Data Exchange Description A corpus of web crawl data composed
Log-Likelihood Test に用いる Log-Likelihood ratio 「対数尤度比」は,上の表の要領で各サブコーパスの総語数 ( c, d ) と,各サブコーパスでの f*ck の頻度数 ( a, b ) を分割表にまとめた上で,それぞれの期待頻度 E1 と E2 を下の (1) の式で求め,その値を (2) の式に代入して求める. (1) E1 = c*(a+b)/(c+d); E2 = d*(a+b)/(c+d) (2) LL = 2*((a*log(a/E1))+(b*log(b/E2))) f*ck の数値で計算すると,以下のようになる. E1 = 10409858*(579+743)/(10409858+87903571) = 139.979170861796 E2 = 87903571*(579+743)/(10409858+87903571)
概要 本コーパスの HTML アーカイブは,ipadic-2.7.0 の見出し語をシードとして,かつての Yahoo! Web API による検索結果に含まれるウェブページを収集したものです.テキストの抽出においては,文字コードを UTF-8 に統一した後,いくつかの記号をデリミタとして文への分割をおこない,さらに文を構成する文字の種類や数によるフィルタリングを施しています.N-gram コーパスについては,テキストアーカイブに出現する頻度 10 以上の N-gram を収録しています. 本コーパスの英語名称は Nihongo Web Corpusn 2010 (NWC 2010) です. 謝辞 本コーパスの作成においては,様々なウェブサービス,ツール,コーパスを利用させていただきました.開発者・研究者の皆様に感謝いたします. コーパスの作成・保存・配布には Amazon Web Serv
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く