記事へのコメント11

    • 注目コメント
    • 新着コメント
    misshiki
    misshiki 分量や利用しやすさから自然言語処理ではWikipediaが選ばれることが多いが前処理が面倒。そこで“本記事では比較的最近リリースされた前処理済みのデータセット「Wiki-40B」とその使い方を紹介”とのこと。

    2020/09/28 リンク

    その他
    nilab
    nilab 「Wiki-40Bは、40言語以上のWikipediaを前処理して作られたデータセットです。このデータセットは言語ごとに学習/検証/テスト用に分かれているので、単語分散表現や言語モデルの学習・評価に使えます」

    2020/09/28 リンク

    その他
    nagaichi
    nagaichi 専門用語が多くてあまり日常会話に出てこないタームに満ちているWikipediaって、そもそも自然言語処理のための機械学習に向いてるテキストなんだろうか。推敲不足の悪文どころか、言語的に壊れた記事も少なくないし。

    2020/09/28 リンク

    その他
    apipix
    apipix wikipedia wiki

    2020/09/27 リンク

    その他
    chikoshoot
    chikoshoot とりあえず、みんな寄付しような!

    2020/09/27 リンク

    その他
    t-murachi
    t-murachi WikipediaをWikiと言ってのけるサイエンス系最右翼(´・ω・`)

    2020/09/27 リンク

    その他
    suquiya0
    suquiya0 ほむ。

    2020/09/26 リンク

    その他
    cj3029412
    cj3029412 あとでためすー😺💕すきすきー😺💕

    2020/09/26 リンク

    その他
    skypenguins
    skypenguins 良さそう

    2020/09/26 リンク

    その他
    knok
    knok いつdumpされたスナップショットを使うのかの指定は今のところないようだ。バージョン1.3.0しかないっぽい / 論文によると https://www.tensorflow.org/datasets/catalog/wikipedia がソースなので 20200301が元のようだ

    2020/09/26 リンク

    その他
    efcl
    efcl Wikipediaの前処理済みのデータ

    2020/09/26 リンク

    その他

    注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

    アプリのスクリーンショット
    いまの話題をアプリでチェック!
    • バナー広告なし
    • ミュート機能あり
    • ダークモード搭載
    アプリをダウンロード

    関連記事

    Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer

    最近の自然言語処理では、大規模なテキストから単語の分散表現や言語モデルを学習させて使っています。...

    ブックマークしたユーザー

    • techtech05212023/08/14 techtech0521
    • dmizuno552022/06/25 dmizuno55
    • zak32022/01/04 zak3
    • Pahud2020/12/23 Pahud
    • thotentry_hatebu1972020/12/12 thotentry_hatebu197
    • ryu19j2020/10/26 ryu19j
    • somemo2020/10/23 somemo
    • pekeq2020/10/22 pekeq
    • otakumesi2020/10/19 otakumesi
    • three_tree_0292020/10/05 three_tree_029
    • paul_oguri2020/10/04 paul_oguri
    • youshow2020/10/01 youshow
    • jp-myk2020/10/01 jp-myk
    • sskoji2020/09/29 sskoji
    • sh052020/09/29 sh05
    • masayoshinym2020/09/29 masayoshinym
    • colspan2020/09/28 colspan
    • shinagaki2020/09/28 shinagaki
    すべてのユーザーの
    詳細を表示します

    同じサイトの新着

    同じサイトの新着をもっと読む

    いま人気の記事

    いま人気の記事をもっと読む

    いま人気の記事 - テクノロジー

    いま人気の記事 - テクノロジーをもっと読む

    新着記事 - テクノロジー

    新着記事 - テクノロジーをもっと読む

    同時期にブックマークされた記事