Corpusに関するkana0355のブックマーク (642)

  • TEC-JL コーパス - Qiita

    概要 TEC-JL コーパス について紹介します。 3行まとめ 日語学習者の文法誤り訂正システムのための評価コーパスです。 (手書きの作文ではなく)キーボードから入力した作文に、最小限の訂正で文法的に正しい文になるよう、文法誤り訂正情報を付与しています。 大幅な訂正も許容して、文法的に正しくかつ流暢な文にするようなコーパスを現在作成中です。 いきさつ 自分の所属する都立大システムデザイン学部情報科学科(およびその前身の情報通信システムコース)では、研究室配属は4年生ですが、3年生の後期に「研究室インターンシップ」として研究室に仮配属され、(研究室ごとにそれぞれ異なる)研究を体験できる、というシステムがあり、それの一環として研究をしたい(学部3年生で論文を書いてみたい)という学生に対しては、半年間研究をして論文を書いてもらい、3月の言語処理学会年次大会で発表する、ということをしています。

    TEC-JL コーパス - Qiita
  • 【超初心者向け】Pythonで顧客のアンケートデータを自然言語処理してみた|半蔵門と調布あたりで働く、編集者のおはなし

    みなさんこんにちは!FOLIOアドベントカレンダーの8日目の記事です! 昨日は弊社の顧客基盤部でバックエンドエンジニアをされているmsawadyさんによる記事でした! 8日目の記事は、FOLIO金融戦略部でコンテンツの編集&執筆をおこなっています設楽がお届けします。 この記事の目的・初心者向けに、Pythonを使ったデータ分析(自然言語処理)の初歩の初歩を伝える記事。 読者対象・Python初心者。データ分析初心者 ・アンケートとか顧客の声を分析してみたいと考えている人 私ですが、普段は弊社サービスを使って頂いているユーザー様向けに、投資資産運用に関するいろいろな記事を執筆、編集しているという、データ分析とかプログラミングとは全然関係ない業務をおこなっています。 今回は、お客様から回答頂いているアンケートを使い、サービスがもっと良くなるためのヒントや、お客様がどういう点に困っていたり悩

    【超初心者向け】Pythonで顧客のアンケートデータを自然言語処理してみた|半蔵門と調布あたりで働く、編集者のおはなし
  • Excelに整理した「アンケート自由記述」を分析しよう!(その1) ~様々な可視化を自動に~ - Qiita

    20211130:Word-cloud記述に誤りあり、修正。 はじめに 過去の記事で、テキスト(自然言語)の分析や可視化を紹介しました。分析の手順としてはザっと以下のような内容です。 自由記述であれ何であれ、テキスト(自然言語)をガサっとtxtテキストファイルに放り込む。 「。」でセンテンスに分割。 形態素分析。 WordCloud、出現語カウントグラフ、共起ネットワーク…等を描画 アンケート等で得た結果を全般として把握したい場合は、上記の方法でいいですが、User単位で表形式でまとめられた形式は崩さず、満足度等の情報があればそれらも活かして分析を進めたいですね。 自然言語処理は様々なサイトで紹介されていますが、なぜか不思議とテキストデータを取り込んで…というものばかり。 表形式のデータを取り込み、データフレーム化して自然言語処理を進めたいということで、やってみましたという記事です。 所定

    Excelに整理した「アンケート自由記述」を分析しよう!(その1) ~様々な可視化を自動に~ - Qiita
  • 自然言語系AIサービスと著作権侵害|知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】

    第1 はじめに 自然言語処理技術の発展に伴い、自然言語AIを利用したサービスが大変盛り上がっています。 たとえば、検索、要約、翻訳、チャットボット、文章の自動生成、入力補完などのサービスで、近いところで有名なのは、2020年にOpenAIが発表した「GPT-3」ですかね。これは約45TBにおよぶ大規模なテキストデータを学習し、あたかも人間が書いたような文章を自動で生成することが可能な自然言語モデルです。 【参考リンク】 自然言語処理モデル「GPT-3」の紹介 進化が止まらない自然言語処理技術ですが、事業者が自然言語AIを利用したサービス(*ここでは、データの処理がクラウド上で自動的に行われるサービスを前提とします)を提供する際に検討しなければならないことは、大きく分けると、学習済みモデルの構築フェーズの問題と、モデルを利用したサービス提供フェーズに関する問題に分かれます。 このうち、モデル

    自然言語系AIサービスと著作権侵害|知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】
  • Chinese Text Project

    Welcome Welcome to the Chinese Text Project homepage. The Chinese Text Project is an online open-access digital library that makes pre-modern Chinese texts available to readers and researchers all around the world. The site attempts to make use of the digital medium to explore new ways of interacting with these texts that are not possible in print. With over thirty thousand titles and more than fi

    Chinese Text Project
  • BERTで英検を解く - Qiita

    英検の大問1は、短文穴埋め問題になっています。例えば、こういう問題です。 My sister usually plays tennis (   ) Saturdays. 1. by  2. on  3. with  4. at Bob (   ) five friends to his party. 1. made  2. visited  3. invited  4. spoke 文の中の隠された部分に入るものを、選択肢の中から答える問題です。文法的な判断もあれば、文脈から意味の通りが良い単語を選ぶ問題もあります。5級から1級まですべての難易度で出題される形式です。 この問題形式は、BERT (Bidirectional Encoder Representations from Transformers)の学習アルゴリズム(のうちの1つ)とよく似ています。ということは、事前学習済みのBE

    BERTで英検を解く - Qiita
  • word2vecを簡単に試してみる - Qiita

    word2vecとは? 言語モデルをもとに、単語をベクトル化して計算できるようにしたもの 学習させる言語モデルは自分で指定できる(例:NARUTOの世界観でモデルを作成するなど) 環境 mac os x jupyter notebook python 3.8.2 学習済み日語モデルを使う 今回は日語版wikipediaをもとにした学習済みモデルを使用する http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawiki_vector/ ダウンロードしたファイルを解凍する "entity_vector.model.bin"を実行環境と同じディレクトリに移動させる モデルをロードする import gensim word2vec_model = gensim.models.KeyedVectors.load_word2vec_format('./entity

    word2vecを簡単に試してみる - Qiita
  • デジタル化社会の「これからのあたりまえ」を描くカンファレンス「LINE AI DAY 2021」を開催

    デジタル化社会の「これからのあたりまえ」を描くカンファレンス「LINE AI DAY 2021」を開催AIのビジネス活用・企業におけるDX/UXLINEの最新AI技術など、全12セッションをオンラインで配信 LINE株式会社 AIカンパニー(社:東京都新宿区、カンパニーCEO:砂金 信一郎)は、LINEAI事業「LINE CLOVA」に関するカンファレンス『LINE AI DAY 2021』を7月15日(木)に開催しましたので、お知らせいたします。 イベント公式ページ:https://clova.line.me/lineaiday2021/ 「LINE AI DAY 2021」は、「これからのあたりまえ」となるデジタル化社会の未来を描くカンファレンスです。 カンファレンスでは、各業界の最前線で「これからのあたりまえ」の実現に向けて取り組むキーパーソンが多数登壇し、AIのビジネス活用

    デジタル化社会の「これからのあたりまえ」を描くカンファレンス「LINE AI DAY 2021」を開催
  • PDFをコピペするとなぜ“文字化け”が起きてしまうのか 変換テーブル“ToUnicode CMap”が原因だった

    NTT Tech Conferenceは、NTTグループのエンジニアたちが一堂に会し、NTTグループ内外のエンジニアたちと技術交流を行うためのカンファレンスです。ここで、細田氏が「PDFのコピペが文字化けするのはなぜか?〜CID/GIDと原ノ味フォント〜」をテーマに話します。まずは文字化けが起こってしまう原因について。 原ノ味フォントの作成者 細田真道氏(以下、細田):細田です。ふだんはNTTグループのどこかでDX仕事をしていますが、今日はぜんぜん仕事とは関係なく、個人的にやっているオープンソースなどの話をしたいと思います。よろしくお願いします。 簡単に自己紹介をします。楽譜を作成するプログラム「LilyPond」のコミッターと、GNUの公式文書フォーマット「Texinfo」のコミッターをしています。あとで話しますが、「原ノ味フォント」を作っていて、すごく似たような名前で「原ノ町」という

    PDFをコピペするとなぜ“文字化け”が起きてしまうのか 変換テーブル“ToUnicode CMap”が原因だった
  • テーブルデータ向けの自然言語特徴抽出術

    例としてあげるデータは全て、atmaCup#10のものです。また、この記事の内容はこちらのノートブックで実験を行っています。 データの例。'title'、'description'など自然言語を含むカラムが存在する。 参考: 自然言語処理におけるEmbeddingの方法一覧とサンプルコード Bag of Wordsベースの手法 文書をトークンの集合として扱う手法です。トークンとしてはよく単語が選ばれますが、自分でtokenizerを設定して文章を単語以外のtokenの集合として扱うこともできます。また、日語などの言語においてはトークン化が自明でないため、MeCabなどを用いてトークン化することがかなり多いです。 コラム MeCabを用いたトークン化

    テーブルデータ向けの自然言語特徴抽出術
  • 自然言語処理を理解しよう Seq2SeqからTransFormer(Attention)まで - Qiita

    書は時系列データを別の時系列データに変換するSeq2Seqについて、RNN、LSTMからAttentionまで説明します。また、Attentionを用いた最新の様々な自然言語モデルのベースとなっているTransFormerについても説明します。(CNNの基礎を理解している前提で記載しています。まだ理解していない方は別冊のCNNの基礎を先に読んでください) Seq2Seqを基礎から理解するために、書では以下の順番で説明を行います。最初に時系列データを扱うシンプルな構造であるRNN(Recurrent Neural Network)からはじめ、RNNを性能改善したLSTM(Long Shot Term Memory)、Encoder-Decoderモデル、そして書の目的であるSeq2Seqの順に説明を行います。さらにSeq2Seq に劇的な進化を起こすディープラーニングにおける重要なアー

    自然言語処理を理解しよう Seq2SeqからTransFormer(Attention)まで - Qiita
  • Center for Advanced Intelligence Project

  • LINE、NAVERと共同で、世界初、日本語に特化した超巨大言語モデルを開発 新規開発不要で、対話や翻訳などさまざまな日本語AIの生成を可能に | ニュース | LINE株式会社

    LINE、NAVERと共同で、世界初、日語に特化した超巨大言語モデルを開発 新規開発不要で、対話や翻訳などさまざまな日AIの生成を可能に 従来の特化型言語モデルとは異なる、汎用型言語モデルを実現予定。 処理インフラには世界でも有数の、700ペタフロップス以上の高性能スーパーコンピュータを活用 LINE株式会社(所在地:東京都新宿区、代表取締役社長:出澤剛)はNAVERと共同で、世界でも初めての、日語に特化した超巨大言語モデル開発と、その処理に必要なインフラ構築についての取り組みを発表いたします。 超巨大言語モデル(膨大なデータから生成された汎用言語モデル)は、AIによる、より自然な言語処理・言語表現を可能にするものです。日語に特化した超巨大言語モデル開発は、世界でも初めての試みとなります。 従来の言語モデルは、各ユースケース(Q&A、対話、等)に対して、自然言語処理エンジニアが個

    LINE、NAVERと共同で、世界初、日本語に特化した超巨大言語モデルを開発 新規開発不要で、対話や翻訳などさまざまな日本語AIの生成を可能に | ニュース | LINE株式会社
    kana0355
    kana0355 2020/11/25
    どのデータ使ったんだろう…….
  • シン・ゴジラ/全台詞 I - From the Planet with LOVE

    シン・ゴジラ / 全台詞 1 TOHO1 2 TOHO2 3 TOHO PICTURES| 4 MAIN TITLE 5 EITIN 6 Persecution of the masses (1172) / 上陸 7 ゴジラ上陸 /「ゴジラ」/ 進化|22 EM20_CH_alterna_03 / 報告 8 11174_rhythm+melody_demo / 対峙|23 EM20_CH_alterna_04 / 共闘 9 Early morning from Tokyo (short) / 報道1|24 宇宙大戦争 /「宇宙大戦争」/ ヤシオリ作戦 10 11174_light_edit_demo 索敵|25 Under a Burning Sky / 特殊建機第1小隊 11 EM20_rhythm_GZM / 組織結成|26 Under a Burning Sky / 特殊建機第2・3

    シン・ゴジラ/全台詞 I - From the Planet with LOVE
  • 例文買取センター

    買取成立した例文(基的に平日の買取業務は朝の9時台です) (買取成立日:5月5日)【支障をきたす】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日:5月5日)【支障が出る】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日:5月5日)【グローバル】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日:5月5日)【インターナショナル】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日:5月4日)【ハッカー】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日:5月4日)【クラッカー】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日:5月4日)【改良の余地】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日:5月4日)【改善の余地】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日

  • 言語処理100本ノックでPythonに入門 - Qiita

    この記事は、C言語は少しわかるけどPythonはほぼ知らない状態で、Pythonによる自然言語処理を始めたい人向けです。自然言語処理の入門として名高い言語処理100ノック2015の第1章を解けるようになる最短ルートを目指しています。 (4/8 追記 2020年版も第1章は同じです) 100ノックの解答例自体はこのQiitaでも既に多くの記事がありますが、解説はさほど充実しておらずPython初学者には大変かと思い、記事を執筆いたしました。 Pythonは公式のドキュメントがかなり親切で、チュートリアルを読めば自力で勉強できるとは思いますが、記事では100ノックを解くのに必要な事項だけ触っていきたいと思います。 インストール 頑張りましょう。MacOSなら$ brew install python3、Ubuntuなら$ sudo apt install python3.7 pyth

    言語処理100本ノックでPythonに入門 - Qiita
  • 言語処理100本ノック2020年版が公開!どこが変わったの? - Qiita

    はじめに 自然言語処理の基礎を楽しく学べる問題集として長らく親しまれてた言語処理100ノック、その2020年版が4/6に公開されました!これは5年振りの改訂です。 2015年版をやったけど興味ある人、15年版のQiita記事が役立たなくなって残念に思ってる人、15年版を途中までやってたけど20年版が出て心が折れそう、という人のために、どこが変わったのかをまとめていきます。もちろん非公式なので変更箇所の見逃し等はあるかもしれません。 改訂の概要 4/7現在、公式の更新履歴によると、次の3点が大きく変わったようです。 深層ニューラルネットワークに関する問題を追加 第8, 9, 10章が全て新規に作成された問題になっている 英語版の公開(39番まで) 40番以降も順次公開予定とのこと(著者Twitter) 旧第6章(英語テキストの処理)が英語版に移動 該当する英語版は未公開。作成中のようだ(G

    言語処理100本ノック2020年版が公開!どこが変わったの? - Qiita
  • ざっくり理解する分散表現, Attention, Self Attention, Transformer - Qiita

    Transformerで用いられているのはSelf AttentionとMulti-Head Attentionです。 co-attentionの例 : 提示した写真に関する質問をするVisual Question Answering等。 Self Attentionを用いる事で、自分自身のどの部分に注目すればよいかわかります。 例えば、以下のようなQ&Aタスクがあるとします。 「私はトムの部屋に入りました。(略)。彼の部屋を出ました。この『彼』とは誰?」 この時、文中で彼〜トムの距離が遠ければどうなってしまうでしょうか。 CNNでは畳み込めないため、「彼=トム」の情報を手に入れられません。 RNNでは距離が遠すぎるため、「部屋の主=トム」の情報を忘れてしまう可能性があります。 Self Attentionならば、彼とトム間のAttention weightを大きくする事で「彼=トム」と理

    ざっくり理解する分散表現, Attention, Self Attention, Transformer - Qiita
  • ざっくり理解する単語の分散表現(One-hot encode, word2vec, ELMo, BERT) - Qiita

    ざっくり理解する単語の分散表現(One-hot encode, word2vec, ELMo, BERT)MachineLearningDeepLearningword2vecbertELMo 自己紹介 単語の分散表現について簡単にまとめました。 自己紹介:Pythonデータ分析とかNLPとか異常検知とかしてます。 質問やツッコミなど有りましたらぜひコメント下さい! モチベーション 自然言語をコンピュータに認識させるために数値化する必要が有ります。 「文の数値表現」と「単語の数値表現」があり、今回は後者にフォーカスして紹介します。 後者のうち、1単語を低い(数百程度の)次元のベクトルで表現したものを「分散表現」といいます。 分散表現にすることで以下の効果があります。 省計算量 省メモリ 意味をエンコード可 手法によっては文脈をエンコード可(多義語を理解させられる) 用語説明 : 「自然言

    ざっくり理解する単語の分散表現(One-hot encode, word2vec, ELMo, BERT) - Qiita
  • 「クソゲー・オブ・ザ・イヤー」を一変させた『四八(仮)』ショックとはなんだったのか? “テキストの量的分析”からクソゲーの定義とレビューの変容を見る

    「クソゲー・オブ・ザ・イヤー」を一変させた『四八(仮)』ショックとはなんだったのか? “テキストの量的分析”からクソゲーの定義とレビューの変容を見る ビデオゲーム文化で「クソゲー」という極めて暴力的な単語が一般化してからどれくらいが経っただろうか。みうらじゅん氏が『いっき』に対して使ったなど起源には諸説あるが、ともかくその言葉は死滅せずに現代まで生きながらえてきた。 制作者が心血を注いで創りあげた一個のゲームという作品。それをたった一言で簡単に断罪できてしまうその言葉は、無残なほどにネガティブなパワーを持っており、ゲームメディアでは忌避すべきワードのひとつである。 しかし口をつぐんだところで、いままでプレイヤー間で何年にもわたり続いてきた「クソゲーを語る」という文化が、無かったものになるわけでもない。たった4文字でゲームを語ることができるこの魔法の言葉は、その時代や個々人の認識によって極

    「クソゲー・オブ・ザ・イヤー」を一変させた『四八(仮)』ショックとはなんだったのか? “テキストの量的分析”からクソゲーの定義とレビューの変容を見る