[B! NLP] kana0355のブックマーク

Web Captioner

Free captioning right in your browser. Web Captioner makes your event, speech, classroom lecture, or church service accessible with real-time captioning. Start Captioning Accuracy Impressively accurate speech-to-text transcription provided by the Web Speech API. Real-Time Text appears within seconds. Custom Language and Appearance Change spoken language, fonts, colors, chroma key background, text

kana0355 2022/02/07

web
NLP

リンク

在留支援のためのやさしい日本語ガイドライン | 出入国在留管理庁

このガイドラインは、出入国在留管理庁と文化庁が、共生社会実現に向けたやさしい日本語の活用を促進するため、多文化共生や日本語の有識者、外国人を支援する団体の関係者などを集めた在留支援のためのやさしい日本語ガイドラインに関する有識者会議を開催し、やさしい日本語を活用している地方公共団体や外国人の意見を聞いて作成したものです。日本に住む外国人が増え、その国籍も多様化する中で、日本に住む外国人に情報を伝えたいときに、多言語で翻訳・通訳するほか、やさしい日本語を活用することが有効です。このガイドラインは、やさしい日本語の中でも、特に書き言葉に焦点を当てたガイドラインです。お知らせなど書き言葉で情報発信をする際に、ぜひご活用ください。また、別冊のやさしい日本語書き換え例では、日本語をやさしい日本語に変換する際の一例を掲載しています。【2020年11月13日】ガイドラインの解説動画をYouT

kana0355 2022/01/22

リンク

TEC-JL コーパス - Qiita

概要 TEC-JL コーパスについて紹介します。 3行まとめ日本語学習者の文法誤り訂正システムのための評価コーパスです。（手書きの作文ではなく）キーボードから入力した作文に、最小限の訂正で文法的に正しい文になるよう、文法誤り訂正情報を付与しています。大幅な訂正も許容して、文法的に正しくかつ流暢な文にするようなコーパスを現在作成中です。いきさつ自分の所属する都立大システムデザイン学部情報科学科（およびその前身の情報通信システムコース）では、研究室配属は4年生ですが、3年生の後期に「研究室インターンシップ」として研究室に仮配属され、（研究室ごとにそれぞれ異なる）研究を体験できる、というシステムがあり、それの一環として研究をしたい（学部3年生で論文を書いてみたい）という学生に対しては、半年間研究をして論文を書いてもらい、3月の言語処理学会年次大会で発表する、ということをしています。

kana0355 2021/12/10

リンク

【超初心者向け】Pythonで顧客のアンケートデータを自然言語処理してみた｜半蔵門と調布あたりで働く、編集者のおはなし

みなさんこんにちは！FOLIOアドベントカレンダーの8日目の記事です！昨日は弊社の顧客基盤部でバックエンドエンジニアをされているmsawadyさんによる記事でした！８日目の本記事は、FOLIO金融戦略部でコンテンツの編集＆執筆をおこなっています設楽がお届けします。この記事の目的・初心者向けに、Pythonを使ったデータ分析（自然言語処理）の初歩の初歩を伝える記事。読者対象・Python初心者。データ分析初心者・アンケートとか顧客の声を分析してみたいと考えている人私ですが、普段は弊社サービスを使って頂いているユーザー様向けに、投資や資産運用に関するいろいろな記事を執筆、編集しているという、データ分析とかプログラミングとは全然関係ない業務をおこなっています。今回は、お客様から回答頂いているアンケートを使い、サービスがもっと良くなるためのヒントや、お客様がどういう点に困っていたり悩

kana0355 2021/12/08

リンク

Excelに整理した「アンケート自由記述」を分析しよう！（その1）　～様々な可視化を自動に～ - Qiita

20211130：Word-cloud記述に誤りあり、修正。はじめに過去の記事で、テキスト（自然言語）の分析や可視化を紹介しました。分析の手順としてはザっと以下のような内容です。自由記述であれ何であれ、テキスト（自然言語）をガサっとtxtテキストファイルに放り込む。「。」でセンテンスに分割。形態素分析。 WordCloud、出現語カウントグラフ、共起ネットワーク…等を描画アンケート等で得た結果を全般として把握したい場合は、上記の方法でいいですが、User単位で表形式でまとめられた形式は崩さず、満足度等の情報があればそれらも活かして分析を進めたいですね。自然言語処理は様々なサイトで紹介されていますが、なぜか不思議とテキストデータを取り込んで…というものばかり。表形式のデータを取り込み、データフレーム化して自然言語処理を進めたいということで、やってみましたという記事です。所定

kana0355 2021/11/29

リンク

Google翻訳で英語の小論文を通読、角川ドワンゴ学園がオンライン授業を無料配信　「AI時代に英語を学ぶ意味を考える」

角川ドワンゴ学園は10月25日、Google翻訳を使って英語小論文を読むことで、機械翻訳の活用法を学ぶオンライン講座を公開すると発表した。26日から2022年2月にかけ、全7回の授業をオンライン学習アプリ「N予備校」やYouTubeで無料配信する。「AIの翻訳能力が向上している時代で、英語を学ぶことの意味を考える」（同社）という。講義では、米国の外交問題評議会が発行する政治雑誌「Foreign Affairs」の小論文を活用。「最先端の海外文献をリアルタイムに読むスキルを身につける」として、Google翻訳を使い、英文を素早く読む方法を解説する。一方で「AI翻訳の限界を知り、ツールとして用いる際の注意点を学ぶことで、それを俯瞰するための英語力を習得する」として、誤訳への対応や、Google翻訳を使う必要性なども説明するという。講師は角川ドワンゴ学園に所属する英語教師、中久喜匠太郎さん

kana0355 2021/10/26

リンク

自然言語系AIサービスと著作権侵害｜知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】

第1　はじめに自然言語処理技術の発展に伴い、自然言語AIを利用したサービスが大変盛り上がっています。たとえば、検索、要約、翻訳、チャットボット、文章の自動生成、入力補完などのサービスで、近いところで有名なのは、2020年にOpenAIが発表した「GPT-3」ですかね。これは約45TBにおよぶ大規模なテキストデータを学習し、あたかも人間が書いたような文章を自動で生成することが可能な自然言語モデルです。【参考リンク】自然言語処理モデル「GPT-3」の紹介進化が止まらない自然言語処理技術ですが、事業者が自然言語AIを利用したサービス（＊ここでは、データの処理がクラウド上で自動的に行われるサービスを前提とします）を提供する際に検討しなければならないことは、大きく分けると、学習済みモデルの構築フェーズの問題と、モデルを利用したサービス提供フェーズに関する問題に分かれます。このうち、モデル

kana0355 2021/10/25

リンク

BERTで英検を解く - Qiita

英検の大問１は、短文穴埋め問題になっています。例えば、こういう問題です。 My sister usually plays tennis (　　　) Saturdays. 1. by　　2. on　　3. with　　4. at Bob (　　　) five friends to his party. 1. made　　2. visited　　3. invited　　4. spoke 文の中の隠された部分に入るものを、選択肢の中から答える問題です。文法的な判断もあれば、文脈から意味の通りが良い単語を選ぶ問題もあります。5級から1級まですべての難易度で出題される形式です。この問題形式は、BERT (Bidirectional Encoder Representations from Transf ormers)の学習アルゴリズム（のうちの１つ）とよく似ています。ということは、事前学習済みのBE

kana0355 2021/08/03

リンク

word2vecを簡単に試してみる - Qiita

word2vecとは？言語モデルをもとに、単語をベクトル化して計算できるようにしたもの学習させる言語モデルは自分で指定できる(例:NARUTOの世界観でモデルを作成するなど) 環境 mac os x jupyter notebook python 3.8.2 学習済み日本語モデルを使う今回は日本語版wikipediaをもとにした学習済みモデルを使用する http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawiki_vector/ ダウンロードしたファイルを解凍する "entity_vector.model.bin"を実行環境と同じディレクトリに移動させるモデルをロードする import gensim word2vec_model = gensim.models.KeyedVectors.load_word2vec_format('./entity

kana0355 2021/07/26

リンク

デジタル化社会の「これからのあたりまえ」を描くカンファレンス「LINE AI DAY 2021」を開催

LINE株式会社 AIカンパニー（本社：東京都新宿区、カンパニーCEO：砂金信一郎）は、LINEのAI事業「LINE CLOVA」に関するカンファレンス『LINE AI DAY 2021』を7月15日（木）に開催しましたので、お知らせいたします。イベント公式ページ：https://clova.line.me/line aiday2021/ 「LINE AI DAY 2021」は、「これからのあたりまえ」となるデジタル化社会の未来を描くカンファレンスです。本カンファレンスでは、各業界の最前線で「これからのあたりまえ」の実現に向けて取り組むキーパーソンが多数登壇し、AIのビジネス活用や企業におけるDX・CXに関する取り組み、好事例などを紹介しました。さらに、超巨大モデルをはじめとした、LINEの最新のAI 技術にフォーカスしたセッションなど、全12セッションをオンラインで配信し、多くの方にご

kana0355 2021/07/15

リンク

09 | 文章要約サービスタンテキ

kana0355 2021/07/02

リンク

再帰的ニューラルネットワークとは？自然言語処理に強いアルゴリズムの仕組み

再帰的ニューラルネットワークとは再帰的ニューラルネットワーク（Recurrent Neural Network: RNN）」は、回帰型・循環型とも呼ばれるニューラルネットワークです。このネットワークは単語に含まれる「再帰的」という言葉の意味を理解していると、その本質が理解しやすくなります。ただ、「再帰」という単語はコンピューターや数学に関わっていない人には聞き慣れないかもしれません。再帰というのは、事象の結果が原因になり得る状態を指す言葉で、一種の「ループ」をイメージすると分かりやすいでしょう。たとえば、「ニワトリは卵から生まれ卵はニワトリから生まれ、そのニワトリは卵から……」とか「ジュースを売ったお金で売ったジュースを買い戻し、そのジュースを売ったお金で……」というのは再帰的な事象と言えます。延々と続きそうな現象ですが、「ニワトリが卵を生む前に死ぬ」「お店が閉店する」といった事象が

kana0355 2021/06/14

NLP
CogLing

リンク

テーブルデータ向けの自然言語特徴抽出術

例としてあげるデータは全て、atmaCup#10のものです。また、この記事の内容はこちらのノートブックで実験を行っています。データの例。'title'、'description'など自然言語を含むカラムが存在する。参考: 自然言語処理におけるEmbeddingの方法一覧とサンプルコード Bag of Wordsベースの手法文書をトークンの集合として扱う手法です。トークンとしてはよく単語が選ばれますが、自分でtokenizerを設定して文章を単語以外のtokenの集合として扱うこともできます。また、日本語などの言語においてはトークン化が自明でないため、MeCabなどを用いてトークン化することがかなり多いです。コラム MeCabを用いたトークン化

kana0355 2021/05/07

リンク

自然言語処理を理解しよう　Seq2SeqからTransFormer(Attention)まで - Qiita

本書は時系列データを別の時系列データに変換するSeq2Seqについて、RNN、LSTMからAttentionまで説明します。また、Attentionを用いた最新の様々な自然言語モデルのベースとなっているTransF ormerについても説明します。(CNNの基礎を理解している前提で記載しています。まだ理解していない方は別冊のCNNの基礎を先に読んでください） Seq2Seqを基礎から理解するために、本書では以下の順番で説明を行います。最初に時系列データを扱うシンプルな構造であるRNN（Recurrent Neural Network）からはじめ、RNNを性能改善したLSTM（Long Shot Term Memory）、Encoder-Decoderモデル、そして本書の目的であるSeq2Seqの順に説明を行います。さらにSeq2Seq に劇的な進化を起こすディープラーニングにおける重要なアー

kana0355 2021/05/07

リンク

英文校正ツールTrinka AI | 無料で添削！論文の英文法チェックに最適

Trinkaの文法チェッカーは、単語の選択、語法、文体などの高度な文法チェックから、単語数の削減まで、包括的に英文を改善します Wordファイルの自動校正では、元の書式を保持したままの英文校正、スタイルガイドへの準拠などが可能で、変更履歴付きのファイルをダウンロードできます。原稿の言語スコアも確認いただけます。

kana0355 2021/04/14

リンク

nlp-survey

BERT後の自然言語処理についてのサーベイ

kana0355 2021/04/09

NLP
CogLing

リンク

https://ledge.ai/study-ai-math/?s=09

kana0355 2021/03/25

リンク

AIと学生に同じ課題でレポートを書かせるとどうなるか--実験結果が公開

人工知能（AI）はさまざまなことをうまくやってのける。その1つは大学の期末レポートだ。まあまあな出来だが、それでも率直に言ってすごいことだ。これは、学生と教育者のためのリソースサイトEduRefの実験結果だ。この実験は、深層学習による言語予測モデル「GPT-3」が匿名でレポートを提出し、合格点を獲得できるかどうかを明らかにするというものだ。 EduRefは「われわれは複数の教授にレポートの課題を作ってもらい、その課題を大学を卒業したばかりの人々と学生のグループ、そしてGPT-3に提示してレポートを書かせた。GPT-3のものを含むレポートを匿名で教授に提出して採点させ、レポート提出者についての考察を聞くフォローアップ調査をした」という。その結果、AIは驚くべき自然言語能力を示した。 GPT-3（Generative Pre-trained Transf ormer 3）というこのAIは、20

kana0355 2021/03/09

リンク

OpenAIが発見したScaling Lawの秘密 - ディープラーニングブログ

OpenAIはGPT-3の次の研究を始めています．世間がGPT-3のデモに湧き上がる中，OpenAIはScaling Lawに関する2本の論文をひっそりと公開しました． Scaling Lawを一言で説明するなら「Transf ormerの性能はたった3つの変数のべき乗則に支配されている」というものです． Scaling Lawはそれ単体だけなら興味深い話で終わるかもしれません．実際に英語圏でもあまり話題にあがっていません．しかし，この法則の本当の凄さに気づいている研究者もいて，なぜ話題にならないのか困惑しています． I am curious why people are not talking more about the OpenAI scaling law papers. For me, they seem very significant. What I heard so far:

kana0355 2021/01/05

リンク

【動画解説】2020年に読んだAI論文100本全部解説(俺的ベスト3付き) - Qiita

この記事は私, wataokaが1年間をかけて作り続けた超大作記事です. 総文字数は8万を超えていますので, お好みのところだけでもみていってください. ついにこの時が来ました！！！！！ 1年間書き続けたQiita記事です！！！！！ご覧下さい！！！！！https://t.co/eKBwP1zoeB — 綿岡晃輝 (@Wataoka_Koki) December 31, 2020 俺的ランキング動画での解説も挑戦してみました！ぜひぜひご覧下さい！動画のリンク第3位: Likelihood-Free Overcomplete ICA and Applications in Causal Discovery wataokaの日本語訳「尤度が必要ない過完備ICAと因果探索における応用」 - 種類: ICA - 学会: NeurIPS2019 - 日付: 20190904 - URL:

kana0355 2021/01/03

NLP
CogLing

リンク

はてなブックマーク

タグ

関連タグで絞り込む (44)

NLPに関するkana0355のブックマーク (1,751)

お知らせ

月間はてなブックマーク数ランキング（2024年4月）

今週のはてなブックマーク数ランキング（2024年4月第4週）

今週のはてなブックマーク数ランキング（2024年4月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス