[B! NLP] serihiroのブックマーク

NLPコロキウム

NLPコロキウムは自然言語処理 (NLP) および計算言語学 (CL) に関する最先端の研究・開発に取り組んでいる方をお招きするトークイベントです。研究に関する議論と交流を通じて日本人・日本語NLPコミュニティーのプレゼンスを向上させることを目的としています。

serihiro 2023/12/07

NLP

リンク

開催案内言語処理学会第30回年次大会（NLP2024）は，2024年3月11～15日の期間，5日間の日程で開催いたします．チュートリアルは3月11日午後1時に開始，本会議は3月11日午後4時半から14日午後7時までの4日間です．現在，現地とオンラインのハイブリッド開催の形態で準備を進めています．現地とオンラインの両方から参加し，発表・聴講・議論をすることができます．（ただしオンライン参加者は現地ポスター発表と交流イベントには参加できません）大会スローガンは「30年のプロンプトから未来を創造する」です．ChatGPTを始めとする大規模言語モデルの登場により，自然言語処理は前例のない激動の時代を迎えています．言語処理学会30周年を記念した節目の大会で，これまでの30年の蓄積を振り返り，この30年を「プロンプト」として，未来の自然言語処理を創造する場としたいと考えています．口頭発表では，現

serihiro 2023/12/07

NLP

リンク

GitHub - yahoojapan/JGLUE: JGLUE: Japanese General Language Understanding Evaluation

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

serihiro 2023/11/14

NLP
search

リンク

実践：形態素解析 kagome v2

形態素解析器 kagome v2 リファレンスマニュアル

serihiro 2023/10/07

リンク

言語処理100本ノック 2020 (Rev 2)

言語処理100本ノック 2020 (Rev 2) 言語処理100本ノックは，実用的でワクワクするような課題に取り組みながら，プログラミング，データ分析，研究のスキルを楽しく習得することを目指した問題集です．詳細ツイート

serihiro 2023/10/07

リンク

言語処理でよく使う前処理まとめ -tokenize, subword- - 文系と理系の交差点

言語処理を行うときの基本として，現在は文章を単語などの何らかの単位に区切り（トークナイズ (tokenize) して），それらをベクトルに落とし込んでモデルで処理することが多いです．今回はトークナイズ（単語を区切ること）にフォーカスして，それをでどの様に書くかを簡単にご紹介します．言語は主に python を使用します．目次トークナイズ日本語の場合英語の場合サブワード (Subword) BPE (Bite Pair Encoding) SentencePiece 参考トークナイズそもそもトークナイズとは，単語をトークンという単位に区切ることを指しますが，この区切り方は様々あります．よく使われるのは単語や形態素です．さらに後ほど説明するサブワード (subword) といって，単語をさらに細かく区切った表現をトークンとして扱うことや，１文字を１トークンとして分割すること（

serihiro 2023/04/29

NLP

リンク

NLTK :: Natural Language Toolkit

Natural Language Toolkit¶ NLTK is a leading platform for building Python programs to work with human language data. It provides easy-to-use interfaces to over 50 corpora and lexical resources such as WordNet, along with a suite of text processing libraries for classification, tokenization, stemming, tagging, parsing, and semantic reasoning, wrappers for industrial-strength NLP libraries, and an ac

serihiro 2023/04/29

NLP

リンク

【完全保存版】GPT を特定の目的に特化させて扱う (Fine-tuning, Prompt, Index, etc.) - Qiita

【完全保存版】GPT を特定の目的に特化させて扱う (Fine-tuning, Prompt, Index, etc.)OpenAI ChatGPTlangchainGPT-4LlamaIndex ChatGPT に代表される今日の AI ブームを牽引しているのは大規模言語モデル（Large-scale Language Model, LLM）と言っても過言ではないでしょう。LLM とは大量のテキストデータを使ってトレーニングされた自然言語処理のモデルで、代表的なものに、GPT（OpenAI）、Llama（Meta）、PaLM（Google）があります。我々開発者は、事前学習されたこれらのモデルを使って簡単にアプリケーションを作ることができます。 LLM が遂行可能な言語的タスク LLM を使って行える言語的タスクには次のような種類があります： Classification: 感情やポジ

serihiro 2023/03/31

リンク

ChatGPT�人間のフィードバックから強化学習した対話AI

東京大学の研究室内で，今井がChatGPTの知見を共有するために使用したスライド資料です．特に以下のような話題，技術について解説しています．・ChatGPTの凄さ・ChatGPTの技術・言語モデル・プロンプト・GPTとは・InstructGPT ・言語モデルと強化学習・RLFH

serihiro 2023/03/31

LLM
NLP

リンク

Wikipediaの日本語コーパスの準備｜npaka

Wikipediaの日本語コーパスを準備する方法をまとめました。 1. Wikipediaダンプファイルの取得はじめに、https://dumps.wikimedia.org/jawiki/latest/ から、Wikipediaの日本語のダンプファイル「jawiki-latest-pages-articles.xml.bz2」をダウンロードおよび解凍します。・解凍前 : jawiki-latest-pages-articles.xml.bz2 (3.2GB) ・解凍後 : jawiki-latest-pages-articles.xml : (13.47GB) 2. Wikipediaの日本語コーパスの作成 WikipediaのダンプファイルはXML形式なので、記事を抽出するツール「WikiExtractor」を使って、XMLタグを削除します。 (1) AnacondaでPython

serihiro 2023/03/29

NLP

リンク

自分のTweetを使ってSentencepieceとMeCabの分かち書きの比較を行う - Sansan Tech Blog

3行ではじめに Sentencepieceとは subwordとは Sentencepieceでの取り組み SentencepieceとMeCabの比較利用するデータセット利用したコード適当なTweetを分かち書きしてみる Tweet全部を分かち書きし、頻度順に並べてみるまとめ注釈 3行で Sentencepieceの論文概要を説明した。自身のTweetを用いて、SentencepieceとMeCabの分割点の違いを調べた。 Sentencepieceでは生文から生成された特徴的な分割が見られた。一方、今回のような少ない学習データでは上手く分割できない。はじめに Sansan DSOC 研究開発部の齋藤です。最近Sentencepieceの論文を読む機会があったので、論文の概要説明と、実際に使ってみようと思い立ちました。前半で論文の説明を行い、後半でSentencepi

serihiro 2023/03/29

NLP

リンク

大規模言語モデルの驚異と脅威

2022年11月にOpen AIが公開したChatGPTが世界で注目を集めている。一般ドメインかつ多言語で、従来のチャットボットとはレベルの異なる高品質の対話をリアルタイムに実現するサービスを（Research Preview版ではあるが）無料で提供し、検索、金融、広告、教育、法務などの広範囲な分野の転換点となり得ることは、驚異的なことである。本講演では、ChatGPTがベースにしているInstructGPTを中心に、大規模言語モデルやプロンプト、人間のフィードバックによる強化学習などの技術を概観する。また、ChatGPTのような生成型の人工知能が社会やビジネス、学術にもたらす脅威について述べる。 https://aip.riken.jp/sympo/sympo202303/

serihiro 2023/03/29

LLM
NLP

リンク

APE

Large Language Models Are Human-Level Prompt EngineersICLR 2023Yongchao Zhou*, Andrei Ioan Muresanu*, Ziwen Han*, Keiran Paster, Silviu Pitis, Harris Chan, Jimmy Ba[ ArXiv | GitHub | Colab | Demo ] By conditioning on natural language instructions, large language models (LLMs) have displayed impressive capabilities as general-purpose computers. However, task performance depends significantly on th

serihiro 2023/03/27

paper
NLP

リンク

日本語Alpacaデータを用いてJapanese-Alpaca-LoRAを作ったので公開します【期間限定デモページあり】｜kun1emon

⚠️注意今回公開するのはLoRAを用いて作成したLLaMAの日本語化Adapterでありモデル自体ではありません。 LoRAをマージするベースのLLaMAは商用不可であり、今回公開するAdapterで日本語化したモデルも商用利用はできません。 OpneAIの利用規約で、OpenAIサービス、ChatGPTの出力結果を競合モデル開発用途に利用することはできませんコンテンツ生成者はできません。詳細は記事後半で述べていますが利用規約が適用されるのはコンテンツ生成者までです。概要2022年の11月末にOpenAIからChatGPTが発表されてから、それに追随するようにGoogleからBard、MetaからLLaMAなど大規模言語モデル（LLM）が発表されました。さらにLLaMA 7Bを「text-davinci-003」を用いて「Self-Instruct」で作成された52Kのデータセット（

serihiro 2023/03/27

NLP
LLM

リンク

GitHub - BlinkDL/RWKV-LM: RWKV is an RNN with transformer-level LLM performance. It can be directly trained like a GPT (parallelizable). So it's combining the best of RNN and transformer - great performance, fast inference, saves VRAM, fast training, "inf

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

serihiro 2023/03/24

RNN
NLP

リンク

日本語 Wikipedia エンティティベクトル

お知らせ (2018/09/24) 最新版の訓練済みベクトルと訓練用のスクリプトは GitHub で公開しています。概要「日本語 Wikipedia エンティティベクトル」は、日本語版 Wikipedia の本文全文から学習した、単語、および Wikipedia で記事となっているエンティティの分散表現ベクトルです。Wikipedia の記事本文の抽出には WikiExtractor を、単語分割には MeCab を、単語ベクトルの学習には word2vec をそれぞれ用いています。ダウンロード 20170201.tar.bz2 (2017年2月1日版, 1.3GB, 解凍後 2.6GB) 20161101.tar.bz2 (2016年11月1日版, 1.3GB, 解凍後 2.6GB) バイナリファイル (entity_vector.model.bin) とテキストファイル (ent

serihiro 2023/03/23

NLP

リンク

Alpaca-loraを日本語タスクでファインチューニングする - Qiita

Alpaca-LoRAという家庭用GPUでも大規模言語モデルのFineTuningが可能なモデルが発表されました。本記事では、livedoorニュースコーパスを使用してAlpaca-LoRAをFineTuningしてニュースのタイトルを考えさせるというタスクに挑戦してみます。技術の概要 Alpacaとは Alpacaとは、先日Metaが発表したLLaMa 7Bをtext-davinci-003によるself-instructで生成されたデータを使用してFineTuningした言語モデル。生成したデータは52K個で生成コストは500ドル以下と低コストです。人間による予備評価では7Bという比較的小さなモデルにも関わらず、text-davinci-003に似た挙動を示すという報告があげられています。 Alpaca-LoRAとは Alpaca-LoRAとはAlpacaで作成したデータセット

serihiro 2023/03/23

NLP
Alpaca

リンク

Alpaca まとめ｜npaka

「Alpaca」の学習方法について軽くまとめました。 1. Alpaca「Alpaca」は、「LLaMA 7B」(Meta)をファインチューニングした言語モデルです。「text-davinci-003」による「self-instruct」で生成された52Kの命令追従型の学習データを使って学習しています。「Alpaca」はOpenAIの「text-davinci-003」に似た挙動を示しますが、驚くほど小さく再現が容易で安価であることが特徴です。また、「Alpaca」は学術研究のみを目的としており、商用利用は禁止しています。 2. 学習済み言語モデルと学習データアカデミックな予算で高品質な言語モデルを学習させるためには、「強力な学習済み言語モデル」と「高品質な学習データ」が必要です。 1つ目は、最近リリースされたMetaの「LLaMA」で解決されます。2つ目は、「self-instru

serihiro 2023/03/23

NLP
LLM

リンク

【図解】誰でもわかるTransformer入門！凄さ・仕組みをわかりやすく解説 - すえつぐのNLP&LLM

始めにこんにちは！自然言語処理（NLP）・自然言語生成（NLG）の解説記事を書いている、すえつぐです！突然ですが、BERT、GPT-3、PaLMを使ったことはありますか？Transf ormerはこれらの最先端のモデルに使用されている、現代のNLPモデルには欠かせないモデルです。おそらくBERTやGPT-3でTransf ormerを知った、このページに来たという人も多いのではないでしょうか。機械学習、特にNLPの勉強をしている方々は、Transf ormerの概要は知っておいた方が良いと思います。ただ多くのサイトは、いきなり細かい仕組みの解説をする中級者以上向けの記事が多いですよね。そこで、このページでは、Transf ormerの入門〜中級までの解説をしていきます！まず入門として、「Transf ormerの使い道」「Transf ormerの何が凄いのか？」を先に解説します。その上で「T