並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 1277件

新着順 人気順

自然言語処理の検索結果1 - 40 件 / 1277件

  • Python による日本語自然言語処理

    はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも

    • 258億語の日本語コーパスをウェブで公開~国立国語研究所 言語研究や自然言語処理技術開発での基礎資料

        258億語の日本語コーパスをウェブで公開~国立国語研究所 言語研究や自然言語処理技術開発での基礎資料
      • 自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ!

        概要 この記事は自然言語処理という分野の最新手法word2vec を利用して誰でも遊べるようにするための手順を説明するものです。 word2vecを利用すると意味の計算が実現できます。 例えば"king"から"man"を引いて"woman"を足すと"queen"が出てきたり、 "東京"から"日本"を引いて"フランス"を足すと"パリ"が出てくるという面白い手法です。 自然言語処理とは人間が日常的に用いる自然言語をコンピュータに処理させ、 翻訳や要約、文字入力支援や質問応答システムを作るなどに活用されている分野です。 自然言語処理と言うと耳慣れない言葉かもしれませんが、 実は検索や推薦などで私たちが日常的に利用しているなじみ深い技術でもあります。 自然言語処理の適用範囲や要素技術は幅広いのですが、 その中でもword2vecの特色は、 冒頭でも挙げたように「意味の計算」が出来ることです。 これ

          自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ!
        • 入門 自然言語処理を禁書にすべき10の理由 | TRIVIAL TECHNOLOGIES on CLOUD

          みんなのIoT/みんなのPythonの著者。二子玉近く160平米の庭付き一戸建てに嫁/息子/娘/わんこと暮らしてます。月間1000万PV/150万UUのWebサービス運営中。 免責事項 プライバシーポリシー 「入門 自然言語処理」はヤバい書籍なので禁書にすべきだ。 タイトルは釣りじゃない。その理由を10個挙げる。 自然言語処理のかなり基本的なことからそこそこ高度なことについて解説されてあり,自然言語処理について理解が深まり過ぎる ボリュームがあるのに書き方が平易でついつい読みふけってしまう 演習問題があり,自分の理解度を確かめられたりするのもケシカラン 原著は欧米語のための言語処理について書かれた書籍なのに,日本語の形態素解析などについても解説してあって我慢できない 必要ライブラリのインストールなど環境構築に時間が取られそうでヤバい 書籍の応用でBotとか人工無能とか作ったらどうかな−,と

          • 東京大学深層学習(Deep Learning基礎講座2022)深層学習と自然言語処理

            東京大学深層学習(Deep Learning基礎講座2022)https://deeplearning.jp/lectures/dlb2022/ 「深層学習と自然言語処理」の講義資料です。

              東京大学深層学習(Deep Learning基礎講座2022)深層学習と自然言語処理
            • 自然言語処理における前処理の種類とその威力 - Qiita

              自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグ や JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。 出典: Deep learning for computational biology 本記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。 前処理の種類と実装 この節では以下に示す5つ

                自然言語処理における前処理の種類とその威力 - Qiita
              • Python自然言語処理テクニック集【基礎編】

                自分がよく使用する日本語自然言語処理のテンプレをまとめたものです。 主に自分でコピペして使う用にまとめたものですが、みなさんのお役に立てれば幸いです。 環境はPython3系、Google Colaboratory(Ubuntu)で動作確認しています。 Pythonの標準機能とpipで容易にインストールできるライブラリに限定しています。 機械学習、ディープラーニングは出てきません!テキストデータの前処理が中心です。 前処理系 大文字小文字 日本語のテキストにも英語が出てくることはあるので。 s = "Youmou" print(s.upper()) # YOUMOU print(s.lower()) # youmou 全角半角 日本語だとこちらのほうが大事。 全角半角変換のライブラリはいくつかありますが、自分はjaconv派。 MIT Licenseで利用可能です。 import jaco

                • Python による日本語自然言語処理

                  はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも

                  • 自然言語処理技術を用いたはてなブックマークの新機能「トピック」をベータリリースしました - はてなブックマーク開発ブログ

                    こんにちは、はてなブックマークのディレクター id:jusei です。本日、はてなブックマークの新機能「トピック」をベータリリースしました。現在はPC版でのみご利用いただけます。スマートフォン版、iOSアプリ、Androidアプリでは順次対応していきます。 新機能「トピック」では、「人気エントリー」に掲載されている記事の中から関連性の高い記事をまとめ、さらにそれ以外の関連エントリーも含めて一覧できる「トピックページ」を生成します。各トピックの見出しは、自然言語処理技術を用いて自動生成しております。トピックページの生成対象は、過去10年間に蓄積されたはてなブックマークの全エントリーです。 2015年1月のトピック2005年2月のトピック トピックページには、ユーザーの皆さまの間で多く話題になっている記事を抜粋して表示する「ハイライト」、すべての記事を表示する「新着」の2つの表示モードがありま

                      自然言語処理技術を用いたはてなブックマークの新機能「トピック」をベータリリースしました - はてなブックマーク開発ブログ
                    • 自然言語処理をサービスで活用しよう! Sansanに学ぶ「多種多様なテキスト」からのデータ分析|ハイクラス転職・求人情報サイト AMBI(アンビ)

                      自然言語処理をサービスで活用しよう! Sansanに学ぶ「多種多様なテキスト」からのデータ分析 自然言語処理をサービスに投入し、“できること”とは?名刺管理サービス「Sansan」を提供するSansan社では、名刺に記載された情報のデータ化において、自然言語処理を徹底的に活用しています。同社のデータ統括部門DSOCで日夜研究を続ける奥田裕樹さんと高橋寛治さんの2人に、サービスの裏で動く、自然言語処理のユースケースを語っていただきました。 名前や企業名、電話番号、メールアドレス──。名刺のなかには、重要な個人情報がテキストの形で記載されています。 そういった情報や企業のWebページ情報などを解析し、ユーザーに有効活用してもらうべく研究開発を続けているのが、法人向けクラウド名刺管理サービス「Sansan」や個人向け名刺アプリ「Eight」を提供するSansan株式会社です。同社はいわば、日本で

                        自然言語処理をサービスで活用しよう! Sansanに学ぶ「多種多様なテキスト」からのデータ分析|ハイクラス転職・求人情報サイト AMBI(アンビ)
                      • 自然言語処理

                        • 東大松尾研究室、無料でディープラーニングや自然言語処理を学べる講座開講 松尾豊氏が講師を務める講座も | Ledge.ai

                          TOP > Article Theme > AI(人工知能)ニュース > 東大松尾研究室、無料でディープラーニングや自然言語処理を学べる講座開講 松尾豊氏が講師を務める講座も 東京大学 松尾研究室は1月29日から、無料でディープラーニング(深層学習)や自然言語処理について学べる、短期間のオンライン講座の受講者を募集している。対象は学生(大学院、大学、高専、専門学校生、高校、中学など)。募集は2月8日(月)の10時00分まで。選考結果は2月15日(月)までに受講決定者にメールで連絡する。 今回、募集しているオンライン講座は「スプリングセミナー2021:深層強化学習」「プリングセミナー2021:深層生成モデル」「プリングセミナー2021:Deep Learning for NLP講座」の3つ。なお、人工知能(AI)研究の第一人者で、東京大学 松尾研究室を率いる松尾豊氏は企画・監修だけではなく、

                            東大松尾研究室、無料でディープラーニングや自然言語処理を学べる講座開講 松尾豊氏が講師を務める講座も | Ledge.ai
                          • 自然言語処理ってなに?課題は? 研究者に聞く、エンジニアが学術論文を読み解くための技術 - エンジニアHub|若手Webエンジニアのキャリアを考える!

                            自然言語処理ってなに?課題は? 研究者に聞く、エンジニアが学術論文を読み解くための技術 多くのサービスに実装される自然言語処理ですが、そもそも一体どのような技術なのでしょうか?東京工業大学で研究にあたる、西川 仁助教に自然言語処理の歴史と現在。そしてどのような課題があるかをうかがい、さらにエンジニアが学術論文を読み解き、役立つ情報を手にするための手法も聞きました。 技術に関する最新の情報を得るための手段は様々ですが、“学術論文を読む”とは、その有力な手段の一つでしょう。しかし、数多くある論文から、自分の目的とする情報をいかに探し出し、いかに読むのが効率的なのでしょうか。そして、日頃から論文にふれる機会の多い研究者の方はどのように論文から情報収集を読み解いているのでしょうか。 今回お話をうかがったのは、自然言語処理研究のフロントランナーとして、東京工業大学に所属し、自動要約の研究をされている

                              自然言語処理ってなに?課題は? 研究者に聞く、エンジニアが学術論文を読み解くための技術 - エンジニアHub|若手Webエンジニアのキャリアを考える!
                            • 自然言語処理の前処理・素性いろいろ - Debug me

                              ちゃお・・・† 舞い降り・・・† 先日、前処理大全という本を読んで自分なりに何か書きたいなと思ったので、今回は自然言語処理の前処理とそのついでに素性の作り方をPythonコードとともに列挙したいと思います。必ずしも全部やる必要はないので目的に合わせて適宜使ってください。 前処理大全[データ分析のためのSQL/R/Python実践テクニック] 作者:本橋 智光技術評論社Amazon 前処理 余分な改行やスペースなどを除去 with open(path) as fd: for line in fd: line = line.rstrip() アルファベットの小文字化 text = text.lower() 正規化 (半角/全角変換などなど) import neologdn neologdn.normalize('ハンカクカナ') # => 'ハンカクカナ' neologdn.normalize

                                自然言語処理の前処理・素性いろいろ - Debug me
                              • ChatGPT と自然言語処理 / 言語の意味の計算と最適輸送

                                「Workshop OT 2023 最適輸送とその周辺 – 機械学習から熱力学的最適化まで」で用いたスライドです

                                  ChatGPT と自然言語処理 / 言語の意味の計算と最適輸送
                                • 自然言語処理における畳み込みニューラルネットワークを理解する · けんごのお屋敷

                                  最近、畳み込みニューラルネットワークを使ったテキスト分類の実験をしていて、知見が溜まってきたのでそれについて何か記事を書こうと思っていた時に、こんな記事をみつけました。 http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp 畳み込みニューラルネットワークを自然言語処理に適用する話なのですが、この記事、個人的にわかりやすいなと思ったので、著者に許可をもらって日本語に翻訳しました。なお、この記事を読むにあたっては、ニューラルネットワークに関する基礎知識程度は必要かと思われます。 ※日本語としてよりわかりやすく自然になるように、原文を直訳していない箇所もいくつかありますのでご了承ください。翻訳の致命的なミスなどありましたら、Twitterなどで指摘いただければすみやかに修正します。 以下

                                    自然言語処理における畳み込みニューラルネットワークを理解する · けんごのお屋敷
                                  • 自然言語処理と深層学習の最先端

                                    第4回 JustTechTalk の発表資料

                                      自然言語処理と深層学習の最先端
                                    • 自然言語処理を活用したwebサービスをつくるときに参考になる5冊の書籍 - EchizenBlog-Zwei

                                      自然言語処理を活用したwebサービス開発に関わって5年以上経った。いい機会なのでこれまでを振り返って役に立ったと思う5冊をメモしておく。 1.珠玉のプログラミング―本質を見抜いたアルゴリズムとデータ構造 まずはこれ。有名な本なので知っている人も多いと思う。簡単に説明するとちょっと前に「フェルミ推定」という名前で流行ったような、データから必要な数値を概算する方法や、問題が起きたときに問題点がどこにあるのか?最小の労力で解決するにはどこをいじればよいのか?などが書いてある。「webサービスで自然言語処理だ!」というと無限に夢が広がりがちなので、どういうデータが使えるのか、それをどういう形にもっていけばイケてるサービスになるのか、それはどのくらいの期間で実現できるか、ということを考える必要がある。そういうわけで本書は真っ先に読むべき一冊なのでは(余談だけれど、以前M << Nなデータに対してO(

                                        自然言語処理を活用したwebサービスをつくるときに参考になる5冊の書籍 - EchizenBlog-Zwei
                                      • 自然言語処理は Python がいちばん - 武蔵野日記

                                        現在大学1年生の人で3年後には NAIST に (というか松本研に) 来たいという人から「どんなプログラミング言語やっておくといいですか」と質問されたりするのだが、なかなか答えるのは難しい。自分は Perl → Python がメインでときどき C++/C# を使ったりするのだが、どれが一番いいかはなんとも言えないので、自然言語処理以外に転向する可能性も考えると、C とか C++ とか Java とか(授業でそちらをやるのであれば)を最初の武器に選んだ方がいいのでは、と思ってはいる。 そんなこんなで最近 Hal Daume III (機械学習を用いた自然言語処理では非常に有名な人) のブログで Language of Choice というタイムリーなエントリーが出ていたので、紹介すると、「それなりに大きな自然言語処理のプロジェクトでどのプログラミング言語を使うのか」というアンケート結果が出

                                          自然言語処理は Python がいちばん - 武蔵野日記
                                        • ついに明かされる「りんな」の“脳内” マイクロソフト、「女子高生AI」の自然言語処理アルゴリズムを公開

                                          日本マイクロソフトは都内で開いた開発者向けイベント「de:code 2016」で、同社が独自に開発する“女子高生AI”「りんな」の自然言語処理アルゴリズムの詳細を語った。りんなのアルゴリズムのキモは「ランク付け」だという。自然な“女子高生らしさ”を生み出している秘密とは? りんなは2015年7月にLINEアカウントとして登場し、同年12月にはTwitterアカウントも開設。「マジで?!やば!」など“日本の女子高生”をイメージした受け答えができるのが特徴で、現在LINEとTwitterを合わせて340万人以上のユーザーと会話しているという。 Microsoftが開発しているAIとして「Cortana」がよく引き合いに出されるが、Cortanaのコンセプトが「Productivity」(生産性向上)であるのに対し、りんなのコンセプトは「Emotional」(感情的)。例えば、「明日晴れるかなぁ

                                            ついに明かされる「りんな」の“脳内” マイクロソフト、「女子高生AI」の自然言語処理アルゴリズムを公開
                                          • 自然言語処理に新風を巻き起こしたWord2Vecとは何か - 日経BigData

                                            言語データの分析と応用のために自然言語処理と呼ばれる分野で長年研究が行われて来た。同分野が昨年から大きく沸き立っている。米グーグルの研究者であるトマス・ミコロフ氏らが提案した手法「Word2Vec」が、いくつかの問題について従来のアルゴリズムよりも飛躍的な精度向上を可能にしたのだ。 この手法によって得られるベクトル空間には、今まで定量的に捉えることの難しかった言葉の「意味」を極めて直接的に表現しているかのような性質が認められている。今年9月、当社がスポンサー参加した自然言語処理系の研究発表会「NLP若手の会 第9回シンポジウム」でも、多くの研究がWord2Vecに関連したテーマについて取り上げていた。今後、意味解析、文書分類、機械翻訳など様々な分野でWord2Vecの応用が期待されている。 「意味ベクトル」の驚異的な性質 Word2Vecは、その名前の表す通り、単語をベクトル化して表現する

                                              自然言語処理に新風を巻き起こしたWord2Vecとは何か - 日経BigData
                                            • 自然言語処理を自習したくなったら参考になりそうなサイトなど - 鴨川にあこがれる日々

                                              雑にですが,知ってるサイトやチュートリアルをまとめたくなったのでまとめてみました.夏ですし. 適宜更新しています. 最終更新 2018年02月03日 チュートリアル 言語処理100本ノック 言語処理100本ノック 2015 東工大の岡崎先生が作られたチュートリアルです. 他大学の研究室でも利用されています. 簡単な内容からはじまるので,プログラミングの導入としてもいいと思います. NLPプログラミングチュートリアル Graham Neubig's Teaching Carnegie Mellon UniversityのGraham Neubig先生のチュートリアルです. Githubにサンプルコードが公開されています. 各チュートリアルにはテストがついているので,実装が正しいかを確かめることができます. 扱っているトピックが広いので,かなり勉強になると思います. ソフト 形態素解析器 日本

                                                自然言語処理を自習したくなったら参考になりそうなサイトなど - 鴨川にあこがれる日々
                                              • 都立大 自然言語処理研究室 - 自然言語処理を学ぶ推薦書籍

                                                自然言語処理を学ぶ推薦書籍を紹介します。2021年03月現在、自然言語処理を勉強したい理工系の学生・エンジニアの人は、以下の本を推薦します。 (概要)自然言語処理(放送大学出版) (理論)言語処理のための機械学習入門+深層学習による自然言語処理 (実装)Python 機械学習プログラミング 第3版 自然言語処理を勉強したい、非理工系・非エンジニアの人には、以下の本を推薦します。 (数式なし)自然言語処理の基本と技術 (数式あり)自然言語処理(放送大学出版) オライリーから出ている「入門 自然言語処理」は特殊な本(詳しい人がこれを使ってレクチャーしてくれるならともかく、独習に向いていない)で、Python 2 で書かれているだけでなく、すでに動かなくなったコードも多々あり、2019年時点では読まない方がいい本です。(それでもどうしても、意地でも読みたい人は、本家にある Python 3 対応

                                                • 『自然言語処理の基本と技術』が面白い! - toricago

                                                  スマートスピーカーが日本で急速な普及を迎えている。Amazon Echo、Google Home、LINE WAVEなどを購入し、スマートスピーカーの様々可能性を楽しんでいる読者も多いかもしれない。何かを話しかけることで、アラーム・ストップウォッチ設定やLINEメッセージの読み上げなど、何らかのタスクを実行してくれたり、天気や時間、さらにはニュースなどの情報を提供してくれたり、簡単な会話を楽しむこともできる。 今まで慣れ親しんできたPCのキーボードやスマホのタッチインターフェースとは異なる「音声インターフェース」は新鮮に感じるが、背景では様々な技術が動いている。入り口は声を認識する音声認識だが、その次のステップでは認識した文字列を文章として理解し、スピーカー側として何を実行すればよいのか判断しなければならない。何かを聞かれているのであれば、どのように返答すべきかを考えなければならない。この

                                                    『自然言語処理の基本と技術』が面白い! - toricago
                                                  • Perl で自然言語処理

                                                    これから自然言語処理を業務でやってみようとしている技術者を対象にしています。 前半は自然言語処理や学習方法について述べており、後半はWebサービスに適用しやすい自然言語処理技術について述べています。Read less

                                                      Perl で自然言語処理
                                                    • 自然言語処理にはやっぱりPythonがいちばん - nokunoの日記

                                                      Quoraで「自然言語処理に適したプログラミング言語はどれか?」という質問をしたところ,やっぱりPythonが一番人気のようです.What programming language is suitable for natural language processing? - Quora理由として以下が挙げられていますNLTKがあるから正規表現ライブラリ(re)が強力だからnumpyとscipyがあるから スクレイピングにBeautifulSoupやScrape.pyが使えるから Django / Pylons / TornadoのようなWebフレームワークがあるから また,機械学習のライブラリを言語別にまとめた質問もありました.こちらもJava, Python, Rが多いですね.Which programming language has the best repository of ma

                                                      • twitterで自然言語処理 - Preferred Networks Research & Development

                                                        勢い余ってスイカを買ったら、毎日食べるハメになってしまいました。海野です。 どんな業界もそうだと思いますが、世の中の流行りものの論文が増えるという面が自然言語処理界隈にもあります。Web、blog、と来て、最近のトレンドはやはりtwitterに代表されるmicro blogでしょうか。今年の言語処理学会の年次大会でtwitterセッションは大盛況でしたが、国際会議でもtwitterを題材として発表が増えています。 数えてみたら、重要国際会議であるACLで6件、EMNLPでも3件、twitterをタイトルに含む発表が今年ありました。ちなみに2010年の会議では1件もありませんでした。そんなわけで、私も今日はそんな流行りに乗っかって、twitter言語処理関連の論文を3つ紹介します。 Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! UsingWord

                                                          twitterで自然言語処理 - Preferred Networks Research & Development
                                                        • DO++: 機械学習による自然言語処理チュートリアル

                                                          自然言語処理のときに使う機械学習手法のテクニックをざーっと2時間程度で紹介してほしいとのことだったので今日話してきました。基本的に、そんなに頑張らなくても効果が大きいものを中心に説明(特にパーセプトロンとか)を説明してます。 紹介した手法はパーセプトロン、最大エントロピー、正則化、多クラス分類、系列分類(CRF, Structured Perceptron)などなどです。どれも一かじりする感じで網羅的に見る方を優先してます。個々の詳しい話はそれぞれの文献や実装などを当たってみてください。 スライド [ppt] [pdf] ここで話しているのは線形識別モデルの教師有り学習が中心で教師無し学習(クラスタリングなど)など他の自然言語処理を支える技術は省いてます。 こういうのを使って(使わなくてもいいけど)どんどんアプリケーション作らないといかんね。 Tarot is not used to ma

                                                            DO++: 機械学習による自然言語処理チュートリアル
                                                          • Python による日本語自然言語処理 〜系列ラベリングによる実世界テキスト分析〜 / PyCon JP 2019

                                                            PyCon JP 2019 での発表スライドです。 GitHub: https://github.com/taishi-i/nagisa-tutorial-pycon2019

                                                              Python による日本語自然言語処理 〜系列ラベリングによる実世界テキスト分析〜 / PyCon JP 2019
                                                            • 自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記

                                                              Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。 この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体本文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非

                                                                自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記
                                                              • りんなシステム図 | 「りんな」が言葉を紡ぐ裏には、最新の自然言語処理技術があった - INTERNET Watch

                                                                  りんなシステム図 | 「りんな」が言葉を紡ぐ裏には、最新の自然言語処理技術があった - INTERNET Watch
                                                                • Pythonで始める自然言語処理の基礎の基礎 | クリエイターのための総合情報サイト CREATIVE VILLAGE

                                                                  PythonはAIや機械学習領域のライブラリを豊富に持っており、近年非常に高い人気を誇っています。今回はPythonを使用して自然言語(人間が読み書きする言語)を処理する方法ご紹介します。 近年、自然言語処理の領域は急速に発展しており、機械翻訳(英語から日本語の翻訳等)の精度も年々向上しています。今回はその自然言語処理の基礎の基礎の部分をお伝えし、Pythonで処理する方法をご紹介いたします。 合田 寛都(ごうだ・かんと) 株式会社メンバーズ メンバーズデータアドベンチャー データアナリスト メンバーズに新卒入社後大手企業のWEBサイト運用やアクセス解析等に従事。メンバーズデータアドベンチャーに異動し、クライアント企業にデータアナリストとして常駐。 自然言語とは? 自然言語とは人間が日常的に読み書きする、所謂普通の言語のことを指します。これと対比されるのが機械語やプログラミング言語で、Py

                                                                    Pythonで始める自然言語処理の基礎の基礎 | クリエイターのための総合情報サイト CREATIVE VILLAGE
                                                                  • word2vecによる自然言語処理

                                                                    Tomas Mikolovらによって提案されたニューラルネットワーク(CBOW, Skip-gram)のオープンソース実装word2vecについて、基本的な使い方を体験し、さらにその仕組みを学ぶ書籍です。 基本的な使い方から、自分の好きなコーパスの作り方、登場の背景、仕組み、さらには応用例や弱点についてもコンパクトなボリュームで概観できます。付録にはword2vecの出力結果を主成分分析を使って可視化する方法について解説しています。 著者の西尾さんによる本書の解題[リンク] はじめに 1章 word2vecを使ってみる 書き換えてみよう 2章 コーパスを変えてみる text8 単語に分割する(MeCab) CSVからのコーパス作成 Facebook EPWING Wikipedia PDFからの抜き出し まとめ 3章 word2vecの生まれた理由 文章の表現 4章 word2vecの仕組

                                                                      word2vecによる自然言語処理
                                                                    • 自然言語処理まわりのDeep Learningを自分なりにまとめてみた — KiyuHub

                                                                      自然言語処理まわりのDeep Learningを自分なりにまとめてみた “自然言語処理のためのDeep Learning”というスライドを公開しました. 自然言語処理のためのDeep Learning from Yuta Kikuchi カジュアルな感じで自然言語処理まわりのDeep Learningの話題をまとめた感じになっています. きっかけは,勉強会をしていることを知ったOBのbeatinaniwaさんにお願いされたことで, 株式会社Gunosyの勉強会の場で,発表の機会を頂きました. それが,9/11で,その後9/26に研究室内で同じ内容で発表しました. どちらも思った以上に好評を頂け,公開してはと進めて頂いたので,公開することにしました. もちろん間違いが含まれている可能性も多分にあるので.気づいた方はご指摘頂けると幸いです. 内容ざっくり 前半は,ニューラルネットワークを図を使

                                                                      • 『ポートピア連続殺人事件』にAIを搭載した技術デモが4月24日にPC(Steam)で無料配信決定。現在のNLP(自然言語処理)とはどのようなものかを体験できる内容に

                                                                        スクウェア・エニックスは4月24日(月)にNLP(自然言語処理)アドベンチャー『SQUARE ENIX AI Tech Preview: THE PORTOPIA SERIAL MURDER CASE』を公開すると発表した。プラットフォームはPC(Steam)となり、価格は無料で配信される。 本作は1983年に当時のエニックスから発売されたアドベンチャーゲーム『ポートピア連続殺人事件』を題材に、AI技術のひとつ「自然言語処理」という技術を構成する「自然言語理解(NLU)」について体験できるソフトウェアと位置付けられている。 原作の『ポートピア連続殺人事件』当時のアドベンチャーゲームはコマンド入力式と呼ばれ、プレイヤーが自由に文字列を入力することでキャラクターの行動を決定し、物語を進めていくというシステムだった。 この方法はプレイヤーに大きな自由度を与えられる一方で、とるべき行動が分かってい

                                                                          『ポートピア連続殺人事件』にAIを搭載した技術デモが4月24日にPC(Steam)で無料配信決定。現在のNLP(自然言語処理)とはどのようなものかを体験できる内容に
                                                                        • 統計的自然言語処理エンジンStaKK - nokunoの日記

                                                                          統計的自然言語処理エンジンStaKK を開発しました。nokuno’s stakk at master - GitHub 以下、READMEからの引用です。 現在の機能 かな漢字変換 予測変換 または サジェスト スペル訂正 形態素解析 HTTPによるAPIサーバ Trieの直接操作現在は、StaKK は辞書として Mozc (Google日本語入力のOSS版)のデータを使っています。 リバースモードについてStaKK はノーマルモードとリバースモードの2つのモードを持っています。 ノーマルモードでは、かなを入力し、単語(主に漢字)を出力します。 リバースモードでは、単語を入力し、読みや品詞を出力します。これらの2つのモードの応用例をまとめると、次の表のようになります。 機能 ノーマルモード リバースモード Convert かな漢字変換 形態素解析 Predict 予測変換 検索ワードのサ

                                                                          • 講義まとめ:自然言語処理のための深層学習(CS224d) - Qiita

                                                                            CS224d(自然言語処理のための深層学習)はスタンフォード大のRichard Socherが2015年から教えている講義で、動画やスライドなどの講義資料と演習問題がウェブ上で無料で公開されています。 CS224d: Deep Learning for Natural Language Processing 会社の勉強会で週1回半年程度かけて講義動画と演習を終えたため、勉強したことを簡単にまとめてみたいと思います。 なぜ今なのか? 深層学習(Deep Learning)は2000年代後半のRBMやauto-encoderなどの教師なし学習から流行が始まりましたが、それらを教師あり学習の事前学習に使うアプローチは徐々に衰退し、2010年代前半には画像認識のための畳み込みネットワークがImageNetコンテストのおかげで爆発的に有名になりました。詳しくありませんが音声認識の分野でも既存の複雑な

                                                                              講義まとめ:自然言語処理のための深層学習(CS224d) - Qiita
                                                                            • スタンフォード大学の自然言語処理(NLP)の授業公開っぷりがとてつもない件 - Unchained Life

                                                                              以前からMITのOCWを中心にアメリカの大学の授業のビデオや資料などが公開されているのは知っていたが、今日知ったスタンフォード大学の授業公開っぷりがものすごい。 http://see.stanford.edu/SEE/lecturelist.aspx?coll=63480b48-8819-4efd-8412-263f1a472f5a 授業のビデオだけではなく、なんと授業のtranscript、つまり授業中に先生がしゃべったことがテキストに書き起こされているのだ。 MITなどでも授業のビデオは公開されていたが、当然授業の内容を理解するには授業資料がある場合にせよ、何をしゃべっているかを自分で聞き取るほか無く、リスニング力が低い僕には結構ネックだった。 それが今回しゃべる内容がテキストになっているということで聞き取れなくてもテキストを見ればよいし、リスニングの勉強にもなる。 しかも公開されてい

                                                                                スタンフォード大学の自然言語処理(NLP)の授業公開っぷりがとてつもない件 - Unchained Life
                                                                              • 日本語で読める自然言語処理のチュートリアルスライドまとめ

                                                                                先日、自然言語処理の講演などをしていたときに、そもそも私なんかが話すよりも公開されているチュートリアルスライドを集めたほうが有用なんではないかと思い立って、これから自然言語処理を学びたい人や、ちょっと新しい分野を知りたい人向けに、日本語で読めるチュートリアルスライドを分野別にまとめてみました。 主に、学会のチュートリアルや招待講演、それから研究者の方のWebページなどを参照しながら作りました。 自然言語処理全般系の資料や、少し境界的なテーマは入っていません。 また、ぱっと読めるスライドだけにしています。 幾つか手前味噌な資料も載せてます・・。 頑張って集めてみましたが、思ったほど集まりませんでした。 作っていてわかったのですが、意外とスライドを公開している人は少ないようです。 埋もれてしまうのはもったいないですね。 いずれ、英語で読めるスライドを集めてみようと思います。 そっちはそっちで、

                                                                                • 深層学習による自然言語処理 - RNN, LSTM, ニューラル機械翻訳の理論

                                                                                  本稿ではニューラルネットワーク,誤差逆伝播法,言語モデル,RNN,LSTM,ニューラル機械翻訳の一連の手法について数理的に解説する. 前編の目次 ニューラルネットワーク 順伝播 (Forwardpropagation) 逆伝播 (Backpropagation) リカレントニューラルネットワーク (RNN) Recurrent Neural Network Language Model (RNNLM) Backpropagation Through Time (BPTT) Long Short-Term Memory (LSTM) Gated Recurrent Unit (GRU) RNN のドロップアウトとバッチ正規化 ニューラル機械翻訳 (NMT) Sequence to Sequence (seq2seq) 注意 (Attention) 双方向エンコーダー・多層LSTM 評価手法

                                                                                    深層学習による自然言語処理 - RNN, LSTM, ニューラル機械翻訳の理論