並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 44件

新着順 人気順

GINZAの検索結果1 - 40 件 / 44件

  • 銀座・有楽町周辺で800回ランチした私のおすすめランチ!|takehiro sugaya

    みなさんは普段仕事のときランチどこで食べていますか? 私は有楽町のIT企業で4年ほど勤務していて、内勤メインなので職場の近くでランチに行くことが多いです。 年間会社に行く日を200日とすると、単純計算で有楽町や銀座の辺りで800回くらいランチに行ってることになります。 今回転職にあたって有楽町を離れることになったので、棚卸しとして私の好きな銀座・有楽町近辺のランチをまとめてみました! 魚が食べたいならここさわら 有楽町駅すぐのガード下にある魚ランチが食べられるお店。 並んでいることも多いですが回転が早いのですぐに食べられます。 並んでいるときは店の前の看板で食べたいメニューを決めて、店内の店員さんに事前に伝えておくとよいです。 (よくわからなければ前の人と同じようにしておけば大丈夫です。) 私のおすすめは銀ムツ定食。 1000円ちょいで、メインの銀ムツに加えてお刺身もつきます。 店内は狭い

      銀座・有楽町周辺で800回ランチした私のおすすめランチ!|takehiro sugaya
    • Python自然言語処理テクニック集【基礎編】

      自分がよく使用する日本語自然言語処理のテンプレをまとめたものです。 主に自分でコピペして使う用にまとめたものですが、みなさんのお役に立てれば幸いです。 環境はPython3系、Google Colaboratory(Ubuntu)で動作確認しています。 Pythonの標準機能とpipで容易にインストールできるライブラリに限定しています。 機械学習、ディープラーニングは出てきません!テキストデータの前処理が中心です。 前処理系 大文字小文字 日本語のテキストにも英語が出てくることはあるので。 s = "Youmou" print(s.upper()) # YOUMOU print(s.lower()) # youmou 全角半角 日本語だとこちらのほうが大事。 全角半角変換のライブラリはいくつかありますが、自分はjaconv派。 MIT Licenseで利用可能です。 import jaco

      • 「峠の釜めし」をツマミに、地元向けの「普通酒」を楽しめる最高の立ち飲み屋が有楽町にできてしまった - ぐるなび みんなのごはん

        「峠の釜めし」のアタマで飲める立ち飲み屋が有楽町にオープン 信越本線横川駅の人気駅弁「峠の釜めし」を製造販売する荻野屋が、東京の有楽町駅高架下にイートイン併設型の新店舗「荻野屋 弦(げん)」を3/26にオープンした。あの釜めしを気軽に食べられるだけでも嬉しいが、この店はただのイートインに留まらない。 夜の営業(16時~)では、釜めしの具や群馬・長野の食材で作る一品料理をアテに、都内ではまず飲めない地元向けの普通酒がいただける、立ち飲み屋スタイルになるのだ。 釜めしの具がご飯に合うのはもちろんだが、実は酒のつまみとしても優秀なのではと思っていたのだが、想像以上に相乗効果のある組み合わせだったことを熱く報告したい。 有楽町駅の高架下、中央西口と国際フォーラム口の間のビックカメラ向かいにあります。 高架下のアーチが弓型なので店名は「弦」。弦にはツルの意味もあり、群馬・長野と東京を結ぶことがテーマ

          「峠の釜めし」をツマミに、地元向けの「普通酒」を楽しめる最高の立ち飲み屋が有楽町にできてしまった - ぐるなび みんなのごはん
        • 日本語正式サポートされた自然言語処理ライブラリspaCyのStreamlit可視化が超お手軽だった - OPTiM TECH BLOG

          R&D チームの徳田(@dakuton)です。 最近、spaCyの日本語版モデルが正式サポートされたのでいろいろ触ってみたところ、解析結果ビジュアライズを全部まとめるStreamlitアプリも同じ月に提供されていることがわかったので、今回はそちらを紹介します。 なお、ビジュアライズ機能の一部(係り受け解析)は1年前の記事「その他」で紹介しています。 tech-blog.optim.co.jp 実行手順 spaCyのUniverseプロジェクトであるspacy-streamlitをインストールします。 pip install spacy-streamlit 起動用スクリプト(streamlit_app.py) import os import pkg_resources, imp import spacy_streamlit models = ["ja_core_news_lg", "ja_

            日本語正式サポートされた自然言語処理ライブラリspaCyのStreamlit可視化が超お手軽だった - OPTiM TECH BLOG
          • GiNZAと患者表現辞書を使って患者テキストの表記ゆれを吸収した意味構造検索を試した - エムスリーテックブログ

            エムスリーエンジニアリンググループ AI・機械学習チームの中村(@po3rin) です。 好きな言語はGo。仕事では主に検索周りを担当しています。 最近「医療言語処理」という本を読んで、医療用語の表記ゆれ吸収や意味構造検索などについて学びました。 医療言語処理 (自然言語処理シリーズ) 作者:荒牧 英治発売日: 2017/08/01メディア: 単行本 そこで今回はElasticsearchと患者表現辞書を使った意味構造検索がどのくらい実戦投入できるかを簡単に試したので、概要と実装方法を簡単にご紹介します。 患者テキストの表記ゆれ 患者テキストの表記ゆれとは MEDNLPの患者表現辞書 トークンによる検索の課題と対策の検討 主語が違うのにヒットしちゃう? 意味構造検索 係り受け解析と患者表現辞書を使った意味構造検索の実装 患者表現辞書を使った係り受け解析 患者表現辞書の表現をクエリに展開する

              GiNZAと患者表現辞書を使って患者テキストの表記ゆれを吸収した意味構造検索を試した - エムスリーテックブログ
            • タラバ蟹に高級エビ、和牛にアワビに牡蠣、北京ダックも制限なし! 食べ放題のエベレスト=「銀座八芳」に行ってみた

              高級中華料理「銀座芳園」や「銀座夜市」などを展開するFANG DREAM COMPANYが、食べ放題の店「海鮮ブッフェダイニング 銀座八芳(ぎんざはっぽう)」を2月9日(金)にオープンした。

                タラバ蟹に高級エビ、和牛にアワビに牡蠣、北京ダックも制限なし! 食べ放題のエベレスト=「銀座八芳」に行ってみた
              • 固有表現抽出のアノテーションデータについて - NLP太郎のブログ

                自然言語処理技術のなかでも固有表現抽出(Named Entity Recognition; NER)は情報抽出の処理をやろうとするときにとても役立つ。 応用は幅広く、会社名や個人名などの情報抽出処理、個人情報除去などのような抽出した情報に対する処理、代名詞の解析(照応解析・共参照解析)のような文脈解析処理などに用いられる。 最も簡単なNERの方法としては、辞書や形態素解析結果や正規表現などに基づくルールを用いて、単語列にラベリングする方法があるが、会社名など判断が難しいケースについては機械学習によってNERを行うことが有効なことが多い。機械学習ベースの既存の固有表現抽出器を使ってみたい場合には、GiNZAやKNPのようなNERモデルが同梱されているツールを使用してみるのがよい。 しかし公開モデルの性能では満足いかない場合に自分でモデルを構築しようとしても、公開データセットが見つけにくかった

                  固有表現抽出のアノテーションデータについて - NLP太郎のブログ
                • spaCyを使ってルールベースの記述をシンプルに! - Qiita

                  この記事は自然言語処理アドベントカレンダー 2019の12日目です。 昨今自然言語処理界隈ではBERTを始めとする深層学習ベースの手法が注目されています。 一方それらのモデルは計算リソースや推論速度の観点で制約が大きく、プロダクション運用の際は留意すべき事項を多く持ちます。 (googleが検索にBERTを導入というニュースを見た時はとても驚きました) そこで本記事では自然言語処理タスクのシンプルかつ運用しやすい実装方法を考えていきます。 実装にはpythonと以降説明するspaCyとGiNZAの2つのライブラリを使います。 環境: ubuntu18.04 python 3.6.8 ライブラリインストールはpipから行います pip install spacy pip install "https://github.com/megagonlabs/ginza/releases/downlo

                    spaCyを使ってルールベースの記述をシンプルに! - Qiita
                  • spaCyとGiNZAを使った日本語自然言語処理 - Qiita

                    はじめに 本記事では、spaCyとGiNZAを使った日本語の自然言語処理の手順を紹介します。 コードの部分ではspaCyのクラスがわかるように示していますので、ぜひ公式ドキュメントも参照ください。 想定する読者 以下の人を想定して書いてます。 日本語の自然言語処理に興味がある人(※自然言語処理に関する知識は必要ないです。) Pythonのソースコードが読める人 使用するライブラリ 今回はspaCyとGiNZAという2つのライブラリを使用します。 spaCyとは spaCyは高度な自然言語処理を行うためのライブラリです。 自然言語処理では対象とする言語(日本語や英語)によって必要な処理や複雑度が変わるのですが、spaCyは多言語対応を意識して設計・開発されており、そのアーキテクチャから学べることも多く非常に良くできたライブラリです。 spaCyでは訓練済みのモデルを読み込むことで多言語の自然

                      spaCyとGiNZAを使った日本語自然言語処理 - Qiita
                    • Rasa+GiNZAによるお手軽チャットボット作成 - OPTiM TECH BLOG

                      R&Dチーム所属の伊藤です。GiNZAについて検索しようとして(地名の)銀座についての結果が出てくると悲しくなります。 今回はチャットボットの作成についてです。前から気になっていたRasaを試してみたので備忘録がてらまとめてみました。 はじめに 準備 ドメインの設定 intents entities slots responses forms actions モデルの設定 language pipeline policies モデルの訓練データ nlu rules stories エンドポイント設定 モデル訓練 チャットボット実行 おわりに はじめに RasaはRasa Technologies GmbHより提供されるオープンソースの対話システム作成フレームワークです。 Pythonで書かれており、自然言語理解のモデル訓練・推論環境や対話管理ツール、データベースやAPIに接続するためのエン

                        Rasa+GiNZAによるお手軽チャットボット作成 - OPTiM TECH BLOG
                      • SudachiDict/docs/synonyms.md at develop · WorksApplications/SudachiDict

                        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                          SudachiDict/docs/synonyms.md at develop · WorksApplications/SudachiDict
                        • はじめての自然言語処理 spaCy/GiNZA を用いた自然言語処理 | オブジェクトの広場

                          前回は BERT についてその概要と使い方を紹介しました。今回は自然言語処理ライブラリである spaCy と spaCy をフロントエンドとする日本語NLPライブラリの GiNZA について紹介します。 1. 始めに 本記事では欧米で有名な自然言語処理ライブラリである spaCy とリクルートと国立国語研究所の共同研究成果である日本語NLPライブラリ GiNZA について紹介します。記事の前半では、spaCy と GiNZA の概要と日本語を処理する際の基本的な機能/操作について説明します。後半では、spaCy で提供される文章分類機能について、前回までに紹介した手法も含めて精度を比較してみます。 2. spaCy と GiNZA の概要 spaCy は Explosion AI 社の開発する Python/Cython で実装されたオープンソースの自然言語処理ライブラリで MIT ライセ

                            はじめての自然言語処理 spaCy/GiNZA を用いた自然言語処理 | オブジェクトの広場
                          • Ray's TubeさんはTwitterを使っています: 「銀座の強盗、堂々とやりすぎ だと話題にwwwwwwwwwww wwwwwwwwwwwwwwwwww #銀座 #強盗 https://t.co/sU4rYPDcbE」 / Twitter

                            • GiNZA v5のTransformerモデルによる固有表現抽出 | 株式会社AI Shift

                              こんにちは AIチームの戸田です 今回は日本語NLPライブラリであるGiNZAのv5から実装されたTransformerモデルによる固有表現抽出を試します。 固有表現抽出とは、入力となる自然文から地名や製品名などの固有名詞を抽出するタスクです。今回固有表現抽出に使用するデータセットとして、ストックマーク株式会社が作成したWikipediaを用いた日本語の固有表現抽出データセットを使用します。また、Transformerモデルは処理に時間がかかるので、環境はGoogle ColaboratoryのGPU環境を利用しました。 事前準備 wgetを使ってデータセットをダウンロードします。 wget https://raw.githubusercontent.com/stockmarkteam/ner-wikipedia-dataset/main/ner.json 必要なpythonライブラリをダ

                                GiNZA v5のTransformerモデルによる固有表現抽出 | 株式会社AI Shift
                              • spaCy(+GiNZA)でPDFテキスト抽出の改行位置をいい感じにする - OPTiM TECH BLOG

                                R&D チームの徳田(@dakuton)です。 過去何回か、Tech Blog記事にてPDFやOCR、自然言語処理に関する手法を紹介してきましたが、今回もそちらに関連する内容です。 過去記事 tech-blog.optim.co.jp tech-blog.optim.co.jp tech-blog.optim.co.jp やりたいこと PDFからテキストを抽出する際に含まれる、中途半端な位置にある改行を除去することが目的です。 シンプルな方法としては、句点(。)の位置をもとに改行する方法ですが、今回はspaCy(とGiNZA)を併用した場合にどうなるかを試してみることにします。 テストデータ 今回は、下記記事のPDFを使用しました。 財務省「ファイナンス」令和3年2月号 の「ポストコロナ時代を形作る、コロナ禍で生まれるDX(デジタルトランスフォーメーション)」 1 メディア掲載情報: 財務

                                  spaCy(+GiNZA)でPDFテキスト抽出の改行位置をいい感じにする - OPTiM TECH BLOG
                                • GiNZA+Elasticsearchで係り受け検索の第一歩 - Taste of Tech Topics

                                  急に冷え込んできてお布団が恋しい季節になってきました。 こんにちは。@Ssk1029Takashiです。 この記事は自然言語処理 Advent Calendarの6日目の記事になります。 qiita.com 全文検索システムは単語検索であることが多いですが、単語検索だけだと困ることもあります 症例検索を例にとって見てみましょう。 検索エンジンに以下の2つの文章が登録されているとします。 「ずっと胃がキリキリと痛い。ただ、熱は無く平熱のままだ。」 「昨日からとても頭が痛い。おまけに胃がむかむかする。」 この時、「胃が痛い」と検索したとき、通常の単語検索の場合だと両方ともヒットしてしまいますが、下の文章は意味としては異なる文章のためゴミになります。 この記事では、GiNZAとElasticsearchを使って意味的に正しい上の文章だけを拾ってくる仕組みを簡単に実現してみようと思います。 どうや

                                    GiNZA+Elasticsearchで係り受け検索の第一歩 - Taste of Tech Topics
                                  • 岡田かめや powered by BASE

                                    高級珍味・お菓子専門店 飲食店(銀座周辺のバー、クラブ)への販売のほか、個人のお客様へ向けた店頭での販売も行っております。

                                      岡田かめや powered by BASE
                                    • Qdrant ベクトル検索エンジン

                                      この記事はオープンソースのベクトル検索エンジンQdrant(クワッドラント)の使い方と類似記事検索についての前編になります。 初心者向けにコンセプトの理解を優先し、難しい用語の使用はあえて避けています。 使用するもの Qdrant オープンソースベクトル検索エンジン (Rust実装) GiNZA spaCy ドキュメントのベクトル化 livedoorニュースコーパス ライブドアのニュース記事 (株式会社ロンウィット) Python 3.10 Qdrantとは? オープンソースのRust製ベクトル検索エンジンです。クライアントはPython SDK、REST API、gRPCで接続できます。クラウドサービス版も準備中のようです。 Qdrantを使用したデモサイトもあります。 ベクトル検索エンジンとは? みなさんが思い浮かべる検索エンジンはキーワードを使用して検索するものでしょう。検索ボックス

                                        Qdrant ベクトル検索エンジン
                                      • 東京オリンピックに向けて銀座の地下で何が起こっていたのか - 骨まで大洋ファンby革洋同

                                        先週の日曜日は雨が降っていて外出する気にならなかったので、ちょいと前回の東京オリンピックとドボクのネタをまとめてみた。 また、前々回の記事の際にTwitterでアンケートをとったところ、「レイアウトを工夫しない読みづらい」との声を結構いただいた。 今後の参考のため、読後感をお知らせいただけますと幸甚です。 — 骨まで大洋ファンby革洋同@CS初日現地 (@FanTaiyo) February 8, 2020 なので、今回はパワポ型式で作ってみたのでどうぞ。 実際にこれでどこかプレゼンするという予定は一切ない。 東京都庁議の詳細はこちら→http://kakuyodo.cocolog-nifty.com/blog/2013/06/31228-d1e1.html ここは読みづらいので、テキストを抜き出しておこう ◯首都整備局長(山田正男君) (略) 最後に、三原橋─日比谷間の地下の自動車道路計

                                          東京オリンピックに向けて銀座の地下で何が起こっていたのか - 骨まで大洋ファンby革洋同
                                        • GiNZAのja-ginza-electraモデルでELECTRAベースの単語ベクトルを使用できるようにする - OPTiM TECH BLOG

                                          はじめに R&Dチーム所属の伊藤です。相も変わらず自然言語処理と格闘する毎日を送っています。 今回は個人的にとても楽しみにしていたGiNZA v5の新モデルであるja-ginza-electraを使って、前後の文脈を加味した単語ベクトルを求められるようにするまでの手順をまとめました。 はじめに GiNZA v5について セットアップ モデルのロード + 文の解析方法 行いたいこと Contextualな単語ベクトル ELECTRAモデルの出力と単語ベクトルの計算 spaCyのUser hooksの追加 おわりに GiNZA v5について GiNZAはspaCyをベースにしたPythonの日本語向け自然言語処理ライブラリです。 形態素解析をはじめとして、固有表現抽出や品詞タグ付け、構文解析などを行うことが可能です。 このGiNZAですが、2021年8月26日に最新バージョンであるv5が公開さ

                                            GiNZAのja-ginza-electraモデルでELECTRAベースの単語ベクトルを使用できるようにする - OPTiM TECH BLOG
                                          • はじめての自然言語処理 spaCy 3.0 で Transformer を利用する | オブジェクトの広場

                                            今更ですが今年の2月に spaCy 3.0 が公開されました。 3.0 で導入された新機能の中で目玉と言えるのは、やはり Hugging Face Transformers (以下、単にTransformers) のサポートや PyTorch, Tensorflow との連携になるでしょう。今回はその辺りを実際に学習を動かしながら紹介したいと思います。 1. はじめに 今回は今年の2月に公開された spaCy 3.0 の話です。 spaCy は第4回でも紹介しましたが、研究者向けというよりは自然言語処理アプリ開発者向けのオープンソース自然言語処理ライブラリになります。日本語を含めた様々な言語の学習済みモデルが存在しており、 spaCy をインストールして、学習済みモデルをダウンロードするだけで、分かち書き、品詞や依存関係の推定、単語や文の類似度の判定など様々な機能を使用することができます。

                                              はじめての自然言語処理 spaCy 3.0 で Transformer を利用する | オブジェクトの広場
                                            • GiNZAによるテキストデータからの個人情報の抽出 | 株式会社AI Shift

                                              こんにちは、AIチームの杉山です。 前回の記事ではFlairによる固有表現抽出を用いて個人情報のマスキングを行い、その精度を確認しました。 しかし、学習データを自分でアノテーションして作成する必要があることからデータ数を大量に用意することができず精度が今ひとつとなってしまいました。 そんな折、日本語自然言語処理オープンソースライブラリであるGiNZAのver.3.0.0(執筆時点での最新は3.1.2)がリリースされました。リリースノートを眺めていると、以下の記述が目に留まりました。 解析モデルの改良固有表現抽出モデルの訓練コーパスを GSK2014-A (2019) BCCWJ版(新聞系文書を除外)に変更固有表現抽出精度が再現性・適合性の両面で大きく向上token.ent_type_を関根の拡張固有表現階層のラベルに変更ginzaコマンド出力の最終フィールドにENE7属性を追加OntoNo

                                                GiNZAによるテキストデータからの個人情報の抽出 | 株式会社AI Shift
                                              • はじめての自然言語処理 OSS によるテキストマイニング | オブジェクトの広場

                                                前回はグラフベースのキーフレーズ抽出手法と pke での実験結果を紹介しました。今回は、spaCy, scattertext, ... 等々の OSS を用い各種のテキストマイニング手法についてコード例とサンプルプロットを交えながら説明したいと思います。 1. はじめに 本記事ではテキストマイニングの概要と代表的な手法について、コード例とサンプルプロットを交えて説明します。分析対象には、この連載で何度か用いている livedoor ニュースコーパスを用い、Google Colaboratory で動かすことを想定したコードスニペットを入れていきますので、実際に動かしたり対象を変えてみたりして試して頂けると良いかと思います。 2. テキストマイニングとは テキストマイニングとは、ざっくり言うと「自然言語の文書データを対象に使用される単語の出現傾向等を分析して何らかの有益な情報を取り出すこと」

                                                  はじめての自然言語処理 OSS によるテキストマイニング | オブジェクトの広場
                                                • はじめての自然言語処理 pke によるキーフレーズ抽出 | オブジェクトの広場

                                                  前回は spaCy と GiNZA についてその概要と使い方を紹介しました。今回はキーフレーズ抽出の手法について解説し、spaCy ベースのキーフレーズ抽出処理ライブラリである pke を用い日本語データセットで実験した結果を紹介します。 1. はじめに 本記事ではキーフレーズ抽出について、その概要といくつかの抽出手法について説明します。記事の後半ではキーフレーズ抽出処理ライブラリである pke を用い、記事の前半で説明した各手法を日本語のデータセットに対して適用した精度比較試験を行った結果を紹介します。 2. キーフレーズ抽出 キーフレーズ抽出処理について簡単に説明すると、「文章からその主題を良く表現している句を抽出する技術」と言えるでしょう。日本語では「キーワード」のほうが一般的で通りのよい表現になりますが、処理としては「大統領|選挙」のように複数単語の連続を抽出するので、単語を意味す

                                                    はじめての自然言語処理 pke によるキーフレーズ抽出 | オブジェクトの広場
                                                  • 「コサイン類似度」で文書がどれだけ似ているかを調べてみた | DevelopersIO

                                                    今年のマックフルーリー「ストロベリー ココアクッキー」が個人的大ブームになっています。暖かい部屋で猫と触れ合いながらアイスを食べる至福の時間を楽しんでいるのですが、実はお腹が弱いので色々なものとトレードオフでアイスを食べて家で仕事を頑張る日々です。 ▲ ラムレーズンのアイスも好きです、オススメがあったら教えてください こんにちは。データアナリティクス事業本部 インテグレーション部 機械学習チームのShirotaです。 これは「 クラスメソッド 機械学習チーム アドベントカレンダー 2022 」12/21(水)の記事となっております。 前日 12/20(火)の記事は以下よりご覧ください。自然言語処理においてTransformersなどで有名なHugging FaceのモデルをVertex AIにデプロイするという、Google CloudとHugging Faceの個人的には嬉しい二つを活用

                                                      「コサイン類似度」で文書がどれだけ似ているかを調べてみた | DevelopersIO
                                                    • 日本語NLPライブラリGiNZAのすゝめ - Qiita

                                                      この記事について 本記事は、日本語の自然言語処理ライブラリである GiNZA の紹介記事です。 Qiitaの記事 と GiNZA examples - GitHub の二箇所に同じものを公開しています。 記事を書いた経緯 筆者は GiNZA の開発者の方々と何の利害関係もありません。 自然言語処理系の最新技術を検索していてたまたま見つけ、その簡単さに感動したので勝手に宣伝しています。 全ての開発は感動から始まる。 コンピュータ産業の父であり筆者の尊敬するエンジニアである池田敏雄さんはこのように言いました。この記事の目的は GiNZA の感動を共有することです。 自然言語処理という難解な分野でありますが、なるべく事前知識なしで GiNZA を楽しめるようにと願っています。 なお、最初にこの記事を書いたのは2019年の8月です。 GiNZA の更新に追いつけなくなっていたので改めて書き直しまし

                                                        日本語NLPライブラリGiNZAのすゝめ - Qiita
                                                      • GiNZAの固有表現抽出とElasticsearchを使って自動でタグ検索 - Taste of Tech Topics

                                                        こんにちは。@Ssk1029Takashiです。 最近は家でもどうにかラーメンを食べられないかと試行錯誤しています。 タグ検索とは、キーワード検索とは違い、検索する前からユーザーが選択肢からキーワードをセレクトボックスなどで選んで、検索できる検索方法です。 通常のキーワード検索と違って、ユーザーが0からキーワードを考える必要がないため、効率的に情報を絞り込めます。 もしくは、キーワード検索と併用して使用することも可能です。 ただ、コンテンツごとにタグを設定するのはとても手間がかかります。 コンテンツ作成者も必ずしもタグを設定してくれるとは限りません。 このような時に、自動でタグ付けをしてくれる仕組みがあると楽にタグ検索を実現できます。 ただ、単純な形態素解析で名詞をタグとすると、ゴミが多くなってしまいます。 そこで、今回は、日本語処理ライブラリであるGiNZAの固有表現抽出機能とElast

                                                          GiNZAの固有表現抽出とElasticsearchを使って自動でタグ検索 - Taste of Tech Topics
                                                        • 自然言語処理 -spaCy & GiNZA モデル比較-

                                                          前回は、自然言語処理のspaCy,GiNZAについての概要を記載しました。 かなり時間が空いてしましましたが、今回はLanguageモデルと、ルールベースでのエンティティ抽出についてまとめていきたいと思います。 今回比較するLanguageモデル Languageモデル 説明 タイプ 備考

                                                            自然言語処理 -spaCy & GiNZA モデル比較-
                                                          • spaCy + GiNZAを使って固有表現抽出とカスタムモデルの学習をしてみる - もふもふ技術部

                                                            自然言語処理をするときはよくRasa NLUを使っているのですが、内部的にはspaCyが使われている模様です。どちらもパイプラインでモジュールをつなげていって自然言語処理をシンプルにするフレームワークだと理解しているのですが、spaCy単独で使うとどういう感じなのか把握したかったんで試してみます。 こちらのエントリを参考にspaCyの基本的な動きを確認。 https://qiita.com/moriyamanaoto/items/e98b8a6ff1c8fcf8e293 $ mkdir spacy-ner $ cd spacy-ner 必要なライブラリをインストール。GiNZAはspaCyフレームワークのっかった形で提供されている日本語の学習済みモデルを含むライブラリです。簡単にいえばspaCyを日本語で動かせるようにするものです。 $ pip install spacy $ pip in

                                                            • spaCy固有表現抽出(+Presidio)によるドキュメントの情報漏えいリスクチェック支援 - OPTiM TECH BLOG

                                                              R&D チームの徳田(@dakuton)です。記事冒頭に書くことが思いつかなかったので先日のGPT記事にあるサンプルを使ってみました。 試してみたところ、Tech Blog記事っぽい出力にはなりました。 入力(Prompt): R&D チームの徳田([@dakuton](https://twitter.com/dakuton))です。 出力: 皆さんおひさしぶりです。遅くなりましたが、11/18(金)に行われましたRuby Machine Learningの勉強会の模様を記事にしました。 サンプルは下記参照 tech-blog.optim.co.jp 背景 本題ですが、目的は本記事タイトルのとおりです。 参考: 個人情報保護委員会が個人情報を漏えい パブリックコメント参加者の氏名や所属先を誤掲載 - ITmedia NEWS 技術要素としては下記と同じような内容です。本記事ではこれをspa

                                                                spaCy固有表現抽出(+Presidio)によるドキュメントの情報漏えいリスクチェック支援 - OPTiM TECH BLOG
                                                              • Ginzaで形態素解析、係り受け解析、固有表現抽出、ユーザー辞書追加 - iMind Developers Blog

                                                                概要 Ginzaを使ってNLPでよく使ういくつかの処理を動かしてみる。 バージョン情報 ginza==2.2.0 Python 3.7.4 インストール pipで入れられる。 $ pip install "https://github.com/megagonlabs/ginza/releases/download/latest/ginza-latest.tar.gz" 詳細は下記参照。 https://megagonlabs.github.io/ginza/ 形態素解析 Ginzaは内部的にはSudachiPyを利用している。 import spacy nlp = spacy.load('ja_ginza') doc = nlp('庭にいる犬が鳴いてる') for sent in doc.sents: for token in sent: print( 'token.i={}'.forma

                                                                  Ginzaで形態素解析、係り受け解析、固有表現抽出、ユーザー辞書追加 - iMind Developers Blog
                                                                • spaCyのDependencyMatcherでレビュー文から情報を抽出してみる

                                                                  これは、自然言語処理 Advent Calendar 2021の20日目の記事です。 新卒2年目のエンジニア、吉成です。 普段はフォルシアのDXプラットフォーム部・技術研究所という2つの部署に所属し、web開発と自然言語処理の二足の草鞋を履いています。二兎を追う者は一兎をも得ずという言葉もありますが、今はひーひー言いながらも二兎を追えるエンジニアを目指しています。 ところで皆さん、依存構造解析してますか? 依存構造解析は自然言語処理の実応用において重要な基礎解析の1つです。文中のどの単語(あるいは句)がどの単語(句)に依存しているか、またそれらの単語(句)間はどんな関係を持っているのか(依存構造)を解析します。一般的に依存構造解析は、文を単語や形態素に分割したり、単語や形態素に品詞のラベルを付与したりする形態素解析と呼ばれる処理の後に行われます。 (画像:「部屋から見える夜景が美しかった。

                                                                    spaCyのDependencyMatcherでレビュー文から情報を抽出してみる
                                                                  • 「銀座マキシム・ド・パリ」の味を再現したミルフィーユを食べてきた|レッツエンジョイ東京

                                                                    東京・銀座で長年愛されるも、2015年に閉店したフランス料理店「銀座マキシム・ド・パリ」。その看板スイーツだった「苺のミルフィーユ」が、同じ銀座の地で“復活”しているのをご存じですか?「THE GRAND GINZA(ザ・グラン 銀座)」で味わえる「苺のミルフィーユ」は、当時の味を完全再現したという自信作。銀座のど真ん中で、恋人と一緒に優雅なスイーツタイムを過ごしてみませんか? こんにちは!スイーツコンシェルジュの「はなとも」です。 今回ご紹介するのは、銀座エリア最大級の商業施設「GINZA SIX(ギンザ シックス)」の最上階にあるフレンチ&ラウンジ「THE GRAND GINZA(ザ・グラン 銀座)」。 実はこちら、あの「銀座マキシム・ド・パリ」の名作スイーツ「苺のミルフィーユ」が味わえるお店として話題を呼んでいるんです。 銀座マキシム・ド・パリは、パリの老舗レストラン「マキシム」を再

                                                                      「銀座マキシム・ド・パリ」の味を再現したミルフィーユを食べてきた|レッツエンジョイ東京
                                                                    • 自然言語処理 #2のカレンダー | Advent Calendar 2019 - Qiita

                                                                      The Qiita Advent Calendar 2019 is supported by the following companies, organizations, and services.

                                                                        自然言語処理 #2のカレンダー | Advent Calendar 2019 - Qiita
                                                                      • 第3回UD研究会-日本語Universal Dependenciesのための事前学習済みTransformersモデル公開に向けて

                                                                        第3回UD研究会-日本語Universal Dependenciesのための事前学習済みTransformersモデル公開に向けて

                                                                          第3回UD研究会-日本語Universal Dependenciesのための事前学習済みTransformersモデル公開に向けて
                                                                        • ginza(spacy)で固有表現抽出のtrain - iMind Developers Blog

                                                                          概要 固有表現抽出を行いたかったので、spacyでnerのtrainを行ってみる。 例として既存のginzaのモデルでは「10,000円」はMONEYとして抽出されるけど「\10,000」は認識されない問題を解決するモデルを作成。 バージョン情報 ginza==2.2.0 Python 3.7.4 参考ページ ner(Named Entity Recognition)の学習については下記ページを参考にした。 https://medium.com/@manivannan_data/how-to-train-ner-with-custom-training-data-using-spacy-188e0e508c6 ginzaではtrain_ner.pyというスクリプトが用意されている。 https://github.com/megagonlabs/ginza/blob/develop/ginz

                                                                            ginza(spacy)で固有表現抽出のtrain - iMind Developers Blog
                                                                          • MeCab辞書をSudachi辞書に変換して固有表現抽出 - deepblue

                                                                            大体はこの通りにcsvのカラムを作り直せば大丈夫ですが、似ているようで違うので、何点か注意が必要です。 見出し (TRIE 用) Sudachiには文字の正規化が必要です(参考)。 左連接ID・右連接ID Sudachiのドキュメントにunidic-mecab 2.1.2 の左文脈ID・右文脈ID参考にするように、とあるので、使っているunidic-mecabのバージョンを確認しなければいけません(UniDicの左文脈ID)。 MeCabにとっては-1は連接IDを自動推定する特殊な値です。 コスト MeCabのコストには制限がありませんが、Sudachiのコストの範囲は32767~-32767の制限があるので調整が必要です。 Sudachiにとっては-32768はコストを自動推定する特殊な値です。 品詞1~4 品詞も連接IDと同様、MeCabのunidic-mecab 2.1.2の品詞体系

                                                                              MeCab辞書をSudachi辞書に変換して固有表現抽出 - deepblue
                                                                            • 日本語自然言語処理オープンソースライブラリ「GiNZA」で構文解析をやってみた | DevelopersIO

                                                                              だいぶ寒くなってきたので、慌てて冬支度を始めました。毎日のように何かしらの荷物が届きます。 ▲ 今年は猫用のホットカーペットを買いました、たまに乗っていただけます こんにちは。データアナリティクス事業本部 インテグレーション部 機械学習チームのShirotaです。 これは「 クラスメソッド 機械学習チーム アドベントカレンダー 2022 」12/8(木)の記事となっております。 前日 12/7(水)の記事は以下よりご覧ください。Amazon SageMaker Studio Labの新機能を早速試してみたブログになっております。 自然言語処理強化月間 ということにして私は今回のアドベントカレンダーを執筆していくことにしましたが、今回もそんなわけで自然言語処理に関するお話をしていこうと思います。 それではいきましょう! 日本語自然言語処理オープンソースライブラリ 「GiNZA」 いきなりライ

                                                                                日本語自然言語処理オープンソースライブラリ「GiNZA」で構文解析をやってみた | DevelopersIO
                                                                              • Pythonのsumyを用いて文章要約を行う - deepblue

                                                                                今回はPythonのパッケージである「sumy」を用いて文章要約を行います。文章要約の技術には要約元の文章から新しい文章を自動生成する「抽象型」と文章の内容を表す上で重要な文を何らかのアルゴリズムを用いて抽出する「抽出型」があり、sumyは抽出型の要約を行うことができるパッケージです。また、sumyは様々な抽出型アルゴリズムが備わっているため、複数のアルゴリズムを試したり比較したりすることができます。 実行環境 Python==3.7.3 sumy==0.8.1 tinysegmenter==0.4(sumyの内部で使用されるシンプルな形態素解析器) 文ごとに分割~形態素解析 spacy==2.2.4 ja-ginza==3.1.0 ja-ginza-dict==3.1.0 Janome==0.3.10 en_core_web_sm==2.2.5(spacyの英語辞書) 前処理 mojim

                                                                                • spaCy からたどる最近の日本語自然言語処理ライブラリの調査

                                                                                  最近、spaCy が公式で日本語に対応し、話題になっている。 私自身は、NLP が専門ではないのだが、業務で自然言語を扱う機会があり、このあたりの技術を把握しておく必要があるため、ほぼゼロの知識からサーベイを行った。 spaCyspaCy 公式サイトspaCy は多言語の字句解析・固有表現抽出・品詞タグ付け・ラベル付き依存構造解析機能を提供する汎用自然言語処理フレームワーク日本語に関しては 3 つのモデルが利用可能 ( doc )標準日本語モデルへの依存構造解析・固有表現抽出モデルspaCy の日本語モデルの搭載は、Megagon Labs, Tokyo (株式会社リクルートの AI 研究所) と国立国語研究所が尽力したようである ( 論文 )商用利用が可能“ja_core_news_lg”, “ja_core_news_md”, “ja_core_news_sm”3 つのモデルはサイズが

                                                                                    spaCy からたどる最近の日本語自然言語処理ライブラリの調査