[B! 形態素解析] masayoshinymのブックマーク

masayoshinym id:masayoshinym

形態素解析に関するmasayoshinymのブックマーク (41)

AIひらめきメーカー
AIひらめきメーカーは、AIを使って無限にアイデアを生成できるサービスです。入力ワードから連想できるアイデアを、たった1クリックで生成します。ワンタップで生成します。今すぐアイデアが欲しい方へ、新しいひらめきを得てみませんか？
masayoshinym 2021/10/12
人工知能

形態素解析

ツール

webアプリ
リンク
無償入手可能な音声コーパス／音声データベースの一覧 - Qiita
無償かつ入手しやすい音声データセットをメモしています。ライセンス・利用規約は「商用利用可能」「研究用途のみ」ともに紹介します。コーパスを探すときに有用なサイトコーパス配布元サイト音声資源コンソーシアム : 日本語コーパスが豊富、無償または有償で利用可能緩いライセンスのコーパスでなくても良いときはここ自発的発話の日本語音声コーパスはだいたいここにある入手は要申請所属や責任者を記入する必要があるため、研究者や企業でないと厳しい？（この記事では音声資源コンソーシアムのコーパスは未掲載） Shinnosuke Takamichi: コーパス一覧 : 日本語中心。高道先生が携わっている音声コーパス大量の日本語音声コーパスが配布されている音声合成のコーパスをつくろう (Slideshare) : 2021年6月時点の音声コーパス事情あなたにどうしても伝えたい30の音声コーパス
masayoshinym 2021/09/13
オープンデータ

機械学習

音声合成

形態素解析
リンク
じゃらんnetに投稿された宿クチコミを用いた感情極性分析・含意関係認識の一例 - Megagon Labs | リクルート AI研究機関
より良い顧客体験を生み出すには、カスタマーに好評を博したサービスや製品の特徴や要因を知る必要があります。Megagon Labs Tokyo は旅行情報サイト『じゃらんnet』上で公開されている宿泊施設へのクチコミと、それを基に加工・作成した文章にラベル付け（アノテーション）を行ったJapanese Realistic Textual Entailment Corpus （以下JRTEコーパス）を開発し、日本語自然言語処理における学術コミュニティ向けに公開しました。本記事ではJRTEコーパスと、利用例として簡単な機械学習を紹介します。オンラインサービスにおけるクチコミは、サービスや製品の利用を検討しているユーザには不可欠な存在です。土地勘のない地域がどのような特徴をもっているか、初めて利用する施設のどのような点が他者から好評を博しているかといった知識があれば、私たちは納得して選べるように
masayoshinym 2021/08/25
形態素解析

自然言語

いつか読む
リンク
GitHub - megagonlabs/jrte-corpus: Japanese Realistic Textual Entailment Corpus (NLP 2020, LREC 2020)
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
masayoshinym 2021/08/25
形態素解析

自然言語

いつか読む
リンク
日本語形態素解析器 SudachiPy の現状と今後について
形態素解析は、日本語テキスト処理を支える基本的かつ重要な技術である。しかし、実応用として製品利用しようとした際，単語単位の不一致や表記揺れなど様々な問題がある。そこで、我々はこれらの問題を改善するために形態素解析器「Sudachi」および「SudachiPy」を商用利用可能なライセンスのOSSとして公開し、継続的な改善・保守を続けている。本発表では、中でもSudachiPyを題材に取り上げ，上記の問題を扱うためのSudachiPyの特徴的な機能について紹介する。また、SudachiPyの現在の開発状況と今後どのような方向を目指して開発を行っているのかについても紹介する。
masayoshinym 2021/07/12
形態素解析

自然言語

いつか読む
リンク
形態素解析の精度向上を頑張った話 - Leverages データ戦略ブログ
はじめにこんにちは。データ戦略室データエンジニアリンググループの森下です。普段はデータエンジニアとして、主にデータ活用基盤の保守運用や機能追加、ツール開発やデータ抽出・可視化といった業務を行っています。もともと機械学習への興味はありましたが、本記事の内容以前では、業務で使用したことはありませんでした。今回、初めて機械学習の業務を経験する事ができ、非常に多くのことを学ぶことができました。本記事は未経験者の奮闘記となりますので、これから機械学習を学ぶ方・業務に活かす方にとって参考になれば幸いです。経緯についてデータエンジニアとしてデータ活用基盤の構築や保守運用をしていく中で、機械学習へのデータ活用は自然と考える部分です。しかし、書籍やチームの勉強会で機械学習について少しずつ学んではいるものの、業務で機械学習を使用したことはありませんでした。そのような状況の中で、機械学習の業務に携わり
masayoshinym 2021/06/24
形態素解析

Python

機械学習系読物

開発の現場

いつか読む
リンク
新卒NLPエンジニアが取り組んだ音声合成システムにおける句境界予測モデルの導入
LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog はじめにこんにちは、2020年4月に新卒としてLINE株式会社に入社した二又航介です。テキスト音声合成システムの研究開発を担当するAI開発室 Voiceチームに所属し、音声合成システムにおけるテキスト処理部の研究開発やチームの機械学習基盤構築に取り組んでいます。学生時代は機械翻訳や同時通訳に関連する研究に取り組んでいました。研究以外の活動としては、アルバイト・インターンでの対話システムや機械翻訳システムの研究開発、個人活動としてwebアプリケーション開発などを行っていました。このような活動を通じて、数多くのユーザーに利用される自然言語処理技術を活かしたサービスに携わりたいという思いからLINEを志望しました。学生時代は専
masayoshinym 2021/05/24
形態素解析

自然言語

機械学習

開発の現場

いつか読む
リンク
［文章生成］マルコフ連鎖で文を生成してみよう
今回の目的前回までに青空文庫から梶井基次郎の著作をダウンロードしたり、形態素解析を行うためにMeCabをインストールしたりしてきました。今回は、いよいよこのデータを使って文章を生成してみます。といっても、まだディープラーニングの分野には踏み込むことはしません。ここでは「マルコフ連鎖」と呼ばれる手法を使って、文章を生成してみるだけです。実際にはこんな文章が生成されました。そして私は友の反省の為の金を貸してくれました。何しろ俺は大嫌いなんだよ。あの窓の外で、孫にあたる人間を集めてゐた。一台の赤い実が目にも堪えることのない、早く返事をしながら涙をためた。正直なところ、「うーむ」という文章も多いのですが、失敗も含めてやってみることが大事です（生成されたものが短文であれば、日本語としても解釈できるものもありますが、長文になると意味不明なものにしかなりませんでした）。文章を生成するだけ
masayoshinym 2021/02/22
自然言語

機械学習系読物

形態素解析

いつか試す

実装テク
リンク
fastTextを使用した文章ベクトル作成 – 株式会社エノキ
BERTを使用した文章ベクトル作成の記事では、日本語BERT学習済みモデルを使った日本語の文章ベクトル作成をしてみました。文章ベクトルを作ることで、文章の分類や、機械学習アプリケーションへの入力として使うなど、色々な自然言語処理に応用することができます。文章ベクトルを作るには自然言語処理モデルを使いますが、モデルには色々な種類がありBERTだけでなく、その進化系のALBERTや、XLNetなど新しいモデルが提案され精度向上を謳っています。今回はBERT以外のモデルでの文章ベクトル作成を試してみたいと思います。今回使うモデルは、Facebookで開発されたfastTextです。fastTextを自然言語に活用しようと思っていらっしゃる方向けの技術情報になれば幸いです。 Word2Vecを考案したトマス・ミコロフが、GoogleからFacebookの人工知能研究所「Facebook AI R
masayoshinym 2021/02/04
自然言語

MeCab

形態素解析

機械学習系読物

いつか試す
リンク
ダジャレを判定する - Stimulator
- はじめに - 近年、IT業界のダジャレは熾烈の一途を辿っている(ITだけに) 。類義語を巧みに取り入れたダジャレ、難読化されたダジャレなどが増加し、一体どれで「初笑い」すれば良いのか悩む若者も少なくない。そのような背景があり、ダジャレを判定するアルゴリズムの開発も盛んである。ルールベースによる判定では、@kurehajimeが提案、開発したdajarep *1 や、@fujit33によるShareka *2が存在する。特にSharekaは、ルールベースのロジックにも関わらず、反復型とされる種類のダジャレに対して高い精度での判定を可能にしている。また、機械学習モデルを用いた判定手法として、谷津(@tuu_yaa)らが開発したDajaRecognizer *3がある。DajaRecognizerは、多くのルールベースによって子音音韻類似度をPMIとして定義、Bag-of-Words、
masayoshinym 2020/12/16
機械学習系読物

MeCab

形態素解析

いつか読む

いつか理解したい
リンク
Wikipediaを用いた日本語の固有表現抽出データセットの公開
ML事業部の近江崇宏です。ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現（固有名詞）を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。（企業名抽出については過去のブログ記事を参考にしてください。）一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日本語の学習データセットを公開いたします！ご自由にお使いいただければと思います！レポジトリ：https://github.com/stockmarkteam/ner-wikipedia-dataset 固有表現をハイライトしたサンプ
masayoshinym 2020/12/16
機械学習

形態素解析

自然言語

オープンデータ
リンク
自然言語処理の最新モデル日本語版ELECTRAを公開しました | 株式会社シナモン（シナモンAI）
こんにちは。シナモンAI広報担当です。シナモンAIでは自然言語処理技術を用いたプロダクトAurora Clipper（オーロラ・クリッパー）を展開しており、特定の文脈を持つ日付や人物名の取得、長い文章からの要点抽出、テキストの分類など様々な用途で用いられる製品を提供しております。弊社では100名程度のAIリサーチャーを抱えており、その中でも自然言語処理に特化したチームではAurora Clipperの基礎となるAIモデルも日々改善しています。本記事では、自然言語処理技術に関わる研究の成果として日本語版ELECTRAを公開したため、弊社のPMが概要をご紹介いたします。自然言語処理の課題自然言語処理はその名の通り、言葉を数値情報として取り扱うことで、言葉の持つ意味を解析します。この技術が特に注目されるようになったのは、Google Brainが2018年5月にBERT (Bidire
masayoshinym 2020/09/11
機械学習系読物

形態素解析

自然言語

いつか試す
リンク
GiNZAで始める日本語依存構造解析〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析〜CaboCha, UDPipe, Stanford NLPとの比較〜
masayoshinym 2019/09/05
機械学習

形態素解析

自然言語

いつか読む

いつか理解したい
リンク
あなたの文章に合った「いらすとや」画像をレコメンド♪（アルゴリズム解説編） - Qiita
はじめに本記事はあなたの文章に合った「いらすとや」画像をレコメンド♪シリーズの第2回、アルゴリズム解説編です。文章を与えると、それに近い意味を持った「いらすとや」画像を探してレコメンドしてくれるアプリのアルゴリズムについて解説します。機能概要は第1回、あなたの文章に合った「いらすとや」画像をレコメンド♪（機能概要編）をご参照ください。アルゴリズムの概要本アプリの基本的なアイディアは次のとおりです。与えられた文や画像の説明文を、それぞれ文の分散表現（つまりはベクトル）に変換する。与えられた文と画像の説明文の意味の近さを、それぞれの文の分散表現を使って計算する（意味の近さ = 2つのベクトルのなす角の小ささ = コサイン類似度の大きさとする）。コサイン類似度が大きい説明文を持つ画像トップN個を選ぶことで、与えられた文と意味が近い画像を発見できる。模式図にすると、次のようになり
masayoshinym 2019/02/27
レコメンド

自然言語

形態素解析

いつか読む
リンク
pythonによる日本語前処理備忘録 | ブログ一覧 | DATUM STUDIO株式会社
はじめにこんにちは。DATUM STUDIOの安達です。最近社内で日本語のテキストを用いた自然言語処理でよく質問を受けるのですが、前処理についてはそこそこ同じような内容になるため、本記事では社内共有の意味も込めて前処理に関して用いてきた＆用いれそうな手法を列挙します。比較的同じ内容を扱った既存の記事としては以下のようなものもあり、読者の方はこれらも参考にされて要件に合わせて取捨選択してください。自然言語処理における前処理の種類とその威力 – Hironsan自然言語処理の前処理・素性いろいろ本記事における使用言語、環境は以下の通りです。・osx 10.13.6・anaconda 5.2.0・python 3.5.2Table of contents ・形態素解析段階での前処理・文字表現の正規化　・URLテキストの除外　・Mecab + neologd 辞書による形態素解析・形
masayoshinym 2019/01/21
MeCab

形態素解析

自然言語
リンク
形態素解析ツールの比較 (NLP2018) - Qiita
NLP2018のワークショップに行ってきたのですが、そこで聞いてきたことのうち、形態素解析ツールに関することを大雑把にまとめておきます。聞いたことをまとめることが目的なので、詳細は各ツールのWebサイトやgithubページへ行ってください。間違っている部分、追加したい内容があればコメントでお願いします。追記: 2018/04/02 nlp2018の発表資料が公開されました。 Juman++ (リンク) MeCab (リンク) KyTea (リンク) Unidic (リンク) https://sites.google.com/view/nlp2018ws/ NLP2018 形態素解析の今とこれから趣旨: どういう手法・ツールをどのようなタスクに対して使うべきかを選べるように、各ツールの開発者の発表を基に比較してもらうこと。さまざまな発表がありましたが、形態素解析ツールに焦点を当ててま
masayoshinym 2018/03/19
形態素解析

MeCab

開発ツール

ライブラリ
リンク
kuromoji.jsで形態素解析した結果とテキストの関係をビジュアライズする
azu/text-map-kuromoji: テキストを形態素解析した結果とテキストの関係をビジュアライズするエディタというツールを作った話。くだけた表現を高精度に解析するための正規化ルール自動生成手法という論文誌では、「ヵゎぃぃ」，「ゎた Uゎ」みたいな普通の形態素解析では未知語として検出されるものをどうやって正規化していくかという話が書かれていました。これを読んでいて面白かったのは形態素解析をした結果の未知語となった部分と穴埋め的にパターンを作って、そのパターンにマッチする同じようなテキストを探すというアプローチでした。プログラミング言語と違って、大抵の自然言語パーサはパース失敗ではなく、単なる未知な言葉として検出されます。また、その未知な言葉は常に増えていて、さきほどのくだけた表現を高精度に解析するための正規化ルール自動生成手法によると手動では登録できない増加量らしいです。
masayoshinym 2017/10/20
形態素解析
リンク
Javaで簡単に感情分析する方法
※サンプル・コード掲載あらすじ近年、AIの技術の活用分野は多岐に渡り、その中でも特に、人間の言葉を解釈する技術であるNLP（自然言語処理）が進歩してきています。テキストマイニングや、対話システム等多岐に渡って使用され、人間のコミュニケーションを一部、チャットボットが代行するという所まで来ています。今回は、そのNLPの一分野の感情分析と言われる分野で、テキストから人間の感情を読み取る技術について紹介をします。この技術は、例えば、テキストに未成年に不適切な内容がある場合に、それをブロックするポルノフィルターや、暴力やヘイトスピーチを含んだ内容を検知する、オフェンシブフィルター等、実用的な活用が進んでいる分野です。使用した環境 Windows or Macを仮定Eclipse（Neon3）を使用Java8.X（最新バージョン）を使用形態素解析機器（Kuromoji）の準備以下参照
masayoshinym 2017/08/23
Java

形態素解析

実装テク
リンク
形態素解析器 kagome を Google App Engine の最も安いインスタンスで動かす - 押してダメならふて寝しろ
概要前回までのあらすじ: kagome を GAE で動かしたいという話があり，kagome.ipadic という IPA 辞書だけを収めたコンパクト版を用意して，GAE 上で動作させることに成功したわけですが，メモリの消費量が多くて B4インスタンス(メモリ 512MB)以上じゃないと動作しなかったわけです．正直，kagome を GAE で動かしたいという話をチラホラ聞くものの，それは「動くかどうか試してみたい」的なやつで，実際使ってらっしゃるという話は聞こえてこなかったわけです．ところが・・・ Javaだとgomoku使えばB1/F1でも余裕で動いたんだけど、中々上手くいかんなぁ。— かず@GAE/Goやってます (@Kazzz) 2017年5月22日 kagome はちと動作に敷居が高いとのご指摘を受け，不幸にも黒塗りの高級車に追突してしまう後輩をかばいすべての責任を負った三
masayoshinym 2017/06/02
google

形態素解析

いつか試す
リンク
RNNで「てにをは」を校正する - にほんごのれんしゅう
RNNで「てにをは」を校正する余談 2017/3/19に、どの深層学習フレームワークがこれから深層学習を始める人におすすめなのかというアンケートをtwitterで取らせていただきました。五位 Theano(個別カウント) はじめに RNNによる文章校正がリクルートによって提案されて以来、調査タスクとして私のものとに来たりして、「できるんでしょう？」とか軽く言われるけど、実際には簡単にはできません。 RNNによる文章生成ができるから、校正もできるというのが人間の自然な発想なのかもしれませんが、英語と日本語の違いに着目した場合、英語がアルファベットのみで構築されるのに比べて日本語は、漢字・ひらがな・カタカナと非常に多く、同じように問題を適応すると、すごい高次元の問題を解くこととなり、理想的なパフォーマンスになかなかなりません。まぁ、あんまり完成してるわけでない技術を完成したようにプレスリ
masayoshinym 2017/03/21
機械学習

形態素解析

いつか試す
リンク
1 2 3 次のページ