mecabの人気記事 19件 - はてなブックマーク

1 - 19 件 / 19件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

mecabの検索結果1 - 19 件 / 19件

2019年末版形態素解析器の比較 - Qiita
- 416 users
- qiita.com/hi-asano
- テクノロジー
- 2019/12/17
形態素解析は日本語処理の初歩であり、文を単語に分割したり、品詞や活用形、基本形を分析するために行います。本記事では形態素解析のツールをいくつかの出力例を交えて比較していきます。（SentencePieceでいいじゃん、という人はお呼びでないですが、そういう方には、Twitterのトレンドが変な分割になってたら嫌では？と申し上げておきたいです） MeCab 言わずと知れた形態素解析器。とりあえずMeCabを使うという人は今なお多いことでしょう。とにかく高速であるということと、システムと辞書が分離されているのが特徴です。またPythonから使うのも簡単になりました（Janomeというものがありましたがmecab-python3の方が高速です）。Javaから使いたい人はKuromojiを使えばmecab(+ipadic)相当の結果が得られるはずです。辞書はIPA辞書が推奨されていますが、Un
Pythonで100万ドキュメントオーダーのサーチエンジンを作る(PageRank, tfidf, 転置インデックスとか) - にほんごのれんしゅう
- 321 users
- catindog.hatenablog.com
- テクノロジー
- 2019/07/06
検索エンジンを何故作ってみたかったかもともとこのブログのコンセプトのNLP的なことで、情報を整理してなにか便利にしたかった(Googleと同じモチベーションの世界の情報を整理する) 4年前にほぼ同じシステムを作ろうとしたとき、500万を超える大量のインデックスを検索するシステムは、数学的な理解度が十分でない＋エンジニアリング力が伴わないなどでギブアップした背景があり、今回再チャレンジしたくなったほぼすべての機能をpure python(+いくつかの例外はある)で実装して、世の中のソフトウェアを使うだけの検索エンジンをやってみたなどではなく、実際に理解して組んでみることを目的としたかった依存パッケージと依存ソフトウェア GitHubのコードを参照してください様々なサイトを巡回する必要があり、requestsが文字コードの推論を高確率で失敗するので、nkf をlinux環境で入れて
AWS、PythonでMeCabを使う際の語彙データを無料公開 | Ledge.ai
- 245 users
- ledge.ai
- テクノロジー
- 2020/11/20
アマゾンウェブサービスジャパン株式会社（Amazon Web Services、AWS）は、同社のオープンデータセットに、日本語自然言語処理で定番の形態素解析器である「MeCab」を、ラッパーライブラリであるfugashi経由でPythonで使用する際の語彙（ごい）データに加えた、と公式ブログで明らかにした。多くの機械学習デベロッパーが、AWS上でさまざまなアルゴリズムの開発やモデルを構築している。なかでも、自然言語処理をする際には、対象言語の特性に即した形で前処理をする必要がある。日本語の自然言語処理を実施する際には、一般的に「形態素解析」と呼ばれる文章の分解処理を前位処理として実施する。日本語形態素解析をするためには、日本語の語彙データが必要になる。語彙データは大きなサイズになるだけではなく、これらを用いた計算の際にも大量のGPUおよびCPUが求められる。そのため、従来このよ
- mecab
- あとで読む
- aws
- python
- 形態素解析
- 自然言語処理
- nlp
- 学習
- データ
Pythonで始める自然言語処理の基礎の基礎 | クリエイターのための総合情報サイト CREATIVE VILLAGE
- 195 users
- www.creativevillage.ne.jp
- テクノロジー
- 2020/09/29
PythonはAIや機械学習領域のライブラリを豊富に持っており、近年非常に高い人気を誇っています。今回はPythonを使用して自然言語（人間が読み書きする言語）を処理する方法ご紹介します。近年、自然言語処理の領域は急速に発展しており、機械翻訳（英語から日本語の翻訳等）の精度も年々向上しています。今回はその自然言語処理の基礎の基礎の部分をお伝えし、Pythonで処理する方法をご紹介いたします。合田寛都（ごうだ・かんと）株式会社メンバーズメンバーズデータアドベンチャーデータアナリストメンバーズに新卒入社後大手企業のWEBサイト運用やアクセス解析等に従事。メンバーズデータアドベンチャーに異動し、クライアント企業にデータアナリストとして常駐。自然言語とは？自然言語とは人間が日常的に読み書きする、所謂普通の言語のことを指します。これと対比されるのが機械語やプログラミング言語で、Py
漢字のようで漢字でないUnicodeの「康熙部首」と「CJK部首補助」｜TechRacho by BPS株式会社
- 131 users
- techracho.bpsinc.jp
- テクノロジー
- 2020/10/07
きっかけ以下のツイートで「埼玉埼⽟問題」と康煕部首を知りました。「埼玉」と「埼⽟」の話。unicodedata.normalize('NFKC', '「埼玉」と「埼⽟」') でいけそう https://t.co/kte0sxDvZT — Haruhiko Okumura (@h_okumura) July 11, 2020 康煕部首とは⼀⼁⼂⼃⼄⼅⼆⼇⼈⼉⼊⼋⼌⼍⼎⼏⼐⼑⼒⼓⼔⼕⼖⼗⼘⼙⼚⼛⼜⼝⼞⼟⼠⼡⼢⼣⼤⼥⼦⼧⼨⼩⼪⼫⼬⼭⼮⼯⼰⼱⼲⼳⼴⼵⼶⼷⼸⼹⼺⼻⼼⼽⼾⼿⽀⽁⽂⽃⽄⽅⽆⽇⽈⽉⽊⽋⽌⽍⽎⽏⽐⽑⽒⽓⽔⽕⽖⽗⽘⽙⽚⽛⽜⽝⽞⽟⽠⽡⽢⽣⽤⽥⽦⽧⽨⽩⽪⽫⽬⽭⽮⽯⽰⽱⽲⽳⽴⽵⽶⽷⽸⽹⽺⽻⽼⽽⽾⽿⾀⾁⾂⾃⾄⾅⾆⾇⾈⾉⾊⾋⾌⾍⾎⾏⾐⾑⾒⾓⾔⾕⾖⾗⾘⾙⾚⾛⾜⾝⾞⾟⾠⾡⾢⾣⾤⾥⾦⾧⾨⾩⾪⾫⾬⾭⾮⾯⾰⾱⾲⾳⾴⾵⾶⾷⾸⾹⾺⾻⾼⾽⾾⾿⿀⿁⿂⿃⿄⿅⿆⿇⿈⿉⿊⿋⿌⿍⿎⿏⿐⿑⿒⿓⿔⿕ KangXi Radica
- 文字コード
- unicode
- 漢字
- あとで読む
- 日本語
- encoding
- bug
- 文字
- slide
日本語形態素解析器 MeCab を Python から利用する際の語彙データ（UniDic）が AWS 上で Open Data として公開されました | Amazon Web Services
- 102 users
- aws.amazon.com
- テクノロジー
- 2020/10/09
Amazon Web Services ブログ日本語形態素解析器 MeCab を Python から利用する際の語彙データ（UniDic）が AWS 上で Open Data として公開されました多くの機械学習デベロッパーの方々が、AWS 上でさまざまなアルゴリズムの開発やモデルの構築を行なっています。中でも自然言語処理を行う際には、対象言語の特性に即した形で前処理を行う必要があります。日本語の自然言語処理を実施する際には、形態素解析と呼ばれる文章の分解処理を前位処理として一般的に行います。日本語形態素解析を行うためには、日本語の語彙データが必要となりますが、このデータは通常 GB 以上のサイズに及ぶ大きなサイズとなります。またこれらを用いた計算の際にも大量の GPU および CPU を必要とするため、従来こうしたモデルを構築する際には常にストレージおよびコンピューティングのリソースの
- aws
- mecab
- python
- 形態素解析
- 自然言語処理
- あとで読む
- nlp
- データ
- amazon
AIはハチ=米津玄師を見破れるか ? -J-popアーティストの歌詞を分析してみた- - Qiita
- 100 users
- qiita.com/kazuya-n
- テクノロジー
- 2019/09/14
はじめに一年前にこんな記事を書きました。未だにちょくちょくいいねを頂いているので、自然言語処理の練習を兼ねて久しぶりに遊んでみた系の記事を投稿しようと思います。やったこと歌詞データのクローリング Mecabによる分かち書き tf-idfによるベクトル化ベクトル化した歌詞によるアーティストのクラスタリングとUMAPでの可視化 (おまけ) fastTextでハチ=米津玄師を見分けられるのか? 分析にはJupyter Labを用いました。歌詞データ今回用いる歌詞データについて説明します。クローリングで取得先立って歌詞データのクローリングをしました。とある人気アーティスト順に歌詞を取得できるサイトより、45人のJ-popアーティストにつき、最大50曲分の歌詞を取得しCSVに保存しました。実際にクローリングに用いたコードを公開するのもどうかと思うので、ここでは割愛します。。。Bea
最先端自然言語処理ライブラリの最適な選択と有用な利用方法 / pycon-jp-2020
- 90 users
- speakerdeck.com/taishii
- テクノロジー
- 2020/08/27
PyCon JP 2020 での発表スライドです。 GitHub: https://github.com/taishi-i/toiro/tree/master/PyConJP2020
ナイーブベイズを使って1日で100万件の投稿をジャンル分けした話 - AppBrew Tech Blog
- 80 users
- tech.appbrew.io
- テクノロジー
- 2019/09/16
こんにちは、AppBrewでアルバイトをしている@Leoです。自然言語処理の研究室に最近入った大学生で、趣味はKaggleと競技プログラミングです。 AppBrewでは、LIPSの投稿を使ったデータ分析をしています。今日の記事では、弊社のアプリLIPSにて投稿ジャンルを機械学習を使って自動推定した方法を紹介します。自然言語処理・確率関係全然わからない！という人でも読みやすい内容になっていると思うので、最後まで読んでいただけると幸いです！ LIPSにおけるジャンル教師データの作成ナイーブベイズ単語分割モデルの実装分類結果おわりに LIPSにおけるジャンル最近、LIPSにジャンル機能が追加されました。これは投稿されたクチコミにジャンルを設定できる機能です。適切にジャンルを設定すると、投稿を検索するときにジャンルを使って絞り込めるなどの利点があります。ジャンルは7種類（
AWS、Pythonから「MeCab」を利用する際の語彙データをOpen Dataとして公開
- 80 users
- codezine.jp
- テクノロジー
- 2020/10/12
アマゾンウェブサービスジャパンは、日本語自然言語処理で定番の形態素解析器である「MeCab」を、ラッパーライブラリである「fugashi」経由でPythonにて使用する際の語彙データ「UniDic」が、「Open Dataset」に追加されたことを、10月9日に発表した。「MeCab」は、オープンソースの形態素解析器で、日本語の形態素解析において幅広く用いられており、言語、辞書、コーパスに依存しない汎用的な設計を基本とし、高速に動作する。「fugashi」は、「MeCab」をPythonから使用する際のラッパーライブラリで、unidic-pyとの連携によって「UniDic」を簡単に読み込んで使用できる。「UniDic」は、国立国語研究所によって構築された、日本語テキストを単語に分割し、形態論情報を付与するための電子化辞書。データはAmazon S3上でホストされているので、AWSで
形態素解析器 kagome v2 をリリースした - 押してダメならふて寝しろ
- 76 users
- ikawaha.hateblo.jp
- テクノロジー
- 2020/08/09
概要ホント誰得でもないのは重々承知していますが、思い立って形態素解析器 kagome v2 をリリースしました。とはいっても、だいたいの機能は今ある kagome でも実装済みで、今さら変更してもどうよ・・・という感じではあります。なので、モチベーションを維持するのが非常に難しくて、だらだらと時間だけがかかってしまいました。折角作ったのでリリースノートです。 TL;DR; v2 で実現した事辞書の分離 / バージョン管理辞書毎に異なる素性項目の扱いの共通化韓国語辞書対応辞書の分離辞書を別リポジトリに分離しました。これにより、長年(?)懸案だった辞書のバージョン管理が可能になりました。go.mod で指定すれば、どのバージョンの辞書を利用しているかがわかります。また、これにより、これまで kagome.ipadic のような単独辞書を利用するだけのためのライブラリを別に切
- 形態素解析
- 自然言語処理
- NLP
- あとで読む
- kagome
- go
- 機械学習
- mecab
- golang
- machinelearning
ダジャレを判定する - Stimulator
- 74 users
- vaaaaaanquish.hatenablog.com
- テクノロジー
- 2020/12/11
- はじめに - 近年、IT業界のダジャレは熾烈の一途を辿っている(ITだけに) 。類義語を巧みに取り入れたダジャレ、難読化されたダジャレなどが増加し、一体どれで「初笑い」すれば良いのか悩む若者も少なくない。そのような背景があり、ダジャレを判定するアルゴリズムの開発も盛んである。ルールベースによる判定では、@kurehajimeが提案、開発したdajarep *1 や、@fujit33によるShareka *2が存在する。特にSharekaは、ルールベースのロジックにも関わらず、反復型とされる種類のダジャレに対して高い精度での判定を可能にしている。また、機械学習モデルを用いた判定手法として、谷津(@tuu_yaa)らが開発したDajaRecognizer *3がある。DajaRecognizerは、多くのルールベースによって子音音韻類似度をPMIとして定義、Bag-of-Words、
- mecab
- BERT
- python
- 形態素解析
- machinelearning
- nlp
- あとで読む
- 機械学習
SuikaというPure Rubyな形態素解析器を作成した - 洋食の日記
- 70 users
- yoshoku.hatenablog.com
- テクノロジー
- 2020/07/05
はじめに Pure Rubyな形態素解析器Suikaを作成した。開発中でバッリバリにα版だが、思い切ってリリースすることにした。 suika | RubyGems.org | your community gem host 最も有名な形態素解析器であるMeCabもそうだが、形態素解析器は食べ物の名前がつくことが多い。「Rubyなので赤い食べ物が良いかな」と考えて、文字数とかわいらしさからSuika（スイカ）とした。使い方 SuikaはPure Rubyで作られているため、MeCabをはじめ特別なライブラリを別途インストールする必要はない。 gem install suika バッリバリにα版なので、機能はないに等しく、オプションなしのMeCabコマンドと同様となる。 $ irb irb(main):001:0> require 'suika' => true irb(main):002:
Kubeflow Pipelinesで日本語テキスト分類の実験管理 - やむやむもやむなし
- 63 users
- ymym3412.hatenablog.com
- テクノロジー
- 2020/01/07
機械学習ワークフロー管理ツールであるKubeflowのPipelines機能を使って日本語テキスト分類の実験管理を行います。この記事ではKubeflowのチュートリアルに従ってKubeflowのクラスタを構築してPipelinesを動かし、最後に日本語のデータセットをKubeflow Pipelinesに実際に乗せて機械学習のワークフロー管理を行うところまでまとめていきます。 Kubeflow Kubeflowとは Pipelinesとは GKEでKubeflowクラスタの構築クラスタ構築 Workload Identityの設定 Pipelinesの基本的な使い方 Pipeline/Experiment/Run PipelineとComponent PipelineとDSL 実験管理としてのKubeflow Pipelines 日本語テキスト分類 with Pipelines Pip
- kubeflow
- GCP
- 機械学習
- kubernetes
- あとで読む
- pipeline
- mecab
Firestore だけで Algolia を使わず全文検索 - Qiita
- 60 users
- qiita.com/oukayuka
- テクノロジー
- 2019/09/27
（この記事は先日2019年9月22日に開催された技術書典7にて頒布した『りあクト！ Firebaseで始めるサーバーレスReact開発』の「4-6. Firestore だけで全文検索を実現する」の内容を紹介したものです）やっぱりまだ Firestore で提供されない全文検索機能昨日（2019年9月26日）、スペインのマドリードで開催された Firebase Summit 2019 ですが、新機能が大量にリリースされて開発者は嬉しい悲鳴を上げているようです。詳しくは公式ブログやセッションの動画を参照していただくとして、個人的には Firebase Extension に可能性を感じてて、分散カウンターや Firestore コレクションの BigQuery 同期が手軽に使えるようになったの嬉しいですね。これからめっちゃ活用していきたいです。しかしそれでも今回も、Firestore
- firebase
- firestore
- 全文検索
- あとで読む
- 開発
- 検索
- MySQL
あなたの文章に合った「いらすとや」画像をレコメンド♪（応用編） - Qiita
- 54 users
- qiita.com/sonoisa
- テクノロジー
- 2019/12/22
どんなアプリ？みんな大好き「いらすとや」さん記事の挿絵に使ってみたいけれども、適切な画像を探すのに苦労していませんか？検索キーワードを何にしようか迷ったり、一つ一つ検索するのは面倒だなぁとか。そんな苦労を解決してくれる、ドキュメントの文章をまるっと全部与えると、自動で特徴的なキーワードを見つけてくれて、そのトピックに合った画像を「いらすとや」さんから探してきて、文章中に埋め込んでレコメンドしてくれるアプリを作ってみました。例えば、下図のように北大路魯山人「だしの取り方」の文章を全部与えると、「鉋（カンナ）」や「だし」などの特徴的なキーワードを自動抽出して、それに合った挿絵を適した位置にレコメンドしてくれ、簡単に挿絵入りの文章を作れます。加えて、レコメンド完了までの所要時間は数秒です。簡単かつ高速！以下、このアプリの作り方について解説していきます。なお、本記事はあなたの文章
ゴー☆ジャス（宇宙海賊）をつくる - Qiita
- 53 users
- qiita.com/jg43yr
- テクノロジー
- 2019/07/14
私の大好きな宇宙海賊ゴー☆ジャスが，先日嬉しいことに私の大学の学園祭にて公演をしてくださいました。その記念に，ゴー☆ジャスを作ってみました。Pythonでゴー☆ジャスクラスを実装しましたので，時間の無い方は一番下のクラス実装かテストの部分まで読み飛ばして下さい。 2021-12-07 いくつかの派生記事がでています Qiita: ジョイマン生成器つくってみた Qiita: BKB（バイク川崎バイク）をつくる 2019/7/16 (なんと本物にツイートしていただきました) ゴー☆ジャスの頭の中ではこんなことが((((；ﾟДﾟ)))))))！！！！ゴー☆ジャス（宇宙海賊）をつくる https://t.co/wcwo6bqt0E #Qiita — ゴー☆ジャス（宇宙海賊） (@Gorgeous55555) 2019年7月16日サンプルWebアプリにもなっています Web App: http
- python
- lol
- mecab
- Qiita
- あとで読む
- algorithm
- ネタ
- あとで見る
- neta
MeCabをPythonで形態素解析 + FlaskでAPI | Tech Blog | CRESCO Tech Blog
- 51 users
- www.cresco.co.jp
- テクノロジー
- 2021/02/06
MeCabは京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所共同研究ユニットプロジェクトを通じて開発されたオープンソース形態素解析エンジンです。言語, 辞書,コーパスに依存しない汎用的な設計を基本方針としています。パラメータの推定に Conditional Random Fields (CRF) を用いており, ChaSenが採用している隠れマルコフモデルに比べ性能が向上しています。また、平均的に ChaSen, Juman, KAKASIより高速に動作します。ちなみに和布蕪(めかぶ)は, 作者の好物です。
- python
- flask
- NLP
- api
- あとで読む
- プログラミング
TIS、自然言語処理で企業名認識を行うための辞書「JCLdic」を無償公開
- 50 users
- prtimes.jp
- テクノロジー
- 2020/04/21
TIS、自然言語処理で企業名認識を行うための辞書「JCLdic」を無償公開企業名のカバレッジ範囲が高い辞書で、自然言語処理など多様なシーンでの活用を目指す TISインテックグループのTIS株式会社（本社：東京都新宿区、代表取締役会長兼社長：桑野徹、以下：TIS）は、自然言語処理で企業名認識を行うための辞書「JCLdic」（日本会社名辞書）を無償公開し、辞書を生成するコードをオープンソースソフトウェア（OSS）として公開することを発表します。・「JCLdic」公開ページ：https://github.com/chakki-works/Japanese-Company-Lexicon （利用は上記のページからダウンロード）「JCLdic」は800万以上の企業名を収録している企業名辞書です。国税庁が公開している法人情報(2019年12月27日まで)の商号に対して、別名生成手法を適用してTI