[B! 自然言語処理] peketaminのブックマーク

peketamin id:peketamin

自然言語処理に関するpeketaminのブックマーク (59)

https://twitter.com/MaartenGr/status/1625514341331001351
peketamin 2023/02/16
トピックモデル

自然言語処理

nlp

BERT
リンク
校長先生の話エンドレス
このサイトでは、マルコフ連鎖で作成した校長先生の話を永遠に聞くことが出来ます。ぜひ音声ありでご視聴ください。
peketamin 2020/06/01
昔の人工無能的な。

マルコフ連載

自然言語処理
リンク
Aho Corasick 法 - naoyaのはてなダイアリー
適当な単語群を含む辞書があったとします。「京都の高倉二条に美味しいつけ麺のお店がある」*1という文章が入力として与えられたとき、この文章中に含まれる辞書中のキーワードを抽出したい、ということがあります。例えば辞書に「京都」「高倉二条」「つけ麺」「店」という単語が含まれていた場合には、これらの単語(と出現位置)が入力に対しての出力になります。この類の処理は、任意の開始位置から部分一致する辞書中のキーワードをすべて取り出す処理、ということで「共通接頭辞検索 (Common Prefix Search)」などと呼ばれるそうです。形態素解析、Wikipedia やはてなキーワードのキーワードリンク処理などが代表的な応用例です。 Aho Corasick 法任意のテキストから辞書に含まれるキーワードをすべて抽出するという処理の実現方法は色々とあります。Aho Corasick 法はその方法のひと
peketamin 2016/10/25
自然言語処理
リンク
池上有希乃プロフィール
概略人工知能技術や自然言語処理に興味があるソフトウェアエンジニアです. これまでに下記の研究開発をしていました: リカレントニューラルネットワーク (RNN) 言語モデルによる予測入力を用いた日本語入力メソッドモードレス日本語入力 (日本語とそれ以外の言語との入力の際に入力モードの切り替えを必要としない入力メソッド) Webブラウザでのコンサルタント (3Dモデリング) との悩み相談用音声対話システム句単位での指示詞の照応解析本文のみの (メタデータを用いない) モデルによる情報信憑性判断システムまた, 業務では下記のことに携わりました: インターネット広告配信におけるクッキーを用いない確率的クロスデバイスターゲティング機能の開発テキストと画像情報を用いた悪質Webサイト検出かな漢字変換におけるクラウド上のサーバーでの大規模辞書引き機能の開発論文誌・国際会議での研究発表,
peketamin 2016/05/30
自然言語処理
リンク
【転職会議】企業の口コミ・評判・求人が豊富な転職サイト
転職するなら転職サイト『転職会議』。企業の口コミ・求人・会社概要はもちろん、年収、入社対策、売上・業績の口コミから転職/中途の採用情報までサポート。
peketamin 2015/08/03
自然言語処理
リンク
Natural Language Processing with Swift
About the content This content has been published here with the express permission of the author. Apple has offered an API for natural language processing since iOS 5, which allowed us to tokenize text, detect the language, and determine parts of speech. With Swift and the introduction of Playgrounds, it’s faster and more delightful than ever to experiment with linguistics. We welcomed Ayaka Nonak
peketamin 2015/04/21
自然言語処理

swift
リンク
言語処理100本ノック 2015
言語処理100本ノックは，実践的な課題に取り組みながら，プログラミング，データ分析，研究のスキルを楽しく習得することを目指した問題集です実用的でワクワクするような題材を厳選しました言語処理に加えて，統計や機械学習などの周辺分野にも親しめます研究やデータ分析の進め方，作法，スキルを修得できます問題を解くのに必要なデータ・コーパスを配布しています言語はPythonを想定していますが，他の言語にも対応しています
peketamin 2015/03/13
自然言語処理

機械学習

nlp

_FAV_
リンク
自然言語処理のためのDeep Learning
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EM NLP 2021)Deep Learning JP
peketamin 2015/03/03
NLP

自然言語処理

機械学習
リンク
https://ja.epitomeup.com/
peketamin 2015/02/26
news

自然言語処理
リンク
自然言語処理技術を用いたはてなブックマークの新機能「トピック」をベータリリースしました - はてなブックマーク開発ブログ
こんにちは、はてなブックマークのディレクター id:jusei です。本日、はてなブックマークの新機能「トピック」をベータリリースしました。現在はPC版でのみご利用いただけます。スマートフォン版、iOSアプリ、Androidアプリでは順次対応していきます。新機能「トピック」では、「人気エントリー」に掲載されている記事の中から関連性の高い記事をまとめ、さらにそれ以外の関連エントリーも含めて一覧できる「トピックページ」を生成します。各トピックの見出しは、自然言語処理技術を用いて自動生成しております。トピックページの生成対象は、過去10年間に蓄積されたはてなブックマークの全エントリーです。 2015年1月のトピック2005年2月のトピックトピックページには、ユーザーの皆さまの間で多く話題になっている記事を抜粋して表示する「ハイライト」、すべての記事を表示する「新着」の2つの表示モードがありま
peketamin 2015/02/06
はてブ

自然言語処理
リンク
【SEO×テキストマイニング】確率的潜在的意味解析(pLSA) を用いた共起語の発見
こんにちは、レバレジーズSEOチームです。以前の記事「【SEO×自然言語処理】 SEOに使えるテキストマイニングの最新手法」に引き続き、今回は、テキストマイニング手法として有名な確率的潜在的意味解析(probabilistic Latent Semantic Analysis：pLSA)を用いた分析をお伝えしたいと思います。・分析のモチベーション　2013年における検索アルゴリズムの大きな変更点の一つとしてHummingbirdアルゴリズムが挙げられます。Hummingbirdアルゴリズムは文脈・コンテンツの意図を判断することに特化したアルゴリズムとされています。(注1) 検索エンジンはあくまでも機械ですから、文章の理解をするとしてもテキストマイニングの手法に従う可能性はあると思われます。現に、SEOMOZのRand FishkinやSEO by the SeaのBill Slaws
peketamin 2015/02/04
自然言語処理

NLP
リンク
RakutenMAによる形態素解析入門 - あんちべ！
概要本稿はRakutenMAというJavaScriptだけで動く学習器付きの形態素解析器を利用する入門記事です。本記事を読了すると、形態素解析の実行と形態素解析のモデルを作成・更新出来るようになります。また、本稿ははてな×PC工房との連動企画の補足をするべく書きました。「あんちべさんと一緒に Rakuten MA で形態素解析」はてなニュース連動企画第二弾！ : パソコン工房パソコン工房のPCで遊ぼう第2弾！あんちべさんと一緒に Rakuten MA で形態素解析 - はてなニュース RakutenMAを利用したエディタ判定器デモエディタ判定器 :パソコン工房【やじうまWatch】Emacs派とVim派の対立を煽る「エディタ判定器」が面白いと評判 -INTERNET Watch はじめに近年、twitterやFacebookなどのSNSやAmazonのレビューなどから得ら
peketamin 2015/01/16
形態素解析

自然言語処理

機械学習

nlp

RakutenMA

MeCab
リンク
第1回　自動文書検査ツールRedPenとは？ | gihyo.jp
はじめに本連載ではRedPenという自動文書検査ツールの紹介とRedPenを利用した技術文書の校正方法について説明します。RedPenはオープンソースプロジェクトで、現在もゆっくりと開発が続いています。RedPenのホームページは次のとおりです。 http://redpen.cc RedPenは技術文書をターゲットにした文書の自動検査ツールです。技術文書にはマニュアルやチュートリアル、論文、仕様書等が含まれます。この記事のようなソフトウェアツールの紹介文書はもちろん技術文書の一つといえます。第1回の今回は、はじめに技術文書の特徴を解説し、その後RedPenを開発した動機について紹介します。記事の後半では、RedPenの特徴と利用方法について解説します。技術文書の特徴 RedPenが対象とする技術文書ですが、作文や日記、文学作品等とは大きく異なる特徴をもちます。最大の違いは、技術文書に
peketamin 2014/11/17
自然言語処理

文章

ツール

校正
リンク
ナイーブベイズを用いたテキスト分類 - 人工知能に関する断想録
今までPRMLを読んで実装を続けてきましたが、10章からは難しくて歯が立たなくなってきたのでここらで少し具体的な応用に目を向けてみようと思います。機械学習の応用先としては画像の方が結果を見ていて面白いんですが、当面は自然言語処理を取り上げます。そんなわけで一番始めの応用は機械学習と自然言語処理の接点として非常に重要なテキスト分類（Text Classification, Text Categorization）の技法たちを試していきたいと思います。テキスト分類は文書分類（Document Classification）という呼び方もあります。テキストと文書は同じ意味です。最初なので自分の知識の整理と入門者への紹介のためにちょっと丁寧にまとめてみました。テキスト分類とはテキスト分類とは、与えられた文書（Webページとか）をあらかじめ与えられたいくつかのカテゴリ（クラス）に自動分類するタス
peketamin 2014/10/24
機械学習

自然言語処理
リンク
Word2vecの並列実行時の学習速度の改善
情報処理学会第217回自然言語処理研究会 http://www.nl-ipsj.or.jp/NL217program.html
peketamin 2014/07/04
学習

自然言語処理

機械学習

nlp

deeplearning

word2vec
リンク
文節境界解析のラベルと性能 - skozawa's blog
文節境界解析で使うラベルで、BIとBILUの2種類でどちらが性能がよいかを検証してみた。結果的にはBIだけのほうが性能が高かった。前回の輪読会で紹介した固有表現抽出に関する論文の中で印象に残ったことのひとつとして、系列ラベリングに使うラベルで最近はBIOよりもBILOUを使ったほう性能が高いというものがあった。 BIO(Begin, Inside, Outside)とBILOU(Begin, Inside, Last, Outside, Unit(Begin and Last))の違いは固有表現の末尾を考慮するかどうかで、末尾を考慮したほうが性能がよいというもの。社内輪読会で「Joint Inference of Named Entity Recognition and Normalization for Tweets」を紹介した - skozawa's blog Comainuでは、
peketamin 2014/07/01
自然言語処理

nlp
リンク
Pure Go な形態素解析器で実行バイナリに辞書埋め込んだヤツを作ってみた (1) - Qiita
はじめに DoubleArray を作ったこともあって，ついでに形態素解析器も作ってみようと思い立ち kuromoji を参考に形態素解析器を実装してみました．目標としては，Pure Go で kuromoji みたいな感じ（辞書内包，検索モードあり，スレッドセーフ）を目指します．サンプルプログラム参考下記を参考にさせていただきました． kuromoji 日本語入力を支える技術 Mecab 品詞IDの定義形態素解析のちょー適当な説明「形態素」が何であるかを議論し出すと面倒なことに巻き込まれそうなので，ここでは MeCab-IPADIC で定義されているものとします．形態素解析のアルゴリズムについては下記の資料などをあたってください．日本語入力を支える技術日本語解析ツール MeCab, CaboCha の紹介用意するもの DoubleArray #前に作ったものを id が記
peketamin 2014/06/20
golang

自然言語処理

NLP

kuromoji
リンク
Python - Perl + Java = ？はてなブログのデータとパソコン工房のPCを使って「word2vec」で遊んでみた - はてなニュース
統計処理用のマシンを使って、自然言語処理で遊ぼう！ BTOパソコンで有名な「パソコン工房」から「統計処理用のPCを企画しているので、何かできないか」と相談された編集部は、はてなエンジニアと相談して「word2vec」を使って遊んでみることに。はてなブログのデータとかっこいいパソコンを使って、最新の自然言語処理で楽しむ様子をお楽しみください！記事の終わりには2TBの外付けHDDが当たるプレゼントのお知らせも。（※この記事は株式会社ユニットコムによるPR記事です） ―― BTOパソコンのショップ／サイトで有名な「パソコン工房」さんから、以下のような依頼が来ました。データサイエンティスト向けに、統計処理用に使えるパソコンをいろいろと考えています。なので、何か面白い処理に使って、PR記事にしてほしいんです！ ▽ 【パソコン工房公式サイト】BTOパソコン（PC）の通販 ―― ということで、はて
peketamin 2014/04/22
自然言語処理

word2vec
リンク
意識高すぎて休日にword2vecをいじるしかやることなかった - 驚異のアニヲタ社会復帰の予備
word2vecという、ニューラルネットワーク的なことを用いて文書集合からコーパスを構築して、単語のベクトル演算ができるようになる手法があるらしい。艦これ加賀さんから乳を引いてみるという話を聞いてスゲー!!ってなったので、Twitterでやってみたとか英辞郎でやってみたとかMagic: The Gatheringとかwikipediaいろいろあるなか、何番煎じだよｿﾚｪ…って思われそうだけれどもやってみる。こちらを参考にword2vecをインストールする。今回はPythonではなくターミナルでカチャカチャやることにする。 demo-word.sh の中にtext8というデータがあるが、これは100MBほどのコーパスで、 anarchism originated as a term of abuse first used against early working class radic
peketamin 2014/04/21
自然言語処理

テキストマイニング

word2vec
リンク
社会人が統計学や機械学習を学ぶなら「落下傘方式」で - 渋谷駅前で働くデータサイエンティストのブログ
今日何気なく呟いたツイートが、見ていたら結構RT&favされていた模様で。社会人が統計学とか機械学習を独習するには、いわゆる「落下傘方式」が良いと思う。必要な時にその項目だけ学んで実践する。その繰り返しで学問体系のマス目が埋まっていけば良し。あと、初めに体系立ったテキストを分からなくても良いので通読するのも良し。だいたいの地図が頭に入る。— TJO (@TJO_datasci) 2014, 3月 31 この後も色々補足で呟いたんですが、せっかくなので簡単にまとめたものを書いてみました。これから社会人で統計学や機械学習を学ぼうと考えている人の参考になれば嬉しいです。あ、これはベタな言い方をすれば「データサイエンティスト（死語）になるにはどうしたら良いか」にもつながる話なんですが、ここではもっと広く「統計学や機械学習を使う仕事をしたいと思ったらどう独習するべきか」という話にしておこうと思い
peketamin 2014/04/01
学習

勉強

統計学

機械学習

自然言語処理

学習法
リンク
1 2 3 次のページ