[B! 自然言語処理] kazkaz03のブックマーク

統計的係り受け解析入門

GiNZAで始める日本語依存構造解析〜CaboCha, UDPipe, Stanford NLPとの比較〜Megagon Labs

kazkaz03 2012/09/19

自然言語処理

リンク

Dynamic Programming による類似文字列マッチの実装例

Dynamic Programming による類似文字列マッチの実装例 2007-01-22-4 [Programming][Algorithm] 「Modern Information Retrieval」(8.6.1 p.216) での Dynamic Programming (DP) の解説のところのアルゴリズムを素直に Perl で実装したみた。さらにマッチ箇所取り出しロジックも実装してみた。 # DP はいわゆる「類似文字列検索（あいまい検索）」に使うと便利なalgorithm。実は、大学院でも前の会社でも、PerlやらC++やらで実装して使ってた。単純ながら使い勝手もよく、まさに現場向きかと。 grep 式に頭から見ていくので計算量的にはイマイチなのだが、転置インデックス検索などで範囲を絞ってから適用すれば実用上問題ない。 ■定義みたいなの Q1. 二つの文字列 "

kazkaz03 2012/08/09

自然言語処理

リンク

Não Aqui! » SimString (類似文字列検索ライブラリ) 1.0 released

SimStringという類似文字列検索ライブラリをBSDライセンスでリリースしました．類似文字列検索とは，文字列集合（データベース）の中から，クエリ文字列と似ているものを見つけ出す処理です．コンピュータは，正確に一致する文字列を探すのは得意ですが，表記揺れに出くわすと，途端に対応できなくなります．例えば，「スパゲティ」に対して，レストラン情報などを返すサービスにおいて，「スパゲッティ」や「スパゲティー」などの表記揺れが検索クエリに与えられると，通常のデータベースでは情報を提示することが出来ません．類似文字列検索を用いると，表記揺れが検索クエリに与えられても，「スパゲティ」という既知語を代替クエリとして提案したり，「スパゲティ」の情報をダイレクトに引き出すことができるようになります．似てる語を探す技術って，文字列処理の基本中の基本で，自然言語処理では当たり前のように使われていてもおかしくな

kazkaz03 2012/08/09

自然言語処理

リンク

つぶやきでみる花粉症話題度マップ

kazkaz03 2012/03/08

リンク

Amazon.co.jp: 日本語入力を支える技術　～変わり続けるコンピュータと言葉の世界 (WEB+DB PRESS plus): 徳永拓之: 本

kazkaz03 2012/02/08

リンク

LinuxBuildInstructions - mozc - How to build Mozc on Linux - Project Hosting on Google Code

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

kazkaz03 2012/01/24

NHKのプロフェッショナルで放送されていた、Googleの日本語入力オープンソース。

リンク

自然言語処理 on Mac

Julia言語の最新版v0.5.0が公開されて、メジャーバージョンv1.0に向けて着実に進化しています。さっそくこちらのブログに変更点が日本語でまとめられています： Julia言語の0.5の変更点 - りんごがでているダウンロードページのディスクイメージでインストールした場合、ターミナルから起動するときは次のようにします： $ /Applications/Julia-0.5.app/Contents/Resources/julia/bin/julia julia> Juliaは機械学習など数理モデルの計算に向いている高速な処理系ですが、後発の言語ということもあって、豊富な資産がすでにあるRやPythonの機能を直接呼び出すパッケージも充実しています。 JuliaからRを使う - りんごがでている Python使いをJuliaに引き込むサンプル集 | mwSoft Pythonのsciki

kazkaz03 2012/01/22

リンク

教師なし形態素解析を人間の単語分割基準に近づける - nokunoの日記

以前，latticelmで教師なし形態素解析を試して，人間の単語分割基準とは異なることを確認しました．教師なし形態素解析ライブラリlatticelmを使ってみた - nokunoの日記人間の単語分割基準に近づけるには半教師あり学習などの方法が考えられますが，ここでは既存の形態素解析器を使える簡単なやり方として，mecabで分かち書き済みのコーパスにlatticelmを適用してみることにしてみます．これは，1つの単語を1つの文字とみなして教師なし形態素解析を適用することに相当します．mecabのような形態素解析器は未知語に遭遇すると単漢字に分解してしまう傾向があるため，それをくっつけ直す効果が期待できると考えられます．というわけで，Wikipediaから1000文をmecabで分かち書きした結果をlatticelmにかけてみた結果がこちら．$ head out/samp.100 アンパサン

kazkaz03 2011/11/03

自然言語処理

リンク

形態素解析の過去・現在・未来

[DL輪読会]BERT: Pre-training of Deep Bidirectional Transf ormers for Language Und...Deep Learning JP

kazkaz03 2011/10/23

自然言語処理

リンク

自然言語処理を活用したwebサービスをつくるときに参考になる5冊の書籍 - EchizenBlog-Zwei

自然言語処理を活用したwebサービス開発に関わって5年以上経った。いい機会なのでこれまでを振り返って役に立ったと思う5冊をメモしておく。 1.珠玉のプログラミング―本質を見抜いたアルゴリズムとデータ構造まずはこれ。有名な本なので知っている人も多いと思う。簡単に説明するとちょっと前に「フェルミ推定」という名前で流行ったような、データから必要な数値を概算する方法や、問題が起きたときに問題点がどこにあるのか？最小の労力で解決するにはどこをいじればよいのか？などが書いてある。「webサービスで自然言語処理だ！」というと無限に夢が広がりがちなので、どういうデータが使えるのか、それをどういう形にもっていけばイケてるサービスになるのか、それはどのくらいの期間で実現できるか、ということを考える必要がある。そういうわけで本書は真っ先に読むべき一冊なのでは(余談だけれど、以前M << Nなデータに対してO(

kazkaz03 2011/10/11

リンク

自然言語処理における「全部入り」パッケージ - nokunoの日記

以下のエントリの翻訳です．End-to-end NLP packages | AI and Social Science – Brendan O'Connor無料で手に入る全部入りの自然言語処理(Natural Language Processing; NLP)システムにはどんなものがあるだろうか？ここでいう全部入りとはつまり，生のテキストから始めて，構文解析や意味的構造を出力するもののことを指す．多くのNLP研究は一度に1つのタスクしか取り扱わず，そのタスク専用のソフトウェアが開発されている．しかし多くのアプリケーションでは，あなたが与えたテキストがなんであれ動いてくれるような，最初から最後まで面倒を見てくれるものが望ましい．あなたがこれを価値あるゴールだと思うなら（注意点は下にある），そのようなシステムはあまり多くないが，ここに当てはまると思われるものがいくつかある．もし誤りや不明

kazkaz03 2011/10/05

リンク

日本語 WordNet (wn-ja)

日本語 WordNet リリース * 画像 * ダウンロード * 今後の予定 * 参考文献 * リンク * English 本プロジェクトでは、 Princeton WordNet や Global WordNet Gridに着想をえて、日本語のワードネットを構築し、オープンで公開します。独立行政法人情報通信研究機構（NICT）では、自然言語処理研究をサポートする一環として、2006年に日本語ワードネットの開発を開始しました。最初の版、version 0.9は、2009年2月にリリースされました。このversion 0.9は、 Princeton WordNetのsynsetに対応して日本語をつけています。もちろん、 Princeton WordNetにはない日本語synsetを付与する必要があり、また、 Princeton WordNetにみられるsynsetの階層構造に、

kazkaz03 2011/09/06

自然言語処理

リンク

What Is This, Anyway: Automatic Hypernym Discovery

kazkaz03 2011/09/06

上位語を自動抽出するという論文。

リンク

WordNet

What is WordNet? Any opinions, findings, and conclusions or recommendations expressed in this material are those of the creators of WordNet and do not necessarily reflect the views of any funding agency or Princeton University. When writing a paper or producing a software application, tool, or interface based on WordNet, it is necessary to properly cite the source. Citation figures are critical to

kazkaz03 2011/09/06

自然言語処理

リンク

Sign in - Google Accounts

Not your computer? Use a private browsing window to sign in. Learn more

kazkaz03 2011/08/01

自然言語処理

リンク

いまさら聞けないHadoopとテキストマイニング入門

ビッグデータ時代の救世主「Hadoop」とは「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。重い処理を複数のマシンに分散させる複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。例えば、Hadoopを使うと、1

kazkaz03 2011/06/22

自然言語処理

リンク

第5回自然言語処理勉強会を開催しました #TokyoNLP - nokunoの日記

というわけでようやく第5回を開催しました！！第5回自然言語処理勉強会 #TokyoNLP : ATND n-gramを小さくする話を調べてみた by @machyさんCompressed ngram View more presentations from Keigo Machinaga N-gramとは今日の題材はn-gramインデックスではなくn-gram確率（言語モデル）の話応用：音声認識、手書き文字認識、スペル訂正、かな漢字変換、機械翻訳単語n-gramを題材とする P(晴れ | 天気は) = 0.24 P(きっと | 天気は) = 0.03 n-gramを小さくしたいクライアサイドで動作するアプリケーションのためとかサーバサイドでもオンメモリになるとうれしい注目するのはメモリ使用量：ファイルサイズではないまずはデータを見てみます大規模なn-gramを自分で用

kazkaz03 2011/05/22

自然言語処理

リンク

Windows用専門用語（キーワード）自動抽出システム"termex"の解説

はじめに "termex"は特定のWebサイトや、Windows上のテキストファイルから専門用語を抽出するためのシステムです。このシステムはもともと Webサイトを対象としたメタデータ作成補助ツールとしての役割を目的としています。ただし、それ以外にもWeb中の長文ドキュメントや、Windows上の文書から重要な概念を抽出するなどの研究目的にも使用できると思います。このシステムは、いつくものフリーソフトを組み合わせて実装しています。全ての機能を使うには、インストールにに多少手間がかかりますが、使いたい機能に応じてインストール作業を省略することもできます。以下、簡単なものから順に説明していきます。機能と使い方 Windowsのテキストファイルを、termexのアイコンにドラッグ＆ドロップします。（和文の場合は「重要度計算（和布舞）」アイコン、英文の場合は「重要度計算（英文・高速）」ア