[B! nlp] nagayamaのブックマーク

ラーメンと自然言語処理

大好きなラーメン食べ歩きの効率を劇的に上げるべく、自然言語処理とR言語の勉強がてらラーメン屋さんのクラスタリングを行ってみた話。自然言語処理は素人に近いので分析の妥当性はちょっと不安っていうか合ってるか否かもよくわからんが、のれん分けを自動で(たまたま？)見つけたりしながら分析を進めた過程を共有できればと思います。

nagayama 2016/02/06

nlp
R

リンク

ClojureとLIBLINEARによる自然言語処理 - Qiita

はじめにホリデープログラマが趣味で自然言語処理をしてみます。この投稿は、「日本の自然言語処理の研究または研究者を増やし日本の自然言語処理の発展に貢献したい」ついでに「Clojureのよさを知ってもらう」というのが目的です。今回は、LIBLINEARというものを試してみます。公式サイトは、台湾の大学の研究室になります。論文は、[https://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf] が参考になります。今回使うライブラリは、clj-liblinear Github になります。 ※ できるだけ難しい説明を使わず書いてみましたが、もし誤りなどありましたらコメントいただければと思います。 LIBLINEARの紹介そもそもLIBLINEAR（リブライナー）とは何でしょうか？何ができるのでしょうか？その前に、LIBL

nagayama 2015/12/20

clojure
nlp

リンク

Natural Language Processing with Swift

About the content This content has been published here with the express permission of the author. Apple has offered an API for natural language processing since iOS 5, which allowed us to tokenize text, detect the language, and determine parts of speech. With Swift and the introduction of Playgrounds, it’s faster and more delightful than ever to experiment with linguistics. We welcomed Ayaka Nonak

nagayama 2015/04/11

nlp
swift

リンク

形態素解析エンジンMeCabにて文章中から短歌を抽出 - inaniwa3's blog

概要偶然５７５７７になっている文章を短歌としてつぶやく Twitter の bot を作りました。フクロウが鳴くと明日は晴れるので洗濯物を干せという意味 #tanka ウィキペディア日本語版「フクロウ」より http://t.co/Dm1uHcQdzR— 偶然短歌bot (@g57577) 2014, 12月 31 再帰的アルゴリズムが有効な問題として有名であり #tanka ウィキペディア日本語版「ハノイの塔」より http://t.co/vm2ZqwImKi— 偶然短歌bot (@g57577) 2014, 12月 31 文章はウィキペディア日本語版を対象としました。作り方 jawiki-latest-pages-articles.xml.bz2 をダウンロード。 WP2TXT で上記を扱いやすい形式に変換。このスクリプトで５７５７７になっている文を抽出。数時間かけて（遅い）

nagayama 2015/01/18

一句じゃん

MeCab
NLP

リンク

kuromoji.js使って構文解析した - Qiita

こんにちは、らこです。先日から話題になってるJavaScriptの形態素解析器kuromoji.jsを使って、確率自由文脈文法で構文解析してみました。(注意:アルゴリズムの解説記事ではないです) 結論 kuromoji.js遊びまくれるのでみんな使おう kuromoji.d.ts書いた私は型大好き人間なのでTypeScript使ってkuromoji.js使いました。型定義ファイルは自分が使う部分だけエイヤっと自作しました(laco0416/kuromoji.d.ts)。あと、プロジェクトに↑の自作型定義ファイルを読み込むのにdtsm使いました。tsd使ってたのが馬鹿らしくなるくらい便利です。作者のvvakameさんによるわかりやすい紹介はこちら確率自由文脈文法とはちゃんと説明すると長くなりますしうまく説明できる自信もないので、ばっさりカットします。雰囲気つかむにはここらへんを

nagayama 2015/01/16

リンク

Google Code Archive - Long-term storage for Google Code Project Hosting.

Code Archive Skip to content Search Google About Google Privacy Terms

nagayama 2014/05/22

リンク

word2vecによる自然言語処理

Tomas Mikolovらによって提案されたニューラルネットワーク（CBOW, Skip-gram）のオープンソース実装word2vecについて、基本的な使い方を体験し、さらにその仕組みを学ぶ書籍です。基本的な使い方から、自分の好きなコーパスの作り方、登場の背景、仕組み、さらには応用例や弱点についてもコンパクトなボリュームで概観できます。付録にはword2vecの出力結果を主成分分析を使って可視化する方法について解説しています。著者の西尾さんによる本書の解題[リンク] はじめに 1章　word2vecを使ってみる書き換えてみよう 2章　コーパスを変えてみる text8 単語に分割する（MeCab） CSVからのコーパス作成 Facebook EPWING Wikipedia PDFからの抜き出しまとめ 3章　word2vecの生まれた理由文章の表現 4章　word2vecの仕組

nagayama 2014/05/21

リンク

New community features for Google Chat and an update on Currents

Join the official community for Google Workspace administrators In the Google Cloud Community, connect with Googlers and other Google Workspace admins like yourself. Participate in product discussions, check out the Community Articles, and learn tips and tricks that will make your work and life easier. Be the first to know what's happening with Google Workspace. ______________ Learn about more Goo

nagayama 2013/11/27

リンク

Cookpadのレシピを機械翻訳する · Naoki Orii's blog

前回のつくれぽ数の予測に引き続き、今回もCookpadネタです。皆さんご存知の通り、英語版Cookpad（https://en.cookpad.com）が8月5日にリリースされました。今のところ、英語圏のユーザがレシピを投稿するのではなく、どうやら日本語版サイトのレシピを翻訳しているみたいです：日本食の家庭料理のレシピ数では世界一を誇るクックパッドのレシピのなかから、海外の家庭でも手軽に作りやすい人気レシピを英語に翻訳していきます。（中略）オープン当初は約1,500品の掲載レシピ数からスタートし、早期に数万品まで増やしていく予定です (クックパッド英語版『COOKPAD』をリリース) そのため、Cookpadの日本語のレシピと英語のレシピは1対1の関係にあります。例えば「たまにはね♪塩鯖のトマト煮(^m^*)」を英語に翻訳したものは「Salted Mackerel, Simmered

nagayama 2013/08/28

cookpad
NLP

リンク

WebDB Forum 2011 で「 CRF を使った Web 本文抽出」を発表してきました - 木曜不足

昨年に引き続き、今年も WebDB Forum 2011 のサイボウズの企業セッションでの発表の機会をいただきましたので、「 CRF を使った Web 本文抽出」について話をさせていただきました。 CRF を使った Web 本文抽出 for WebDB Forum 2011 View more presentations from Shuyo Nakatani この発表は、過去に2回(自然言語処理勉強会＠東京(TokyoNLP) 第1回、確率の科学研究会第1回)で話をさせてもらったことと、WebDB Forum という場であること、さらに発表時間が 20分*1ということを考えて、今回は非常にスリムな内容になっています。 CRF についてはズバッとはしょって、その代わりに系列ラベリングを本文抽出に使うというのはどういうことか、という図を入れましたので、さらっと読むには一番わかりやすいのでは

nagayama 2013/07/24

リンク

Static hosting for Bitbucket by Aerobatic

Create a beautiful personal or small business website in just a few clicks. Whether you want to promote a restaurant, showcase your start-up, or develop a one-page bio site, our website builder will help you every step of the way.

nagayama 2012/07/24

リンク

livedoor Techブログ : wikipediaのデータや顔文字辞書からmecabのユーザ辞書を作成するフレームワーク

突然ですが，mecabの辞書 (mecab-ipadic) をデフォルトのまま使って，mecab意外と使えねぇとか文句言ってる悪い子はおらんかね？ mecab-ipadic は比較的お行儀のよい日本語をベースに作られているので，そのままでは web上の口語文体のテキストはうまく扱えないことがあります。本来は教師データを用意し，学習させるといった手法を使うのが正攻法だと思いますが，とりあえず名詞を充実させるだけでも実用度はだいぶ上がるでしょう。人間の話す言語には，動詞の語幹や名詞には日々新しく語彙が増えるけど，助詞や活用のルールは簡単には変化しない，という特性があります。特に「いま最もつぶやかれている単語ランキング」といった集計をするような場合は，名詞の範囲の切り出しさえ間違えなければそれなりの結果を出せることも多いのです。ただ，辞書への単語追加はここにある通り簡単にできるのですが，単語

nagayama 2011/12/01

MeCab
nlp

リンク

NLTK :: Natural Language Toolkit

Natural Language Toolkit¶ NLTK is a leading platform for building Python programs to work with human language data. It provides easy-to-use interfaces to over 50 corpora and lexical resources such as WordNet, along with a suite of text processing libraries for classification, tokenization, stemming, tagging, parsing, and semantic reasoning, wrappers for industrial-strength NLP libraries, and an ac

nagayama 2009/03/30

nlp
python

リンク

はてなブックマーク

タグ

関連タグで絞り込む (17)

nlpに関するnagayamaのブックマーク (13)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス