[B! 形態素解析] nilabのブックマーク

GitHub - lucene-gosen/lucene-gosen: Japanese analysis for Apache Lucene/Solr

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

nilab 2015/02/20

lucene-gosen/lucene-gosen · GitHub : "Japanese analysis for Apache Lucene/Solr"

リンク

UniDic プロジェクト日本語トップページ - OSDN

UniDicとはUniDicは日本語テキストを単語に分割し，形態論情報を付与するための電子化辞書です。 unidic-mecabは形態素解析器MeCabの辞書として利用できます。 UniDicは国立国語研究所の現代日本語書き言葉均衡コーパスにも利用されています。 UniDicの特長国立国語研究所で規定した「短単位」という揺れがない斉一な単位で設計されています。語彙素・語形・書字形・発音形の階層構造を持ち，表記の揺れや語形の変異にかかわらず同一の見出しを与えることができます。語種をはじめとする言語研究に有用な情報を付与することができます。ライセンス形態素解析辞書としてのUniDicは、Ver.2.0.1以降、完全なフリーソフトウェアになりました。 GPL/LGPL/BSD Licenseのトリプルライセンスです。

nilab 2012/12/18

UniDic プロジェクト日本語トップページ : 「日本語テキストを単語に分割し，形態論情報を付与するための電子化辞書」「国立国語研究所で規定した「短単位」という揺れがない斉一な単位で設計」

リンク

テキスト解析:日本語形態素解析API - Yahoo!デベロッパーネットワーク

指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。

nilab 2012/03/29

Yahoo!デベロッパーネットワーク - テキスト解析 - 日本語形態素解析

リンク

形態素解析の過去・現在・未来

[DL輪読会]BERT: Pre-training of Deep Bidirectional Transf ormers for Language Und...Deep Learning JP

nilab 2011/10/23

形態素解析の過去・現在・未来 : いろんな手法と歴史

形態素解析

リンク

「Googleを支える技術」に載っていない日本語検索エンジンの技術 - nokunoの日記

Web検索エンジンは、大きく分けて次の2つからなります。利用者からのクエリーを直接受ける検索サーバ検索サーバから利用されるインデックス世界中のWebサイトを集めてきて解析し、インデックスに登録するクローラインデックスというのは、利用者から検索される単語をあらかじめ列挙しておいて、単語からWebサイトのURLを引くのに必要なデータ構造のことです。検索エンジンはGoogleを支える技術にあるように、「下準備があればこその高性能」なわけです。インデックスを作成するためには、あらかじめWebページの内容を単語に分割する必要があります。英語では単語と単語の間をスペースで区切るため、この作業はさほど難しくありません。しかし日本語では、単語の境界はそれほど自明ではないため、日本語特有の処理をする必要があります。日本語の文から単語に分解するには、形態素解析を使う場合と、N-gramを使う場合があり、そ

nilab 2010/08/03

「Googleを支える技術」に載っていない日本語検索エンジンの技術 - nokunoの日記:「Googleではどうかというと、Basis Technology社が提供する商用の形態素解析を使っているようです」

リンク

TinySegmenterをiPhone（Objective-C）に移植してみました - Born Neet

Objective-Cの勉強がてら、辞書いらずの簡易形態素解析（分かち書き）ソフト、「TinySegmenter」をObjective-Cに移植してみました。ホントは人工無脳アプリを作ったタイミングでお披露目しようとしてましたが、飽きた（！）のでライブラリとして先に公開しちゃいます。 tnantoka's TinySegmenter.m at master - GitHub 使い方は簡単です。 CocoaOnigurumaをプロジェクトに組み込んだ後、 TinySegmenter.hとTinySegmenter.mをClassesに放り込んで下さい。あとは以下のようなコードで分ち書きができます。 #import "TinySegmenter.h" ：： TinySegmenter* segmenter = [ [ TinySegmenter alloc ] init ]; NSA

nilab 2010/03/29

TinySegmenter をiPhone（Objective-C）に移植してみました - Born Neet : 「辞書いらずの簡易形態素解析（分かち書き）ソフト、「TinySegmenter」をObjective-Cに移植してみました」

リンク

KyTea (京都テキスト解析ツールキット)

English 京都テキスト解析ツールキット(KyTea、「キューティー」)は、日本語など、単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器です。特徴ダウンロード・インストールプログラム仕様解析：手法の詳細, 入出力の形式, API 学習：モデル学習, 入手可能なモデル KyTeaを使った分野適応開発情報特徴 KyTeaには以下の機能が揃っています：単語分割：分かち書きされていないテキストを適当な単語または形態素に分割する。読み推定・品詞推定：かな漢字変換や音声認識、音声生成のために単語の発音を推定することができ、品詞を推定することもできます。線形SVMやロジスティック回帰などを用いてそれぞれの分割点や読みを個別に推定するため、部分的にアノテーションされたデータを利用してモデルを学習することも可能です。分類器の学習にはLIBLINEARを使用してい

nilab 2010/03/18

KyTea （京都テキスト解析ツールキット）:KyTea(キューティー):単語分割KyWs(きゅうす):発音推定KyPe(キューピー):単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器:線形SVM:ロジスティック回帰

リンク

レポート：Yahoo! JAPAN×ロクナナワークショップクリエイティブカレッジ

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。YJICAスタッフです。(YJICA = Yahoo! JAPAN インターネットクリエイティブアワードの略です。) 本日は7月10日に開催されましたロクナナワークショップさんとのクリエイティブカレッジのレポートをお届けいたします。特にTech Blogをご覧のみなさまにはマッシュアップセッションの様子をお伝えできればと思います。 ▼マッシュアップセッション　Web APIを使ってテキストデータを魅せる！▼Tech Blogでも内容の説明があったマッシュアップセッションですが、イベント当日は金曜平日の14時開催で空模様も怪しまれていたにもかかわらず、たくさんのデベロッパーの方にご来場いただけました。また、テキスト

nilab 2009/07/23

レポート：Yahoo! JAPAN×ロクナナワークショップクリエイティブカレッジ (Yahoo! JAPAN Tech Blog)

形態素解析

リンク

RSS を読み込んでランダムな文章を生成する

RSS を読み込んでランダムな文章を生成する 2008-09-07-3 [Programming][NLP][IIR][WebAPI] 今日のIIR輪講[2008-09-07-2]の内容のフォローも兼ねて、ちょっとしたハックを紹介。 bigram language model に基づく、ランダム文生成を行います。って、まあ、単純にある単語の次に現れる単語の分布を用いて、文章を生成していくだけですが。以下、サンプルプログラムと実行例です。サンプルコード rss-lm.pl #!/usr/bin/perl use strict; use warnings; use XML::RSS; use LWP::Simple; use XML::Simple; use URI::Escape; use utf8; binmode STDOUT, ":utf8"; my $appid = "Yaho

nilab 2009/07/03

_[を] RSS を読み込んでランダムな文章を生成する : bigram language model に基づく、ランダム文生成:形態素解析に Yahoo!API を使用:マルコフ連鎖

リンク

日本語形態素解析

35. 時刻t=1 1.0 0.0 0.0 s1 s2 s3 0.24 0.5 0.0 a 0.3*0.8 0.5*1.0 0.2*0.0 0.6*0.5 0.4*0.3 36. 時刻t=2 1.0 0.0 0.0 s1 s2 s3 0.24 0.5 0.0 a 0.3*0.8 0.5*1.0 0.2*0.0 0.6*0.5 0.4*0.3 0.057 0.12 0.15 a 0.3*0.8 0.5*1.0 0.4*0.3 0.4*0.3 0.6*0.5 37. 時刻t=3 1.0 0.0 0.0 s1 s2 s3 0.24 0.5 0.0 a 0.3*0.8 0.5*1.0 0.2*0.0 0.6*0.5 0.4*0.3 0.057 0.12 0.15 a 0.3*0.8 0.5*1.0 0.4*0.3 0.4*0.3 0.6*0.5 0.003 0.033 0.036 b 0.3*0.

nilab 2009/06/24

日本語形態素解析 : 日本語形態素解析入門 ver.0.3 : 形態素解析の仕組み : 辞書探索 : 形態素間の接続可能性

形態素解析

リンク

SourceForge.JP: Project Info - NAIST Japanese Dictionary

最終更新: 2018-04-05 19:45 概要プロジェクト概要開発ダッシュボード Webページ開発メンバー画像ギャラリー公開フィード一覧活動統計情報活動履歴ダウンロードリリース一覧統計ソースコードコードリポジトリリスト Subversion リポジトリ閲覧チケットチケット一覧マイルストーン一覧チケットの種類一覧コンポーネント一覧よく使われるチケット一覧のリスト/RSS 新規チケット登録文書 Wiki FrontPageの表示ページ一覧最近の更新文書マネージャ文書一覧コミュニケーションフォーラムフォーラム一覧ヘルプ (1) 公開討議 (1) メーリングリスト MLの一覧ニュース

nilab 2009/05/13

NAIST Japanese Dictionary: 概要 - SourceForge.JP : 形態素解析用辞書 IPADIC の ICOT 条項をクリアするとともに表記ゆれ情報、複合語情報を付与した辞書の公開

リンク

言語データベースとソフトウェア - 総合

2008-08-01 UniDic/近代文語UniDic 言語データベースとソフトウェア 2008-07-10 全文検索システム『ひまわり』/『分類語彙表』サンプル MenuBar 2008-04-23 新着情報の履歴 2008-03-28 UniDic 2007-12-28 『たんぽぽ』，『プリズム』/『たんぽぽタガー』 2007-12-22 全文検索システム『ひまわり』/国文学研究資料館本文データベースのデータを利用する方法全文検索システム『ひまわり』/画像を含んだ資料の作成方法（簡単な漫画を例に）全文検索システム『ひまわり』

nilab 2008/12/01

言語データベースとソフトウェア - 総合 : 「このページでは，独立行政法人国立国語研究所研究開発部門で開発されたコーパス，辞書，ソフトウェアなどの言語資源を公開しています。」

リンク

テキスト解析:日本語係り受け解析API - Yahoo!デベロッパーネットワーク

指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。

nilab 2008/08/20

Yahoo!デベロッパーネットワーク - テキスト解析 - 日本語係り受け解析

リンク

UniDic/近代文語UniDic - 総合

近代文語UniDic ver.0.8 利用条件 † 近代文語UniDic ver.0.8 の著作権は，小木曽智信，小椋秀樹，近藤明日子および The UniDic consortiumが保持する。近代文語UniDic ver.0.8 を複製又は改変することは，個人的な利用に限り認める。近代文語UniDic ver.0.8 及びこれを改変したものを再配布してはならない。近代文語UniDic ver.0.8 を利用して行った研究等の成果を公表する場合は，近代文語UniDic ver.0.8 を利用したことを明記すること。営利を目的として，近代文語UniDic ver.0.8 を利用する場合は，事前に著作権者と協議すること。近代文語UniDic ver.0.8 を利用することによって，直接的・間接的に生じたいかなる損害についても，著作権者は賠償する責任を負わない。本文書に定めのない

nilab 2008/08/05

UniDic/近代文語UniDic - 総合 : 「近代文語UniDicは、UniDicをもとにして近代文語文を解析できるようにした形態素解析辞書です」解析対象は主として明治期の文語論説文(明治普通文)

リンク

Mooter 会社情報

2001年 Mooter は創業者のリーゼル　ケイパー（Liesl Capper）により、オーストラリアの大学の小さな研究室から生まれました。人が何かを知りたいときにその本質を理解すること、Mooter はそこから始めました。 Mooter は、ユーザーが検索結果を予測して検索するのではなく、ソフトウェアがユーザーを予測するという概念に基づき開発されてきた Mooter は、世界から評価を得るまでに至っています。 Mooter は英語の‘Moot’（討論する）に由来しており、ユーザーへ個々もっともふさわしい検索結果を提供する事を目標としてきました。Mooter という名前は、ウェブ上で使用可能な膨大な量の情報を組織化し、有意義に情報分類をして人を科学するという Mooter の使命を反映しています。

nilab 2008/07/03

Mooter Blog » ムーターの日本語形態素解析の秘密について

形態素解析

リンク

大規模テキスト処理を支える形態素解析技術（工藤拓氏・Google） - Cafe Babe

第80回知識ベースシステム研究会を開催したが，二日間で58名の方々に参加して頂き，積極的に議論に加わって頂いた．この場を借りて，参加してくれた方々に感謝したい．大変遅くなった（爆）が，Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を，このブログで報告しておきたい．工藤氏の専門分野は統計的自然言語処理と機械学習であるが，日本語形態素解析エンジンMeCabの開発者であり，他にも自然言語処理関連の有益なツールや，Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど，時代をリードする研究開発者の一人である．彼の活動に興味があれば，彼のブログ「きまぐれ日記」は必見だろう．なお，当日は弊社側の不手際で，予定していた工藤氏の重要なデモをおこなうことができなかった．弊社はネットワーク会社であるにもかかわらず，ネットワーク

nilab 2008/02/15

大規模テキスト処理を支える形態素解析技術（工藤拓氏・Google） - Cafe Babe:第80回知識ベースシステム研究会:Senの次期バージョンでGoSenが統合される予定らしい:MapReduceのプログラムを書いてGoogleの巨大な計算機クラスタ:

リンク

Javaで作られた形態素解析ライブラリ「Sen」からPerl依存性を排除した「GoSen」

This domain has expired. If you owned this domain, contact your domain registration service provider for further assistance. If you need help identifying your provider, visit https://www.tucowsdomains.com/

nilab 2007/11/29

GoSen - Itadaki : GoSen is a comprehensive rewrite and upgrade of Sen, a pure Java LGPL morphological analysis library for Japanese which in turn was based on MeCab.

リンク

辞書不要の形態素解析エンジン「マリモ」とは − ＠IT

2007/08/15 検索サービスを提供するベンチャー企業のムーターは8月1日、辞書を必要としない形態素解析エンジン「マリモ」の提供を開始した。従来、形態素解析では品詞情報を含む日本語辞書を用意するのが常識だったが、マリモでは、そうした辞書を不要とした。新技術のアプローチと特性について、開発元のムーターに話を聞いた。統計処理で単語部分を推定形態素解析とは、与えられた文を、文法上意味のある最小の単位（形態素）に区切る処理。「今日は晴れています」なら、「今日（名詞）／は（助詞）／晴れ（動詞）／て（助詞）／い（助詞）／ます（助動詞）」と分ける。検索エンジンをはじめ、さまざまな自然言語処理の場面で必要となる基礎技術だ。形態素解析を行うには、あらかじめ品詞情報が付加された数十万語からなる辞書を用意する必要がある。また、新語や造語、専門用語に対応するには、個別に人力で単語を登録する必要がある。

nilab 2007/10/25

辞書不要の形態素解析エンジン「マリモ」とは − ＠IT:「マリモでは、「～している」など、文の構造を解析するのに役立つ補助動詞や助詞など約1000語からなる辞書だけを持つ。」辞書不要じゃないじゃん。なんで煽るの…

形態素解析

リンク

Shibuya Perl Mongers テクニカルトーク #8

Shibuya Perl Mongers テクニカルトーク #8 2007-10-01-3 [EventReport][Video] Perl プログラマーなどの技術情報交換イベント「Shibuya Perl Mongers テクニカルトーク」が開催されました！ Shibuya Perl Mongers テクニカルトーク #8 http://shibuya.pm.org/bl osxom/techtalks/200710.html - 日時 - 2007年10月1日 (月) 18:30-21:00 (18:00 開場) - 会場 - 神保町三井ビル 17F IIJ 大会議室 - 料金 - 無料 - ストリーミング - Ustream.tv にて配信予定 http://www.ustream.tv/channel/shibuya-pm http://www.ustream.tv/channe

nilab 2007/10/04

_ [を] Shibuya Perl Mongers テクニカルトーク #8 : シンプソン係数 : Perlでテキストマイニング :

リンク

テキスト解析:日本語形態素解析API - Yahoo!デベロッパーネットワーク

指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。

nilab 2007/06/19

Yahoo!デベロッパーネットワーク - テキスト解析 - 日本語形態素解析Webサービス : 日本語文を形態素に分割し、品詞、読みがなの付与、統計情報を取得できる機能を提供します。

リンク

はてなブックマーク

タグ

関連タグで絞り込む (18)

形態素解析に関するnilabのブックマーク (33)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

今週のはてなブックマーク数ランキング（2024年4月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス