タグ

形態素解析に関するnilabのブックマーク (33)

  • GitHub - lucene-gosen/lucene-gosen: Japanese analysis for Apache Lucene/Solr

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - lucene-gosen/lucene-gosen: Japanese analysis for Apache Lucene/Solr
    nilab
    nilab 2015/02/20
    lucene-gosen/lucene-gosen · GitHub : "Japanese analysis for Apache Lucene/Solr"
  • UniDic プロジェクト日本語トップページ - OSDN

    UniDicとはUniDicは日語テキストを単語に分割し,形態論情報を付与するための電子化辞書です。 unidic-mecabは形態素解析器MeCabの辞書として利用できます。 UniDicは国立国語研究所の現代日語書き言葉均衡コーパスにも利用されています。 UniDicの特長国立国語研究所で規定した「短単位」という揺れがない斉一な単位で設計されています。 語彙素・語形・書字形・発音形の階層構造を持ち,表記の揺れや語形の変異にかかわらず同一の見出しを与えることができます。 語種をはじめとする言語研究に有用な情報を付与することができます。 ライセンス形態素解析辞書としてのUniDicは、Ver.2.0.1以降、完全なフリーソフトウェアになりました。 GPL/LGPL/BSD Licenseのトリプルライセンスです。

    UniDic プロジェクト日本語トップページ - OSDN
    nilab
    nilab 2012/12/18
    UniDic プロジェクト日本語トップページ : 「日本語テキストを単語に分割し,形態論情報を付与するための電子化辞書」「国立国語研究所で規定した「短単位」という揺れがない斉一な単位で設計」
  • テキスト解析:日本語形態素解析API - Yahoo!デベロッパーネットワーク

    指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。

    テキスト解析:日本語形態素解析API - Yahoo!デベロッパーネットワーク
    nilab
    nilab 2012/03/29
    Yahoo!デベロッパーネットワーク - テキスト解析 - 日本語形態素解析
  • 形態素解析の過去・現在・未来

    [DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...Deep Learning JP

    形態素解析の過去・現在・未来
    nilab
    nilab 2011/10/23
    形態素解析の過去・現在・未来 : いろんな手法と歴史
  • 「Googleを支える技術」に載っていない日本語検索エンジンの技術 - nokunoの日記

    Web検索エンジンは、大きく分けて次の2つからなります。利用者からのクエリーを直接受ける検索サーバ検索サーバから利用されるインデックス世界中のWebサイトを集めてきて解析し、インデックスに登録するクローラインデックスというのは、利用者から検索される単語をあらかじめ列挙しておいて、単語からWebサイトのURLを引くのに必要なデータ構造のことです。検索エンジンはGoogleを支える技術にあるように、「下準備があればこその高性能」なわけです。 インデックスを作成するためには、あらかじめWebページの内容を単語に分割する必要があります。英語では単語と単語の間をスペースで区切るため、この作業はさほど難しくありません。しかし日語では、単語の境界はそれほど自明ではないため、日語特有の処理をする必要があります。 日語の文から単語に分解するには、形態素解析を使う場合と、N-gramを使う場合があり、そ

    nilab
    nilab 2010/08/03
    「Googleを支える技術」に載っていない日本語検索エンジンの技術 - nokunoの日記:「Googleではどうかというと、Basis Technology社が提供する商用の形態素解析を使っているようです」
  • TinySegmenterをiPhone(Objective-C)に移植してみました - Born Neet

    Objective-Cの勉強がてら、辞書いらずの簡易形態素解析(分かち書き)ソフト、 「TinySegmenter」をObjective-Cに移植してみました。 ホントは人工無脳アプリを作ったタイミングでお披露目しようとしてましたが、 飽きた(!)のでライブラリとして先に公開しちゃいます。 tnantoka's TinySegmenter.m at master - GitHub 使い方は簡単です。 CocoaOnigurumaをプロジェクトに組み込んだ後、 TinySegmenter.hとTinySegmenter.mをClassesに放り込んで下さい。 あとは以下のようなコードで分ち書きができます。 #import "TinySegmenter.h" : : TinySegmenter* segmenter = [ [ TinySegmenter alloc ] init ]; NSA

    nilab
    nilab 2010/03/29
    TinySegmenter をiPhone(Objective-C)に移植してみました - Born Neet : 「辞書いらずの簡易形態素解析(分かち書き)ソフト、「TinySegmenter」をObjective-Cに移植してみました」
  • KyTea (京都テキスト解析ツールキット)

    English 京都テキスト解析ツールキット(KyTea、「キューティー」)は、日語など、単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器です。 特徴 ダウンロード・インストール プログラム仕様 解析:手法の詳細, 入出力の形式, API 学習:モデル学習, 入手可能なモデル KyTeaを使った分野適応 開発情報 特徴 KyTeaには以下の機能が揃っています: 単語分割:分かち書きされていないテキストを適当な単語または形態素に分割する。 読み推定・品詞推定:かな漢字変換や音声認識、音声生成のために単語の発音を推定することができ、品詞を推定することもできます。 線形SVMやロジスティック回帰などを用いてそれぞれの分割点や読みを個別に推定するため、部分的にアノテーションされたデータを利用してモデルを学習することも可能です。 分類器の学習にはLIBLINEARを使用してい

    nilab
    nilab 2010/03/18
    KyTea (京都テキスト解析ツールキット):KyTea(キューティー):単語分割KyWs(きゅうす):発音推定KyPe(キューピー):単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器:線形SVM:ロジスティック回帰
  • レポート:Yahoo! JAPAN×ロクナナワークショップ クリエイティブカレッジ

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。YJICAスタッフです。(YJICA = Yahoo! JAPAN インターネット クリエイティブアワードの略です。) 日は7月10日に開催されましたロクナナワークショップさんとのクリエイティブカレッジのレポートをお届けいたします。 特にTech Blogをご覧のみなさまにはマッシュアップセッションの様子をお伝えできればと思います。 ▼マッシュアップセッション Web APIを使ってテキストデータを魅せる!▼Tech Blogでも内容の説明があったマッシュアップセッションですが、イベント当日は金曜平日の14時開催で空模様も怪しまれていたにもかかわらず、たくさんのデベロッパーの方にご来場いただけました。 また、テキスト

    レポート:Yahoo! JAPAN×ロクナナワークショップ クリエイティブカレッジ
    nilab
    nilab 2009/07/23
    レポート:Yahoo! JAPAN×ロクナナワークショップ クリエイティブカレッジ (Yahoo! JAPAN Tech Blog)
  • RSS を読み込んでランダムな文章を生成する

    RSS を読み込んでランダムな文章を生成する 2008-09-07-3 [Programming][NLP][IIR][WebAPI] 今日のIIR輪講[2008-09-07-2]の内容のフォローも兼ねて、ちょっとしたハックを紹介。 bigram language model に基づく、ランダム文生成を行います。 って、まあ、単純にある単語の次に現れる単語の分布を用いて、文章を生成していくだけですが。 以下、サンプルプログラムと実行例です。 サンプルコード rss-lm.pl #!/usr/bin/perl use strict; use warnings; use XML::RSS; use LWP::Simple; use XML::Simple; use URI::Escape; use utf8; binmode STDOUT, ":utf8"; my $appid = "Yaho

    RSS を読み込んでランダムな文章を生成する
    nilab
    nilab 2009/07/03
    _[を] RSS を読み込んでランダムな文章を生成する : bigram language model に基づく、ランダム文生成:形態素解析に Yahoo!API を使用:マルコフ連鎖
  • 日本語形態素解析

    35. 時刻t=1 1.0 0.0 0.0 s1 s2 s3 0.24 0.5 0.0 a 0.3*0.8 0.5*1.0 0.2*0.0 0.6*0.5 0.4*0.3 36. 時刻t=2 1.0 0.0 0.0 s1 s2 s3 0.24 0.5 0.0 a 0.3*0.8 0.5*1.0 0.2*0.0 0.6*0.5 0.4*0.3 0.057 0.12 0.15 a 0.3*0.8 0.5*1.0 0.4*0.3 0.4*0.3 0.6*0.5 37. 時刻t=3 1.0 0.0 0.0 s1 s2 s3 0.24 0.5 0.0 a 0.3*0.8 0.5*1.0 0.2*0.0 0.6*0.5 0.4*0.3 0.057 0.12 0.15 a 0.3*0.8 0.5*1.0 0.4*0.3 0.4*0.3 0.6*0.5 0.003 0.033 0.036 b 0.3*0.

    日本語形態素解析
    nilab
    nilab 2009/06/24
    日本語形態素解析 : 日本語形態素解析入門 ver.0.3 : 形態素解析の仕組み : 辞書探索 : 形態素間の接続可能性
  • SourceForge.JP: Project Info - NAIST Japanese Dictionary

    最終更新: 2018-04-05 19:45 概要 プロジェクト概要 開発ダッシュボード Webページ 開発メンバー 画像ギャラリー 公開フィード一覧 活動 統計情報 活動履歴 ダウンロード リリース一覧 統計 ソースコード コードリポジトリリスト Subversion リポジトリ閲覧 チケット チケット一覧 マイルストーン一覧 チケットの種類一覧 コンポーネント一覧 よく使われるチケット一覧のリスト/RSS 新規チケット登録 文書 Wiki FrontPageの表示 ページ一覧 最近の更新 文書マネージャ 文書一覧 コミュニケーション フォーラム フォーラム一覧 ヘルプ (1) 公開討議 (1) メーリングリスト MLの一覧 ニュース

    SourceForge.JP: Project Info - NAIST Japanese Dictionary
    nilab
    nilab 2009/05/13
    NAIST Japanese Dictionary: 概要 - SourceForge.JP : 形態素解析用辞書 IPADIC の ICOT 条項をクリアするとともに 表記ゆれ情報、複合語情報を付与した辞書の公開
  • 言語データベースとソフトウェア - 総合

    2008-08-01 UniDic/近代文語UniDic 言語データベースとソフトウェア 2008-07-10 全文検索システム『ひまわり』/『分類語彙表』サンプル MenuBar 2008-04-23 新着情報の履歴 2008-03-28 UniDic 2007-12-28 『たんぽぽ』,『プリズム』/『たんぽぽタガー』 2007-12-22 全文検索システム『ひまわり』/国文学研究資料館文データベースのデータを利用する方法 全文検索システム『ひまわり』/画像を含んだ資料の作成方法(簡単な漫画を例に) 全文検索システム『ひまわり』

    nilab
    nilab 2008/12/01
    言語データベースとソフトウェア - 総合 : 「このページでは,独立行政法人 国立国語研究所 研究開発部門で開発されたコーパス,辞書,ソフトウェアなどの言語資源を公開しています。」
  • テキスト解析:日本語係り受け解析API - Yahoo!デベロッパーネットワーク

    指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。

    テキスト解析:日本語係り受け解析API - Yahoo!デベロッパーネットワーク
    nilab
    nilab 2008/08/20
    Yahoo!デベロッパーネットワーク - テキスト解析 - 日本語係り受け解析
  • UniDic/近代文語UniDic - 総合

    近代文語UniDic ver.0.8 利用条件 † 近代文語UniDic ver.0.8 の著作権は,小木曽智信,小椋秀樹,近藤明日子 および The UniDic consortiumが保持する。 近代文語UniDic ver.0.8 を複製又は改変することは,個人的な利用に限り認める。 近代文語UniDic ver.0.8 及びこれを改変したものを再配布してはならない。 近代文語UniDic ver.0.8 を利用して行った研究等の成果を公表する場合は,近代文語UniDic ver.0.8 を利用したことを明記すること。 営利を目的として,近代文語UniDic ver.0.8 を利用する場合は,事前に著作権者と協議すること。 近代文語UniDic ver.0.8 を利用することによって,直接的・間接的に生じたいかなる損害についても,著作権者は賠償する責任を負わない。 文書に定めのない

    nilab
    nilab 2008/08/05
    UniDic/近代文語UniDic - 総合 : 「近代文語UniDicは、UniDicをもとにして近代文語文を解析できるようにした形態素解析辞書です」解析対象は主として明治期の文語論説文(明治普通文)
  • Mooter 会社情報

    2001年 Mooter は創業者のリーゼル ケイパー(Liesl Capper)により、オーストラリアの大学の小さな研究室から 生まれました。人が何かを知りたいときにその質を理解すること、Mooter はそこから始めました。 Mooter は、ユーザーが検索結果を予測して検索するのではなく、ソフトウェアがユーザーを予測するという概念に基づき開発されて きた Mooter は、世界から評価を得るまでに至っています。 Mooter は英語の‘Moot’(討論する)に由来しており、ユーザーへ個々もっともふさわしい検索結果を提供する事を 目標としてきました。Mooter という名前は、ウェブ上で使用可能な膨大な量の情報を組織化し、有意義に情報分 類をして人を科学するという Mooter の使命を反映しています。

    nilab
    nilab 2008/07/03
    Mooter Blog » ムーターの日本語形態素解析の秘密について
  • 大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe

    第80回知識ベースシステム研究会を開催したが,二日間で58名の方々に参加して頂き,積極的に議論に加わって頂いた.この場を借りて,参加してくれた方々に感謝したい.大変遅くなった(爆)が,Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を,このブログで報告しておきたい.工藤氏の専門分野は統計的自然言語処理と機械学習であるが,日形態素解析エンジンMeCabの開発者であり,他にも自然言語処理関連の有益なツールや,Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど,時代をリードする研究開発者の一人である.彼の活動に興味があれば,彼のブログ「きまぐれ日記」は必見だろう. なお,当日は弊社側の不手際で,予定していた工藤氏の重要なデモをおこなうことができなかった.弊社はネットワーク会社であるにもかかわらず,ネットワーク

    大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe
    nilab
    nilab 2008/02/15
    大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe:第80回知識ベースシステム研究会:Senの次期バージョンでGoSenが統合される予定らしい:MapReduceのプログラムを書いてGoogleの巨大な計算機クラスタ:
  • Javaで作られた形態素解析ライブラリ「Sen」からPerl依存性を排除した「GoSen」

    This domain has expired. If you owned this domain, contact your domain registration service provider for further assistance. If you need help identifying your provider, visit https://www.tucowsdomains.com/

    nilab
    nilab 2007/11/29
    GoSen - Itadaki : GoSen is a comprehensive rewrite and upgrade of Sen, a pure Java LGPL morphological analysis library for Japanese which in turn was based on MeCab.
  • 辞書不要の形態素解析エンジン「マリモ」とは − @IT

    2007/08/15 検索サービスを提供するベンチャー企業のムーターは8月1日、辞書を必要としない形態素解析エンジン「マリモ」の提供を開始した。従来、形態素解析では品詞情報を含む日語辞書を用意するのが常識だったが、マリモでは、そうした辞書を不要とした。新技術のアプローチと特性について、開発元のムーターに話を聞いた。 統計処理で単語部分を推定 形態素解析とは、与えられた文を、文法上意味のある最小の単位(形態素)に区切る処理。「今日は晴れています」なら、「今日(名詞)/は(助詞)/晴れ(動詞)/て(助詞)/い(助詞)/ます(助動詞)」と分ける。検索エンジンをはじめ、さまざまな自然言語処理の場面で必要となる基礎技術だ。 形態素解析を行うには、あらかじめ品詞情報が付加された数十万語からなる辞書を用意する必要がある。また、新語や造語、専門用語に対応するには、個別に人力で単語を登録する必要がある。

    nilab
    nilab 2007/10/25
    辞書不要の形態素解析エンジン「マリモ」とは − @IT:「マリモでは、「~している」など、文の構造を解析するのに役立つ補助動詞や助詞など約1000語からなる辞書だけを持つ。」辞書不要じゃないじゃん。なんで煽るの…
  • Shibuya Perl Mongers テクニカルトーク #8

    Shibuya Perl Mongers テクニカルトーク #8 2007-10-01-3 [EventReport][Video] Perl プログラマーなどの技術情報交換イベント 「Shibuya Perl Mongers テクニカルトーク」が開催されました! Shibuya Perl Mongers テクニカルトーク #8 http://shibuya.pm.org/blosxom/techtalks/200710.html - 日時 - 2007年10月1日 (月) 18:30-21:00 (18:00 開場) - 会場 - 神保町三井ビル 17F IIJ 大会議室 - 料金 - 無料 - ストリーミング - Ustream.tv にて配信予定 http://www.ustream.tv/channel/shibuya-pm http://www.ustream.tv/channe

    nilab
    nilab 2007/10/04
    _ [を] Shibuya Perl Mongers テクニカルトーク #8 : シンプソン係数 : Perlでテキストマイニング :
  • テキスト解析:日本語形態素解析API - Yahoo!デベロッパーネットワーク

    指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。

    テキスト解析:日本語形態素解析API - Yahoo!デベロッパーネットワーク
    nilab
    nilab 2007/06/19
    Yahoo!デベロッパーネットワーク - テキスト解析 - 日本語形態素解析Webサービス : 日本語文を形態素に分割し、品詞、読みがなの付与、統計情報を取得できる機能を提供します。