タグ

japaneseと自然言語に関するefclのブックマーク (13)

  • 情報学広場:情報処理学会電子図書館

    ※ユーザ登録は無料です. 電子図書館のご利用にあたっては「情報処理学会電子図書館利用規約」をご遵守下さい。 情報学広場に掲載されているコンテンツには有料のものも含まれています。 有料コンテンツをご購入いただいた場合はクレジットカード決済のみとなります。 複写および転載をされる方へ一般社団法人情報処理学会では複写複製および転載複製に係る著作権を学術著作権協会に委託しています。当該利用をご希望の方は、学術著作権協会が提供している複製利用許諾システムもしくは転載許諾システムを通じて申請ください。 尚、会会員(賛助会員含む)および著者が転載利用の申請をされる場合については、学術目的利用に限り、無償で転載利用いただくことが可能です。ただし、利用の際には予め申請いただくようお願い致します。

    efcl
    efcl 2017/10/19
    "くだけた表現を高精度に解析するための正規化ルール自動生成手法" 形態素解析結果の未知語使ったマッチから未知語を推測する手法についての論文
  • ASPEC | 科学技術情報プラットフォーム

    ASPEC ( Asian Scientific Paper Excerpt Corpus ) Notice: ASPEC data can be used during the fiscal year (April 1 to March 31) by applying on an annual basis. You can also continue to use the data by submitting an application to the contact email address at least one month before the end of the fiscal year. Now, on April 1, 2021, the Terms of Use will be revised to simplify the application process. I

    efcl
    efcl 2017/10/13
    アジア学術論文抜粋コーパス(ASPEC)
  • 基本動詞ハンドブック

    ■「基動詞ハンドブック」とは コミュニケーションの基単位となる文の骨格を決める重要な要素の一つが述語としての動詞です。日常生活でよく使用される基動詞のほとんどが、複数の意味をもつ多義動詞で構成されていますが、このような現象は日語だけでなく、世界中の言語に広く見られます。 多義動詞には、まず中心となる意味(中心義あるいは基義)があり、そこから様々な意味が派生されます。例えば、動詞「上がる」には、「上の方への物理的な移動」という中心義があります。「屋根に上がる」、「ステージに上がる」というときの「上がる」は、「より高いところに移動する」という中心義です。この中心義から、水中からの移動(「風呂からあがる」)、家の内部への移動(「人の家に勝手に上がる」)、訪問(「お届けにあがりました」)などの意味が派生しますが、まだこれらの意味では、物理的移動を表すという点は中心義と共通しています。しか

    efcl
    efcl 2017/03/26
    日本語の動詞の背景にある意味合いなどを調べることができるリファレンス
  • NINJAL-LWP for BCCWJ (NLB)

    ■NINJAL-LWP for BCCWJ とは NINJAL-LWP for BCCWJ(以下、NLB)は、国立国語研究所(以下、国語研)が構築した『現代日語書き言葉均衡コーパス』(Balanced Corpus of Contemporary Written Japanese: BCCWJ)を検索するために、国語研とLago言語研究所が共同開発したオンライン検索システムです。国語研の共同研究プロジェクト「日語学習者用基動詞用法ハンドブックの作成」(リーダー:プラシャント・パルデシ)、「日語レキシコンの文法的・意味的・形態的特性」(リーダー:影山太郎)、「述語構造の意味範疇の普遍性と多様性」(リーダー:プラシャント・パルデシ)による研究成果の一部です。 国語研からはBCCWJ用のオンラインコンコーダンサとして中納言が公開されていますが、NLBはコンコーダンサとは異なるレキシカルプ

    efcl
    efcl 2017/03/26
    オノマトペ検索、いろんなコーパスの検索
  • Yotaro Watanabe - ChaPAS: Yet Another Japanese Predicate Argument Structure Analyzer

    chapas-0.742.tar.gz (全ファイル, size: 1.13GB)ChaPASはフリーソフトウェアです。修正BSDライセンスに従って利用または再配布することができます。ただし、付属のモデルファイル(models以下)、解析に利用している京都大学格フレームver1.0 (resources/kucf以下)、ALAGIN文脈類似語データベース付属の確率的クラスタリングの結果データ(resources/sw以下)、大規模コーパスから得られた確率的クラスタリングの結果データ(resources/ncv以下)はこのライセンスには含まれません。 モデルファイルは、ipa品詞体系のデータで学習したものです。 確率的クラスタリングの結果データは、オリジナルから30%以上改変したものです。 chapas-models.tar.bz2 (学習済みモデルファイルのみ, size: 125MB)c

    efcl
    efcl 2017/01/07
    ChaPASはJavaベースの日本語述語項構造解析器
  • Regexp.ja

    解析前に行うことが望ましい文字列の正規化処理 辞書データを冗長にして異表記を吸収するのにも限界がある。 辞書データを生成する際には以下で述べる正規化処理を全て適用しているため、 解析対象のテキストに対して以下の正規化処理を適用すると、辞書中の語とマッチしやすくなる。 mecab-ipadic-neologd のエントリを生成する際の正規化処理 以下にmecab-ipadic-neologd のエントリを生成する際に、処理の各所に分散している正規化処理をまとめる。 生成時には色々置換と削除をしているが、最後に反映されているのは以下である。 全角英数字は半角に置換 0-9=> 0-9 A-Z=> A-Z a-z=> a-z 半角カタカナは全角に置換 半角の濁音と半濁音の記号が1文字扱いになってるので気をつけること。 ハイフンマイナスっぽい文字を置換 以下はハイフンマイナスに置換する。 MODI

    Regexp.ja
    efcl
    efcl 2017/01/07
    辞書データとのマッチングをする前に行う文字列の正規化について 全角を半角にしたり、カタカナの扱いや記号の正規化など
  • 法政大学機関リポジトリ移行のお知らせ :: 法政大学 図書館

    法政大学では、教育・研究成果の発信システムである「法政大学機関リポジトリ」について、 2018年8月より国立情報学研究所が提供する共用リポジトリサービス「JAIRO Cloud」環境へ 移行いたしました。 ブックマーク等に登録されている方は、お手数ですがURLの変更をお願いいたします。 (新) https://hosei.repo.nii.ac.jp/ 2018年8月20日より公開開始 (旧) http://repo.lib.hosei.ac.jp/ 以上

    efcl
    efcl 2017/01/07
    新聞社の感情分析をして偏りを見る論文。 Word2Vecで単語ベクトルを取り、単語辞書から感情極性値を与えて、評価する
  • 【第6回】自然言語処理の基礎知識: “助詞”とは?│最新テキストマイニング講座│テキストマイニング・ラボ│プラスアルファ・コンサルティング

    efcl
    efcl 2016/07/17
    助詞について
  • Catalogue of Language Resources and Tools in Japan

    [形態素解析器] [パーザ] [アノテーション支援] [可視化ツール] [検索ツール] [機械学習] [ツール(その他)] 新聞記事 毎日新聞CD-ROM 毎日新聞CD-ROM (1991年) 毎日新聞CD-ROM (1992年) 毎日新聞CD-ROM (1993年) 毎日新聞CD-ROM (1994年) 毎日新聞CD-ROM (1995年) 日経新聞CD-ROM 日経産業・金融・流通新聞CD-ROM 読売新聞CD-ROM (邦文記事) 読売新聞CD-ROM (英文記事) 朝日新聞CD-ROM 知的障害者向け新聞『ステージ』テキストデータ 注釈付きコーパス RWCテキストデータベース RWC-DB-TEXT-94-1 RWC-DB-TEXT-94-2 RWC-DB-TEXT-95-3 RWC-DB-TEXT-96-2 RWC-DB-TEXT-97-1 CRL-DB-TEXT-97-1 ED

    efcl
    efcl 2016/06/24
    日本の言語資源・ツールのカタログ
  • オンライン日本語誤用辞典(公開版Ver.1.1)

    プロジェクトの説明 英国リーズ大学・ウクライナキエフ国立言語大学・台灣銘傳大學の日語学科の作文の授業で執筆された日語作文(作文数373、文字数161,533字、執筆者総数146名)を収集し、小柳昇(博士後期課程)をプロジェクトリーダーとして、日語誤用コーパス(作文数40、総文字数20,089、総文数654、誤用抽出数1,059)を作成しました。日語誤用コーパスをもとに、オンライン日語誤用辞典を制作し、オンラインで無料公開しています。日語誤用コーパスは、望月圭子研究室で研究教育目的のために、CD(公開版Ver.1.1)を提供していますので、望月圭子研究室(@tufs.ac.jpの前にmkeikoをつけてください)までご連絡ください。

    efcl
    efcl 2016/01/21
    外国人の書いた日本語の文章を元に、誤り例をまとめたもの
  • Project Next日本語校正タスク 中間報告

    efcl
    efcl 2016/01/21
    日本語校正に関する研究
  • neologd/mecab-ipadic-neologd: Neologism dictionary based on the language resources on the Web for mecab-ipadic

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    neologd/mecab-ipadic-neologd: Neologism dictionary based on the language resources on the Web for mecab-ipadic
    efcl
    efcl 2016/01/21
    実用重視の日本語単語辞書
  • JUMAN - LANGUAGE MEDIA PROCESSING LAB

    形態素解析システム JUMAN † システムは,計算機による日語の解析の研究を目指す多くの研究者に共通に使える形態素解析ツールを提供するために開発されました.その際, 学校文法が計算機向きではないという問題を考慮し,使用者によって文法の定義,単語間の接続関係の定義などを容易に変更できるように配慮しました. 新バージョン7.0の拡張点は以下の通りです. 非反復形オノマトペ,長音記号による非標準表記,長音記号・小書き文字を用いた長音化の自動認識 Wikipediaから抽出した辞書の追加 自動辞書(Webテキストから自動獲得した辞書)の改良 UTF-8化 たとえば,次のようなテキストを入力すると, % cat sample.txt カサつく ビミョーだ がんがる アジャイルだ 爽健美茶 ThinkPad 上海ガニ ぺっちゃりしてる ありがとー 行きたぁぁぁい 以下の解析結果が得られます

    efcl
    efcl 2016/01/21
    > 日本語形態素解析システム JUMAN
  • 1