テキストから意味を読み取るというのは非常に難しく、そのための専用ソフトウェアが存在するほどです。そしてテキスト解析手法の一つとして知られているのが分かち書きです。日本語であればChasenがよく知られています。 kuromoji.jsはそんな分かち書き処理をJavaScriptで行ってしまおうというソフトウェアになります。KuromojiというApache財団のオープンソース分かち書きエンジンをJavaScriptにポーティングしています。 kuromoji.jsの使い方 こちらはデモです。Webブラウザベースで動作しています。nodeでも使えます。 適当な文章をリアルタイムに分かち書きできます。 kuromoji.jsは辞書ファイルをAjaxで取得しています。そのためサイズは大きくなりますが、分かち書きの精度はとても高くなります。サーバサイドで辞書を用意したり分かち書きエンジンを用意する
About Kuromoji Kuromoji is an open source Japanese morphological analyzer written in Java. Kuromoji has been donated to the Apache Software Foundation and provides the Japanese language support in Apache Lucene and Apache Solr 3.6 and 4.0 releases, but it can also be used separately. Downloading Download Apache Lucene or Apache Solr if you want to use Kuromoji with Lucene or Solr. See below for so
岡野原です。 2011/9/17〜2011/9/19に熱海で行われた情報科学若手の会2011に参加し、講演をしてきました。 テーマを決めるに当たって、参加者の年齢、興味分野、スキルの幅が非常に広いということもあり、若手の会参加者のみなさんから質問を前もって聞いておき、それについて回答するという形にしました。 自由に質問を集めたのですが、それらは研究・企業・生き方のテーマにまとめられそうだったので、それらのテーマに沿って講演をしました。 研究 : 自然言語処理、機械学習、それらの今後 企業:起業の話、PreferredInfrastructureの話、 研究をビジネスに適用する際の話 生き方:学生、社会人の心境、アドバイス、 モチベーションの話など 何か一つのメッセージを伝えるというよりは様々な考えや体験談、tipsなどを関係なく並べたものになっています。 皆様にとって何か参考になれば幸いで
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog 地震の余波が収まらぬところ失礼します。要素技術開発部の奥野と申します。 2011年3月7日(月)~3月11日(金)に愛知県の豊橋技科大で行われた言語処理学会で、ヤフーから3件の発表を行いました。 言語処理学会第17回年次大会(NLP2011) この記事では、その際の発表スライドと論文について紹介します。 言語処理学会とは? 言語処理学会とは自然言語処理に関する国内最大の学会で、年4回の学会誌の発行と年1回の年次大会の開催を主な活動としています。毎年3月に行われている年次大会では、この分野の研究者・技術者が一同に会し、活発な議論が行われています。事前登録の情報によると、本会議には約500名の方が参加されたそうです。年次大会は毎年関東
goo評判検索は、パソコン・デジカメ・AV家電・生活家電・携帯電話・DVD・本などを購入する際に参考となる情報を検索でき、それぞれの評判・クチコミ情報がいち早くわかるお役立ちサイトです。花粉症対策に選ぶべき空気清浄機とは 鼻の奥のむずむず感で目覚めた2月の早朝。ベッドの中、大きなくしゃみが1つ、2つ、3つ、4つ……5発目で確信を持つ。 ああ、今年もついに花粉症の季節がやってきたか。 1月30日付けの環境省の発表によれば、今シーズンのスギ・ヒノキ科花粉総飛散量は前シーズンに比べ関東、 東北地方では同じかやや少なく、東海、北陸から九州地方にかけては多くなると予測されるとのこと。 地域差はあるものの、花粉症の人にとっては油断ならぬ状況が予想されます。 (続きを読む)
日本初となる「クチコミ要約技術」採用サービスを、 「goo評判検索」にて実証実験開始 〜ネット上の複数のクチコミ評価をコンパクトで読みやすい文章に要約する技術を採用〜 NTTレゾナント株式会社(東京都港区、代表取締役社長:中嶋 孝夫、以下「NTTレゾナント」)と日本電信電話株式会社(東京都千代田区、代表取締役社長:三浦 惺、以下「NTT」)は、クチコミサイト上の商品などに対する複数のクチコミ情報を解析し、要約する「クチコミ要約技術」の実験を、ポータルサイト「goo」が提供する「goo評判検索」にて、本日より開始します。「クチコミ要約技術」を採用するサービスは日本で初となります。 本サービスにより、ユーザは、AV機器などの商品を購入する際に、評判検索ページに表示される大量のクチコミ情報を1件ずつ読むこと無く、商品の評判の概要を素早く簡単に把握することができます。 1.「goo評判検
WindowsでMeCab Pythonを使う(2010/11/21)のつづきです。形態素解析を使ってると単語が変なところで切れていたり、未知語が多かったりと不満点が出てきます。また、応用によっては、形態素ではなく、複合語単位で抽出したいということもしばしばあります。たとえば、 人工知能は、コンピュータに人間と同様の知能を実現させようという試み、あるいはそのための一連の基礎技術をさす。 人工知能という名前は1956年にダートマス会議でジョン・マッカーシーにより命名された。 現在では、機械学習、自然言語処理、パターン認識などの研究分野がある。(Wikipedia『人工知能』を改変)という文章をMeCabで形態素解析して名詞のみ取り出すと、 人工 知能 コンピュータ 人間 同様 知能 実現 試み ため 一連 基礎 技術 人工 知能 名前 1956 年 ダート マス 会議 ジョン マッカーシー
国内唯一のTwitter公式パートナーシップにより Twitter全量データをご提供 株式会社NTTデータは、2012年9月27日に米Twitter社とTweetデータ提供に関するFirehose契約を締結致しました。これにより、米Twitter社から全量・全言語のTweetデータをリアルタイムに受領し、Twitter社の公開APIよりも大量・高度・高付加価値なTweetデータをご提供可能なサービスプラットフォームを構築しております。 最上位のTwitter Official Data Partnerとして、このプラットフォームを基軸に、ユーザー企業様のソーシャルメディア情報活用を支援していきます。
すみません。タイトルはやや釣り気味です。 類似検索エンジンというか、そのアイデア程度の話なんですが、以前から考えていた類似検索エンジン風のネタがあったので、ちょっとperlで書いてみたので、そいつを晒してみます。 Luigi https://github.com/miki/Luigi 類似検索なのでLuigi。ルイージとか読みたい人はそう読んじゃっても良いです。(冷) 考え方と仕組み 類似文書の検索、となりますと一般的には超高次元での空間インデックスとかが必要になります。 昔からR-TreeやSR-Treeなど、いろいろと提案されていますが、より高次元になると「次元の呪い」によりパフォーマンスが出なくなる、なんて言われていますね。 そこで最近ではLSHに代表されるような、より高度な「近似」型のインデキシング手法が人気を集めているようです。 で、今回考えたLuigiも実は近似型のインデッ
overlasting.net 2020 Copyright. All Rights Reserved. The Sponsored Listings displayed above are served automatically by a third party. Neither the service provider nor the domain owner maintain any relationship with the advertisers. In case of trademark issues please contact the domain owner directly (contact information can be found in whois). Privacy Policy
自然言語処理(しぜんげんごしょり、英語: Natural language processing、略称:NLP)は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野である。「計算言語学」(computational linguistics)との類似もあるが、自然言語処理は工学的な視点からの言語処理をさすのに対して、計算言語学は言語学的視点を重視する手法をさす事が多い[1]。データベース内の情報を自然言語に変換したり、自然言語の文章をより形式的な(コンピュータが理解しやすい)表現に変換するといった処理が含まれる。応用例としては機械翻訳や仮名漢字変換が挙げられる。 自然言語の理解をコンピュータにさせることは、自然言語理解とされている。自然言語理解と、自然言語処理の差は、意味を扱うか、扱わないかという説もあったが、最近は数理的な言語解析手法(統
Natural language processing has its roots in the 1940s.[1] Already in 1940, Alan Turing published an article titled "Computing Machinery and Intelligence" which proposed what is now called the Turing test as a criterion of intelligence, though at the time that was not articulated as a problem separate from artificial intelligence. The proposed test includes a task that involves the automated inter
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く