mecabの人気記事 1332件 - はてなブックマーク

1 - 40 件 / 1332件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

mecabの検索結果1 - 40 件 / 1332件

LINE DEVELOPER DAY 2016 開催のお知らせ « LINE Engineers' Blog
- 2603 users
- engineering.linecorp.com
- テクノロジー
- 2014/08/04
LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog saegusa2017-04-16Yoshihiro was a network engineer at LINE, responsible for all levels of LINE's infrastructure. Since being named Infra Platform Department manager, he is finding ways to apply LINE's technology and business goals to the platform. こんにちは。LINEでネットワークやデータセンターを担当している三枝です。2017年1月にJANOG39で登壇する機会を頂きましたので、今回
- LINE
- fluentd
- norikra
- api
- あとで読む
- microservices
- elasticsearch
- 開発
- 認証
- redis
言語処理100本ノック 2015
- 1888 users
- www.cl.ecei.tohoku.ac.jp
- テクノロジー
- 2015/03/12
言語処理100本ノックは，実践的な課題に取り組みながら，プログラミング，データ分析，研究のスキルを楽しく習得することを目指した問題集です実用的でワクワクするような題材を厳選しました言語処理に加えて，統計や機械学習などの周辺分野にも親しめます研究やデータ分析の進め方，作法，スキルを修得できます問題を解くのに必要なデータ・コーパスを配布しています言語はPythonを想定していますが，他の言語にも対応しています
GitHub
- 1559 users
- github.com
- テクノロジー
- 2008/01/24
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- git
- github
- webサービス
- プログラミング
- programming
- webservice
- development
- repository
- web
- service
Ajax IME: Web-based Japanese Input Method
- 1485 users
- ajaxime.chasen.org
- 暮らし
- 2005/10/29
Webベースの日本語入力サービスです。海外からでもブラウザさえあれば日本語を入力することができます。特別なソフトは必要ありません。使い方お使いのコンピュータの日本語入力を切りかえて直接入力にします。 Alt-o (Ctrl-9) で Ajax IMEモードに変更します。(ボタンで切り替えるかえることもできます) 適当な文をローマ字で入力します。 spaceを押して漢字に変換します。続けて押すことで候補選択を行います。 returnを押す、もしくは次の入力を開始することで入力を確定します。 F9で強制的にカタカナに、F8で強制的にアルファベットに変換します。再度 Alt-o (Ctrl-9)で直接入力に戻ります海外旅行先や留学先, 海外のネットカフェなど日本語入力環境が無いパソコンからご使用ください。 Firefox と Internet Explorer で動作確認をしていま
- ajax
- ime
- 日本語入力
- webサービス
- 日本語
- japanese
- tool
- webservice
- web
- 便利
「しりとり」の戦いかた、すこし反省した - Active Galactic : 11次元と自然科学と拷問的日常
- 1331 users
- active-galactic.hatenablog.com
- 暮らし
- 2009/05/04
「しりとり」は経験者人口が極めて多いゲームだけど、鬼神のごとき強さで他を圧倒するしりとりプレイヤーを私は知らない。ちょっと真剣に戦ってみたところで、そんな程度のレベルで満足していやしないか。さいしょは「る」の同字返しでガッチリ組み合う。先に「る→る」のストックが切れて、「る」で返せなくなったほうがひたすら「る攻め」で投げられ続ける。小学生の時から進歩していないような、こんな大雑把でマンネリな「る攻め」戦略から脱却できないものか。攻撃防御比最大の最強文字「る」復習。周知の事実だが「る」は強い。下の表は、[A](文字Ｘで終わる単語)と、[B](文字Ｘではじまる単語)をその比[A/B]の高いものから順にリストしたものである。標本の単語数は２０万語であり豚辞書から、伸ばし棒をトリムした上で抽出した。*1 文字X[A]Xで終わる単語[B]Xで始まる単語[A/B] １位る43235208.
- これはすごい
- ネタ
- 雑学
- ゲーム
- game
- 考察
- 数学
- 言葉
- 読み物
- しりとり
日本語形態素解析の裏側を覗く！MeCab はどのように形態素解析しているか - クックパッド開発者ブログ
- 1063 users
- techlife.cookpad.com
- テクノロジー
- 2016/05/11
こんにちは、買物情報事業部の荒引 (@a_bicky) です。前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。なお、MeCab は汎用テキスト変換ツールとしても使用できますが、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。アジェンダ形態素解析とは MeCab における最適な解析結果の推
Python による日本語自然言語処理
- 1020 users
- nltk.googlecode.com
- 暮らし
- 2010/11/15
はじめにこの文書は、 Steven Bird, Ewan Klein, Edward Loper 著萩原正人、中山敬広、水野貴明　訳『入門自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも
258億語の日本語コーパスをウェブで公開～国立国語研究所　言語研究や自然言語処理技術開発での基礎資料
- 923 users
- internet.watch.impress.co.jp
- 学び
- 2017/03/06
文字列アルゴリズムの学びかた - Hatena Developer Blog
- 837 users
- developer.hatenastaff.com
- テクノロジー
- 2016/12/22
こんにちは！はてなアプリケーションエンジニアの id:takuya-a です。みなさんは、このような疑問をもったことはありませんか？ grep はどのように文字列を検索しているのか？ MeCab はどうやって辞書を高速にルックアップしているのか？パーサやコンパイラを作りたいけど、何から始めればいいのか？本稿では、「文字列アルゴリズムとはどんなものなのか？」「なぜ重要なのか？」「何を知っておくべきか？」「どうやって勉強すればいいのか？」といった疑問にお答えしていこうと思います。文字列アルゴリズムの意外な応用や、モチベーションを保ちやすい勉強のしかた、文字列アルゴリズムを勉強するために行った社内での取り組み、実装するときのコツといったトピックについても触れています。このエントリは、はてなエンジニアアドベントカレンダー2016の22日目の記事です。昨日は id:syou6162 さんに
自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ！
- 775 users
- antibayesian.hateblo.jp
- テクノロジー
- 2014/03/09
概要この記事は自然言語処理という分野の最新手法word2vec を利用して誰でも遊べるようにするための手順を説明するものです。 word2vecを利用すると意味の計算が実現できます。例えば"king"から"man"を引いて"woman"を足すと"queen"が出てきたり、 "東京"から"日本"を引いて"フランス"を足すと"パリ"が出てくるという面白い手法です。自然言語処理とは人間が日常的に用いる自然言語をコンピュータに処理させ、翻訳や要約、文字入力支援や質問応答システムを作るなどに活用されている分野です。自然言語処理と言うと耳慣れない言葉かもしれませんが、実は検索や推薦などで私たちが日常的に利用しているなじみ深い技術でもあります。自然言語処理の適用範囲や要素技術は幅広いのですが、その中でもword2vecの特色は、冒頭でも挙げたように「意味の計算」が出来ることです。これ
Google Japan Blog: 大規模日本語 n-gram データの公開
- 721 users
- japan.googleblog.com
- 暮らし
- 2007/11/01
メディア関係者向けお問い合わせ先メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。
- google
- n-gram
- 形態素解析
- 自然言語処理
- nlp
- search
- mecab
- japanese
- 日本語
- data
MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)
- 603 users
- mecab.sourceforge.net
- 暮らし
- 2006/11/08
MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧くださいメーリングリスト一般ユーザ向けメーリングリスト開発者向けメーリングリスト新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった一部のコンパイラで正しくコンパイルできなかった問題の修正部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-
形態素解析エンジンMeCabにて文章中から短歌を抽出 - inaniwa3's blog
- 601 users
- inaniwa3.hatenablog.com
- テクノロジー
- 2015/01/01
概要偶然５７５７７になっている文章を短歌としてつぶやく Twitter の bot を作りました。フクロウが鳴くと明日は晴れるので洗濯物を干せという意味 #tanka ウィキペディア日本語版「フクロウ」より http://t.co/Dm1uHcQdzR— 偶然短歌bot (@g57577) 2014, 12月 31 再帰的アルゴリズムが有効な問題として有名であり #tanka ウィキペディア日本語版「ハノイの塔」より http://t.co/vm2ZqwImKi— 偶然短歌bot (@g57577) 2014, 12月 31 文章はウィキペディア日本語版を対象としました。作り方 jawiki-latest-pages-articles.xml.bz2 をダウンロード。 WP2TXT で上記を扱いやすい形式に変換。このスクリプトで５７５７７になっている文を抽出。数時間かけて（遅い）
- 形態素解析
- mecab
- 短歌
- NLP
- twitter
- bot
- 言語
- ネタ
- 自然言語処理
- wikipedia
捗るリコメンドシステムの裏事情（ハッカドール）
- 596 users
- www.slideshare.net/mosa_siru
- テクノロジー
- 2014/10/11
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...Deep Learning JP
Budou - 機械学習を用いた日本語改行問題へのソリューション - ウェブ雑記
- 573 users
- tushuhei.hatenadiary.jp
- テクノロジー
- 2016/09/12
こんにちは！日本語のウェブサイトを作っていると、日本語特有の問題にぶちあたることがありますよね。その中でも今回着目したいのは、日本語改行問題。最近、この問題を解決するためのライブラリを公開したので、紹介します。 github.com そもそも日本語改行問題とは何かウェブブラウザで日本語で書かれたウェブサイトを見ていると、ときどき文章が変なところで改行されているのを目にすることがありますよね。たとえば、こんなかんじ。「ソリューション」が「ソリューショ」と「ン」に分かれてしまっています。読みにくいですね。英語では単語がスペースによって区切られますが、日本語や中国語などのアジア圏の言語では単語がスペースで区切られないことが多いです。そのため、英語では単語の途中で改行されることは通常ありませんが、日本語では単語の途中で改行されることがよくあります。本文ならともかく、見出しやキャッチ
- 機械学習
- 日本語
- あとで読む
- python
- typography
- api
- japanese
- 開発
- nlp
- 文章
Python による日本語自然言語処理
- 543 users
- www.nltk.org
- テクノロジー
- 2014/11/03
はじめにこの文書は、 Steven Bird, Ewan Klein, Edward Loper 著萩原正人、中山敬広、水野貴明　訳『入門自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも
文章中から韻を踏んでいるフレーズの組み合わせを検出する gem を作りました - Qiita
- 512 users
- qiita.com/suzuki86
- おもしろ
- 2016/05/23
依存関係 natto が利用できる必要があります。使い方 Rhymer::Parser.newの引数に文章を渡すと、検査結果が含まれたインスタンスが生成されます。インスタンスのrhymesメソッドを実行すると、韻を踏んでいるフレーズの組み合わせの配列が返されます。 require "rhymer" rhymer = Rhymer::Parser.new("今日はとても良い天気ですね。こんな日は自然に元気になります。") rhymer.rhymes.each do |rhyme| puts [rhyme[0], rhyme[1]].join(" ") end require "rhymer" lyric = <<"LYRIC" 1853年（嘉永6年）、長崎の出島への折衝のみを前提としてきた幕府のこれまでの方針に反して、江戸湾の目と鼻の先である浦賀に黒船で強行上陸したアメリカ合衆国のマシュー
- Ruby
- mecab
- ネタ
- 文章
- gem
- あとで読む
- rap
- hiphop
- 形態素解析
- neta
Senna 組み込み型全文検索エンジン - Senna 組み込み型全文検索エンジン
- 500 users
- qwik.jp
- テクノロジー
- 2005/09/24
This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.
- senna
- 全文検索
- mysql
- 検索エンジン
- search
- 形態素解析
- database
- 検索
- db
- n-gram
「Google日本語入力」開発者が語る、その狙い
- 492 users
- www.itmedia.co.jp
- 暮らし
- 2009/12/07
Google日本法人が公開した新日本語入力システム（IME）「Google日本語入力」について、開発した同社の技術者が12月7日、開発の経緯や狙いなどを話した。予想を超える反響があったといい、「早い時期にβが取れる形で提供したい」と意気込む。Googleが来年リリースを予定している「Chrome OS」にも組み込まれる予定だ。同IMEは12月3日にβ版として公開。Webから集めた情報を基に自動的に生成した辞書を搭載し、新語や専門用語、芸能人の名前などに強いのが特徴だ。冒頭の数文字を入力すると候補語を変換するサジェスト機能や、数字を16進数に変換する機能など、Googleらしい機能も備えている。Windows XP／Vista／7（それぞれ32ビット版）とMac OS X（Leopard以降）に対応し、無料で利用できる。エンジニアの情熱の成果開発は、ソフトウェアエンジニアの工藤拓さんと
Ajax IME: Web-based Japanese Input Method
- 479 users
- chasen.org/~taku
- 暮らし
- 2005/08/10
Webベースの日本語入力サービスです。海外からでもブラウザさえあれば日本語を入力することができます。特別なソフトは必要ありません。使い方お使いのコンピュータの日本語入力を切りかえて直接入力にします。 Alt-o (Ctrl-9) で Ajax IMEモードに変更します。(ボタンで切り替えるかえることもできます) 適当な文をローマ字で入力します。 spaceを押して漢字に変換します。続けて押すことで候補選択を行います。 returnを押す、もしくは次の入力を開始することで入力を確定します。 F9で強制的にカタカナに、F8で強制的にアルファベットに変換します。再度 Alt-o (Ctrl-9)で直接入力に戻ります海外旅行先や留学先, 海外のネットカフェなど日本語入力環境が無いパソコンからご使用ください。 Firefox と Internet Explorer で動作確認をしていま
- ajax
- ime
- javascript
- 日本語
- tool
- web2.0
- web
- 便利
- ツール
- webサービス
テキスト解析:日本語形態素解析API - Yahoo!デベロッパーネットワーク
- 467 users
- developer.yahoo.co.jp
- 暮らし
- 2007/06/18
指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。
- 形態素解析
- api
- yahoo
- webservice
- webapi
- webサービス
- yahoo!
- japanese
- nlp
- development
形態素解析の過去・現在・未来
- 459 users
- www.slideshare.net/pfi
- 暮らし
- 2011/10/21
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...Deep Learning JP
- 形態素解析
- 自然言語処理
- NLP
- 資料
- プログラミング
- pfi
- slideshare
- IT
- あとで読む
- mecab
テキストマイニング技術の活用に向けて読んでおきたい12のプレゼン資料 - コーパスいぢり〜langstatの研究日誌〜
- 454 users
- hatena.blog
- テクノロジー
- 2012/05/04
思いは言葉に。はてなブログは、あなたの思いや考えを残したり、さまざまな人が綴った多様な価値観に触れたりできる場所です。
新形態素解析器JUMAN++を触ってみたけど思ったより高精度でMeCabから乗り換えようかと思った話
- 453 users
- qiita.com/riverwell
- 学び
- 2016/10/13
JUMAN++は最近黒橋・河原研究室から発表された、JUMANの後継となる形態素解析器です。これまでの形態素解析器と比べて違うのは、RNN言語モデルを用いて意味的自然さを考慮する、ニューラルネットワークを利用した形態素解析器となっている点です。速度や語彙等の課題はあるものの、解析能力自体はMeCab以上なので、導入方法と共に触ってみた所感を述べてみます。導入方法前提 OS X Yosemite 10.10.5 VirtualBox 5.1.6 Vagrant 1.8.6 インストール vagrant boxは bento/ubuntu-16.04を使用します。推奨はCentOSですが、自分の環境ではCentOSではビルドに失敗しました。また、OSはubuntu16.04でもboxによっては上手くインストールすることができないため、bentoのboxがおすすめです。 $ vagr
Pythonでつくる検索エンジン(Webクローラ, Mecab, MongoDB, Flask) - c-bata web
- 452 users
- nwpct1.hatenablog.com
- テクノロジー
- 2014/11/12
検索エンジン自作入門 ~手を動かしながら見渡す検索の舞台裏作者:山田浩之,末永匡発売日: 2014/09/25メディア: 単行本（ソフトカバー） (この記事で紹介しているのはTF-IDFとかの計算もない簡素なものです。) はじめに Webサービスのプログラミングに必要なことのだいたいは、スクレイピングに学んだ - Line 1: Error: Invalid Blog('by Esehara' ) この前↑の記事をみかけました。クローリングやスクレイピングは、色々と応用が効きそうなのでしっかり勉強したい。 PythonではScrapyという有名なクローリング・スクレイピング用のライブラリがありますが、今回は勉強としてScrapyを使わずに実装してみる。流れとしては以下のとおり Webクローラの構築 Mecabで日本語の形態素解析検索エンジンの構築データをMongoDBに格納 Fl
- python
- スクレイピング
- 検索エンジン
- mecab
- mongodb
- flask
- crawler
- クローラ
- web
- あとで読む
ルー語変換 | Elementary, ...
- 449 users
- e8y.net
- 暮らし
- 2006/12/31
URL や文章を「ルー語」にトランスレートゥ！します。ルー大柴さん公認！ルー語変換 | メールでルー語 | ルー語占い | ﾙｰ語変換ﾓﾊﾞｲﾙ例えばこの人... をルーにしたり、名作この話... をルー語で読み直してみるのはいかがでしょう。お仕事中の方はニュースをトゥギャザーしてみてください。自分や友達のブログを変えてみるのが一番おもしろいです。さっそくを
- ルー大柴
- ネタ
- generator
- ジェネレータ
- tool
- 変換
- webサービス
- neta
- webservice
- ツール
「圧縮新聞」を作った - phaの日記
- 449 users
- pha.hateblo.jp
- 暮らし
- 2007/11/24
僕は昔からロボットがロボットなりに変な文章を生成して喋ったりする人工無脳とかそういう仕組みが好きで、最近はそのへんの仕組みを勉強していました。それで大体仕組みの基本はわかったので簡単なスクリプトを書いてみたよ。圧縮新聞このスクリプトはウェブ上にある新聞社とかのニュースの文章を元にして、バラバラにして圧縮してまとめた文章を作るので、ざっと眺めるだけでその日起こった事件の全体が何となくわかるかもしれません。リロードするたび文章は変わります。生成例しょうゆ・みそ業界大手のＮＯＶＡ（大阪市）が入った郵便小包は、北朝鮮の鉄道網を連結する計画だったらしいことが２１日、わかった。タンクに灯油を補給した。検案の結果、財政難などをほとんど与えずに６者協議の外相会議の早期再開に期待を表明した国と製薬会社に賠償を求めた。その後、死亡した。しくみこういった人工無脳みたいな文章生成をするには形態素解析と
TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア
- 448 users
- chasen.org/~taku
- 暮らし
- 2008/02/08
TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日本語分かち書きソフトウェアです。わずか25kバイトのソースコードで、日本語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!の形態素解析のようにサーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。デモ日本語の文章を入力し、解析ボタンをクリックしてください。ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従って本ソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src
- javascript
- 形態素解析
- 自然言語処理
- 分かち書き
- nlp
- library
- MeCab
- algorithm
- japanese
- 日本語
きまぐれ日記: MeCabがiPhone,OSXに載っていると言うのは止めようと思う
- 425 users
- chasen.org/~taku
- 暮らし
- 2010/04/21
iPhoneのSDKの条項に変更が加わり、Flashのクロスコンパイルを含む純正開発ツール以外で作成されたバイナリの配布が禁止となるようです。世間でも散々言われていますが、この変更は正直とても残念です。 Apple的には「製品のクオリティーが保てないから」という理由だそうですが、 Windows版iTunesが意味もなくQuickTime入れたり、Windows非標準のUIを使いまくっていて、お世辞にもクオリティーが高いとは言えないのを棚にあげて、クオリティー云々と言い訳できるのでしょうか。アプリなんて所詮玉石混淆。決めるのはユーザです。 MeCabは以前GPL/LGPLでした。Appleを含む複数の方からこのライセンスでは使いにくいと言う指摘をうけ、前職の同僚と協議をしながらBSD/LGPL/GPL のトリプルライセンスにしたという経緯があります。結果としてこの変更はうまく
- apple
- mecab
- oss
- オープンソース
- iphone
- opensource
- ライセンス
- license
- 考え方
- business
2019年末版形態素解析器の比較 - Qiita
- 416 users
- qiita.com/hi-asano
- テクノロジー
- 2019/12/17
形態素解析は日本語処理の初歩であり、文を単語に分割したり、品詞や活用形、基本形を分析するために行います。本記事では形態素解析のツールをいくつかの出力例を交えて比較していきます。（SentencePieceでいいじゃん、という人はお呼びでないですが、そういう方には、Twitterのトレンドが変な分割になってたら嫌では？と申し上げておきたいです） MeCab 言わずと知れた形態素解析器。とりあえずMeCabを使うという人は今なお多いことでしょう。とにかく高速であるということと、システムと辞書が分離されているのが特徴です。またPythonから使うのも簡単になりました（Janomeというものがありましたがmecab-python3の方が高速です）。Javaから使いたい人はKuromojiを使えばmecab(+ipadic)相当の結果が得られるはずです。辞書はIPA辞書が推奨されていますが、Un
第1回Webスクレイピング勉強会@東京（全3回） - Qiita
- 408 users
- qiita.com/t-sato
- テクノロジー
- 2014/06/22
official connpass 「Webスクレイピングの基礎知識」（@nezuq） SlideShare 3つの壁を突破する倫理情報解析目的なら合法と解析と解釈(文化庁のQAに肯定的記述) 常識的な範囲でのアクセス障害なら過失と言える。(国立国会図書館の場合、1秒以上あけてスクレイピングなら可能) 技術最低限でもHTMLの知識事例(どう使うか) データジャーナリズム(データからストーリーを見つけ提供する。NHKでやってる) Data Journalism Handbook(大義がある) 「オープンデータのためのスクレイピング〜抽出・共有・分析まで〜」（@ito_nao） SlideShare プログラミング不要でスクレイピング出来るwebサービスのご紹介 Tabula PDFからデータを抽出するツール kimono paginationが得意。構造化されたクローリングは苦手
- スクレイピング
- scraping
- web
- ツール
- slideshare
- mecab
- tech
- 電子書籍
- データ
- gem
ウノウラボ Unoh Labs: PHPとMecabでキーワード自動リンクを実装する
- 407 users
- labs.unoh.net
- 暮らし
- 2008/01/07
こんにちは、山下です。今年もどうぞよろしくお願い致します。 Webサービスを開発していると、特定のキーワードを自動でURLリンクにする処理が必要になることがあると思います。今回は、このキーワード自動リンク機能を形態素解析ツールMecabを使ってPHPで実装する方法を紹介したいと思います。説明に入る前に少し補足しておくと、Trieの実装であるDouble-Array処理だけ利用したいのであれば、MecabからDouble-Array処理の部分を切り出したDartsというライブラリがあります。しかし、なぜMecabを使うかというと、PerlだとDartsのバインディングが公開されているのですが、現時点でPHP版はありません。また、最近のLinuxディストリビューションでは、Mecabのパッケージが最初から用意されているため、より簡単に利用できると思ったからです。それでは、順を追って説明
自然言語処理の前処理・素性いろいろ - Debug me
- 394 users
- yukinoi.hatenablog.com
- テクノロジー
- 2018/05/29
ちゃお・・・† 舞い降り・・・† 先日、前処理大全という本を読んで自分なりに何か書きたいなと思ったので、今回は自然言語処理の前処理とそのついでに素性の作り方をPythonコードとともに列挙したいと思います。必ずしも全部やる必要はないので目的に合わせて適宜使ってください。前処理大全[データ分析のためのSQL/R/Python実践テクニック] 作者:本橋智光技術評論社Amazon 前処理余分な改行やスペースなどを除去 with open(path) as fd: for line in fd: line = line.rstrip() アルファベットの小文字化 text = text.lower() 正規化 (半角/全角変換などなど) import neologdn neologdn.normalize('ﾊﾝｶｸｶﾅ') # => 'ハンカクカナ' neologdn.normalize
形態素解析ツールの比較 (NLP2018) - Qiita
- 386 users
- qiita.com
- テクノロジー
- 2018/03/18
NLP2018のワークショップに行ってきたのですが、そこで聞いてきたことのうち、形態素解析ツールに関することを大雑把にまとめておきます。聞いたことをまとめることが目的なので、詳細は各ツールのWebサイトやgithubページへ行ってください。間違っている部分、追加したい内容があればコメントでお願いします。追記: 2018/04/02 nlp2018の発表資料が公開されました。 Juman++ (リンク) MeCab (リンク) KyTea (リンク) Unidic (リンク) https://sites.google.com/view/nlp2018ws/ NLP2018 形態素解析の今とこれから趣旨: どういう手法・ツールをどのようなタスクに対して使うべきかを選べるように、各ツールの開発者の発表を基に比較してもらうこと。さまざまな発表がありましたが、形態素解析ツールに焦点を当ててま
Google 工藤拓さん講演「大規模ソフトウェア開発を支えるGoogleのテクノロジー」
- 377 users
- ninjinkun.hatenablog.com
- 暮らし
- 2008/10/24
NAISTにてMeCabの作者としても有名な工藤拓さんの講演が行われました。Googleの開発体制とそれを支えるツールのお話です。学校と拓さんの双方からブログへの掲載許可が得られたので、まとめを公開します。この講義はNAISTのソフトウェア開発管理講義の一環です。 iPhoneカメラしかなかったので、画像が荒くて済みません・・・。会場は大入り！工藤拓さん NAIST自然言語処理学講座出身 Googleに入社してから大規模開発やインフラを経験 MeCabを開発 NTTコミュニケーション科学基礎研究所に所属その後Googleへ研究より開発寄り Googleでの仕事日本語のウェブ検索「もしかして」機能ダジャレサーチエイプリルフールネタを1ヶ月かけて実装何千人もの開発者が単一のソースコードリポジトリの上で開発を行っている大規模開発をサポートするインフラが不可欠 Mondria
- google
- development
- codereview
- programming
- 開発
- mecab
- dev
- ソフトウェア開発
- review
- NAIST
マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。
- 376 users
- zariganitosh.hatenablog.jp
- 暮らし
- 2009/06/28
そもそも、マルコフ連鎖とは何なのか？全く聞いたこともなかった。そして、文章を要約するのはとっても高度なことだと思っていて、自分のレベルではその方法を、今まで思い付きもしなかった。しかし、以下のようなシンプルなRubyコードでそれが出来てしまうと知った時、目から鱗である...。一体、何がどうなっているのだ？コードを追いながら、マルコフ連鎖を利用するという発想の素晴らしさを知った！作業環境 MacBook OSX 10.5.7 ruby 1.8.6 (2008-08-11 patchlevel 287) [universal-darwin9.0] mecab utf8環境でインストール済みマルコフ連鎖に出逢う rssを流し読みしていると、以下の日記に目が止まった。（素晴らしい情報に感謝です！） MeCabを使ってマルコフ連鎖一体何が出来るコードなのか、日記を読んだだけではピンと来なかっ
MeCabの辞書にはてなキーワードを追加しよう - 不可視点
- 376 users
- code46.hatenablog.com
- 暮らし
- 2009/05/31
MeCabは形態素解析のためのソフトウェアです。日本語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日本語や、正しく書かれた日本語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。というのも、一番広く使われているであろう自然言語処理技術は形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解
[O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました
- 370 users
- diary.overlasting.net
- テクノロジー
- 2015/03/14
MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました Tweet [NLP] 日本語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。その課題に対処するために、日本全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia 日本語版やはてなキーワードなどです。困ったことに、新語辞書を生成
「ひとがご→人がゴミのようだ」桁違いの語彙力、Googleが日本語入力ソフト（無料）発表…ATOKどうなる？ : 痛いニュース(ﾉ∀`)
- 348 users
- itainews.com
- 暮らし
- 2009/12/03
「ひとがご→人がゴミのようだ」桁違いの語彙力、Googleが日本語入力ソフト（無料）発表…ATOKどうなる？ 1 名前：☆ばぐた☆ ◆JSGFLSFOXQ ＠☆ばぐ太☆φ ★ ：2009/12/03(木) 15:07:34 ID:???0 グーグル日本法人は３日、日本語入力ソフト（ベータ版）の提供を始めた。ネット上から自動的に単語を収集して辞書をつくり、新しい言葉や専門用語、著名人の名前なども収録されているという。ソフトをダウンロードして使う。同社の検索で、入力間違いを類推して指摘する「もしかして機能」の担当技術者らが開発。単語を入力すると、同社の検索エンジンで単語を入力した時に表示される候補と似た変換候補がリスト表示され、必要な言葉を選ぶ。 http://mainichi.jp/select/biz/news/20091203mog00020019000c.html 「ぱんつじゃ」まで
プログラマのための文書推薦入門 (社内勉強会の発表資料) - y_uti のブログ
- 345 users
- y-uti.hatenablog.jp
- テクノロジー
- 2014/06/22
勤務先の社内勉強会で、機械学習を用いた文書推薦*1に関する基本的なことがらについて説明しました。その資料を公開します。プログラマのための文書推薦入門 from y-uti 数学やコンピュータサイエンスを専門的に学んでいないエンジニアでも理解しやすいように、できるだけ数式を使わずに説明したつもりです。厳密性にはこだわっていないので、専門家からはあちこちツッコミを受ける内容かもしれません。プログラマ向けということで、実際にコンピュータ上で動作を確認できるように、Wikipedia のデータを対象にして類似文書検索を行うスクリプトを作成しました。GitHub に置いてあります。 y-uti/document-recommendation · GitHub *1:推薦というより情報検索、類似文書検索という方が適切だったかもしれません。