forhatebuidのブックマーク - はてなブックマーク

自然言語処理による文書分類の基礎の基礎、トピックモデルを学ぶ - Qiita

自然言語においても、最近は生ビールを頼む感覚で「とりあえずディープラーニング」となることが多いです。実際ディープラーニングは高精度を記録できることが多いですが、実はその精度は基礎的なモデルでも記録できたり、あげく負けるようなこともあったりします。研究機関として名高いDeepMindの発表した論文でも、こうした事態がありました。文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-よりまた、最近はベースラインとして良く利用されているモデルでも最高精度を達成できるといった論文もありました。このように、ベースラインとして足蹴にされているモデルでも存外隅には置けないのです。今回は自然言語処理における基本的な手法の一種であるトピックモデルを取り上げてみます。これは文書分類などに使用されるモデルですが、文書分類の際に著者の存在を仮定するなど(オーサートピ

forhatebuid 2018/02/25

NLP

リンク

MeCabより高精度？RNNLMの形態素解析器JUMAN++

JUMAN++とは外国人参政権？ RNNLM 大規模語彙知識 JUMANやMeCabとの比較精度速度 MeCab JUMAN JUMAN++ JUMAN++とPythonバインディングのインストール JUMAN++の使い方コマンドライン Pythonから使用するまとめ参考日本語は、英語と違ってスペースで単語が区切られていない。だから、日本語の自然言語処理においては、まず単語の境界と品詞を推定することから始めることが多い。このテキストを単語に分割して品詞や意味を推定することを、「形態素解析」という。本記事では、その形態素解析をニューラルネットワークの一種であるRNNLM（Recurrent Neural Network Language Model）で構築された、JUMAN++を紹介する。本記事を読むと、 JUMAN++とRNNLMについて MeCabなど他の形態素解析

forhatebuid 2018/02/24

NLP

リンク

MeCabをWindows 10 (64-bit)上のPythonで使う

この記事のまとめ 64-bit版Windows環境上でMeCab用Pythonモジュールをインポートするまでの手順をまとめます。背景日本語解析を少しやってみようと思って、形態素解析ツールのMeCabをWindows (64-bit)上のPythonで使ってみようと思ったのですが、これがなかなかの曲者でした。Windows 64-bit環境でPythonからMeCabを使うのはとてもめんどくさいです。とりあえずMeCab用Pythonモジュールをインストールして、それをインポートするところまではできたので、私のケースの対処法を書いておきます。 MeCabをPythonで使えるようにするための流れ MeCab本体(32-bit)をインストールする MeCab本体を64-bitでコンパイルし直し、関連ファイルを64-bit版に更新する MeCabのPythonモジュールをビルドし、インストー

forhatebuid 2018/02/24

mecab.hは管理者権限で編集すること！

リンク

OpenCVを使って画像の射影変換をしてみるwithPython - Qiita

はじめに OpenCVを使ったパターンマッチングで画像中の物体抽出 with Python 上記の記事を作成するにあたりOpenCVについて調べてみると、本当にいろいろなことができるみたいなので、とりあえず思いついたことを試してみることにしました。 ...ということで、名刺をカメラで撮影した画像を正面から撮影したかのように補正する「射影変換」の手順を以下にまとめます。動作環境項目内容

forhatebuid 2018/02/18

自炊

リンク

無反射ガラスの代用品は、アクリル板と液晶用のアンチグレアフィルムで作れる - カラクリスタ・ノート

ただまあ、ページ数が少ない書籍 (例えば同人誌などの薄い本とか) や、あるいは、学校などのプリント類や、若しくはなにかのペラいパンフレット等をスキャンしておきたいわ、って時には、先に貼った iPhone + 三点セットが有ると、サイズがある程度までならまあデカくても対応出来るんで、その点では良いんじゃないかと思います。まあでも、基本的にはスキャナ方が確実ですけどね。PC を持ってるんであれば。

forhatebuid 2018/02/18

自炊

リンク

平野太一 / note on Twitter: "自動文字起こしに、僕なりの答えが出ました！！ ■ SoundFlowerで出力/入力を2chに変更 ■ writer. appで音声入力 https://t.co/4W46sNVmNf Google Docsと違ってずっと音声… https://t.co/Y1uVwF0Lww"

自動文字起こしに、僕なりの答えが出ました！！ ■ SoundFlowerで出力/入力を2chに変更 ■ writer. appで音声入力 https://t.co/4W46sNVmNf Google Docsと違ってずっと音声… https://t.co/Y1uVwF0Lww

forhatebuid 2018/02/18

文字起こし

リンク

Doc2Vecの仕組みとgensimを使った文書類似度算出チュートリアル

類似したコンテンツのタイトルは、女性アーティストだらけとなっている。浜崎あゆみは日本のレディー・ガガらしい。 Bag-of-wordsの欠点とDoc2Vecのメリット Bag-of-wordsは文書内の単語の出現回数をベクトルの要素とした分散表現だ。例えば、 { I, have, a, pen, I, have, an, apple } という単語区切りの文書があるとしよう。この文書をBag-of-wordsでベクトル化する。ベクトルの並び順をI, have, a, pen, an, appleとすると、 [2, 2, 1, 1, 1, 1] と表現することになる。単に出現頻度を計算しているだけなので、シンプルで計算効率よく分散表現を得ることが出来る。では、Bag-of-wordsの何が問題なのだろうか？Bag-of-wordsでは、単語の出現順序が考慮されず、同様の単語が使われていれば

forhatebuid 2018/01/28

Doc2Vec

リンク

Skip-thoughtを用いたテキストの数値ベクトル化 - Platinum Data Blog by BrainPad

こんにちは、アナリティクスサービス本部の三浦です。本日はSkip-thoughtというアルゴリズムを用いた、テキストの数値ベクトル化についてご紹介したいと思います。 ■Skip-thoughtとは Skip-thoughtとはRyan Kirosらによって2015年に考案された、文書中の文の表現を数値ベクトル化する、深層学習のアルゴリズムです。アルゴリズムの特徴として教師なし学習であることが挙げられ、学習する際にラベル付けやアノテーションされたテキストは必要ありません。順序付けられた文で構成された文書*1さえ存在すれば、それを元に学習を行いモデルを構築することが可能です。数年前に単語をベクトル化できるWord2vec*2が話題になりましたが、Skip-thoughtは単語ではなく文やフレーズをベクトル化すると思っていただくと、わかりやすいかと思います。なお本ブログは、ある程度RNNや

forhatebuid 2018/01/24

文書類似検索

リンク

Deep Learning基礎講座演習コンテンツ公開ページ

本プログラムの最大の特徴の一つは、全てのトピックについて、演習を中心に構成されている点です。実際に手を動かしながら理解を進めることで、効率よく学習することができます。実際にモデルを学習させながら技術を習得する本格的な演習内容となっています。Deep Learningは、モデルが実際に学習する様子を観測し、パラメータを調整することでアプリケーションに応じたパフォーマンス最大化を行うことが非常に重要な技術ですが、この一連の流れを全ての演習で経験しながら重要な要素を身につけることが可能です。

forhatebuid 2018/01/24

あとで読む

リンク

スマート家電も赤外線家電もGoogle Homeでまとめて操作 - Qiita

Google Homeに声をかけるだけで、赤外線では操作できないスマート家電も、赤外線でしか操作できない赤外線家電も、まとめて操作できるシステムを開発しました。複雑な操作も簡単に実現できるので、シンプルにスマートホームを構築できます。（他のシステムでは、家電のON/OFFのような単純な操作しかできなかったり、複雑な操作のためには複雑怪奇な設定が必要だったりします。）「初心者でもできた！」という報告もたくさん頂いているので、ぜひお気軽にお試しください。できること「OK Google、行ってきます」の一言で、スマート家電も、赤外線家電も、まとめてOFFにする「OK Google、暖房 22 度」で、エアコンの設定温度を 22 度にする「OK Google、エアコンを 6時半につけて」で、6時半にエアコンをつける「OK Google、エアコンを 7時間後につけて」で、7時間

forhatebuid 2018/01/21

ECHONET Lite

リンク

ExcelでPowerQueryを使ってデータ収集分析 - Qiita

はじめに Excelにデータを集めようとするとき、数式とVBAを駆使して行う方法が一般的です。キーを使って複数のデータを結合するときには、Accessなども用いられます。ですが、データが増えてくると下記のような課題が発生してきます。収集に必要な手順が増え、数式やVBAが複雑化するデータ収集に長い時間がかかるサイズが巨大化して格納しきれなくなるこれらの課題を解消するツールとして PowerQuery を紹介します。 PowerQueryとは 2016年に公開されたMicrosoft製のデータ分析用Excelアドインであり、Excel2010以降に対応しています。ファイル・DB・Webサービス等からデータを読み込み、変換・加工してExcelのシートに出力できます。 VBAのマクロの記録と同じように、画面上で操作するとクエリ（読み込み手順の定義）が生成されます。複雑な加工をしない

forhatebuid 2018/01/17

Excel

リンク

機械学習を学ぶ上で個人的に最強と思う教科書 - Qiita

動機いわずもがなですが、機械学習の勉強にはとても時間が掛かります。でも、同じ勉強時間を費やしたとしても、教材の良し悪しで捗り方が大きく変わってくることは、誰もが実感していることだと思います。そこで、本記事ではテーマごとに私が考える最強の教科書をリストしていこうと思います。ディープラーニング（アルゴリズムの理解）「Deep Learning」An MIT Press book, 2016/12 発行 http://www.deeplearningbook.org/ 印刷本も売られてますが、上のWebページでいつでもタダで読めます。（版権上の問題でPDFの形では配布できない＆してないそうです）この本は、ここ数年のディープラーニングの進歩のうち研究者の間ではメジャーとなっているであろうテーマはすべて書いてある、ともいえる内容の広さがありつつ、それぞれのテーマについて理論的背景と具体的

forhatebuid 2018/01/17

MachineLearning

リンク

ECHONET Liteの電文　作成方法 - Qiita

はじめに ECHONET Liteの電文作成方法について記述します。詳しくは以下の規格書で確認してください ECHONET Lite規格書電文構成フレーム電文のフレームは下の図のようになっている。決められた要素とバイト数で記述をしていく例えば「空気清浄機　を　on　にする」　⇨ 1081000005FF010135016101800130 の電文の場合　対応する要素と数値は以下のようになる。 EHD1 & EHD2 電文が　ECHONET Liteであることを宣言する部分基本的にこの部分に入る　文字は 1081 以外は入らないので　電文の最初は1081のままでよい TID この部分は自由記述である。なので、2バイト以内なら 1111　or 　1234 　or 　1573　 or　 1899 どんな文字を記入してもよい。最初のうちはわかりにくいので、0000　を入れるこ

forhatebuid 2018/01/17

ECHONET Lite

リンク

「コーパスと自然言語処理」を読んだ - EchizenBlog-Drei

コーパスと自然言語処理を読みました。これは記憶の失われを防ぐためのメモです。概要どういうコーパスが使えるの、っていう視点で自然言語処理の概要を説明した本。入門書としてもよさそう。手法に関してはあっさりめ近年だと細かい手法は気にしなくても、深に入れて「はわわ〜っ」ていう感じでできちゃうのでこういう切り口の本はよさそうといいつつこの本には深の話題はほとんど出てこないけど・・・メモ第1章コーパスと自然言語処理前置き的なやつ第2章コーパスアノテーション基準アノテーション間の互換性は大切人間の読みやすさ、機械の読みやすさ、どちらも大切 XML形式、スタンドオフ形式（本文の外に本文の位置とアノテーションを書く）短単位・長単位主なコーパス：BCCWJ、京大コーパス、NAISTコーパス、GDAコーパス第3章形態素解析・品詞タグ付与・固有表現解析コーパスっていうより一般的

forhatebuid 2018/01/03

NLP

リンク

TensorFlowを使った機械学習を論文抽出に適用、ヒントは大学入試問題対策の裏ワザ

これを行ったのは、東京共済病院腎臓高血圧内科部長、東京医科歯科大学臨床教授などを務める神田英一郎氏。日本腎臓学会の組織した委員会による、慢性腎臓病（CKD）をテーマとした「エビデンスに基づくCKD診療ガイドライン2018」（未出版）の作成に関わった。その作成プロセスにおいて、論文スクリーニング作業の負担が重いことから、機械学習の活用を思い付き、「第3のスクリーニング担当者」を生み出した。以下では、同氏の説明に基づき、これを紹介する。「心の折れる作業」をどう軽減できるか医療の世界では、「EBM（Evidence Based Medicine）」への取り組みが進められてきた。EBMとは、「医療行為は最新、最良の科学的根拠に基づいて行うべき」という考え方だ。診療ガイドラインは、EBM推進の観点から、臨床現場での意思決定における判断材料の1つとして利用することを目的とした文書で、各専門分野の

forhatebuid 2017/12/21

TensorFlow

リンク

株式会社レトリバ

株式会社レトリバの詳細ページです。

forhatebuid 2017/11/23

NLP

リンク

tensorflowを使ってみる① pythonの環境構築とtensorflowの導入 - Qiita

はじめに僕は前のパソコンでpythonを使おうとした際に、かなり環境構築に手こずりました。独学で色々と探してみた結果、いろいろな方法を混ぜて構築したり、警告文がいっぱい出たりと散々でした。。。。この記事を読んでいただいている方には、pythonの環境構築からtensorflowの利用までを容易におこなえるようにご紹介したいと思います。 ※下や記事を移動する前後に米印で注意が書かれているのでご注意ください。今回の内容・AnacondaでPythonを使えるようにする。・condaで実行環境を作成。・tensorflowを実行環境内でインストールし、使えるかサンプルコードを書いて実行する。このような内容で進めていこうと思います。 tensorflowとは？ tensorflowのホームページで確認してきました。 An open-source software library f

forhatebuid 2017/11/23

TensorFlow

リンク

オライリーから「仕事ではじめる機械学習」が出版されます

どういう本なの？まえがきのスクリーンショットを貼りましたが、この本は多くの機械学習の本とは異なり、機械学習の実務で使えるようになるために知りたい、機械学習を含めたシステムのアーキテクチャや機械学習プロジェクトの進め方、効果検証をどうするのかということをまとめました。めざすところのイメージ既に多く刊行されているTensorFlowやChainerでディープラーニングをしてみようというものでもなければ、機械学習の理論をわかりやすく解説するといった類のものでもありません。ゼロから作るDeep LearningやCourseraのMachine Learningで学んだけど、実際の仕事に活かすにはどうしたら良いだろう？という疑問に答えているつもりです。また、大学の講義などで機械学習は学んだけど、実際仕事で機械学習のプロジェクトを進めるときはどうすればいいんだろう？という人にも得るものがあると思い

forhatebuid 2017/10/20

MachineLearning

リンク

日本ディープラーニング協会が発足、資格試験で技術者3万人育成

ディープラーニング技術などを手掛ける企業や研究者が中心となり、同技術の推進団体「日本ディープラーニング協会（JDLA：Japan Deep Learning Association）」が発足した。理事長は東京大学大学院工学系研究科特任准教授の松尾豊氏。ディープラーニング技術の人材不足解消や産業界での活用促進などを目指す。

forhatebuid 2017/10/05

DeepLearning

リンク

データサイエンティストを目指して半年で学んだことまとめ - Qiita

はじめに本記事では、データサイエンティストを目指して勉強した半年間で学んだこと、気付いたことをまとめます。これからデータサイエンティストを目指して勉強する人の参考になればと思います。最初の一手個人的にではありますが、最初はアプローチの理解から始めると思いますが、数式とプログラミングの両方を勉強する方が良いと思います。数式→プログラミング or プログラミング→数式の順序はどちらでも良いと思いますが、プログラミング（フレームワーク）のみはやめた方が良いと思います。出力結果の解釈で苦労することになるので、理論、数式はしっかり理解した方が良いです。プログラミング、フレームワークの力で、機械学習ができるのは事実ですが、作ったモデルや予測結果の説明ができなければ価値がありません。そして、モデルは作るだけでなく、評価・改善していく必要があります。その際に、グリッドサーチのようにモデルのパラメ

forhatebuid 2017/09/29

Others

リンク

はてなブックマーク

タグ

forhatebuidのブックマーク (57)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス