@Hironsanのマイページ[B!]新着記事・評価

固有表現認識を使って文書を黒塗りする - Qiita

73 users

固有表現認識で認識した固有表現を黒塗りすることで、匿名化っぽいことができると考えられます。というのも、機密文書で黒塗りされている部分は機密に関係している人名や組織名などが多いと考えられるからです。上文の固有表現部分を黒塗りすると以下のようになります。今回は固有表現を認識するためにディープラーニングを用いたモデルを構築します。具体的にはLampleらが提案したモデルを構築します。このモデルでは、単語とその単語を構成する文字を入力することで、固有表現の認識を行います。言語固有の特徴を定義する必要性もなく、ディープな固有表現認識のベースラインとしてよく使われているモデルです。 Lampleらのモデルは主に文字用BiLSTM、単語用BiLSTM、およびCRFを用いて構築されています。まず単語を構成する文字をBiLSTMに入力して、文字から単語表現を獲得します。それを単語分散表現と連結して、単語用

テクノロジー
2018/04/20 09:35

知識を使って150種類の固有表現を認識する - Qiita

3 users

qiita.com/Hironsan

8種類の分類でも良いのですが、実際に固有表現認識を何かのアプリケーションに組み込んで使う際は、8種類では不十分なことがあります。それに対応するために、ドメインに特化した分類を行ったり、より汎用的な分類を行える分類器を構築したりします。本記事ではテキスト中の固有名詞を150種類程度に分類する分類器を作ります。最近は機械学習を使うことが多いですが、今回は学習させる時間がなかったので、知識を使って150種類の固有表現を認識してみます。手法の説明手法の概要今回は固有表現を認識するために、機械学習ではなく知識を用いて認識します。具体的には、固有表現の辞書を作り、文字レベルでパターンマッチングします。複数パターンにマッチした場合は、最長一致したパターンを採用します。イメージは以下の通りです。なんだか昔の形態素解析器みたいですね。では、辞書を作っていきましょう。固有表現の辞書作り固有表現

テクノロジー
2018/03/01 18:34

機械学習

機械学習の情報収集に役立つ14のメルマガ - Qiita

27 users

qiita.com/Hironsan

機械学習は日進月歩の世界であり、情報収集が欠かせません。みなさんもブログやニュース記事を読む、Twitter で機械学習に関するつぶやきをしている人をフォローする、毎日 arXiv の論文をチェックする、といった方法で情報収集しているのではないかと思います。情報収集の際に課題となるのが、情報が多すぎて重要な情報が埋もれてしまう点があげられます。通常、この問題の解決策として、いいね数やブックマーク数の多い記事を読む、フォローする人を絞り込む、何らかのキュレーションツールを使う、といった手段が取られます。重要な情報を効率的にチェックしたい方におすすめできる方法の一つとして、メルマガを購読する方法があります。機械学習に関するメルマガを購読する利点として、以下の点をあげられます: 識者が配信する情報を選んでいるので、重要な情報を効率的にチェックできるほとんどの場合、週一で配信されるので、毎日

テクノロジー
2017/08/10 15:08

単語分散表現のためのダウンローダを作りました - Qiita

7 users

qiita.com/Hironsan

単語の分散表現は現在の自然言語処理で当たり前のように使われています。最近は学習済みのモデルが数多く公開されており、自分で時間とお金をかけて学習させる必要性が少なくなってきました。しかし、公開されているとはいえ自分で探してきてダウンロードするのはなかなか手間がかかります。この手間をなくすために単語分散表現のダウンローダを作ってみました。名前は chakin です。 chakki-works/chakin (スターつけていただけるとやる気がでますm(＿＿)m) chakinの特徴としては、Pythonで書かれておりpipでインストールできる、検索からダウンロードまでワンストップでできる、23のベクトルをサポートしている(2017/5/29時点)と言ったことが挙げられます。サポートするベクトルについては今後増やしていく予定です。では使い方をご紹介します。 chakinの使い方インストールは

テクノロジー
2017/05/30 12:20

自然言語処理における前処理の種類とその威力 - Qiita

621 users

qiita.com/Hironsan

自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグや JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。出典: Deep learning for computational biology 本記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。前処理の種類と実装この節では以下に示す5つ

テクノロジー
2017/04/17 11:20

テンプレートを使って爆速で機械学習プロジェクトを作成する - Qiita

85 users

qiita.com/Hironsan

あなたは機械学習のプロジェクトを毎回違う構成で作っていませんか？何をどこに配置するかで悩んで時間がかかっていませんか？そんな方に朗報です。機械学習のプロジェクトはコマンド一発で作れます。以下のようなプロジェクトを数秒で作れます。ディレクトリ構造 ├── LICENSE ├── Makefile <- Makefile with commands like `make data` or `make train` ├── README.md <- The top-level README for developers using this project. ├── data │ ├── external <- Data from third party sources. │ ├── interim <- Intermediate data that has been transfor

テクノロジー
2017/03/23 11:31

いつまでもエラーを抱えてしまう人に贈る、IDEAのエラー共有プラグイン - Qiita

3 users

qiita.com/Hironsan

チームで開発している時に、いつまでも同じエラーを抱えている人っていませんか？「いつまでも自分で抱えていないで聞けばいいのに！」と思うのですが、本人は解決できると思っているらしく、自力で解決しようとしてずるずると時間がかかってしまいます。これは本人にとってもチームにとっても生産性の低い状態であると言えます。そんな状況を解決すべく、エラー発生時にエラーメッセージと該当するコードを自動的にチームのSlackへ通知するIDEA用のプラグインをつくってみました。プラグインの名前は watchMe です。 watchMe では、自分の抱えているエラーをチームメンバーに共有し、アドバイスをもらうことで問題をすぐに解決することを目的としています。コードは以下で公開しています。スターつけていただけるとうれしいですm(_ _)m chakki-works/watchMe 導入にはIDEAでのプラグインイ

テクノロジー
2017/03/09 13:59

なぜ自然言語処理にとって単語の分散表現は重要なのか？ - Qiita

105 users

qiita.com/Hironsan

なぜ自然言語処理にとって単語の分散表現は重要なのでしょうか？この記事をご覧になっている方は Word2vec(Mikolov et al., 2013) についてご存知かもしれません。Word2vec ではまるで単語の意味を捉えられているかのような演算を行うことができます。例えば King から Man を引き Woman を足すと Queen が得られる(King - Man + Woman = Queen)というのは有名な例です。 from https://www.tensorflow.org/get_started/embedding_viz 実はその内部では、単語を分散表現(あるいは埋め込み表現)と呼ばれる200次元ほどのベクトルで表現してベクトルの足し引きを行っています。この200次元ほどのベクトル内部に各単語の特徴が格納されていると考えられています。そのため、ベクトルの足し引

テクノロジー
2017/03/08 10:21

Pythonistaなら知っておきたい計算量のはなし - Qiita

83 users

qiita.com/Hironsan

最近久しぶりにアルゴリズムイントロダクションを読んでいるのですが、ふと「Python(CPython)のデータ構造に関する各操作の計算量ってどれくらいなのかな？」と気になったので調べてみました。以下のページを参考にしています: Python Time Complexity 以下では $n$ や $k$ といった記号を使います。ここで $n$ はコンテナ内の要素数、$k$ はパラメータ内の要素数かパラメータの値とします。では見ていきましょう。 2021/05/02 コメントでのご指摘を記事に反映しました。ありがとうございます。リストまずはリストです。Pythonではリストは内部的にはC言語の配列として表しているようです。そのため、先頭要素の追加や削除を行うとそれ以降の要素をすべて移動する必要があるため大きなコストがかかります。なので先頭に要素を追加したり削除する必要がある場合は、代わりに

テクノロジー
2017/02/28 07:54

自然言語処理における畳み込みニューラルネットワークを用いたモデル - Qiita

94 users

qiita.com/Hironsan

はじめに最近、畳み込みニューラルネットワーク(CNN)を用いた自然言語処理が注目を集めています。CNNはRNNと比べて並列化しやすく、またGPUを使うことで畳み込み演算を高速に行えるので、処理速度が圧倒的に速いという利点があります。この記事は、自然言語処理における畳み込みニューラルネットワークを用いたモデルをまとめたものです。CNNを用いた自然言語処理の研究の進歩を俯瞰するのに役立てば幸いです。文の分類(評判分析・トピック分類・質問タイプ分類) Convolutional Neural Networks for Sentence Classification(2014/08) 評判分析や質問タイプの分類などの文分類を行うCNNを提案している論文。具体的には文を単語ベクトルの列として表し、それに対してCNNを用いて特徴抽出・分類を行っている。論文では事前学習済みの単語ベクトル(Goo

テクノロジー
2017/02/03 10:39

fastTextの学習済みモデルを公開しました - Qiita

15 users

qiita.com/Hironsan

fastTextの学習済みモデルを公開しました。以下から学習済みモデルをダウンロードすることができます: Download Word Vectors Download Word Vectors(NEologd) 埋め込みベクトルの情報は以下のリポジトリにまとめているので、こちらもよろしく。 awesome-embedding-models Motivation 以下の記事では icoxfog417 が GitHub で公開していたリンクを貼りました。いますぐ使える単語埋め込みベクトルのリストただ、公開されていたベクトルをダウンロードするのにGit LFSが必要であったり場所がわかりにくいといった問題がありました。そのため、今回は簡単にダウンロードできるように学習・公開しました。 How to make fastTextの使い方は以下の記事を参考にしました。fastTextの理論と使い

テクノロジー
2017/01/23 10:32

いますぐ使える単語埋め込みベクトルのリスト - Qiita

34 users

qiita.com/Hironsan

はじめに単語埋め込みとは、単語を低次元(と言っても200次元程度はある)の実数ベクトルで表現する技術のことです。近い意味の単語を近いベクトルに対応させることができるとともに、ベクトルの足し引きで意味のある結果(例えば king - man + women = queen)が得られるのが特徴です。単語埋め込みベクトルは品詞タグ付け、情報検索、質問応答などの様々な自然言語処理アプリケーションに使われる重要な技術です。とはいえ、実際に用意するのはなかなか骨の折れる作業です。大規模なデータをダウンロードし、前処理をかけ、長い時間をかけて学習させ、結果を見てパラメータチューニングを行う・・・。そのため、単に使いたいだけなら学習済みのベクトルを使うのが楽です。というわけで、そんな単語埋め込みベクトルの中から今すぐ使えるものをピックアップしてみました。埋め込みベクトルの情報は以下のリポジトリにま

テクノロジー
2017/01/20 15:51

機械学習を使って画像の圧縮をしてみた - Qiita

3 users

qiita.com/Hironsan

はじめに代表的なクラスタリングアルゴリズムである K-Means を用いて、画像の圧縮をしてみます。まずは、K-Means のアルゴリズムについて説明します。そのあと、K-Meansを使った画像圧縮について説明します。なお、内容についてはCoursera Machine Learningを参考にしています。 K-Means アルゴリズムアルゴリズムの直感的な説明 K-Means アルゴリズムは大きく分けて以下の３つの処理に分解されます：重心の初期化クラスタ割り当て重心の再計算それぞれのステップについて、イメージを交えて理解していきましょう。 1. 重心の初期化まずは、重心と呼ばれる点の位置を決定します。それぞれの重心は各クラスタの標準的なパターンとみなされます。そのためデータを分けたいクラスタ数分の重心が必要です。下図では星印が重心、丸印がデータを表しています。ここでは重心の

テクノロジー
2017/01/02 19:57

絵で理解するWord2vecの仕組み - Qiita

98 users

qiita.com/Hironsan

皆さん、Word2vec の仕組みはご存知ですか？ Word2vec は gensim や TensorFlow で簡単に試せるので使ったことのある方は多いと思います。しかし、仕組みまで理解している方はそう多くないのではないでしょうか。そもそも本家の論文でも内部の詳細については詳しく解説しておらず、解説論文が書かれているくらいです。本記事では Word2vec のモデルの一つである Skip-Gram について絵を用いて説明し、概要を理解することを目指します。まずは Skip-Gram がどのようなモデルなのかについて説明します。 ※ 対象読者はニューラルネットワークの基礎を理解しているものとします。どのようなモデルなのか？ Skip-Gram はニューラルネットワークのモデルの一つです。Skip-Gram は２層のニューラルネットワークであり隠れ層は一つだけです。隣接する層のユニット

テクノロジー
2016/12/10 12:24

TensorFlow 0.12で追加されたEmbedding Visualizationを試す - Qiita

21 users

qiita.com/Hironsan

はじめに先日 TensorFlow 0.12 がリリースされました。その機能の一つとして、埋め込み表現の可視化があります。これにより高次元のデータをインタラクティブに分析することが可能になります。以下は MNIST を可視化したものです。以下の画像は静止画ですが、公式サイトでは3次元でぬるぬる動いているところを見ることができます。本記事ではWord2vecの可視化を通じて、Embedding Visualization の使い方を試してみました。まずはインストールから行っていきます。インストールまずは TensorFlow 0.12 をインストールします。以下のページを参考にインストールしてください。 Download and Setup インストールが終わったら可視化のために学習を行います。モデルを学習するまずはリポジトリをクローンした後、以下のコマンドを実行して移動しま

テクノロジー
2016/11/30 19:50

Vision APIとNatural Language APIを組み合わせて名刺から情報抽出する - Qiita

18 users

qiita.com/Hironsan

はじめに Cloud Vision APIとNatural Language APIを組み合わせて、名刺から情報抽出してみましょう。APIを使うためにPythonを用いて作ることにします。前回記事はこちら: kintoneで名刺管理アプリを作ってみようこれから作るアプリ名刺画像を与えると名前、会社名、住所を抽出するアプリを作成します。イメージとしては以下のようになります: アプリ作成の流れ Step 0：アプリ作成の準備をする ↓ Step 1：Vision APIを使ってテキスト検知をする ↓ Step 2：Natural Language APIを使って名前や会社名を抽出する ↓ Step 3：2つのAPIを統合して名刺から情報抽出する Step0(3min) アプリ作成の準備をするアプリを作るために、必要なライブラリのインストール、リポジトリのダウンロード、APIキーの設定を

テクノロジー
2016/11/15 15:04

TensorFlowのResizeがよくわからなかったので視覚的にまとめてみた - Qiita

3 users

qiita.com/Hironsan

はじめに TensorFlowにはresizeするための関数がいくつもある。調べてみるとTensorFlowでresize用の関数は以下の6つのようだ。 tf.image.resize_images tf.image.resize_area tf.image.resize_bicubic tf.image.resize_bilinear tf.image.resize_nearest_neighbor tf.image.resize_image_with_crop_or_pad ドキュメントを読むと説明は書いてあるのだが、いまいちピンとこない。なので実際に試して視覚的に動作を理解したいと思う。結論から言うと、tf.image.resize_imagesが以下の4つの機能を含んでいた。 tf.image.resize_area tf.image.resize_bicubic tf.im

テクノロジー
2016/11/02 14:44

DeepLearningで上司を認識して画面を隠す - Qiita

230 users

qiita.com/Hironsan

背景仕事をしているとき、業務に関係ない情報を閲覧していることって誰でもありますよね？そんなときに背後にボスが忍び寄っていると気まずい思いをします。もちろん急いで画面を切り替えれば良いのですが、そういう動作は逆に怪しまれることになりますし、集中しているときは気がつかないこともあります。そこで怪しまれずに画面を切り替えるために、ボスが近づいてきたことを自動的に認識して画面を隠すシステムを作ってみました。具体的にはKerasを用いてボスの顔を機械学習し、カメラを用いて近づいてきたことを認識して画面を切り替えています。ミッションミッションはボスが近づいてきたら自動的に画面を切り替えることです。状況は以下のような感じです。ボスの席から私の席まではだいたい6,7mくらいです。ボスが席をたってから、4,5秒で私の席に到達します。したがって、この間に画面を隠す必要があるわけです。時間的余裕は

テクノロジー
2016/09/16 10:40

画像の水増し方法をTensorFlowのコードから学ぶ - Qiita

11 users

qiita.com/Hironsan

はじめに Deep Learningで画像を精度よく分類するにはとにかく枚数が必要です。しかし、大量の画像をすべて手作業で用意・タグ付けするのは困難です。そこで、タグ付けされた画像を加工することで画像の枚数を増やす(水増しする)ことが行われます。今回は、水増しするためにどのようなことをするのかをTensorFlowのコードから学びたいと思います。具体的にはCIFAR-10のコードから学んでいきます。 cifar10/cifar10_input.py 実際のコードでは以下のように複数の処理を組み合わせて画像の水増しを行っていました。 # Image processing for training the network. Note the many random # distortions applied to the image. # Randomly crop a [height,

テクノロジー
2016/09/08 17:47

インターンで学生に話した対話システムの話 - Qiita

13 users

qiita.com/Hironsan

Register as a new user and use Qiita more conveniently You get articles that match your needsYou can efficiently read back useful informationYou can use dark themeWhat you can do with signing up

テクノロジー
2016/08/25 13:19

TensorFlowを使って顔認識器を作る - Qiita

6 users

qiita.com/Hironsan

はじめにこんにちは、Hironsanです。顔認識は画像中に映った人を検知し、人物の識別を行う技術です。顔認識の用途としては、監視カメラのシステムに組み込んでセキュリティ向上に役立てたり、ロボットに組み込んで家族の顔を認識させたりすることがあげられます。今回はTensorFlowを使って畳み込みニューラルネットワークを構築し、既存のデータセットを使って顔認識器を作ってみます。対象読者畳み込みニューラルネットワーク(CNN)を知っている TensorFlowでどう書くかはわからない CNNの理論については以下を見ればわかると思います。 Convolutional Neural Networkとは何なのか準備 TensorFlowのインストール TensorFlowのインストールは公式サイトが丁寧に解説しているのでそちらを参照してください。 TensorFlowのインストールデータ

テクノロジー
2016/08/25 10:19

初心者に捧げる対話システムの作り方 - Qiita

21 users

qiita.com/Hironsan

はじめにこんにちは。Hironsanです。 3月から4月にかけてLine, Facebook, Microsoftと各社がBot開発用プラットフォームを発表して以来、爆発的な数のBotが登場しています。実にFacebook Messengerだけに限っても2016年7月時点で1万1000超のBotが稼働しています。しかし、これらのBotのほとんどは単純な一問一答型のシステムであり、対話システムと言えるものではありません。これでは徐々にユーザの嗜好を聞き出すような対応を行うことはできません。そこで今回は、対話の履歴を考慮したレストラン検索対話システムを作り、最終的にはBotに組み込んでみたいと思います。完成イメージとしては以下のアニメーションのようなものを作ることができます。具体的には以下のステップで作成します。簡単なパターンマッチおうむ返し対話状態を保持したレストラン検索対話

テクノロジー
2016/08/24 18:11

hugを使って爆速でWeb APIサーバーを構築する - Qiita

15 users

qiita.com/Hironsan

はじめに hugは、Web APIサーバーの構築に特化したWebアプリケーションフレームワークです。他のフレームワークがテンプレートエンジンやORマッパなどのリッチな機能を詰め込んでいるのに対して、hugはWeb APIサーバーに必要な機能だけに特化したフレームワークになっています。 hug Official Site 特筆すべきは、そのシンプルさと速度です。以下は公式ページに掲載のベンチマークです(Pycnicによるベンチマーク)。速度ではわずかにFalconには及びませんが、それでも非常に高速であり、またFalconより実装するのがはるかに簡単です。さっそくインストールして触ってみましょう。インストール hugはPython3系のみに対応しています。インストールは以下で行います。

テクノロジー
2016/08/02 12:01

顔画像認識に使えそうな10のデータセット - Qiita

10 users

qiita.com/Hironsan

機械学習を使って顔画像認識をやりたいと思った時に調べたデータセットをメモしておく。他に「こんなのあるよ」とか「これが標準的なデータセットだよ」とかあれば教えてほしい。 Labeled Faces in the Wild 名前 Labeled Faces in the Wild

テクノロジー
2016/07/15 10:58

Pythonではじめる強化学習 - Qiita

41 users

qiita.com/Hironsan

はじめにみなさん、強化学習してますか？強化学習はロボットや、囲碁や将棋のようなゲーム、対話システム等に応用できる楽しい技術です。強化学習とは、試行錯誤を通じて環境に適応する学習制御の枠組みです。教師あり学習では入力に対する正しい出力を与えて学習させました。強化学習では、入力に対する正しい出力を与える代わりに、一連の行動に対する良し悪しを評価する「報酬」というスカラーの評価値が与え、これを手がかりに学習を行います。以下に強化学習の枠組みを示します。エージェントは時刻 $t$ において環境の状態 $s_t$ を観測観測した状態から行動 $a_t$ を決定エージェントは行動を実行環境は新しい状態 $s_{t+1}$ に遷移遷移に応じた報酬 $r_{t+1}$ を獲得学習するステップ1から繰り返す強化学習の目的は、エージェントが取得する利得（累積報酬）を最大化するような、状態

テクノロジー
2016/06/09 10:39

機械学習を使って作る対話システム - Qiita

171 users

qiita.com/Hironsan

このような対話を通じて、レストランの検索に必要な情報をユーザから取得し、レストラン検索を行います。今回、レストラン検索にはHotPepperグルメサーチAPIを利用させていただきました。ありがとうございます。システムアーキテクチャ対話システムは複数のモジュールから構成されています。今回は、各モジュールは独立に動作させず、前段階のモジュールの処理が終わった段階で駆動されるようにしています。最終的なシステムアーキテクチャは以下の図のようになりました。今回のアーキテクチャに沿って処理の流れを説明すると以下のようになります。ユーザがテキストを入力すると、入力したテキストは言語理解部に入力されます。言語理解部では入力されたテキストを解析して、対話行為と呼ばれる抽象的な意味表現に変換します。言語理解部から出力された対話行為は、対話管理部に入力されます。対話管理部では入力された対話行為を

テクノロジー
2016/06/03 09:29

はてなブックマーク

はてなブックマーク

『@Hironsanのマイページ - Qiita』

その機械学習プロセス、自動化できませんか？ - Qiita

固有表現認識を使って文書を黒塗りする - Qiita

知識を使って150種類の固有表現を認識する - Qiita

機械学習の情報収集に役立つ14のメルマガ - Qiita

単語分散表現のためのダウンローダを作りました - Qiita

自然言語処理における前処理の種類とその威力 - Qiita

テンプレートを使って爆速で機械学習プロジェクトを作成する - Qiita

いつまでもエラーを抱えてしまう人に贈る、IDEAのエラー共有プラグイン - Qiita

なぜ自然言語処理にとって単語の分散表現は重要なのか？ - Qiita

Pythonistaなら知っておきたい計算量のはなし - Qiita

自然言語処理における畳み込みニューラルネットワークを用いたモデル - Qiita

fastTextの学習済みモデルを公開しました - Qiita

いますぐ使える単語埋め込みベクトルのリスト - Qiita

機械学習を使って画像の圧縮をしてみた - Qiita

まだ機械学習の論文を追うのに消耗してるの？それBotで解決したよ - Qiita

絵で理解するWord2vecの仕組み - Qiita

学年ビリのアホが1年半でTOEICスコアを300点から840点に上げた英語勉強法の話 - Qiita

TensorFlow 0.12で追加されたEmbedding Visualizationを試す - Qiita

Vision APIとNatural Language APIを組み合わせて名刺から情報抽出する - Qiita

TensorFlowのResizeがよくわからなかったので視覚的にまとめてみた - Qiita

DeepLearningで上司を認識して画面を隠す - Qiita

画像の水増し方法をTensorFlowのコードから学ぶ - Qiita

インターンで学生に話した対話システムの話 - Qiita

TensorFlowを使って顔認識器を作る - Qiita

初心者に捧げる対話システムの作り方 - Qiita

hugを使って爆速でWeb APIサーバーを構築する - Qiita

顔画像認識に使えそうな10のデータセット - Qiita

Pythonではじめる強化学習 - Qiita

機械学習を使って作る対話システム - Qiita

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

『@Hironsanのマイページ - Qiita』

このページはまだブックマークされていません

キーボードショートカット一覧

公式Twitter

はてなのサービス

このページはまだ
ブックマークされていません