forhatebuidのブックマーク (57)

  • 自然言語処理による文書分類の基礎の基礎、トピックモデルを学ぶ - Qiita

    自然言語においても、最近は生ビールを頼む感覚で「とりあえずディープラーニング」となることが多いです。実際ディープラーニングは高精度を記録できることが多いですが、実はその精度は基礎的なモデルでも記録できたり、あげく負けるようなこともあったりします。 研究機関として名高いDeepMindの発表した論文でも、こうした事態がありました。 文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-より また、最近はベースラインとして良く利用されているモデルでも最高精度を達成できるといった論文もありました。このように、ベースラインとして足蹴にされているモデルでも存外隅には置けないのです。 今回は自然言語処理における基的な手法の一種であるトピックモデルを取り上げてみます。これは文書分類などに使用されるモデルですが、文書分類の際に著者の存在を仮定するなど(オーサートピ

    自然言語処理による文書分類の基礎の基礎、トピックモデルを学ぶ - Qiita
  • MeCabより高精度?RNNLMの形態素解析器JUMAN++

    JUMAN++とは 外国人参政権? RNNLM 大規模語彙知識 JUMANやMeCabとの比較 精度 速度 MeCab JUMAN JUMAN++ JUMAN++とPythonバインディングのインストール JUMAN++の使い方 コマンドライン Pythonから使用する まとめ 参考 日語は、英語と違ってスペースで単語が区切られていない。 だから、日語の自然言語処理においては、まず単語の境界と品詞を推定することから始めることが多い。 このテキストを単語に分割して品詞や意味を推定することを、「形態素解析」という。 記事では、その形態素解析をニューラルネットワークの一種であるRNNLM(Recurrent Neural Network Language Model)で構築された、JUMAN++を紹介する。 記事を読むと、 JUMAN++とRNNLMについて MeCabなど他の形態素解析

    MeCabより高精度?RNNLMの形態素解析器JUMAN++
  • MeCabをWindows 10 (64-bit)上のPythonで使う

    この記事のまとめ 64-bitWindows環境上でMeCab用Pythonモジュールをインポートするまでの手順をまとめます。 背景 日語解析を少しやってみようと思って、形態素解析ツールのMeCabをWindows (64-bit)上のPythonで使ってみようと思ったのですが、これがなかなかの曲者でした。Windows 64-bit環境でPythonからMeCabを使うのはとてもめんどくさいです。とりあえずMeCab用Pythonモジュールをインストールして、それをインポートするところまではできたので、私のケースの対処法を書いておきます。 MeCabをPythonで使えるようにするための流れ MeCab体(32-bit)をインストールする MeCab体を64-bitでコンパイルし直し、関連ファイルを64-bit版に更新する MeCabのPythonモジュールをビルドし、インストー

    MeCabをWindows 10 (64-bit)上のPythonで使う
    forhatebuid
    forhatebuid 2018/02/24
    mecab.hは管理者権限で編集すること!
  • OpenCVを使って画像の射影変換をしてみるwithPython - Qiita

    はじめに OpenCVを使ったパターンマッチングで画像中の物体抽出 with Python 上記の記事を作成するにあたりOpenCVについて調べてみると、当にいろいろなことができるみたいなので、とりあえず思いついたことを試してみることにしました。 ...ということで、名刺をカメラで撮影した画像を正面から撮影したかのように補正する「射影変換」の手順を以下にまとめます。 動作環境 項目 内容

    OpenCVを使って画像の射影変換をしてみるwithPython - Qiita
  • 無反射ガラスの代用品は、アクリル板と液晶用のアンチグレアフィルムで作れる - カラクリスタ・ノート

    ただまあ、ページ数が少ない書籍 (例えば同人誌などの薄いとか) や、あるいは、学校などのプリント類や、若しくはなにかのペラいパンフレット等をスキャンしておきたいわ、って時には、先に貼った iPhone + 三点セットが有ると、サイズがある程度までならまあデカくても対応出来るんで、その点では良いんじゃないかと思います。まあでも、基的にはスキャナ方が確実ですけどね。PC を持ってるんであれば。

    無反射ガラスの代用品は、アクリル板と液晶用のアンチグレアフィルムで作れる - カラクリスタ・ノート
  • 平野太一 / note on Twitter: "自動文字起こしに、僕なりの答えが出ました!! ■ SoundFlowerで出力/入力を2chに変更 ■ writer. appで音声入力 https://t.co/4W46sNVmNf Google Docsと違ってずっと音声… https://t.co/Y1uVwF0Lww"

    自動文字起こしに、僕なりの答えが出ました!! ■ SoundFlowerで出力/入力を2chに変更 ■ writer. appで音声入力 https://t.co/4W46sNVmNf Google Docsと違ってずっと音声… https://t.co/Y1uVwF0Lww

    平野太一 / note on Twitter: "自動文字起こしに、僕なりの答えが出ました!! ■ SoundFlowerで出力/入力を2chに変更 ■ writer. appで音声入力 https://t.co/4W46sNVmNf Google Docsと違ってずっと音声… https://t.co/Y1uVwF0Lww"
    forhatebuid
    forhatebuid 2018/02/18
    文字起こし
  • Doc2Vecの仕組みとgensimを使った文書類似度算出チュートリアル

    類似したコンテンツのタイトルは、女性アーティストだらけとなっている。浜崎あゆみは日のレディー・ガガらしい。 Bag-of-wordsの欠点とDoc2Vecのメリット Bag-of-wordsは文書内の単語の出現回数をベクトルの要素とした分散表現だ。例えば、 { I, have, a, pen, I, have, an, apple } という単語区切りの文書があるとしよう。この文書をBag-of-wordsでベクトル化する。ベクトルの並び順をI, have, a, pen, an, appleとすると、 [2, 2, 1, 1, 1, 1] と表現することになる。単に出現頻度を計算しているだけなので、シンプルで計算効率よく分散表現を得ることが出来る。 では、Bag-of-wordsの何が問題なのだろうか?Bag-of-wordsでは、単語の出現順序が考慮されず、同様の単語が使われていれば

    Doc2Vecの仕組みとgensimを使った文書類似度算出チュートリアル
  • Skip-thoughtを用いたテキストの数値ベクトル化 - Platinum Data Blog by BrainPad

    こんにちは、アナリティクスサービス部の三浦です。 日はSkip-thoughtというアルゴリズムを用いた、テキストの数値ベクトル化についてご紹介したいと思います。 ■Skip-thoughtとは Skip-thoughtとはRyan Kirosらによって2015年に考案された、文書中の文の表現を数値ベクトル化する、深層学習のアルゴリズムです。アルゴリズムの特徴として教師なし学習であることが挙げられ、学習する際にラベル付けやアノテーションされたテキストは必要ありません。順序付けられた文で構成された文書*1さえ存在すれば、それを元に学習を行いモデルを構築することが可能です。 数年前に単語をベクトル化できるWord2vec*2が話題になりましたが、Skip-thoughtは単語ではなく文やフレーズをベクトル化すると思っていただくと、わかりやすいかと思います。 なおブログは、ある程度RNNや

    Skip-thoughtを用いたテキストの数値ベクトル化 - Platinum Data Blog by BrainPad
    forhatebuid
    forhatebuid 2018/01/24
    文書類似検索
  • Deep Learning基礎講座演習コンテンツ 公開ページ

    プログラムの最大の特徴の一つは、全てのトピックについて、演習を中心に構成されている点です。実際に手を動かしながら理解を進めることで、効率よく学習することができます。 実際にモデルを学習させながら技術を習得する格的な演習内容となっています。Deep Learningは、モデルが実際に学習する様子を観測し、パラメータを調整することでアプリケーションに応じたパフォーマンス最大化を行うことが非常に重要な技術ですが、この一連の流れを全ての演習で経験しながら重要な要素を身につけることが可能です。

  • スマート家電も赤外線家電もGoogle Homeでまとめて操作 - Qiita

    Google Homeに声をかけるだけで、赤外線では操作できないスマート家電も、赤外線でしか操作できない赤外線家電も、まとめて操作できるシステムを開発しました。 複雑な操作も簡単に実現できるので、シンプルにスマートホームを構築できます。 (他のシステムでは、家電のON/OFFのような単純な操作しかできなかったり、複雑な操作のためには複雑怪奇な設定が必要だったりします。) 「初心者でもできた!」という報告もたくさん頂いているので、ぜひお気軽にお試しください。 できること 「OK Google、行ってきます」の一言で、スマート家電も、赤外線家電も、まとめてOFFにする 「OK Google、暖房 22 度」で、エアコンの設定温度を 22 度にする 「OK Google、エアコンを 6時半 につけて」で、6時半 にエアコンをつける 「OK Google、エアコンを 7時間後 につけて」で、7時間

    スマート家電も赤外線家電もGoogle Homeでまとめて操作 - Qiita
    forhatebuid
    forhatebuid 2018/01/21
    ECHONET Lite
  • ExcelでPowerQueryを使ってデータ収集分析 - Qiita

    はじめに Excelにデータを集めようとするとき、数式とVBAを駆使して行う方法が一般的です。 キーを使って複数のデータを結合するときには、Accessなども用いられます。 ですが、データが増えてくると下記のような課題が発生してきます。 収集に必要な手順が増え、数式やVBAが複雑化する データ収集に長い時間がかかる サイズが巨大化して格納しきれなくなる これらの課題を解消するツールとして PowerQuery を紹介します。 PowerQueryとは 2016年に公開されたMicrosoft製のデータ分析Excelアドインであり、Excel2010以降に対応しています。 ファイル・DBWebサービス等からデータを読み込み、変換・加工してExcelのシートに出力できます。 VBAのマクロの記録と同じように、画面上で操作するとクエリ(読み込み手順の定義)が生成されます。 複雑な加工をしない

    ExcelでPowerQueryを使ってデータ収集分析 - Qiita
    forhatebuid
    forhatebuid 2018/01/17
    Excel
  • 機械学習を学ぶ上で個人的に最強と思う教科書 - Qiita

    動機 いわずもがなですが、機械学習の勉強にはとても時間が掛かります。 でも、同じ勉強時間を費やしたとしても、教材の良し悪しで捗り方が大きく変わってくることは、誰もが実感していることだと思います。 そこで、記事ではテーマごとに私が考える最強の教科書をリストしていこうと思います。 ディープラーニング(アルゴリズムの理解) 「Deep Learning」An MIT Press book, 2016/12 発行 http://www.deeplearningbook.org/ 印刷も売られてますが、上のWebページでいつでもタダで読めます。(版権上の問題でPDFの形では配布できない&してないそうです) このは、ここ数年のディープラーニングの進歩のうち研究者の間ではメジャーとなっているであろうテーマはすべて書いてある、ともいえる内容の広さがありつつ、それぞれのテーマについて理論的背景と具体的

    機械学習を学ぶ上で個人的に最強と思う教科書 - Qiita
    forhatebuid
    forhatebuid 2018/01/17
    MachineLearning
  • ECHONET Liteの電文 作成方法 - Qiita

    はじめに ECHONET Liteの電文作成方法について記述します。 詳しくは以下の規格書で確認してください ECHONET Lite規格書 電文構成 フレーム 電文のフレームは下の図のようになっている。 決められた要素とバイト数で記述をしていく 例えば 「空気清浄機 を on にする」  ⇨ 1081000005FF010135016101800130 の電文の場合 対応する要素と数値は以下のようになる。 EHD1 & EHD2 電文が ECHONET Liteであることを宣言する部分 基的にこの部分に入る 文字は 1081 以外は入らないので 電文の最初は1081のままでよい TID この部分は自由記述である。 なので、2バイト以内なら 1111 or  1234  or  1573  or  1899 どんな文字を記入してもよい。 最初のうちはわかりにくいので、0000 を入れるこ

    ECHONET Liteの電文 作成方法 - Qiita
    forhatebuid
    forhatebuid 2018/01/17
    ECHONET Lite
  • 「コーパスと自然言語処理」を読んだ - EchizenBlog-Drei

    コーパスと自然言語処理を読みました。 これは記憶の失われを防ぐためのメモです。 概要 どういうコーパスが使えるの、っていう視点で自然言語処理の概要を説明した。入門書としてもよさそう。手法に関してはあっさりめ 近年だと細かい手法は気にしなくても、深に入れて「はわわ〜っ」ていう感じでできちゃうのでこういう切り口のはよさそう といいつつこのには深の話題はほとんど出てこないけど・・・ メモ 第1章 コーパスと自然言語処理 前置き的なやつ 第2章 コーパスアノテーション基準 アノテーション間の互換性は大切 人間の読みやすさ、機械の読みやすさ、どちらも大切 XML形式、スタンドオフ形式(文の外に文の位置とアノテーションを書く) 短単位・長単位 主なコーパス:BCCWJ、京大コーパス、NAISTコーパス、GDAコーパス 第3章 形態素解析・品詞タグ付与・固有表現解析 コーパスっていうより一般的

    「コーパスと自然言語処理」を読んだ - EchizenBlog-Drei
    forhatebuid
    forhatebuid 2018/01/03
    NLP
  • TensorFlowを使った機械学習を論文抽出に適用、ヒントは大学入試問題対策の裏ワザ

    これを行ったのは、東京共済病院腎臓高血圧内科部長、東京医科歯科大学臨床教授などを務める神田英一郎氏。日腎臓学会の組織した委員会による、慢性腎臓病(CKD)をテーマとした「エビデンスに基づくCKD診療ガイドライン2018」(未出版)の作成に関わった。その作成プロセスにおいて、論文スクリーニング作業の負担が重いことから、機械学習の活用を思い付き、「第3のスクリーニング担当者」を生み出した。 以下では、同氏の説明に基づき、これを紹介する。 「心の折れる作業」をどう軽減できるか 医療の世界では、「EBM(Evidence Based Medicine)」への取り組みが進められてきた。EBMとは、「医療行為は最新、最良の科学的根拠に基づいて行うべき」という考え方だ。診療ガイドラインは、EBM推進の観点から、臨床現場での意思決定における判断材料の1つとして利用することを目的とした文書で、各専門分野の

    TensorFlowを使った機械学習を論文抽出に適用、ヒントは大学入試問題対策の裏ワザ
    forhatebuid
    forhatebuid 2017/12/21
    TensorFlow
  • 株式会社レトリバ

    株式会社レトリバの詳細ページです。

    株式会社レトリバ
    forhatebuid
    forhatebuid 2017/11/23
    NLP
  • tensorflowを使ってみる① pythonの環境構築とtensorflowの導入 - Qiita

    はじめに 僕は前のパソコンでpythonを使おうとした際に、かなり環境構築に手こずりました。 独学で色々と探してみた結果、いろいろな方法を混ぜて構築したり、警告文がいっぱい出たりと散々でした。。。。 この記事を読んでいただいている方には、pythonの環境構築からtensorflowの利用までを容易におこなえるようにご紹介したいと思います。 ※下や記事を移動する前後に米印で注意が書かれているのでご注意ください。 今回の内容 ・AnacondaでPythonを使えるようにする。 ・condaで実行環境を作成。 ・tensorflowを実行環境内でインストールし、使えるかサンプルコードを書いて実行する。 このような内容で進めていこうと思います。 tensorflowとは? tensorflowのホームページで確認してきました。 An open-source software library f

    tensorflowを使ってみる① pythonの環境構築とtensorflowの導入 - Qiita
    forhatebuid
    forhatebuid 2017/11/23
    TensorFlow
  • オライリーから「仕事ではじめる機械学習」が出版されます

    どういうなの?まえがきのスクリーンショットを貼りましたが、このは多くの機械学習とは異なり、機械学習の実務で使えるようになるために知りたい、機械学習を含めたシステムのアーキテクチャや機械学習プロジェクトの進め方、効果検証をどうするのかということをまとめました。 めざすところのイメージ既に多く刊行されているTensorFlowやChainerでディープラーニングをしてみようというものでもなければ、機械学習の理論をわかりやすく解説するといった類のものでもありません。ゼロから作るDeep LearningやCourseraのMachine Learningで学んだけど、実際の仕事に活かすにはどうしたら良いだろう?という疑問に答えているつもりです。また、大学の講義などで機械学習は学んだけど、実際仕事機械学習プロジェクトを進めるときはどうすればいいんだろう?という人にも得るものがあると思い

    オライリーから「仕事ではじめる機械学習」が出版されます
    forhatebuid
    forhatebuid 2017/10/20
    MachineLearning
  • 日本ディープラーニング協会が発足、資格試験で技術者3万人育成

    ディープラーニング技術などを手掛ける企業や研究者が中心となり、同技術の推進団体「日ディープラーニング協会(JDLA:Japan Deep Learning Association)」が発足した。理事長は東京大学大学院工学系研究科 特任准教授の松尾豊氏。ディープラーニング技術の人材不足解消や産業界での活用促進などを目指す。

    日本ディープラーニング協会が発足、資格試験で技術者3万人育成
    forhatebuid
    forhatebuid 2017/10/05
    DeepLearning
  • データサイエンティストを目指して半年で学んだことまとめ - Qiita

    はじめに 記事では、データサイエンティストを目指して勉強した半年間で学んだこと、気付いたことをまとめます。これからデータサイエンティストを目指して勉強する人の参考になればと思います。 最初の一手 個人的にではありますが、最初はアプローチの理解から始めると思いますが、数式とプログラミングの両方を勉強する方が良いと思います。数式→プログラミング or プログラミング→数式の順序はどちらでも良いと思いますが、プログラミング(フレームワーク)のみはやめた方が良いと思います。出力結果の解釈で苦労することになるので、理論、数式はしっかり理解した方が良いです。 プログラミング、フレームワークの力で、機械学習ができるのは事実ですが、作ったモデルや予測結果の説明ができなければ価値がありません。 そして、モデルは作るだけでなく、評価・改善していく必要があります。その際に、グリッドサーチのようにモデルのパラメ

    データサイエンティストを目指して半年で学んだことまとめ - Qiita
    forhatebuid
    forhatebuid 2017/09/29
    Others