タグ

word2vecに関するnagggのブックマーク (15)

  • 広告セグメントをfastTextとMagnitudeを使ってマッピングする|Dentsu Digital Tech Blog

    電通デジタルでデータサイエンティストを務めている荒川です。広告領域を中心にデータ系のプロジェクトを統括しています。 記事ではfastTextとMagnitudeを用いて、複数の広告プラットフォームで提供されるセグメントをマッピングする手法を紹介します。 広告セグメントをマッピングしたいデジタル上で広告配信をする際の特徴として、ターゲットに応じて細かくセグメンテーションできる点は、異論の余地がないでしょう。最も基的なターゲティング手法のひとつとして、広告プラットフォームが提供するセグメントを用いることがあります。 例えば「カメラ好き」がターゲットだった場合、各プラットフォームが提供している「カメラ関心層」といったセグメントを配信対象にセットすることで、狙いたいターゲットに絞った広告配信が可能になります。 電通デジタルでは、プランナーの業務効率化/品質向上のために、想定ターゲットを入力する

    広告セグメントをfastTextとMagnitudeを使ってマッピングする|Dentsu Digital Tech Blog
  • word2vec(Skip-Gram Model)の仕組みを恐らく日本一簡潔にまとめてみたつもり - これで無理なら諦めて!世界一やさしいデータ分析教室

    久しぶりの記事更新です。 今回はかねてより書いてみたかったword2vecについて。 word2vecはとても面白い考え方なのですが、個人的には仕組みがちょっと捉えづらく、理解するのに結構時間がかかりました。 そこで今回は、過去の自分を救えるように、word2vecをできるだけ簡潔に、そして直観的に理解できるように解説していきます。 なお、word2vecについては以下書籍でよくまとまっているので、よろしければ是非! Pythonと実データで遊んで学ぶ データ分析講座 作者: 梅津雄一,中野貴広出版社/メーカー: シーアンドアール研究所発売日: 2019/08/10メディア: 単行(ソフトカバー)この商品を含むブログを見る ※追記※ スマホのAMPだと、行列や数式がうまく表示されない可能性がありますので、こちらのリンクかPCから購読頂けますと幸いです。 word2vecを使うと何ができる

    word2vec(Skip-Gram Model)の仕組みを恐らく日本一簡潔にまとめてみたつもり - これで無理なら諦めて!世界一やさしいデータ分析教室
  • Google翻訳より高性能? 「日本の自動翻訳がすごい理由」をNICT隅田氏が解説

    Google翻訳より高性能? 「日の自動翻訳がすごい理由」をNICT隅田氏が解説:これからのAIの話をしよう(自動翻訳編)(1/4 ページ) 国産翻訳エンジンを使った「みらい翻訳」が高精度だとネットで話題に。なぜGoogle翻訳より高精度といわれているのか。開発者のNICT隅田氏に聞いた。 今年3月、大阪メトロの英語サイトが路線名の「堺筋線」を「Sakai Muscle Line」と誤訳していたことがネットで話題になりました。米Microsoftの自動翻訳ツールによる翻訳をそのまま掲載していたことが原因です。 「さすが大阪、ボケ方が半端ない」などと友人にからかわれてしまったのですが、この事件には根深い問題が隠れています。 Google翻訳を使うと、いまでも堺筋線は「Muscular line」で、三両目は「Third eye」と訳されます。精度が高いと評判のGoogle翻訳でも誤訳してい

    Google翻訳より高性能? 「日本の自動翻訳がすごい理由」をNICT隅田氏が解説
    naggg
    naggg 2019/06/17
    以前に何かの展示で、NICTのパンフレット、もらったことあったな〜
  • AI類語地図 - エクサウィザーズ Engineer Blog

    こんにちは。エクサウィザーズAIエンジニアの須藤です。 類語辞典って便利ですよね。 書いた文章がしっくりこないときに、ニュアンスの違う単語に置き換えたり、和語と漢語と外来語を入れ替えたりできます。 しかし、適当な表現が出てこなくて、もっと漠然と言葉を探したい時はどうしましょう。 辞書を繰り返し引いて、類語の類語の類語を見て回るのはちょっと面倒ですね。 かと言って項目あたりの類語数が増えたとしても、その中で探す手間が増えて、やはり使いづらそうです。 そこで、こういうものを作ってみました。 https://base.exawizards.com/view/modelDetail?id=44 詳細を以下で解説します。 概要 学習 可視化 使い方 使用例 ソースの違い 興味深い例 最後に 概要 類語を平面に分散して表示するプログラムです。 JavaScriptで書かれていますので、最近のブラウザが

    AI類語地図 - エクサウィザーズ Engineer Blog
  • リクルートの校閲AIが驚異的な効果 検出率は人を超え数秒で完了

    リクルートのAI人工知能)活用特集の最終回。同社は、クライアント企業とカスタマーとなる個人の間を結ぶことで収益を生み出す。その過程では企業情報、求人情報、物件情報、結婚式場情報など膨大なテキストが発生する。同社はその校閲にAIを活用することで、大幅な業務効率化を進めている。 「従来は校閲に1週間ぐらいかかっていたが、数秒でできるようになった」 リクルートテクノロジーITエンジニアリング部データテクノロジーラボ部データテクノロジープロダクト開発グループの蓑田和麻氏は、AI校閲システムの効果の一端をこう説明する。 校閲スタッフの人数は大幅削減

    リクルートの校閲AIが驚異的な効果 検出率は人を超え数秒で完了
    naggg
    naggg 2018/07/03
    doc2vecとかかな? "誤字脱字の検出、表記揺れ、差別表現の判定などはDLによるモデルを活用。学習は、過去に掲載した500万件のデータ、そしてクラウドソーシングを活用してあえて誤字脱字などを含めた3万件のデータを"
  • Pythonで単語分散表現のクラスタリング - Ahogrammer

    最近の自然言語処理では、単語の分散表現は当たり前のように使われています。 単語分散表現では、各単語が高次元ベクトル空間に配置され、加減乗除等の演算を行えるようになります。 これらのベクトルは、意味の近い単語に対しては同じようなベクトルになることがわかっています。 記事では、単語分散表現のベクトルをクラスタリングし、意味が近い単語のクラスタを作ってみたいと思います。 これらのクラスタは、眺めて楽しむだけでなく、機械学習の素性として使うこともできます。 イメージ的には、以下のような感じで単語をクラスタにまとめます。 では、単語分散表現をクラスタリングして、単語のクラスタを作ってみましょう。 準備 まずは、作業用のディレクトリを作成しておきましょう。 また、必要に応じて Python の仮想環境も用意します。 以下のコマンドを実行することで、ディレクトリを用意します。 $ mkdir work

    Pythonで単語分散表現のクラスタリング - Ahogrammer
  • 朝日新聞単語ベクトル

    朝日新聞メディアラボ・朝日新聞単語ベクトル サイトは移転しました。5秒後にジャンプします。 ジャンプしない場合は、以下のURLをクリックしてください。 移転先のページ

    naggg
    naggg 2017/11/08
    なんじゃこりゃー!!
  • word2vec のオプション一覧 - Qiita

    Options: Parameters for training: -train <file> Use text data from <file> to train the model -output <file> Use <file> to save the resulting word vectors / word clusters -size <int> Set size of word vectors; default is 100 -window <int> Set max skip length between words; default is 5 -sample <float> Set threshold for occurrence of words. Those that appear with higher frequency in the training data

    word2vec のオプション一覧 - Qiita
  • 文章をベクトル化して類似文章の検索 - Qiita

    Doc2Vecで類似文章を検索してみたので、実装を紹介します。 Doc2Vecとは コンピュータが自然言語を処理するためには、まず人間の言葉をコンピュータで扱える値にする必要があります。 単語の意味をベクトル化する手法としてWord2Vecが存在します。 詳しくはリンク先がとてもわかりやすいのですが、ざっくり言うと前後n単語のリストでその単語を表現します。 こうすることで、例えば「犬」と「」は同じような文脈で使われるため、似た「意味」であると考えることができます。 Doc2VecはWord2Vecを応用し、文章をベクトル化するものです。 実装サンプル 今回Doc2Vecを用いて実現するのは、以下の2つの機能です。 単語で文章を検索 類似文章の検索 サンプルとして、青空文庫の文章を使用しました。 なお、この記事で使用するコードはGitHubで公開しています。 (学習に使用した文章もzip

    文章をベクトル化して類似文章の検索 - Qiita
  • Word2Vec:発明した本人も驚く単語ベクトルの驚異的な力

    Word2Vecとは Word2Vecで演算処理する Word2Vecとニューラルネットワーク Word2Vecの仕組み CBoW Skip-gram Word2Vecを応用することができる分野 レコメンド 機械翻訳 Q&A・チャットボット 感情分析 Word2Vecの弱点 Word2Vecの派生系や類似ツール GloVe WordNet Doc2Vec fastText まとめ 参考 世界中のWebサイトの数は2014年に10億件を超えたようだ。そして、Facebookのユーザー数だけでも16億人を超えている。 そして、そのいずれもコンテンツの中身の大部分はテキストから成り立っていることだろう。 ということは、莫大に増大し続けるネット上のデータのほとんどはどこかの国の言葉だってことだ。世界中の人が毎日テキストデータを生成し続けたことはこれまでの歴史上無かったんじゃないだろうか。 もしそん

    Word2Vec:発明した本人も驚く単語ベクトルの驚異的な力
  • 単純なキーワードマッチングを超えたWikiPediaの知識を利用した自然言語処理を行いたい方へ - Qiita

    キーワードマッチングを超えた知識を利用する価値 人間間の会話では"Twitter"や"Facebook"がSNSだなと分かって会話ができたり、"ヤマハ"と言われても前後の文脈で"ヤマハ"がバイクの"ヤマハ"かピアノの"ヤマハ"か分かります。 これは単語の背景に関連する知識情報を利用できているからです。 この単語を知識情報と繋げる手法として近年の自然言語処理ではエンティティリンキングという手法がよく用いられています。 コードを使ってすぐに確認したい方は下記でインストールしてください。 コード: - https://github.com/SnowMasaya/WikiPedia_Entity_Vector_Get_Similarity_word 必要なデータ: - 分析したいデータ - Wikificatation - 日Wikipedia エンティティベクトル ユースケース これを実際

    単純なキーワードマッチングを超えたWikiPediaの知識を利用した自然言語処理を行いたい方へ - Qiita
  • word2vecのソースを読んでみた - Qiita

    単語の意味をベクトルで表現する手法であるword2vec。検索するといろんな方の解説が見つかります。その解説とソースコードを見比べながら、自分なりに勉強してみました。 今回はword2vecのC#実装であるWord2Vec.Netのソースで勉強しました。ロジックは元々のC言語による実装とほとんど同じなので、このソースで勉強しても問題ありません。また、この方がVisualStudioのデバッガが使えるので追いやすいです。 word2vecには学習アルゴリズムとして「C-BOW」と「Skip-gram」の2種類の手法が紹介されていますが、今回は「Skip-gram」について勉強しました。計算量を抑えるやり方としては「階層的ソフトマックス」と「Negative Sampling」の2種類がword2vecのプログラム中に実装されていますが、今回は「Negative Sampling」を勉強しまし

    word2vecのソースを読んでみた - Qiita
    naggg
    naggg 2016/12/13
    流し読みレベルだけど、ためになるなぁ。
  • Word2Vec のニューラルネットワーク学習過程を理解する · けんごのお屋敷

    Word2Vec というと、文字通り単語をベクトルとして表現することで単語の意味をとらえることができる手法として有名なものですが、最近だと Word2Vec を協調フィルタリングに応用する研究 (Item2Vec と呼ばれる) などもあるようで、この Word2Vec というツールは自然言語処理の分野の壁を超えて活躍しています。 実は Item2Vec を実装してみたくて Word2Vec の仕組みを理解しようとしていたのですが、Word2Vec の内部の詳細に踏み込んで解説した日語記事を見かけることがなかったので、今更感はありますが自分の知識の整理のためにもブログに残しておきます。なお、この記事は Word2Vec のソースコードといくつかのペーパーを読んで自力で理解した内容になります。間違いが含まれている可能性もありますのでご了承ください。もし間違いを見つけた場合は指摘してもらえると

  • Private Presentation

    Private content!This content has been marked as private by the uploader.

    Private Presentation
  • 自然言語処理に新風を巻き起こしたWord2Vecとは何か - 日経BigData

    言語データの分析と応用のために自然言語処理と呼ばれる分野で長年研究が行われて来た。同分野が昨年から大きく沸き立っている。米グーグルの研究者であるトマス・ミコロフ氏らが提案した手法「Word2Vec」が、いくつかの問題について従来のアルゴリズムよりも飛躍的な精度向上を可能にしたのだ。 この手法によって得られるベクトル空間には、今まで定量的に捉えることの難しかった言葉の「意味」を極めて直接的に表現しているかのような性質が認められている。今年9月、当社がスポンサー参加した自然言語処理系の研究発表会「NLP若手の会 第9回シンポジウム」でも、多くの研究がWord2Vecに関連したテーマについて取り上げていた。今後、意味解析、文書分類、機械翻訳など様々な分野でWord2Vecの応用が期待されている。 「意味ベクトル」の驚異的な性質 Word2Vecは、その名前の表す通り、単語をベクトル化して表現する

    自然言語処理に新風を巻き起こしたWord2Vecとは何か - 日経BigData
  • 1