[B! word2vec] nagggのブックマーク

広告セグメントをfastTextとMagnitudeを使ってマッピングする｜Dentsu Digital Tech Blog

電通デジタルでデータサイエンティストを務めている荒川です。広告領域を中心にデータ系のプロジェクトを統括しています。本記事ではfastTextとMagnitudeを用いて、複数の広告プラットフォームで提供されるセグメントをマッピングする手法を紹介します。広告セグメントをマッピングしたいデジタル上で広告配信をする際の特徴として、ターゲットに応じて細かくセグメンテーションできる点は、異論の余地がないでしょう。最も基本的なターゲティング手法のひとつとして、広告プラットフォームが提供するセグメントを用いることがあります。例えば「カメラ好き」がターゲットだった場合、各プラットフォームが提供している「カメラ関心層」といったセグメントを配信対象にセットすることで、狙いたいターゲットに絞った広告配信が可能になります。電通デジタルでは、プランナーの業務効率化/品質向上のために、想定ターゲットを入力する

naggg 2020/09/10

word2vec

リンク

word2vec（Skip-Gram Model）の仕組みを恐らく日本一簡潔にまとめてみたつもり - これで無理なら諦めて！世界一やさしいデータ分析教室

久しぶりの記事更新です。今回はかねてより書いてみたかったword2vecについて。 word2vecはとても面白い考え方なのですが、個人的には仕組みがちょっと捉えづらく、理解するのに結構時間がかかりました。そこで今回は、過去の自分を救えるように、word2vecをできるだけ簡潔に、そして直観的に理解できるように解説していきます。なお、word2vecについては以下書籍でよくまとまっているので、よろしければ是非！ Pythonと実データで遊んで学ぶデータ分析講座作者: 梅津雄一,中野貴広出版社/メーカー: シーアンドアール研究所発売日: 2019/08/10メディア: 単行本（ソフトカバー）この商品を含むブログを見る ※追記※ スマホのAMPだと、行列や数式がうまく表示されない可能性がありますので、こちらのリンクかPCから購読頂けますと幸いです。 word2vecを使うと何ができる

naggg 2019/06/25

リンク

Google翻訳より高性能？　「日本の自動翻訳がすごい理由」をNICT隅田氏が解説

Google翻訳より高性能？　「日本の自動翻訳がすごい理由」をNICT隅田氏が解説：これからのAIの話をしよう（自動翻訳編）（1/4 ページ）国産翻訳エンジンを使った「みらい翻訳」が高精度だとネットで話題に。なぜGoogle翻訳より高精度といわれているのか。開発者のNICT隅田氏に聞いた。今年3月、大阪メトロの英語サイトが路線名の「堺筋線」を「Sakai Muscle Line」と誤訳していたことがネットで話題になりました。米Microsoftの自動翻訳ツールによる翻訳をそのまま掲載していたことが原因です。「さすが大阪、ボケ方が半端ない」などと友人にからかわれてしまったのですが、この事件には根深い問題が隠れています。 Google翻訳を使うと、いまでも堺筋線は「Muscular line」で、三両目は「Third eye」と訳されます。精度が高いと評判のGoogle翻訳でも誤訳してい

naggg 2019/06/17

以前に何かの展示で、NICTのパンフレット、もらったことあったな〜

AI
word2vec

リンク

AI類語地図 - エクサウィザーズ Engineer Blog

こんにちは。エクサウィザーズAI エンジニアの須藤です。類語辞典って便利ですよね。書いた文章がしっくりこないときに、ニュアンスの違う単語に置き換えたり、和語と漢語と外来語を入れ替えたりできます。しかし、適当な表現が出てこなくて、もっと漠然と言葉を探したい時はどうしましょう。辞書を繰り返し引いて、類語の類語の類語を見て回るのはちょっと面倒ですね。かと言って項目あたりの類語数が増えたとしても、その中で探す手間が増えて、やはり使いづらそうです。そこで、こういうものを作ってみました。 https://base.exawizards.com/view/modelDetail?id=44 詳細を以下で解説します。概要学習可視化使い方使用例ソースの違い興味深い例最後に概要類語を平面に分散して表示するプログラムです。 JavaScriptで書かれていますので、最近のブラウザが

naggg 2018/11/28

リンク

リクルートの校閲AIが驚異的な効果　検出率は人を超え数秒で完了

リクルートのAI（人工知能）活用特集の最終回。同社は、クライアント企業とカスタマーとなる個人の間を結ぶことで収益を生み出す。その過程では企業情報、求人情報、物件情報、結婚式場情報など膨大なテキストが発生する。同社はその校閲にAIを活用することで、大幅な業務効率化を進めている。「従来は校閲に1週間ぐらいかかっていたが、数秒でできるようになった」リクルートテクノロジーズIT エンジニアリング本部データテクノロジーラボ部データテクノロジープロダクト開発グループの蓑田和麻氏は、AI校閲システムの効果の一端をこう説明する。校閲スタッフの人数は大幅削減

naggg 2018/07/03

doc2vecとかかな？ "誤字脱字の検出、表記揺れ、差別表現の判定などはDLによるモデルを活用。学習は、過去に掲載した500万件のデータ、そしてクラウドソーシングを活用してあえて誤字脱字などを含めた3万件のデータを"

AI
word2vec

リンク

Pythonで単語分散表現のクラスタリング - Ahogrammer

最近の自然言語処理では、単語の分散表現は当たり前のように使われています。単語分散表現では、各単語が高次元ベクトル空間に配置され、加減乗除等の演算を行えるようになります。これらのベクトルは、意味の近い単語に対しては同じようなベクトルになることがわかっています。本記事では、単語分散表現のベクトルをクラスタリングし、意味が近い単語のクラスタを作ってみたいと思います。これらのクラスタは、眺めて楽しむだけでなく、機械学習の素性として使うこともできます。イメージ的には、以下のような感じで単語をクラスタにまとめます。では、単語分散表現をクラスタリングして、単語のクラスタを作ってみましょう。準備まずは、作業用のディレクトリを作成しておきましょう。また、必要に応じて Python の仮想環境も用意します。以下のコマンドを実行することで、ディレクトリを用意します。 $ mkdir work

naggg 2018/01/04

リンク

朝日新聞単語ベクトル

朝日新聞メディアラボ・朝日新聞単語ベクトル本サイトは移転しました。5秒後にジャンプします。ジャンプしない場合は、以下のURLをクリックしてください。移転先のページ

naggg 2017/11/08

なんじゃこりゃー！！

リンク

word2vec のオプション一覧 - Qiita

Options: Parameters for training: -train <file> Use text data from <file> to train the model -output <file> Use <file> to save the resulting word vectors / word clusters -size <int> Set size of word vectors; default is 100 -window <int> Set max skip length between words; default is 5 -sample <float> Set threshold for occurrence of words. Those that appear with higher frequency in the training data

naggg 2017/09/13

word2vec

リンク

文章をベクトル化して類似文章の検索 - Qiita

Doc2Vecで類似文章を検索してみたので、実装を紹介します。 Doc2Vecとはコンピュータが自然言語を処理するためには、まず人間の言葉をコンピュータで扱える値にする必要があります。単語の意味をベクトル化する手法としてWord2Vecが存在します。詳しくはリンク先がとてもわかりやすいのですが、ざっくり言うと前後n単語のリストでその単語を表現します。こうすることで、例えば「犬」と「猫」は同じような文脈で使われるため、似た「意味」であると考えることができます。 Doc2VecはWord2Vecを応用し、文章をベクトル化するものです。実装サンプル今回Doc2Vecを用いて実現するのは、以下の2つの機能です。単語で文章を検索類似文章の検索サンプルとして、青空文庫の文章を使用しました。なお、この記事で使用するコードはGitHubで公開しています。 (学習に使用した文章もzipに

naggg 2017/09/13

word2vec

リンク

Word2Vec：発明した本人も驚く単語ベクトルの驚異的な力

Word2Vecとは Word2Vecで演算処理する Word2Vecとニューラルネットワーク Word2Vecの仕組み CBoW Skip-gram Word2Vecを応用することができる分野レコメンド機械翻訳 Q&A・チャットボット感情分析 Word2Vecの弱点 Word2Vecの派生系や類似ツール GloVe WordNet Doc2Vec fastText まとめ参考世界中のWebサイトの数は2014年に10億件を超えたようだ。そして、Facebookのユーザー数だけでも16億人を超えている。そして、そのいずれもコンテンツの中身の大部分はテキストから成り立っていることだろう。ということは、莫大に増大し続けるネット上のデータのほとんどはどこかの国の言葉だってことだ。世界中の人が毎日テキストデータを生成し続けたことはこれまでの歴史上無かったんじゃないだろうか。もしそん

naggg 2017/09/13

word2vec

リンク

単純なキーワードマッチングを超えたWikiPediaの知識を利用した自然言語処理を行いたい方へ - Qiita

キーワードマッチングを超えた知識を利用する価値人間間の会話では"Twitter"や"Facebook"がSNSだなと分かって会話ができたり、"ヤマハ"と言われても前後の文脈で"ヤマハ"がバイクの"ヤマハ"かピアノの"ヤマハ"か分かります。これは単語の背景に関連する知識情報を利用できているからです。この単語を知識情報と繋げる手法として近年の自然言語処理ではエンティティリンキングという手法がよく用いられています。コードを使ってすぐに確認したい方は下記でインストールしてください。コード： - https://github.com/SnowMasaya/WikiPedia_Entity_Vector_Get_Similarity_word 必要なデータ： - 分析したいデータ - Wikificatation - 日本語 Wikipedia エンティティベクトルユースケースこれを実際

naggg 2016/12/13

リンク

word2vecのソースを読んでみた - Qiita

単語の意味をベクトルで表現する手法であるword2vec。検索するといろんな方の解説が見つかります。その解説とソースコードを見比べながら、自分なりに勉強してみました。今回はword2vecのC#実装であるWord2Vec.Netのソースで勉強しました。ロジックは元々のC言語による実装とほとんど同じなので、このソースで勉強しても問題ありません。また、この方がVisualStudioのデバッガが使えるので追いやすいです。 word2vecには学習アルゴリズムとして「C-BOW」と「Skip-gram」の２種類の手法が紹介されていますが、今回は「Skip-gram」について勉強しました。計算量を抑えるやり方としては「階層的ソフトマックス」と「Negative Sampling」の２種類がword2vecのプログラム中に実装されていますが、今回は「Negative Sampling」を勉強しまし

naggg 2016/12/13

流し読みレベルだけど、ためになるなぁ。

リンク

Word2Vec のニューラルネットワーク学習過程を理解する · けんごのお屋敷

Word2Vec というと、文字通り単語をベクトルとして表現することで単語の意味をとらえることができる手法として有名なものですが、最近だと Word2Vec を協調フィルタリングに応用する研究 (It em2Vec と呼ばれる) などもあるようで、この Word2Vec というツールは自然言語処理の分野の壁を超えて活躍しています。実は It em2Vec を実装してみたくて Word2Vec の仕組みを理解しようとしていたのですが、Word2Vec の内部の詳細に踏み込んで解説した日本語記事を見かけることがなかったので、今更感はありますが自分の知識の整理のためにもブログに残しておきます。なお、この記事は Word2Vec のソースコードといくつかのペーパーを読んで自力で理解した内容になります。間違いが含まれている可能性もありますのでご了承ください。もし間違いを見つけた場合は指摘してもらえると

naggg 2016/12/12

リンク

Private Presentation

Private content!This content has been marked as private by the uploader.

naggg 2016/12/12

リンク

自然言語処理に新風を巻き起こしたWord2Vecとは何か - 日経BigData

言語データの分析と応用のために自然言語処理と呼ばれる分野で長年研究が行われて来た。同分野が昨年から大きく沸き立っている。米グーグルの研究者であるトマス・ミコロフ氏らが提案した手法「Word2Vec」が、いくつかの問題について従来のアルゴリズムよりも飛躍的な精度向上を可能にしたのだ。この手法によって得られるベクトル空間には、今まで定量的に捉えることの難しかった言葉の「意味」を極めて直接的に表現しているかのような性質が認められている。今年9月、当社がスポンサー参加した自然言語処理系の研究発表会「NLP若手の会第9回シンポジウム」でも、多くの研究がWord2Vecに関連したテーマについて取り上げていた。今後、意味解析、文書分類、機械翻訳など様々な分野でWord2Vecの応用が期待されている。「意味ベクトル」の驚異的な性質 Word2Vecは、その名前の表す通り、単語をベクトル化して表現する

naggg 2016/12/12

リンク

はてなブックマーク

タグ

関連タグで絞り込む (7)

word2vecに関するnagggのブックマーク (15)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス