[B! 機械学習][spam] stealthinuのブックマーク

stealthinu id:stealthinu

機械学習とspamに関するstealthinuのブックマーク (14)

Piro🎉"ｼｽ管系女子"ｼﾘｰｽﾞ累計5万部突破!!🎉 on Twitter: "これ、作者の人や一部の人は「明らかにおかしい（botによって参考画像に寄せる攻撃が行われている）」と判断してるけど、素直に信じてる人が結構いるのが興味深い https://t.co/2rRPCHurkO"
これ、作者の人や一部の人は「明らかにおかしい（botによって参考画像に寄せる攻撃が行われている）」と判断してるけど、素直に信じてる人が結構いるのが興味深い https://t.co/2rRPCHurkO
stealthinu 2021/05/17
確かにこの手の「人の善意」を頼りにしたものは攻撃に対して脆弱だよね。まさにメールに対するスパム等と同じく。

機械学習

画像

twitter

security

spam
リンク
botはツイートを圧縮するとサイズが小さくなることを利用して、botの検出 - にほんごのれんしゅう
今やっていること真面目に相性を考慮した企業推薦アプリやマッチングアプリを作りたい企業への就職や出会いを求める場など、現在はITが進んでいますが、まだ最適な状態に至っていいないだろうと思われます。そんな課題を解決するために、人の行動ログ（ここではSNSでの発信ログ等）を利用して、真面目なマッチングエンジンを作ろうとしていました。具体的な多くの人の行動ログを取得可能なサービスを所有していないので、Twitter社のデータを用いて、マッチングエンジンを作ろうとして現在、技術検証や精度の改善などをしています。日本語のテキストを書くユーザ 2400万人分の直近500 ~ 1000ツイート程度をサンプリングしており、さまざまな観点を検証しています。安西先生...、botが邪魔です...! 狭い課題として、botと呼ばれるプログラムでの自動運用されたアカウントが少なくない数存在し、botは特
stealthinu 2020/07/27
tweetの圧縮率からbotの検知とあるがその他に前ツイートから10分の倍数でツイートした率やユニークツイート数なども利用している。検出したbotをまとめてブロックする方法も提供。

twitter

spam

機械学習
リンク
Qiitaのスパム狩りをしたらAutoMLに仕事を奪われた件 - Qiita
知っている人は知っていると思うが、Qiitaではたびたび大量のスパム記事が投稿されている。深夜24~26時頃に記事一覧を確認してみて欲しい。スパム記事がわんさか出てくるはず。登録したてのQiitaユーザは不安よな。1 ———— @dcm_chida 動きます🧐 はじめにこれはNTTドコモサービスイノベーション部AdventCalendar2019の1日目の記事です。我々の部署では日頃から「KDDCUP2」や「論文読み会」に取り組んでおり、若手から中堅社員まで最先端の技術取得に励んでいます。そうした活動をもっと外部へと発信していこうと始めたのがこのAdventCalendarです。社員一人一人が書いた記事を通して、少しでも多くの方に興味を持って頂ければ幸いです。さて、僕は4年目社員ですがプログラミング初心者の頃から現在に至るまで、Qiitaにはかなりお世話になりました。自分
stealthinu 2019/12/03
この手の昔ながらのSEO手法まだ生きてるのか…　Google頑張って！てかそれこそBERTで改善させるんじゃないの？まだ導入終わってないのか。

spam

機械学習

seo
リンク
スパムはいらない ―― TensorFlow を使って Gmail から新たに 1 億以上のスパムメッセージを除去 | Google Cloud 公式ブログ
※この投稿は米国時間 2019 年 2 月 7 日に Google Cloud blog に投稿されたものの抄訳です。毎月 Gmail を使っている人は 15 億人、G Suite の一部として Gmail を有料で使っている企業は 500 万社に上ります。一般ユーザーと企業ユーザーのどちらにとっても、Gmail の最大の魅力は、あらかじめ組み込まれているセキュリティ保護機能でしょう。セキュリティが優れていることは、常に脅威よりも優位に立っていることを意味します。Gmail で従来から使用されている機械学習（ML）モデルは非常に強力で、ほかの保護機能とともに、スパムやフィッシング、マルウェアの 99.9 % 以上を Gmail の受信トレイから遠ざけてきました。私たちは、セキュリティ保護機能を絶えず強化するとともに、利用者保護の観点から ML の機能向上に努めてきました。Google
stealthinu 2019/03/19
Gmailのスパム検出はTensorFlow使って機械学習でやってると。『正常な範囲のトラフィックで少量のスパムをこっそり送ろうとする』これとかも対応してるのか。

spam

mail

tensorflow

機械学習

deeplearning
リンク
ネットのグニャグニャ文字認証、ＡＩが楽々突破：朝日新聞デジタル
ネット上の「文字認証」を簡単突破できる人工知能（ＡＩ）を、米ベンチャー企業が開発した。視覚にかかわる脳の機能を再現し、文字の特徴を効率的に学習できるようになったという。２７日付の米科学誌サイエンスに発表する。ネットで会員登録する際などに使われる、グニャグニャとゆがんだ文字が乱雑な背景の上に書かれた文字認証「ＣＡＰＴＣＨＡ（キャプチャ）」は、人間には読み取れても、コンピューターが識別するのは難しいという特徴を応用した仕組みだ。米ヴァイカリアス社は、人間の脳にある「視覚野」の構造をコンピューターで再現し、画像の「輪郭線」を見つけ出すことで、見たものの中に何があるかを把握できるＡＩを作った。このＡＩを使って文字認証を解けるか試したところ、正解率は６６％だった。通常、数個つらなったアルファベットや数字を読み取る確率が１％を超えれば、認証は「突破された」とみなされるため、今回の結果は極めて高率
stealthinu 2017/10/27
まだcaptchaって解けない問題だったっけ？学習画像が少なくても良いってとこがメイン？しかしcaptchaやめてじゃあ次はなに使うか難しいところ。

security

機械学習

deeplearning

画像

spam
リンク
Mastodonスパムをディープラーニング技術により判定、ウェブクライアント「Naumanni」に実装　
stealthinu 2017/06/12
ディープラーニングでスパム判定する機能を追加できるマストドンクライアント。ネットワークの詳細は書いてないがLSTM利用とのこと。

spam

機械学習

deeplearning
リンク
「Gmail」に機械学習による不正メール検出機能--99.9%超の精度
Googleは「Gmail」に、専用機械学習モデルに基づくフィッシング検出など、複数のセキュリティ機能を追加した。 Gmailで受信されるメッセージの50～70％がスパムメールだが、Googleは機械学習を採用することによって、スパムやフィッシングのメッセージを99.9％を超える精度で検出できるという。同社の最新機械学習モデルは、一部のメッセージ（平均でメッセージ全体の0.05％未満）をさらなるフィッシング分析のために遅延させることによって、この処理を改善する。 Googleによると、同社の新しい検出モデルによってURLクリック時の新しい警告も生成され、疑わしいリンクをクリックした場合に警告メッセージがユーザーに表示されるという。新しいパターンが検出されるにつれてモデルが適応していき、時間の経過とともに改良されていくという。またGoogleは、保護すべきデータを誤って社外の人物に送信し
stealthinu 2017/06/01
ああ…　昔自分はBPでやろうとして重くて止めたのだが、Gmailの規模でこれが出来るだけのパワーがあるのだな。もう対抗しようもない。

google

gmail

security

spam

機械学習

deeplearning
リンク
オンライン広告における不正クリック検出手法と歴史
2016-09-03 データマイニング+WEB東京での発表資料です
stealthinu 2016/09/07
まんまコメントスパムとかメールのスパム対策と通じる話だったが収益と直結してるためにさらに高度化してる感じ。業者側がマウスやスクロールもちゃんと偽装するようにしてるとか人力も普通に使われてるとか。

spam

アフィリエイト

機械学習
リンク
「Gmail」のスパムフィルタ、人工ニューラルネットワークで進化
Googleは、「Gmail」の受信トレイに迷惑メールが振り分けられる可能性は平均0.1％未満であり、一方で必要なメールが迷惑メールフォルダに振り分けられる可能性は0.05％にも満たないと述べている。 Googleによると、人工ニューラルネットワーク（神経回路網）を利用して膨大な数の受信メールを取捨選択し、不要なメッセージやフィッシング攻撃を除去することで、この数字を実現できたという。 Googleがスパムの除去にあらゆる手を尽くしていなければ、Gmailは利用に耐えるものではないだろう。セキュリティ企業のKaspersky Labによると、同社が2015年第1四半期にフィルタリングしたすべてのメールのうち、59.2％はスパムだったという。スパムの送信者たちは、「.work」や「.science」など新しく利用可能になったドメインをいち早く利用してスパムフィルタをかいくぐり、広告やマルウェ
stealthinu 2015/07/24
あー、迷惑メールもだけどフィッシング対策も強化するため、ヘッダ情報見て送信元と送信者の情報が違うと厳しい判定になるよう学習しちゃったのでは。だからML系は誤検出しやすいとか。

spam

gmail

google

deeplearning

機械学習
リンク
“Linuxの父”トーバルズ氏、Gmailのスパムフィルター新機能に怒る　「3分の1以上は必要なメールだった」
Linuxカーネルの開発者として知られる“Linuxの父”ことリーナス・トーバルズ氏が、米GoogleのGmailに苦言を呈しているようだ。米Wall Street Journal（WSJ）などがそんな話を伝えている。 WSJによると、Gmailでは7月半ばごろから、トーバルズ氏宛ての正当なメールをスパムメールとして分類するようになっていた。それに気付いた彼がおかしいと思って調べてみたところ、迷惑メールボックスに振り分けられていた約3000通のメールのうち30％超（1190通）は、Linuxカーネル開発者たちのメーリングリストを含む“必要なメール”だったという。トーバルズ氏は「Gmailがどんなメールを迷惑メールとして判定して破棄しているのか知らないが、率直に言ってひどすぎる。とても受け入れられたものじゃない。Googleがここ数日でGmailに加えた変更は完全におかしい」と自身のGoo
stealthinu 2015/07/23
ニューラルネットでスパムフィルタするようになったが逆に誤検出増えたという話。学習サンプルに偏りがあったのかねえ。

gmail

google

spam

deeplearning

機械学習
リンク
Gmailのスパムフィルターがニューラルネットワークで強化、大量送信者向け新ツールも公開
By Will Lion Gmailのスパムフィルターは、受信トレイにスパムメールが入り込む割合を平均0.1％以下、読みたいメールが迷惑メールフォルダに分類されてしまう確率を0.05%以下まで落とすことに成功しています。そんな高精度な分類機能を既に有しているGmailのスパムフィルターが、Google検索やGoogle Nowと同じニューラルネットワークを応用することでさらに精度の高い分類を行えるようになり、さらに月次計算書や領収書などのスパムメールに分類されやすいメールを迷惑メールに分類されないようにするための送信者向けツール「Postmaster Tools」も新たに公開されました。 Postmaster Tools – Google https://gmail.com/postmaster/ Official Gmail Blog: The mail you want, not th
stealthinu 2015/07/10
deep learningでなのだろうな。これ自分も昔、BPでやろうと思ってたけど負荷高杉でやめたのだよな。

gmail

spam

deeplearning

機械学習
リンク
Yahoo!のニュースコメント欄からスパムを排除するには - kisa12012の日記
論文紹介のコーナー．*1 今回紹介するのは，KDD'2011のUnbiased Online Active Learning in Data Streams (Wei Chu, Martin Zinkevich, Lihong Li, Achint Thomas, and Belle Tseng)． Yahoo! Labsのグループによる研究です．(その後，第一著者はMicrosoftへ移動しています) 本論文は，ユーザーがコンテンツを生成できるウェブサービスから効率的にスパムやアダルトコンテンツを排除する手法について提案されています．このようなサービス形態はUser-Generated Content(UGC)と呼ばれ，ニュースサイトのコメント欄や掲示板・SNS・ソーシャルゲーム・ユーザー投稿型動画サイトが主な例として挙げられます． 3行概要ストリームデータ環境下において，学習に有用
stealthinu 2011/12/09
スパム判定の自動学習を題材にした学習器の紹介。どういうものかイマイチわからん。

spam

機械学習
リンク
DSPAM Project Homepage
Dspam - Community Driven Antispam Filter DSPAM is a scala ble and open-source content-based spam filter designed for multi-user enterprise systems. On a properly configured system, many users experience results between 99.5% - 99.95%, or one error for every 200 to 2000 messages. DSPAM supports many different MTAs and can also be deployed as a stand-alone SMTP appliance. For developers, the DSPAM co
stealthinu 2010/07/28
DSPAM 元々商用だったものがオープンソースになってるらしい。手法はマルコフ解析によるコンテンツフィルタ。だがどうやってるのかはよくわからん。ソースにmarkov.txtってのがあるからそこに説明がありそう。

spam

機械学習
リンク
第2回　確率の初歩 | gihyo.jp
今回は、機械学習で使う「確率」のお話です。確率は、統計的な機械学習のもっとも重要な基礎知識です。とはいえ、確率についてゼロから説明するというのは紙数的にも厳しいため、高校の確率を少し憶えているくらい（期待値や標準偏差など）を前提とし、「⁠高校の確率」と「機械学習の確率」の本質的な相違点について、少し丁寧に見ていく、という形で進めていきます。機械学習と確率最初に、機械学習にとって確率はどういう役割なのかを確認しておきましょう。実のところ、機械学習に確率が必須というわけではありません。ニューラルネットワークやサポートベクターマシンなどの有名な手法も「確率を用いない機械学習」ですし、その他にも数多くの手法があります。しかし、「⁠確率を用いない機械学習」の多くは、「⁠結果のランキングを作りづらい（評価値の大小に意味がない⁠）⁠」⁠「⁠条件が異なる場合の結果を比較できない」などの欠点がありま
stealthinu 2010/07/14
確立やナイーブベイズについての説明。この説明はほんと初歩からでとてもわかりやすく書かれている。ベイズの説明するときに利用させてもらおう。

機械学習

spam
リンク
1