並び順

ブックマーク数

期間指定

  • から
  • まで

281 - 320 件 / 2389件

新着順 人気順

機械学習の検索結果281 - 320 件 / 2389件

  • 「Kaggleで勝つデータ分析の技術」から見る実用的な機械学習の知見

    はじめに 機械学習に関する実用的な知見を知るために、「Kaggleで勝つデータ分析の技術」を読んだので、Kaggle以外の場面でも活用できる話題をまとめてみた。本書は機械学習の基本的な内容も含んでいるが、この記事では機会学習に関する一通りの知識を持ち、実問題に利用している読者を想定してまとめた。従って、勾配ブースティング木の仕組みや、回帰タスクの評価方法等、基本的な内容については解説しない。本記事では、評価の落とし穴や、モデルを改善するための特徴量の工夫、チューニングのTipsについて紹介する。 特徴量 Tips 1: 欠損値の扱い データにはしばしば欠損値が含まれている。欠損値は、そもそも値が存在していない場合の他に、ユーザが意図して入力していない場合や、観測器のエラーによって取得できていない場合等、様々な理由によって生じる。欠損がランダムに発生していない限り、欠損しているという事実が何

      「Kaggleで勝つデータ分析の技術」から見る実用的な機械学習の知見
    • ChatGPTに単語を「永遠に」繰り返すよう促すことでトレーニングに使われた膨大なテキストデータを吐き出させる攻撃手法をGoogleの研究者らが開発

      ChatGPTのトレーニングにはインターネットから取得したデータが利用されていますが、具体的なデータの中身は非公開となっています。「同じ単語を繰り返して」という単純な命令を行う事でChatGPTにトレーニングデータを出力させることに成功したとGoogleの研究者らが発表しました。 Extracting Training Data from ChatGPT https://not-just-memorization.github.io/extracting-training-data-from-chatgpt.html [2311.17035] Scalable Extraction of Training Data from (Production) Language Models https://arxiv.org/abs/2311.17035 機械学習モデルのトレーニングに使用したデー

        ChatGPTに単語を「永遠に」繰り返すよう促すことでトレーニングに使われた膨大なテキストデータを吐き出させる攻撃手法をGoogleの研究者らが開発
      • Rubyは死んだ、Railsはオワコンと言われていたが、復活してきた件 - paiza times

        これまで「Rubyは死んだ」、「Railsがオワコン」と定期的に言われて、そういった記事やSNSの書き込みにさまざまな意見が寄せられてきました。が、今年はRuby on Rails復活の兆しが見えてきました。我々paizaもRailsで開発をしているので嬉しい限りです。 【目次】 Ruby on Railsはオワコンと言われている背景 (1)他言語比較での言及数の少なさ (2)言語特性における短所を語られやすい (3)AIやデータサイエンスの普及 いい加減「Ruby on Railsはオワコン」とは言えなくなってきた背景 (1)面接リクエスト数の増加 (2)成熟した言語であり安定性がある (3)エンジニアスキルとして今でも求められている 「オワコン」は抽象的過ぎる表現 Ruby on Railsはオワコンと言われている背景 「Ruby on Railsはオワコン」という言説に関して、あえて

          Rubyは死んだ、Railsはオワコンと言われていたが、復活してきた件 - paiza times
        • 全銀システムの障害対応で『LTOテープでデータ転送』伝説の年寄り出てきたみたいなアツさがある「訓練あるよね」

          加藤公一(はむかず) @hamukazu 「LTO(Linear Tape-Open)テープの持ち込みによって処理するようにした。」 キター! xtech.nikkei.com/atcl/nxt/news/… 2023-10-11 21:17:52 加藤公一(はむかず) @hamukazu Kimikazu Kato, ソフトバンク株式会社。博士(情報理工学)。修士は数学(代数幾何学)。にゃーんと鳴く狂犬と呼ばれている。DMは全員に開放中。 著書「機械学習のエッセンス」:bit.ly/mlessence 、監修「機械学習図鑑」bit.ly/mlzukan linkedin.com/in/kimikazukato リンク 日経クロステック(xTECH) 全銀システムの大規模障害、中継コンピューター2台ともに不具合で冗長構成が機能せず 2023年10月10日午前8時30分ごろに発生した「全国銀

            全銀システムの障害対応で『LTOテープでデータ転送』伝説の年寄り出てきたみたいなアツさがある「訓練あるよね」
          • Engineering Career Ladderを作るときに気をつけたこと 其の一 - LayerX エンジニアブログ

            この記事はLayerXテックアドカレ2023の4日目の記事です。 昨日は@shun_takさんが「バクラクのデータは難しくて面白い」を書いてくれました。 明日は機械学習チームのyakipuさんの記事が公開予定となっています。楽しみですね! こんにちは、すべての経済活動をデジタル化し、ハタラクをバクラクにしたいmakogaです。 私のチームであるEngineering Officeは「人とチームの観点からエンジニアリング組織のパフォーマンスを最大化する」というミッションを持ち、組織の仕組みの設計や運用改善を行っています。その1つにEngineering Career Ladder*1の策定があり、10月から一部のRoleで仮運用を開始しています。 Engineering Career Ladderは上手に運用すれば強力なツールとなりますが、下手をすると生産性の悪化や成長の妨げになる可能性があ

              Engineering Career Ladderを作るときに気をつけたこと 其の一 - LayerX エンジニアブログ
            • RAG構築のためのAzure OpenAI Serviceリファレンスアーキテクチャ詳解 | SIOS Tech. Lab

              ◆ Live配信スケジュール ◆ サイオステクノロジーでは、Microsoft MVPの武井による「わかりみの深いシリーズ」など、定期的なLive配信を行っています。 ⇒ 詳細スケジュールはこちらから ⇒ 見逃してしまった方はYoutubeチャンネルをご覧ください 【4/18開催】VSCode Dev Containersで楽々開発環境構築祭り〜Python/Reactなどなど〜 Visual Studio Codeの拡張機能であるDev Containersを使ってReactとかPythonとかSpring Bootとかの開発環境をラクチンで構築する方法を紹介するイベントです。 https://tech-lab.connpass.com/event/311864/ こんにちは、サイオステクノロジー武井です。今回は、「RAG構築のためのAzure OpenAI Serviceリファレンスア

                RAG構築のためのAzure OpenAI Serviceリファレンスアーキテクチャ詳解 | SIOS Tech. Lab
              • 日本語の単語を適切な位置で区切って読みやすく改行してくれる軽量でオープンソースなライブラリ「BudouX」の機能&採用例&デモはこんな感じ、Chrome 119に実装予定で簡単に利用できる見込み

                日本語のページをブラウザで見ているとおかしな位置で改行されることが多いのですが、単語と単語の間にスペースを入れる英語などと異なり、日本語では分かち書きがされていないのが原因。単語の途中で文章が折り返されてしまう原因になっています。BudouXは機械学習モデルを利用して容量を抑えつつ、サードパーティーのAPIやライブラリに依存せずに分かち書きを行ってくれるオープンソースライブラリなので、読みやすい改行が実現できます。 Google Developers Japan: BudouX: 読みやすい改行のための軽量な分かち書き器 https://developers-jp.googleblog.com/2023/09/budoux-adobe.html BudouXの使用イメージは下図の通り。従来は画面幅によっては「最先端」や「テクノロジー」などの単語の途中で改行が行われてしまう事がありましたが、

                  日本語の単語を適切な位置で区切って読みやすく改行してくれる軽量でオープンソースなライブラリ「BudouX」の機能&採用例&デモはこんな感じ、Chrome 119に実装予定で簡単に利用できる見込み
                • ニューWindowsマシンのセットアップした - laiso

                  10年ぶりぐらいにWindowsメイン機を構築したら色々変わっていた。その過程で情報収集しながら記録した内容をポストします。 マシンの目的 やらなかったこと 日本語環境の構築 古いWindowsっぽく振る舞う設定系 仮想マシン内にLinux環境を作る系 Remote Desktop sshd winget Git Python Stable Diffusion web UI Visual Studio 2022 PowerToys JoyToKey Power Automate マシン間のファイル送受信 自動ログオンとキオスク端末化 マシンの目的 Windowsしか対応していないビデオゲームをプレイする GPU使ったタスク。機械学習モデルの推論やファインチューニング。画像・テキスト生成AIの実行 Windowsデスクトップアプリケーションの開発 VRデバイスや3Dゲームエンジンを使った開発

                    ニューWindowsマシンのセットアップした - laiso
                  • 「機械学習〜推薦システムを題材に〜」講義資料(生成AIの話題も含む)|masa_kazama

                    2023年に東京都立大学で非常勤講師として、学部3年生向けに「機械学習〜推薦システムを題材に〜」というテーマで講義をしました。 90分×3コマ×2日間の計6コマの集中講義で、Streamlitで映画のレコメンドアプリを実際に作ってみるなどの演習も含めたものです。 昨年、大学院生向けに同様の講義を3コマ分していたので、それを拡張する形で、最近話題の生成AIの話も1コマ分用意しました。(昨年の授業資料はこちらにあります。) 推薦システムや生成AI×推薦システムについて興味ある方のご参考になりましたら。 1日目(90分×3コマ) 推薦システムの概要 推薦システム-各推薦アルゴリズム 推薦システムの周辺技術(評価指標について)

                      「機械学習〜推薦システムを題材に〜」講義資料(生成AIの話題も含む)|masa_kazama
                    • 「“わからなくてもまずはやってみる”ができる人は成長できる」 未経験エンジニアが“活躍できるエンジニア”になるために必要な考え方

                      まだ教科書がない技術が増えてきている ーー「エンジニア教育のここが難しい」みたいなことはなにかありますか? 竹迫良範氏(以下、竹迫):教育の難しさでいうと、教科書がないものが最近増えていますよね。まさに今ChatGPTが急速に流行りだしていたりしますが、紙の教科書は去年はほとんどなかったと思うので、教える側が教材開発から新しくしないといけない。それは今すごく大変だと思います。新しいものがどんどん入ってきますが、そこはひたすら試して、試した人が教材を作っていくかたちになっています。 会社が大きくなる中で、志望者の質が変化してきた ーーラクスパートナーズはどうですか? 森大介氏(以下、森):うちのビジネスは、採用、教育、派遣という流れで進んでいるのですが、私が採用をやっていた時は、社員数も100人ぐらいで会社の規模も小さかったので、知名度もそこまでなく、採用が大変だった時代でした。 そんな中で

                        「“わからなくてもまずはやってみる”ができる人は成長できる」 未経験エンジニアが“活躍できるエンジニア”になるために必要な考え方
                      • LLMプロダクト開発とはどういうものなのか?|erukiti

                        LLMプロダクト開発者がMac Studioを買ってローカルLLMを触るべき理由という記事を書きました。 mutaguchiさんのツイートを見て、LLMプロダクトの開発とはどういうものなのかを知らない人も多いのかなと気づいたので、そこらへんを記事として書いてみます。 https://t.co/4WvjuuoGnC 「LLMプロダクト開発者がMac Studioを買ってローカルLLMを触るべき理由」の記事のはてブコメント見てたんだけど、ほとんど理解されてなかったのが興味深い。 ・プロプライエタリなLLMでは、ランニングコストが嵩み、これを利用したサービスは成立しづらい… — mutaguchi (@mutaguchi) April 24, 2024 商用LLM APIとローカルLLMって使い方が全然違う気がしてる。 商用LLM APIって、機微情報を送らないこと、規約違反テキストを送らないこ

                          LLMプロダクト開発とはどういうものなのか?|erukiti
                        • 【日本人エンジニア必見】英語圏の優良学習コンテンツまとめ - Qiita

                          弊社Nucoでは、他にも様々なお役立ち記事を公開しています。よかったら、Organizationのページも覗いてみてください。 また、Nucoでは一緒に働く仲間も募集しています!興味をお持ちいただける方は、こちらまで。 はじめに エンジニアリングの分野では、技術の進化が日々進んでおり、エンジニアにとって継続的な学習が不可欠です。新しい技術の習得やスキルの向上に有効な学習手段が重要です。 日本では日本語のコンテンツはもちろんありますが、最先端の技術を取得するには、英語圏のコンテンツは切りたくても切り離せないことです。本記事は、日本人エンジニアが自身のスキルを向上させ、最新の技術に追いつくための優れた英語コンテンツをご紹介します。 エンジニア向けのおすすめの英語コンテンツ一覧 エンジニアにおすすめ17の英語コンテンツをご紹介します。 1.Codecademy (Website): 難易度:★★

                            【日本人エンジニア必見】英語圏の優良学習コンテンツまとめ - Qiita
                          • 読売新聞、Web記事の“生成AIへの学習利用”を禁止に 利用規約を改定 スクレイピングなどもNG

                            読売新聞社は1月25日、Webメディア「読売新聞オンライン」の利用規約を改定すると発表した。掲載記事を生成AIなどに学習させる行為などを新たに禁じる。2月1日から適用する。 禁止事項として新たに3点を追加。「データマイニング、テキストマイニングなどのコンピュータによる言語解析行為」「クローリング、スクレイピングなどの自動化した手段でデータ収集や抽出、加工、解析、蓄積などをする行為」「生成AIなどに学習させる行為、生成AIなどを開発する行為」を禁じた。 これらの禁止事項を含めた情報解析のために、同メディアの記事を利用したい場合は、読売新聞とライセンス契約を結ぶ必要があるとしている。 生成AIを巡っては、米The New York Timesは2023年12月に米Microsoftと米OpenAIを著作権侵害で提訴するなど、新聞業界は反発している。The New York Timesは「両社が

                              読売新聞、Web記事の“生成AIへの学習利用”を禁止に 利用規約を改定 スクレイピングなどもNG
                            • 大規模データを扱う現場でどんな変化が? Snowflake導入5社のデータ基盤アーキテクチャと設計意図 - Findy Tools

                              公開日 2024/03/11更新日 2024/03/12大規模データを扱う現場でどんな変化が? Snowflake導入5社のデータ基盤アーキテクチャと設計意図 スケーラビリティやデータ活用までのリードタイム、価格面での懸念に応える製品として注目を集めるSnowflake。特に大規模なデータを取り扱う現場では、Snowflake導入によってどんな変化があるのでしょうか。 本記事では、前回の第一弾でご紹介したChatworkさん、delyさん、GENDAさん、スターフェスティバルさんに引き続き、第二弾として大規模データを取り扱う5社に、データ基盤の設計思想やデータチームの方針にも触れながら、Snowflake導入の背景や効果を伺いました。 ■目次 ・株式会社Algoage ・株式会社GROWTH VERSE ・株式会社マイナビ ・ノバセル株式会社 ・株式会社セゾン情報システムズ 株式会社Alg

                                大規模データを扱う現場でどんな変化が? Snowflake導入5社のデータ基盤アーキテクチャと設計意図 - Findy Tools
                              • 深層学習VS決定木:テーブルデータ分析の未来|PKSHA Delta

                                深層学習の技術が著しく進歩した結果、コンピュータビジョンや自然言語処理、音声信号処理などの分野では深層学習モデルの性能が古典的な手法のを大きく上回っており、すでにスタンダードなアプローチになっています。 しかし、テーブルデータを扱うタスクにおいては、深層学習の有効性は明らかになっていません。本記事ではテーブルデータにおける従来手法と深層学習の比較論文のご紹介をしていきます。 背景近年、テーブルデータを扱う深層学習モデルも登場し、一部の論文では決定木ベースのモデルと同等かそれ以上の性能を示しています。しかし、私が実務で試す中では決定木ベースのモデルの方が性能が高く、学習と推論が速く運用コストでも優れているため、深層学習モデル採用には至っていません。 より一般的なテーブルデータのタスクにおける、決定木ベースモデルと深層学習モデルとの性能比較の文献を調べたところ、NeurIPS 2022で発表さ

                                  深層学習VS決定木:テーブルデータ分析の未来|PKSHA Delta
                                • イスラエルはパレスチナ人の日常生活の監視・統制を最先端の「ウルフ・パック」で自動化しているとの指摘

                                  パレスチナ自治区のヨルダン川西岸にあるヘブロンは、ユダヤ教やキリスト教、イスラム教の聖地のひとつとして知られている土地です。このヘブロンではイスラエルによるパレスチナ人に対する厳しい監視と統制が行われており、これには最先端のテクノロジーの数々が使用されています。そんなヘブロンで実施されているパレスチナ人への監視の実態を、カタールメディアのアルジャジーラがまとめた動画が公開されました。 How Israel automated occupation in Hebron | The Listening Post - YouTube パレスチナ自治区ヨルダン川西岸にあるヘブロンは、さまざまな宗教の聖地のひとつとして知られる土地です。この土地ではパレスチナ人だけでなく、イスラエルからの入植者や不法行為を行うユダヤ人コミュニティなど、さまざまな人々が暮らしています。 ヘブロンの街中を歩くといたるとこ

                                    イスラエルはパレスチナ人の日常生活の監視・統制を最先端の「ウルフ・パック」で自動化しているとの指摘
                                  • NN研究における再現性にまつわるエトセトラ - 渋谷駅前で働くデータサイエンティストのブログ

                                    先日、ふとしたきっかけでしましま先生*1がこちらの論文について触れられているのを見かけたのでした。 これは推薦システム分野におけるNN研究の再現性について検証した2019年の論文で、近年のトップ会議*2に採択されたNN手法18個に対して再現を試みたところ、「reasonableな」努力で再現できたのはわずかに7個に過ぎず、その中でも1個は論文中で主張されたベースラインを超えることは出来なかったと報告しています。 ただ、この報告はNN研究における再現性に関する議論のあくまでも一例であり、実際コロナ禍以前から「論文中ではSOTAを達成と書いているのに同じ実装をどう組んでもSOTAに達しない」みたいな業界噂話はそこかしこで耳にしたものでした。しかしながら、実際のソフトウェアやアプリケーションとしてそれらのNN手法が用いられて、尚且つその結果として何かしらの不具合でも起きない限りは、機械学習業界の

                                      NN研究における再現性にまつわるエトセトラ - 渋谷駅前で働くデータサイエンティストのブログ
                                    • 過学習(過剰適合)のはなし - 渋谷駅前で働くデータサイエンティストのブログ

                                      すっかりおじさんになってしまった身としては近年の日本のミュージックシーンに極めて疎くなって久しいのですが、最近になってAdoさん*1の楽曲に『過学習』というタイトルのものがあるということを知ったのでした。 一体どこで「過学習」なんてマニアックなテクニカルタームが存在することを知って、あまつさえ楽曲のタイトルにしようと考えたのか、というのが不思議で仕方ないのですが、機械学習や統計学を初めとするデータサイエンス領域の人々ぐらいにしか馴染みのなかった語がこうして人口に膾炙しているのかと思うとなかなかに感慨深いものがあります。 ということで、「過学習」とはどういうものであり、どのような場面で生じ、それをどうすれば避けられるか、という点について簡単にまとめてみることにしました。このテーマでは過去に何度もブログ記事を書いており、もはや何周目の話題なんだという感もありますが、温故知新ということでご容赦い

                                        過学習(過剰適合)のはなし - 渋谷駅前で働くデータサイエンティストのブログ
                                      • WebAssemblyとWebGPUを用い、Webブラウザ上でStable Diffusion Turbo全体を高速実行可能な推論エンジン「ONNX Runtime Web 1.17」マイクロソフトから登場

                                        WebAssemblyとWebGPUを用い、Webブラウザ上でStable Diffusion Turbo全体を高速実行可能な推論エンジン「ONNX Runtime Web 1.17」マイクロソフトから登場 ONNX Runtime WebがWebGPUに対応。Webブラウザ上でさらに高速な推論処理が可能になった。Stable Diffusion Turbo全体をWebブラウザ上で高速に実行可能で、RTX4090を用いた場合1秒以内で結果が出力される。 ONNX Runtime Webの基になっている「ONNX Runtime」はクロスプラットフォーム対応の推論エンジンです。TensorFlow、PyTorch、SciKit Learnなどをはじめとするさまざまな機械学習のモデルに対応し、これらで生成されたモデルによる推論処理をプラットフォームに依存せず実行するランタイムの役割を果たします

                                          WebAssemblyとWebGPUを用い、Webブラウザ上でStable Diffusion Turbo全体を高速実行可能な推論エンジン「ONNX Runtime Web 1.17」マイクロソフトから登場
                                        • 強化学習未経験者がテトリスの AI を作ってみた話

                                          はじめに この度、強化学習によるテトリスの AI を作成してみました。想像以上にうまくいき、最終的には半永久的にラインを消してくれる AI に成長してくれたので、今回はその記録として AI を作成した過程をここに記していきます! 今回の AI の概要 今回作成したテトリス AI の概要は以下の通りです。 特定のゲームの状態から可能な行動パターンを全てシミュレーションする 行動後の状態を入力情報として Neural Network に今後の報酬の期待値を推測させる 今後の報酬の期待値が一番高くなる行動を実際の行動として選択して遷移する (貪欲方策) Game Over になるまで 1 ~ 3 を繰り返す Tetris AI を可視化した図 何も知らない頃は『AI ってどうやって動いてるんだ?』と自分は思っていたんですが、動作原理は非常にシンプルです。強化学習とは、この今後の報酬の期待値を推測

                                            強化学習未経験者がテトリスの AI を作ってみた話
                                          • AWS 内で大規模言語モデルを利用できる Amazon Bedrock を使って作る RAG アプリケーション - クックパッド開発者ブログ

                                            こんにちは。機械学習グループの深澤(@fukkaa1225)です。 先日、Amazon Bedrock が一般利用できるよう(GA)になりました 。本記事ではこちらを用いて RAG(Retrieval-augmented generation) アプリケーションを作成してみた様子と、他 LLM モデルとの比較結果についてご紹介します。 Amazon Bedrock とは aws.amazon.com 公式サイトより文言を引用します。 Amazon Bedrock は、Amazon や主要な AI スタートアップ企業が提供する基盤モデル (FM) を API を通じて利用できるようにする完全マネージド型サービスです。そのため、さまざまな FM から選択して、ユースケースに最も適したモデルを見つけることができます。Amazon Bedrock のサーバーレスエクスペリエンスにより、すぐに FM

                                              AWS 内で大規模言語モデルを利用できる Amazon Bedrock を使って作る RAG アプリケーション - クックパッド開発者ブログ
                                            • 「ゼロからGPU開発」に経験なし&わずか2週間で成功した猛者が登場

                                              コードなしでWeb3コンテンツなどを開発することができるプラットフォーム・thirdwebの創設者であるadammaj氏が、「経験なしで2週間でゼロからGPUを構築した」と報告しています。 I've spent the past ~2 weeks building a GPU from scratch with no prior experience. It was way harder than I expected. Progress tracker in thread (coolest stuff at the end)👇 pic.twitter.com/VDJHnaIheb— adammaj (@MajmudarAdam) ◆ステップ1:GPUアーキテクチャの基礎を学ぶ adammaj氏はまず、最新のGPUがアーキテクチャレベルでどのように機能しているのかを理解しようとしたそうで

                                                「ゼロからGPU開発」に経験なし&わずか2週間で成功した猛者が登場
                                              • 最終出社日でした - @watson1978 の日記

                                                今日はReproでの最終出社日。思い返せば 30 歳も過ぎてから Ruby とどう関わっていくかという人生だった。 MacRuby (2010年~) 暇つぶしに Mac OS X のアプリを作ってみようかと思い立った時に出会ったプロジェクトだった。 今のように Swift や clang というコンパイラもなく、 Objective-C 言語というとにかく [] を書きまくらないとならずどうにもなじめなかった。もともと趣味で Ruby はさわっていたのでそれでアプリが作れたら良いのにと思っていたところで、渡りに船的にさわり始めたのがきっかけだった。 私がさわり始めたころはちょっとしたコードを書いてもすぐにクラッシュするような感じで、ちまちま「こういうコードを書くとクラッシュするんだけど何でだろう?」とプロジェクトの issue に書き連ね、気がついたら「こういう風に直すと動くようになるんだ

                                                  最終出社日でした - @watson1978 の日記
                                                • オンライン決済サービスのStripeが50以上の新機能を一斉に公開

                                                  オンライン決済サービスのStripeが年次カンファレンス「Stripe Sessions 2024」で、不正使用をチェックするAIツールの追加や従量制課金のアップグレードなど、50種類以上の新機能をアップデートしたと発表しました。記事作成時点でリリース予定の新機能は250種類以上あるとのことで、今回発表されたのはその一部とのことです。 Stripe Sessions: 50+ announcements, including AI-powered payments, major upgrades to Connect, interoperability, and more https://stripe.com/jp/newsroom/news/sessions-2024 Our biggest product updates from Sessions 2024 https://strip

                                                    オンライン決済サービスのStripeが50以上の新機能を一斉に公開
                                                  • ChatGPTでフィッシングサイトを自動検出する方法 NTTセキュリティが開発 精度は98%以上

                                                    Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2 NTTセキュリティ・ジャパンに所属する研究者らが発表した論文「Detecting Phishing Sites Using ChatGPT」は、ChatGPTでフィッシングサイトを検出する手法を提案した研究報告である。 この手法では、Webサイトから情報を収集するためにWebクローラーを使用し、その収集したデータを元にプロンプトを作成する。プロンプトはChatGPTに提示され、ChatGPTは与えられたWebサイトがフィッシングサイトかどうかを判断する。 WebクローリングとChatGPTの組み合わせにより、Webサイトの正当性や怪しさに関する情報に基

                                                      ChatGPTでフィッシングサイトを自動検出する方法 NTTセキュリティが開発 精度は98%以上
                                                    • Prompt Flowを使ってRAGの回答を自動評価する - Taste of Tech Topics

                                                      皆さんこんにちは。データサイエンティストチームYAMALEXのSsk1029Takashiです。 YAMALEXは Acroquest 社内で発足した、会社の未来の技術を創る、機械学習がメインテーマのデータサイエンスチームです。 Microsoft Buildを経て、AzureにもGPTを利用したサービスが数多く発表されており、LLMをサービスとして利用できる使い方増えていてワクワクしますね。 今回と次回の記事を通して、その中のサービスの一つであるAzure Machine Learning Prompt Flowというサービスを使ってRAG(Retrieval Augmented Generation)の回答を自動評価するシステムを試してみます。 この記事では、まずはPrompt Flowを使って手動で回答を評価してみるところまでを検証します。 ※RAGとは事前に知識を検索エンジンなどに

                                                        Prompt Flowを使ってRAGの回答を自動評価する - Taste of Tech Topics
                                                      • 23/7/5 データサイエンスエキスパート合格 チートシートと攻略ガイド - LWのサイゼリヤ

                                                        データサイエンスエキスパート ゲームクリア 攻略チートシート配布 攻略指針 図書館を巡ってアイテム収集 図書館の初見殺しトラップ攻略 参考書籍 統計基礎 統計学(初歩) 統計学(高度) ベイズ統計 分散分析 数学基礎 線形代数 微積分 計算基礎 情報全般 データベース アルゴリズム モデリング・AIと評価 歴史・応用分野・AIなど 多変量解析 時系列解析 グラフィカルモデル テキスト分析 因果推論 機械学習・モデル評価・ニューラルネットワーク データサイエンスエキスパート ゲームクリア 日本統計学会が主催するデータサイエンスエキスパート試験に合格した。 www.toukei-kentei.jp データサイエンスエキスパートは、統計検定より実践寄りであるデータサイエンスシリーズの最上位資格という位置付け。下位資格には「データサイエンス基礎」や「データサイエンス発展」があるが簡単そうだったので

                                                          23/7/5 データサイエンスエキスパート合格 チートシートと攻略ガイド - LWのサイゼリヤ
                                                        • ワクチンツイート分析における「ワクチン賛成派」とは誰か

                                                          解答フォローアカウントのうち、ワクチン反対ツイートをした/RTしたアカウントの割合が少ないアカウント まとめ(および私見)上記解答は「ワクチンに賛成しているグループ」とはイコールではない 元論文では基本的に「反ワクチン性が低い」という表現で書かれており、これを「ワクチン賛成派」とするのはミスリーディングに近いワクチン反対派のみを対象とした考察はまだしも、「賛成派」との比較を前提とした考察は正しいのか疑問が残る人はなぜワクチン反対派になるのか ―コロナ禍におけるワクチンツイートの分析― https://www.t.u-tokyo.ac.jp/press/pr2024-02-05-001 〈研究の内容〉 本研究はまず、2021年1月から12月までに収集された「ワクチン」を含む約1億件のツイートを収集し、機械学習を用いて「ワクチン賛成ツイート」「ワクチン政策批判ツイート」「ワクチン反対ツイート」

                                                            ワクチンツイート分析における「ワクチン賛成派」とは誰か
                                                          • 2023年版!エンジニア必見のチートシート集 - Qiita

                                                            2. 機械学習・AIチートシート まずは機械学習やAI開発に関わるチートシートからです! Machine Learning Cheat Sheet | DataCamp 主要な機械学習アルゴリズム、その利点と欠点、および使用ケースをガイドするものです。初心者からエキスパートまで、誰でも役立つリソースです。 機械学習アルゴリズム チートシート MicrosoftのAzureが提供している機械学習アルゴリズムに関するチートシートです。 TensorFlow Cheat Sheet https://zerotomastery.io/cheatsheets/tensorflow-cheat-sheet/ 機械学習と人工知能のためのオープンソースライブラリ、TensorFlowのチートシートです。基本的な概念やベストプラクティスがまとめられています。 (メールアドレスでサブスクライブするとPDFがダ

                                                              2023年版!エンジニア必見のチートシート集 - Qiita
                                                            • 「量子コンピューターの性能は誇張されており実用化はまだまだ遠い」と専門家が指摘

                                                              量子力学の法則を利用することで通常のコンピューターよりも複雑な計算を高速で行えると考えられている量子コンピュータは、MicrosoftやIntelなど、さまざまな企業が研究開発に取り組んでいます。しかし、一部の専門家は、量子コンピューターの実現について「多くの人が思っているよりもさらに未来のことになる可能性がある」と指摘しています。 Quantum Computing’s Hard, Cold Reality Check - IEEE Spectrum https://spectrum.ieee.org/quantum-computing-skeptics 素粒子の世界で見られる「重ね合わせ」や「量子もつれ」などの性質を利用して、従来のコンピュータでは不可能な処理を行うことができると考えられている量子コンピューターは、財務モデリングや物流の最適化、機械学習の高速化など、現実のさまざまな問題

                                                                「量子コンピューターの性能は誇張されており実用化はまだまだ遠い」と専門家が指摘
                                                              • AIが5時間足らずでRISC-V CPUを設計。性能はi486SX程度 | テクノエッジ TechnoEdge

                                                                ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 中国の研究グループが、「AIを用いて自動化したたCPU設計」(Pushing the Limits of Machine Design: Automated CPU Design with AI)と題した論文を発表しました。この論文では、わずか5時間足らずで産業グレードのRISC-V CPUを設計できたと報告しています。 この実験は、機械が人間と同じようにCPUチップの設計ができるのかを検証する目的で行われました。初期の実験ではわりと単純で小規模なチップを作らせていたものの、新しい実験では、AIによる設計の限界を調べるために、RISC-V CPUを自動的に設計させようとしました。 研究者らはモデルとする一連の

                                                                  AIが5時間足らずでRISC-V CPUを設計。性能はi486SX程度 | テクノエッジ TechnoEdge
                                                                • 社内文書検索&QAシステムの RAG ではないところ - Algomatic Tech Blog

                                                                  こんにちは。NEO(x) 機械学習エンジニアの宮脇(@catshun_)です。 RAG システムの開発、いざ業務に統合するとなると結構大変ですよね。 構築してみたがユーザ数が伸びず、、なんてことはよくあると思います。 実際こんな記事も話題になりましたね。 本記事では、コラムとして RAG システムの設計で考慮したい点を自戒を込めて記述したいと思います。 誤っている記述等もあると思いますが、本記事を読んだ方の議論のネタになってくれれば幸いです。 また Retrieval-based LM の技術的な話は、以下で触れておりますので併せてご覧ください。 RAG とは RAG (Retrieval-Augmented Generation) とは、社内文書・長期記憶に該当する対話履歴・API 仕様書などの 外部知識資源 を、言語モデルが扱えるよう入力系列に挿入する手法です。もともと Lewis+'

                                                                    社内文書検索&QAシステムの RAG ではないところ - Algomatic Tech Blog
                                                                  • GPT-3.5に画像分類タスクを解かせる - DROBEプロダクト開発ブログ

                                                                    概要 背景・目的 関連研究 提案手法 実験 終わりに 参考文献 DROBEで機械学習エンジニアをしております、藤崎です。 概要 ファッションの分野ではトレンドの変化とそれに伴う属性情報の変動に対応するため、画像分類AIモデルを頻繁にアップデートする必要性がある。 しかし、既存の画像分類AIモデルのアップデートには、労力と時間が掛かる。 様々なタスクの遂行能力が高いGPT-3.5に画像処理能力を付与し、画像分類タスクに挑戦した。 既存の研究(ex. HuggingGPT)と違って、GPT-3.5自体が画像分類の推論を行う点がユニークである。 実験からは有望な結果が得られた。 今後の性能向上はプロンプトを工夫するなど、比較的簡単な方法で達成できる可能性がある。 背景・目的 ファッションの業界は、トレンドの変化が早く、新しいスタイルが次々と提案されます。それに伴い、スタイルに付随する属性情報も常

                                                                      GPT-3.5に画像分類タスクを解かせる - DROBEプロダクト開発ブログ
                                                                    • 生成AIの用語10選 ~ 一般ユーザーが知っておくべき基礎知識

                                                                      連載目次 本連載『AI・機械学習の用語辞典』では、AIや機械学習に関連する専門用語をできるだけかみ砕いて分かりやすく解説しています。コンパクトながらも、必要十分な知識が得られる内容を目指しています。 これまでに公開した用語は149語です。詳しくはabc/あいうえお順のキーワード目次を参照してください。 今回は第150回を記念して、これまでに公開した「生成AI」に関連する用語を厳選してピックアップし、合計10個の用語をまとめてみました(図1)。 新しい生成AI時代を生きる現在の社会人にとって必須の基礎知識になると思います。ぜひ社内教育などで知識ゼロの人に「まずは、これを読んでおいてね!」とお勧めしていただけるとうれしいです。 1. 生成系AI(GenAI) 生成系AI(GenAI:Generative AI)とは、全く新しいオリジナルのアウトプットを生み出すAIです。具体的には、デジタルの画

                                                                        生成AIの用語10選 ~ 一般ユーザーが知っておくべき基礎知識
                                                                      • ChatGPT商用利用時、規約上の注意点3つ|元ITエンジニアの弁護士が徹底解説

                                                                        ChatGPT商用利用時、規約上の注意点3つ|元ITエンジニアの弁護士が徹底解説 2023年9月28日 モノリス法律事務所 代表弁護士 河瀬 季 元ITエンジニア。IT企業経営の経験を経て、東証プライム上場企業からシードステージのベンチャーまで、100社以上の顧問弁護士、監査役等を務め、IT・ベンチャー・インターネット・YouTube法務などを中心に手がける。主な著書に「ChatGPTの法律」(共著 中央経済社)・「ITエンジニアのやさしい法律Q&A」(技術評論社)・「IT弁護士さん、YouTubeの法律と規約について教えてください」(祥伝社)などがある。まんがタイムきららフォワード(芳文社)にて原作を手がける「仮想世界のテミス」連載中。 X(@tokikawase) 例えば、ChatGPTの生成する回答は、情報が不正確である危険性があり、これを利用したサービスを公開等する場合、AI生成物

                                                                          ChatGPT商用利用時、規約上の注意点3つ|元ITエンジニアの弁護士が徹底解説
                                                                        • AWSのコード生成AI「CodeWhisperer」、生成モデルのカスタマイズが可能に。社内の独自ライブラリやAPIを生成コードに組み込める新機能がプレビュー公開

                                                                          AWSのコード生成AI「CodeWhisperer」、生成モデルのカスタマイズが可能に。社内の独自ライブラリやAPIを生成コードに組み込める新機能がプレビュー公開 Amazon Web Services(AWS)は、コメントやコードの一部からAIがコードを自動生成してくれるサービス「Amazon CodeWhisperer」の新機能として、生成モデルをカスタマイズし、社内の独自ライブラリやAPIなども生成されるコードに組み込むことができる新機能をプレビュー公開しました。 下記はAWS CEO Adam Selipsky氏のツイート。 Exciting news! Amazon CodeWhisperer’s new customization capability is now available in preview! The new feature helps customers to

                                                                            AWSのコード生成AI「CodeWhisperer」、生成モデルのカスタマイズが可能に。社内の独自ライブラリやAPIを生成コードに組み込める新機能がプレビュー公開
                                                                          • アレンジした「使い回しパスワード」でも破られる、高確率で推測する手法が出現

                                                                            言うまでもなくパスワードの使い回しは危険だ。あるWebサービスからパスワードが流出した場合、別のWebサービスに不正にログインされる恐れがある。いわゆるリスト型攻撃だ。 これを避けるには、Webサービスごとに異なるパスワードを設定する必要がある。とはいえ、1人で多数のWebサービスを利用している現状では、全く異なるパスワードを設定するのは難しい。ベースとなるパスワードを1つ決めて、それをアレンジすることで異なるパスワードをつくっている人は多いはずだ。例えば冒頭や末尾に文字列を追加したり、一部の文字列を別の文字列に置き換えたりする。 ところが元のパスワードからアレンジ後のパスワードを推測される恐れがあるという。その推測方法を紹介しよう。 アレンジのプロセスをモデル化 ユーザーはどのようにパスワードをアレンジするのだろうか――。中国の研究者グループはそのプロセスを機械学習のモデルにし、高確率で

                                                                              アレンジした「使い回しパスワード」でも破られる、高確率で推測する手法が出現
                                                                            • OpenAIはChatGPTを消去して作り直さなければならないかも知れない | TEXAL

                                                                              The New York Times紙(NYT)がサービス利用規約(TOS)を更新し、AI企業がAIモデルを訓練するために記事や画像をスクレイピングすることを禁止していることが明らかになったが、どうやら事態はそれだけでは収まらないようだ。 NPRの報道によると、NYTとOpenAIはライセンス契約をめぐって数週間にわたり難航しているが、合意に達することはできていない。交渉は行き詰まっており、NYTは現在訴訟を検討しているようだ。 NPRは、この件に関して“直接知っている”2人の匿名の情報筋の話を引用しており、訴訟の結果次第ではChatGPTのデータセットは再構築を余儀なくされ、侵害コンテンツ1つにつき最高15万ドルの罰金が科されるなど、OpenAIに壊滅的な打撃を与える可能性があると専門家は推測している。NYTの弁護士は、同紙の報道の “知的財産権を守るために”訴訟が必要かどうか熟考してい

                                                                                OpenAIはChatGPTを消去して作り直さなければならないかも知れない | TEXAL
                                                                              • AI開発・運用手法「MLOps」の資料、サイバーエージェントが無料公開 全500ページ超えの大ボリューム

                                                                                サイバーエージェントは23年にもMLOpsに関する研修資料を公開していたが、この際に公開したのはMLOpsの応用編に関する資料のみだった。「より良いMLOpsを構築するには、アプリケーションやインフラの知識も必要。そのため、24年は、MLエンジニアだけでなくソフトウェアエンジニアも講義に参加し、新たに実践編が加わえて、より業務を意識した講義が追加した」(同社) 関連記事 サイバーエージェント、AI開発手法「MLOps」の研修資料を無償公開 全140ページ サイバーエージェントは、新入社員の研修で使ったという資料を無償公開した。内容は、AIや機械学習アルゴリズムの開発手法「MLOps」に関するもので、全140ページ。 サイバーエージェント、新卒エンジニアの研修資料を2つ無料公開 「システム運用」と「オブザーバビリティ」を解説 サイバーエージェントは、同社の新入社員研修で使った資料「システム運

                                                                                  AI開発・運用手法「MLOps」の資料、サイバーエージェントが無料公開 全500ページ超えの大ボリューム
                                                                                • 声帯の損傷やマヒがある人でも話せるようになる「喉に貼るパッチ」が開発される

                                                                                  by Jun Chen Lab at UCLA 咽喉がんの手術や声帯ポリープなどの影響で声帯が使えなくなってしまった人でも話せるようになる「喉に貼るパッチ」を、カリフォルニア大学ロサンゼルス校の研究チームが開発しました。このパッチは小さくて伸縮性があり、発話に伴う筋肉の動きのみで発電するためバッテリーやプラグも不要とのことです。 Speaking without vocal folds using a machine-learning-assisted wearable sensing-actuation system | Nature Communications https://www.nature.com/articles/s41467-024-45915-7 New throat patch can turn muscle movements into speech https:/

                                                                                    声帯の損傷やマヒがある人でも話せるようになる「喉に貼るパッチ」が開発される