ブックマーク / atmarkit.itmedia.co.jp (71)

  • ベクトルデータベース(Vector Database)/ベクトルストア(Vector Store)とは?

    ベクトルデータベース(Vector Database)/ベクトルストア(Vector Store)とは?:AI機械学習の用語辞典 ベクトルデータベースとは、テキストなどのデータを数値ベクトル(埋め込み)として保存するデータベースを指す。「ベクトルストア」とも呼ばれる。ベクトル検索により、意味的に類似する情報を探せるのが特徴で、チャットAIのRAG構築に役立つ。稿ではベクトル検索の機能を持つ代表的な製品の概要もそれぞれ簡単に紹介する。 連載目次 用語解説 生成系AI/自然言語処理におけるベクトルデータベース(Vector Database、ベクターデータベース、ベクトルDB)とは、主に単語や文章(テキスト)、画像、音声などの複雑なデータを、AI機械学習/言語モデルが処理しやすい数値ベクトル表現として保存するデータベースのことである。この数値ベクトル表現は「埋め込み表現(Embeddin

    ベクトルデータベース(Vector Database)/ベクトルストア(Vector Store)とは?
    masadream
    masadream 2024/03/10
    現行製品の端的なまとめ。「今後、データベースでのベクトル検索は標準機能となっていく可能性が高い(と筆者は考えている)」
  • データ分析もChatGPTの機能(旧Code Interpreter)でできるか、やったみた【番外編】

    データ分析ChatGPTの機能(旧Code Interpreter)でできるか、やったみた【番外編】:AI・データサイエンス超入門 ChatGPTの「高度データ分析」機能がデータサイエンスを変える? 素人でも簡単にデータ分析ができるようになるのか? 筆者が実際に挑戦し、実体験に基づく感想と洞察をお届けします。連載の流れとは関係がない番外編です。

    データ分析もChatGPTの機能(旧Code Interpreter)でできるか、やったみた【番外編】
  • 日本企業の半数が「職場での生成AI利用」を歓迎していない BlackBerry

    データ侵害、知的財産へのリスク、誤った情報の拡散などが懸念材料 調査結果によると、職場で「ChatGPT」やその他の生成AIアプリケーションを禁止している(もしくは禁止を検討している)日企業の割合は72%だった。また、「安全ではないアプリケーションが企業のIT環境にサイバーセキュリティ上の脅威をもたらすことを懸念している」と回答した人の割合は81%だった。 関連記事 企業は生成AIセキュリティリスクとどう付き合うべきか、うっかり情報漏えいやプロンプトインジェクションへの対応方法とは ChatGPTをきっかけとして、生成AIへの関心が急速な高まりを見せている。だがセキュリティリスクも考える必要がある。企業はリスクを制御しながら、生成AIをどう活用していくべきか、NRIセキュアによる説明をお届けする。 生成AIは人間が思うほど賢くはないが、人間も同じだ 生成AIのチャットエンジンから一見知

    日本企業の半数が「職場での生成AI利用」を歓迎していない BlackBerry
    masadream
    masadream 2023/09/23
    「顧客や第三者のデータ侵害、知的財産へのリスク、誤った情報の拡散が禁止措置の判断を後押ししている」わりと真っ当な反応だった。
  • ChatGPTやInstructGPTはなぜユーザーの意図に沿った返答を生成できるのか?

    ChatGPTやInstructGPTはなぜユーザーの意図に沿った返答を生成できるのか?:ChatGPT入門 ChatGPTやその前身ともいえるInstructGPTは、GPTとは異なる目的を持ったモデルです。それ故にこれまでとは異なり、ユーザーの意図に沿ったテキストを生成できます。その違いを見てみましょう。 連載目次 GPT、InstructGPT、そしてChatGPT ChatGPTはその名の通り、対話に特化した言語モデルです。GPT 3(GPT 3.5)をベースとしていますが、GPT 3からChatGPTが生まれるまでの間にはもう一つ重要な言語モデルがあります。それがInstructGPTです(InstructGPT自体はGPT 3をベースとしているようです)。 では、GPT→InstructGPT→ChatGPTという進化がなぜ起きたのでしょう。InstructGPTについての論文

    ChatGPTやInstructGPTはなぜユーザーの意図に沿った返答を生成できるのか?
  • 2023年の「AI/機械学習」はこうなる! 6大予測

    連載目次 年末なので、2020年/2021年/2022年に続き今年も、来年2023年向けの「AI機械学習の予測」をしてみようと思う。とはいっても、未来を予言できるほどの情報力も自信も筆者にはないので、幾つかのサイトからの情報源(稿の最後に掲載)を大いに参考にして、筆者なりの考えをまとめてみる。稿では、下記の6項目を予想した。 最先端AIで「オープンソース」が流行して技術発展が加速する 一般社会で「生成系AI」への注目が拡大していく 「データ&AI活用の民主化」が浸透していく 生成系AIの発展に伴い「問題」がより顕在化していく 「RLHF(人間のフィードバックを用いた強化学習)」の応用が広がる 「基盤モデル(Foundation Model)」が続々と登場する 上記の幾つかの技術は、説明の切り口が違うだけで内容がオーバーラップしていることを、あらかじめご容赦いただきたい。知っておくべき

    2023年の「AI/機械学習」はこうなる! 6大予測
  • 「Python 3.11」からその成果が得られ始めたPython高速化プロジェクトとは

    このうち、最初の2つはPythonプログラム実行中にPythonで記述された関数が呼び出される際の処理の高速化やメモリ使用の効率化に役立っている。最後の特殊化適応的インタプリターは、さまざまな型を扱えるように生成されたバイトコードを、特定の型のオブジェクトに適応するバイトコードに変更することで処理の高速化を狙うものといえる。 フレームオブジェクトの遅延作成 ここでいうフレームオブジェクトとは、関数を呼び出すごとに作成され、その関数の実行情報を格納するオブジェクトのことだ。関数内のローカル変数や評価スタック、コードオブジェクト(実行するコードを表すオブジェクト)などは一般にフレームオブジェクトに保持される。 Python 3.10まではこのフレームオブジェクトが関数呼び出しのたびに作成され、CPythonを実装しているC言語側のヒープに確保されるようになっていた。しかし、メモリ確保は高価な処

    「Python 3.11」からその成果が得られ始めたPython高速化プロジェクトとは
  • Pythonが平均1.22倍高速化、メジャー安定版「Python 3.11」の機能向上とは

    プログラミング言語「Python」を開発するPython Software Foundationは2022年10月24日(米国時間)、Pythonの最新のメジャー安定版リリース「Python 3.11.0」を公開した。 Python 3.11.0では多くの新機能が導入され、多くの最適化が施されている。Python Software Foundationは主要な新機能と変更点を、一般的な変更点と、型付けおよび型付け言語の変更点に大別して紹介している。なお、以下の「PEP」で始まる番号は、Pythonの拡張提案を記した文書の通し番号を指す。PEPは、Python Enhancement Proposalの略。また、「gh-」で始まる番号は、GitHubのプルリクエスト番号を指す。 一般的な変更点 PEP 657:トレースバックにエラーの場所の詳細が追加 関連記事 謎めく「言語ランキング」の世界

    Pythonが平均1.22倍高速化、メジャー安定版「Python 3.11」の機能向上とは
  • 「不足しているのは人材ばかりではない」 ガートナーが指摘する日本企業のDX課題とは

    ガートナージャパンは「DX(デジタルトランスフォーメーション)の実現にはデータとアナリティクス(D&A)の活用が不可欠で、そのためにはデータを駆動力としてビジネスを推進するデータドリブンが求められる」としている。 DXは「人」だけでは成功しない ガートナージャパンのアナリストでシニアディレクターを務める一志達也氏は、「日企業はDXの成功を目指してデータの民主化やデータ人材、デジタル人材の育成を掲げている。しかし、人だけで成功することは難しい。他に何をしなければならないのか、重要性の高い主たる要素を理解し、それを備えるために戦略的に行動すべきだ」と述べている。 一志氏は、データドリブンな組織になるために企業がバランス良く備えるべき要素として、次の4つを挙げている。 スキルやリテラシーを備えた人 「高度な人材ほど役割を明確にし、組織のどこでどのように動き、どのような成果を求めるかを、組織と人

    「不足しているのは人材ばかりではない」 ガートナーが指摘する日本企業のDX課題とは
  • 「まず経営幹部が作った」、ノーコード開発で1万7000のアプリを生み出したLIXILは、アプリ開発の民主化をどう進めてきたか

    「まず経営幹部が作った」、ノーコード開発で1万7000のアプリを生み出したLIXILは、アプリ開発の民主化をどう進めてきたか:アプリ乱立の収束も割り切って進める LIXILは「全従業員が開発者」を目指し、ノーコードアプリ開発ツールの全社展開を進めている。2021年10月に始まったこのプロジェクトで、既に約4000人の従業員が約1万7000のアプリケーションを開発した。 LIXILは2022年6月24日、同社におけるアプリ開発の民主化について説明した。ノーコードアプリケーション開発ツール「Google AppSheet」を使い、これまでに約4000人の従業員が約1万7000の業務アプリケーションを生み出したという。 Google Cloud主催の説明会で、LIXILの岩崎磨氏(常務役員 デジタル部門 システム開発運用統括部 リーダー)は、ノーコードアプリ開発の推進に関する承認を得る際、経営幹

    「まず経営幹部が作った」、ノーコード開発で1万7000のアプリを生み出したLIXILは、アプリ開発の民主化をどう進めてきたか
  • 仕様書約8000ページ、NTTドコモが巨大レガシーシステムをクラウドネイティブ化できた理由

    仕様書約8000ページ、NTTドコモが巨大レガシーシステムをクラウドネイティブ化できた理由:既存の構造、方式からの完全脱却 NTTドコモは、1サービス当たりのソースコードが約50万ステップという巨大なレガシーシステムをマイクロサービスに分割し、コンテナ基盤で再構築した。どのようにモダナイゼーションを進めていったのか、同社の担当者が語った。 DX(デジタルトランスフォーメーション)の実現が経営課題となる中で、企業はレガシー化したシステムをモダナイズさせる取り組みを加速させている。だが、ふたを開けてみれば従来のレガシーシステムのアーキテクチャを変えることなくクラウドに移し替えるだけで、インフラのモダナイズができたとするケースもある。 通信大手事業者のNTTドコモは、同社の大規模なレガシーシステムについて「付加価値をもたらさないモダナイズ」を避けるため、システムを移し替えるのではなく、マイクロサ

    仕様書約8000ページ、NTTドコモが巨大レガシーシステムをクラウドネイティブ化できた理由
  • 「デジタル化の意味を『IT化』と混同している」 ガートナーが日本のデジタル化に関する展望を発表

    ガートナージャパンは2022年3月14日、日のデジタル化に関する展望を発表した。それによると「日でのデジタル化はその大半が従来の『IT化』や『情報化』と変わらない」という。同社はその理由を「デジタル化やDX(デジタルトランスフォーメーション)という言葉がちまたにあふれ、技術に直接関わらないビジネス層もデジタル化に取り組むようになったため」と説明している。 ガートナージャパンの鈴木雅喜氏(アナリスト バイスプレジデント)は次のように述べている。 「企業の経営層がデジタル化を戦略として位置付けても、実際には取り組みやすい従来のIT化や情報化にとどまり、質的なビジネス変革を目指す動きが停滞する恐れがある。技術に関わるリーダーはこうした混乱が生じていることを理解し、デジタル化の取り組みの意味についてビジネス部門(事業部門)や経営層に正しく説明しながら、技術を活用した自社のビジネス変革を推進す

    「デジタル化の意味を『IT化』と混同している」 ガートナーが日本のデジタル化に関する展望を発表
  • データ中心のAI(DCAI:Data-Centric AI)とは?

    用語「データ中心のAI」について説明。性能を向上させるために、モデルやアルゴリズムを改善する「モデル中心」のアプローチではなく、機械学習ライフサイクル全体を通じてデータを改善する「データ中心」のアプローチの方が大切だとする、AIの開発方法に関する考え方を指す。 連載目次 用語解説 データ中心のAI(DCAI:Data-Centric AI)とは、従来通りのモデルやアルゴリズムを偏重するアプローチよりも、データに焦点を当てたアプローチの方が大切であるとする、AIの開発方法に関する考え方である。 この考え方の根拠として、たとえ比較的少ないデータ量であったとしてもクリーン(Clean)で高品質なグッドデータ(Good Data)の方が、ノイズの多い(Noisy)ビッグデータ(Big Data)よりも良い性能を発揮することが示されている(図1)。 図1 クリーンなGood DataがノイズありのB

    データ中心のAI(DCAI:Data-Centric AI)とは?
  • 13億パラメーターを持つGPT言語モデルをrinnaが公開、日本語に特化

    GPTは、人間が使う会話や文章に出てくる単語の確率の組み合わせから次の単語の確率を計算する言語モデルだ。 例えば、「確率(吾輩はである)=確率(吾輩)×確率(は|吾輩)×確率(|吾輩,は)×確率(で|吾輩,は,)×確率(ある|吾輩,は,,で)」のような方法で計算する。この性質を用いて、「吾輩は」という単語を入力したとき、次の単語として確率が高い「」を予測できる。 性能は14パープレキシティー 関連記事 2021年の「AI機械学習」はこうなる! 5大予測 2020年は、自然言語処理(NLP)のTransformer技術に基づくBERT/GPT-3や、画像生成のディープフェイクが大注目となる一方で、倫理に関する問題がさまざまな方面でくすぶり続けた。2021年の「AI機械学習」界わいはどう変わっていくのか? 幾つかの情報源を参考に、5個の予測を行う。 Microsoft、自然言語処

    13億パラメーターを持つGPT言語モデルをrinnaが公開、日本語に特化
  • 最小限のPythonコードでAutoMLを実現するローコード機械学習ライブラリ「PyCaret」

    最小限のPythonコードでAutoMLを実現するローコード機械学習ライブラリ「PyCaret」:AutoML OSS入門(6)(1/4 ページ) AutoML OSSを紹介する連載第6回は、ローコード機械学習ライブラリ「PyCaret」を解説します。さまざまな機械学習ライブラリのラッパーであるPyCaretは、データ分析のあらゆる工程でコードの行数を削減します。

    最小限のPythonコードでAutoMLを実現するローコード機械学習ライブラリ「PyCaret」
  • カインズのDXの秘訣は「同じ言葉」で話すこと

    カインズのDXの秘訣は「同じ言葉」で話すこと:IT用語でもなく、店舗用語でもなく(1/3 ページ) エンジニアとはお互いの言葉を使わずに、経営層への説明では定量的な効果と定性的な効果を混ぜながら。ホームセンターの元店長は、カインズDX(デジタルトランスフォーメーション)のハブとなり、橋となった。 「カインズ」は「世界を、日常から変える。」というビジョンの下、全国に226店舗のホームセンターチェーンを展開している。 小売業の中でも際だって扱う品目が幅広く、店舗スペースも広いという特徴を持つホームセンターで、どのようにデジタル技術を生かしてより良い「お買い物体験」を、ひいてはより良い暮らしの実現を支援しようとしているのだろうか。カインズ デジタル戦略部オムニ戦略統括部長の水野圭基氏が「カインズのKindnessなDX推進とは?」と題する講演を通して、これまでの歩みとそこから得られた学びを紹介

    カインズのDXの秘訣は「同じ言葉」で話すこと
  • Gartner、AIイノベーションを促進する4つのトレンドを解説

    Gartnerは4つのトレンドが、近い将来のAIのイノベーションを促進するという見通しを示した。「責任あるAI」「スモールデータとワイドデータのアプローチ」「AIプラットフォームの運用化」「データ、モデル、コンピュートリソースの効率利用」だ。 Gartnerは2021年9月7日(米国時間)、先ごろ発表した「Hype Cycle for Artificial Intelligence, 2021」(AIのハイプ・サイクル:2021年)に含まれる4つのトレンドが、近い将来のAIのイノベーションを促進するとの見通しを示した。 4つのトレンドとは、「責任あるAI」「スモールデータとワイドデータのアプローチ」「AIプラットフォームの運用化」「データ、モデル、コンピュートリソースの効率利用」だ。 Gartnerのシニアプリンシパルリサーチアナリスト、シュバンギ・バシスト氏は、次のように述べている。「A

    Gartner、AIイノベーションを促進する4つのトレンドを解説
  • colab-sshを使って、VS CodeからGoogle Colabに接続してみよう

    連載目次 前回は、ColabCodeモジュールを使って、Google Colab上でVisual Studio Code(以下、VS Code)のサーバ版ともいえる「code-server」を実行する方法を見ました。今回は、colab-sshモジュールを使って、ローカル環境で実行しているVS CodeからGoogle ColabにSSH接続する方法を紹介します。 colab-ssh インターネットを「vscode colab」などの語で検索すると、VS CodeからGoogle ColabにSSH接続するための情報が数多く見つかります(もちろん、colab-sshモジュールを使った方法も見つかります)。それらの情報の多くは少し手間がかかるものです。ここでは、なるべく手間がかからないように、colab-sshモジュールを使うことにしました。 colab-sshはGoogle ColabへのS

    colab-sshを使って、VS CodeからGoogle Colabに接続してみよう
  • VS CodeでJupyterしてみよう

    Jupyterは、オープンソースで開発が進められているプロジェクト(Project Jupyter)です。Pythonなどのプログラミング言語で記述された実行可能なコードと、Markdownで記述されたコードに関連ドキュメントを、「ノートブック」と呼ばれる単一のファイルにまとめることが可能な環境の構築を目指しています。 このプロジェクトの代表的な成果物が、コードとドキュメントをひとまとめに扱えるノートブックをWebブラウザ上で実現するWebアプリ「Jupyter Notebook」や「JupyterLab」です。Visual Studio Code(以下、VS Code)にPython拡張機能とJupyter拡張機能をインストールすることで、このノートブック環境をVS Code内で実現できます。今回はその基を見ていくことにしましょう。 必要なもの 以前のバージョンのVS CodeではPy

    VS CodeでJupyterしてみよう
  • [解決!Python]テキストファイルに書き込むには

    open関数でファイルを書き込み用にオープンし、ファイルに文字列を書き込む方法や書き込みのモード、pathlib.Pathクラスを使う方法などを紹介する。 # ファイルを書き込み用にオープンして、ファイル先頭から文字列を書き込む with open('test.txt', 'w') as f:  # 「with open('test.txt', 'wt') as f:」と同じ f.write('this is a test.\n')  # 改行したければ改行文字を最後に付加 sl = ['atmark IT\n', 'deep insider\n'] f.writelines(sl)  # 文字列リストはwritelinesメソッドで書き込む x = 1 f.write(str(x) + '\n')  # テキストファイルに書き込めるのは文字列のみ # 上で作成した内容の確認 from p

    [解決!Python]テキストファイルに書き込むには
  • [解決!Python]テキストファイルを読み込むには

    open関数やpathlib.Pathクラスを使ってファイルをオープンし、その内容を読み込む方法、with文と組み合わせる方法、テキストファイルを反復的に処理する基パターンを紹介する。 # ファイルをオープンして、1行ずつその内容を読み込んで処理する with open('test.txt') as f: for line in f: line = line.rstrip()  # 読み込んだ行の末尾には改行文字があるので削除 print(line) # 出力結果(4行目に空行が表示されるときとされないときがあるのを除き、以下同じ) #atmark IT # #deep insider # テキストファイルをオープンして、その内容を全て読み込み、クローズする f = open('test.txt')  # f = open('test.txt', 'rt'): s = f.read() 

    [解決!Python]テキストファイルを読み込むには