並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 2010件

新着順 人気順

nlpの検索結果1 - 40 件 / 2010件

  • 「未経験文系から3ヶ月でデータサイエンティストになって一発逆転」はここで終わり (2020/7/31 更新) - todo-mentor’s diary

    データサイエンティストを生業にする手段と実態について述べる。 途中、具体例・境界値の例として私個人の話もするが、なるべく一般性のある話をする。 この記事で言いたいことは具体的には4つだ。 プログラミングスクールをディスるなら代わりの入門方法を提供しようよ。 もう「未経験文系から3ヶ月でデータサイエンティストで一発逆転物語」を止めろ。*1 おじさんは人生逆転したいなら真面目にやれ。 若者はワンチャンじゃなくて、ちゃんと化け物になれよ。 この記事についてはパブリック・ドメインとして転載・改変・リンク記載を自由にしてよいです。 (続き書いた) a. 入門は辛いが… b. 思考停止でプログラミングスクールに通うな。 なろう系・始めてみよう系資料一覧 (最速・最短ルート用) まずは動かしてみよう。強くてニューゲームが体験出来るぞ! 入門以前の本 一般向け業界本 (AI業界と展望がわかる本) 技術者入

      「未経験文系から3ヶ月でデータサイエンティストになって一発逆転」はここで終わり (2020/7/31 更新) - todo-mentor’s diary
    • 197冊の教えを1つにまとめた黄金律の教科書 - 本しゃぶり

      ビジネス書100冊の教えをまとめた本がある。 自己啓発書100冊の教えをまとめた本がある。 そして "答え" がここにある。 100冊読んで分かったこと 2022年4月、日本のビジネス書を語るなら絶対に外せない本が登場した。『ビジネス書ベストセラーを100冊読んで分かった成功の黄金律』である。 ビジネス書ベストセラーを100冊読んで分かった成功の黄金律 作者:堀元見徳間書店Amazon その名の通り、日本で売れているビジネス書を100冊選び、それらを厳選した27の教えにまとめた本だ。この1冊があれば他にはいらない。 本書の組入書籍として採用されたのは刊行が2016年以降*1、推定発行10万部以上*2など、複数の条件*3を満たした本であり、その内訳は国内82%、外国18%となっている。 これだけ多くの厳選された書籍を使っているだけあって、教えの内容は多岐にわたる。コミュニケーションや情報処理

        197冊の教えを1つにまとめた黄金律の教科書 - 本しゃぶり
      • 「どんな文章も3行に要約するAI」デモサイト、東大松尾研発ベンチャーが公開 「正確性は人間に匹敵」

        東京大学・松尾豊研究室発のAIベンチャーELYZA(イライザ/東京都文京区)は8月26日、文章の要約文を生成するAI「ELYZA DIGEST」を試せるデモサイトを公開した。人間より短時間で要約でき、要約の正確性は「人間に匹敵する」という。今後も精度を高め、議事録作りやコールセンターでの対話メモ作成などでの活用を目指す。 同社は自然言語処理技術(NLP)の研究を進めており、日本語テキストデータの学習量・モデルの大きさともに日本最大級というAIエンジン「ELYZA Brain」を開発している。 ELYZA DIGESTは、大規模言語モデルを基に、要約というタスクに特化したAIとして開発。読み込んだテキストを基に、AIが一から要約文を生成する「生成型」モデルで、文の一部を抜き出す「抽出型」モデルなどと異なり、文の構造が崩れていたり、話者が多数いる会話文だったりしても、精度の高い要約文を生成でき

          「どんな文章も3行に要約するAI」デモサイト、東大松尾研発ベンチャーが公開 「正確性は人間に匹敵」
        • Smoozサービス終了に寄せて

          202012_smooz.md Smoozサービス終了に寄せて 前置き この文章と、それに含まれる考察や各サービスへの脆弱性報告などはmala個人の活動であり、所属している企業とは関係ありません。 一方で私は、企業が閲覧履歴を収集して何をしたいのか、所属してる企業や他社事例について、ある程度詳しい当事者でもあります。 一般論として書けることは書けるが、(業務上知り得た知識で開示されてないものなど)個別具体的なことは書けないこともあり、また観測範囲に偏りがある可能性もあります。 Smoozに報告した脆弱性2件 最近、Smoozというスマホ向けのブラウザアプリに2件脆弱性の報告をした。 この記事を書いている時点で、Smoozの配布が停止されていて、修正バージョンの入手が出来ない。 2件目についてはまだ返事が来ていない。 脆弱性情報の開示にあたって特段の許可は得ていないが、開発元からも利用停止す

            Smoozサービス終了に寄せて
          • 引っぱらないリーダーのチーム作り戦術 - 日々の神ログ

            みなさんのチームにはチームの方針はありますか? チームのメンバーが理解して実践できるように共有されていますか? 私たちのチームでは、新しい期が始まり少し経ってマネージャーから今期のチーム方針について共有がありました。 私はチームのリーダーになってからは、目標の1つとしてチームマネジメントを設定しています。 リーダーになって最初の半年は、1on1などを通して主に自分とメンバーとの信頼関係の構築に取り組みました。 次の半年、今期は1対1の関係から範囲を広げチーム作りに取り組みたいと思い、チームを作るとはどういうことなのかをあらためて考えてみました。 「THE CULTURE CODE 最強チームを作る方法」という本と「『一緒にいたい』と思われるリーダーになる。」という絵本を参考に引用しながら、チーム作りに必要なこと・リーダーとしてチーム作りにどう貢献していくかを書きたいと思います。 期初からも

              引っぱらないリーダーのチーム作り戦術 - 日々の神ログ
            • AI搭載版『ポートピア連続殺人事件』が4月24日にSteamで無料配信決定、『THE PORTOPIA SERIAL MURDER CASE』として名作ADVが蘇る スクエニAI部に経緯を訊いた

              スクウェア・エニックスは、堀井雄二氏が手掛けた『ポートピア連続殺人事件』を題材に、先端AI技術を搭載したテックプレビュー『SQUARE ENIX AI Tech Preview: THE PORTOPIA SERIAL MURDER CASE』を2023年4月24日にSteamにて無料配信すると発表した。また公式サイトをオープンしている。 AIの一分野である自然言語処理(NLP)の技術を使った「NLPアドベンチャー」と銘打っており、日英の言語に対応している。 「THE PORTOPIA SERIAL MURDER CASE」とは 『SQUARE ENIX AI Tech Preview: THE PORTOPIA SERIAL MURDER CASE』(以下、THE PORTOPIA SERIAL MURDER CASE)は、『ドラゴンクエスト』シリーズで知られる堀井雄二氏が手掛けたADV

                AI搭載版『ポートピア連続殺人事件』が4月24日にSteamで無料配信決定、『THE PORTOPIA SERIAL MURDER CASE』として名作ADVが蘇る スクエニAI部に経緯を訊いた
              • 言語処理100本ノック 2020 (Rev 2)

                言語処理100本ノック 2020 (Rev 2) 言語処理100本ノックは,実用的でワクワクするような課題に取り組みながら,プログラミング,データ分析,研究のスキルを楽しく習得することを目指した問題集です. 詳細 ツイート

                  言語処理100本ノック 2020 (Rev 2)
                • Python自然言語処理テクニック集【基礎編】

                  自分がよく使用する日本語自然言語処理のテンプレをまとめたものです。 主に自分でコピペして使う用にまとめたものですが、みなさんのお役に立てれば幸いです。 環境はPython3系、Google Colaboratory(Ubuntu)で動作確認しています。 Pythonの標準機能とpipで容易にインストールできるライブラリに限定しています。 機械学習、ディープラーニングは出てきません!テキストデータの前処理が中心です。 前処理系 大文字小文字 日本語のテキストにも英語が出てくることはあるので。 s = "Youmou" print(s.upper()) # YOUMOU print(s.lower()) # youmou 全角半角 日本語だとこちらのほうが大事。 全角半角変換のライブラリはいくつかありますが、自分はjaconv派。 MIT Licenseで利用可能です。 import jaco

                  • エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ

                    (『IT Text 自然語処理の基礎』より) 3ヶ月ほど前に空前のLLMブームについて概観する記事を書きましたが、それ以降も世間のLLMに対する狂騒ぶりは収まるどころかますます拍車がかかるという有様で、あまつさえ僕自身の仕事における日常業務にもじわじわと影響が及びつつあり、今後も良きにつけ悪しきにつけLLMと共生し続ける必要がありそうだと感じている今日この頃です。 そんな猫も杓子もLLMに群がるが如き空前のブームを受けて、エンジニアやデータ分析職の方々の中には「LLMに興味はあるんだけど世の中にあまりにも多くのLLM関連コンテンツが溢れ返っていて何から手をつけたら良いのか分からない」という向きもあるように見受けられます。そこで、僕も断じてLLM以下生成AIの専門家などではないのですが、個人的に「このテキストを読めばLLM時代を生き抜くことが出来そうだ」と感じた書籍を、全くの独断と偏見で3冊

                      エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ
                    • 30分で完全理解するTransformerの世界

                      はじめに 初めまして。ZENKIGENデータサイエンスチームのはまなすです。正式な所属はDeNAデータ本部AI技術開発部なのですが[1]、業務委託という形で今年度から深層学習系の開発等に携わっています。 深層学習界隈では、2017年に衝撃的なタイトル(Attention Is All You Need)の論文が発表されてから早5年半、元出自の機械翻訳タスクを大きく越えて、Transformer関連の技術が様々な領域で用いられる汎用アーキテクチャとして目覚ましく発展し続けています。 今回はそんなTransformerが現時点までにどのように活用されてきたか、また、どのように工夫されてきたかをざっくりと俯瞰し、流れをおさらいする目的の記事になります。本記事の大枠は、2021年時点でのサーベイ論文である A Survey of Transformers に倣いつつ、適宜、2023年2月上旬現在ま

                        30分で完全理解するTransformerの世界
                      • GPTの仕組みをちゃんと勉強したい本 - きしだのHatena

                        やっぱGPTを仕組みから勉強したい、という本をいくつか見つけたのでまとめておきます。 まず理論的な概要。 機械学習からニューラルネットワーク、CNNでの画像処理、トランスフォーマーでの自然言語処理、音声認識・合成、そしてそれらを組み合わせたマルチモーダルと章が進むので、理論的な概観を得るのにいいと思います。 最初は数式が多いのだけど、Σをfor文だと思いつつ、定義が説明文中に埋まってるPerlよりたちが悪い記号主体言語だと思えば読めるけどめんどくさいので飛ばしても問題ないと思います。 深層学習からマルチモーダル情報処理へ (AI/データサイエンスライブラリ“基礎から応用へ” 3) 作者:中山 英樹,二反田 篤史,田村 晃裕,井上 中順,牛久 祥孝サイエンス社Amazon で、もういきなり作る。 トークナイザーから全部つくっていきます。TensorFlowでBERTをつくってGPT2をつくる

                          GPTの仕組みをちゃんと勉強したい本 - きしだのHatena
                        • もし「リーダブルコード」を弁護士が読んだら? - MNTSQ Techブログ

                          こんにちは。「リーダブルコード」を先月読破して、感銘を受けた弁護士の人です。 なにに感銘を受けたかというと、「エンジニアが高級言語を効率的にコーディングするための工夫」は、契約という言語をコーディングするために援用できることがとても多いということです。 例えば、リーダブルコードは「関数には空虚な名前(tmpとかretvalとか)でなく、エンティティの実体に即した名前をつけよう!」と提案しています。 これめっちゃわかります!!!なぜなら、契約言語では当事者というクラスの表現のために「甲」「乙」という定義を未だに使います。そして、甲と乙を逆に書いてしまったままReviewを通過することが実際によくあります。オライリーさんには激怒されるでしょう。 しかし、よく考えると高級言語と契約言語が似ているのは当然だと思うようになりました。それは、どちらも「一定のインプットを入れると、必ず一定のアウトプット

                            もし「リーダブルコード」を弁護士が読んだら? - MNTSQ Techブログ
                          • Self-Attentionを全面的に使った新時代の画像認識モデルを解説! - Qiita

                            08/31 (2020): 投稿 08/31 (2020): 「畳み込みを一切使わない」という記述に関して、ご指摘を受けましたので追記いたしました。線形変換においては「チャネル間の加重和である1x1畳み込み」を実装では用いています。 08/31 (2020): 本論文で提案されているモデルの呼称に関して認識が誤っていたためタイトルおよび文章を一部修正しました。 言葉足らずの部分や勘違いをしている部分があるかと思いますが、ご指摘等をいただけますと大変ありがたいです。よろしくお願いします!(ツイッター:@omiita_atiimo) 近年の自然言語処理のブレイクスルーに大きく貢献したものといえば、やはりTransformerだと思います。そこからさらにBERTが生まれ、自然言語の認識能力などを測るGLUE Benchmarkではもはや人間が13位(2020/08現在)にまで落ちてしまっているほ

                              Self-Attentionを全面的に使った新時代の画像認識モデルを解説! - Qiita
                            • 若い人の知らない国鉄職員の負の歴史が続々…「信じられないほど横柄」「切符を投げてよこす」「ストライキの数々」など

                              山添 拓 @pioneertaku84 中曽根元首相の死去が報じられる。1954年、原子力予算を最初に国会で提出したのも問うべき経歴だが、国鉄分割民営化強行の首相としても記憶される。 ローカル線はなくならない ブルートレインなど長距離列車もなくならない 会社間をまたがっても乗り換えもなく不便にもならない ーー全部ウソだった。 pic.twitter.com/03QqXcoePM 2019-11-29 23:49:05 Hideki Kakeya, Dr.Eng. @hkakeya 3D, VR, AR, AI for Medicine, Bioinformatics (COVID Origin), NLP, Research Integrity, Engineering Ethics, Views are my own. Hideki Kakeya, Dr.Eng. @hkakeya 若い

                                若い人の知らない国鉄職員の負の歴史が続々…「信じられないほど横柄」「切符を投げてよこす」「ストライキの数々」など
                              • This is The Entire Computer Science Curriculum in 1000 YouTube Videos

                                This is The Entire Computer Science Curriculum in 1000 YouTube Videos In this article, we are going to create an entire Computer Science curriculum using only YouTube videos. The Computer Science curriculum is going to cover every skill essential for a Computer Science Engineer that has expertise in Artificial Intelligence and its subfields, like: Machine Learning, Deep Learning, Computer Vision,

                                  This is The Entire Computer Science Curriculum in 1000 YouTube Videos
                                • 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開

                                  株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日 株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。 プロジェクトwebサイト:https://

                                    超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
                                  • エクセルマクロのお作法(計算用シートという諸悪の根源について)

                                    前置きこの日記の内容は、会社の後輩から「最近エクセルマクロを勉強し始めて(キラキラ)」という話を聞いて、先輩ムーブをかますために話した内容になります。 とにかくこれから説明する「計算用シート」が憎くて憎くてたまらず、ちょっと引かれるほど熱弁してしまいました。 ただ、他の方がどうされているのかや、逆に「計算用シート」を愛用する方の意見も聞きたくなり、増田に書いてみました。 増田の経歴中小企業の非エンジニア(事務職員)エクセルマクロ歴8年くらい 初めて触った言語がVBAで、前任が作ったエクセルマクロを改修をいきなり頼まれたのがきっかけ会社の都合でJava Script、PHPからなる社内システムの改修、保守を担当したことあり 今は趣味でPythonでNLP、LLMを勉強中この記事の趣旨エクセルマクロのお作法とか書きましたが、要するにエクセルマクロで「計算用シート」って色々な意味でよくないよね、

                                      エクセルマクロのお作法(計算用シートという諸悪の根源について)
                                    • JP Contents Hub

                                      AWS 日本語ハンズオン Amazon Web Services(AWS) の 日本語ハンズオンやワークショップを、カテゴリごとにまとめています。 右側の目次や、ヘッダー部分の検索ボックスから、各コンテンツにたどり着けます。 また、Ctrl + F や command + F を使ったページ内検索もご活用いただけます。 料金について ハンズオンで作成した AWS リソースは通常の料金が発生します。作成したリソースの削除を忘れずにお願いします。 もし忘れてしまうと、想定外の料金が発生する可能性があります。 画面の差異について ハンズオンで紹介されている手順と、実際の操作方法に差異がある場合があります。 AWS は随時アップデートされており、タイミングによってはハンズオンコンテンツが追いついていない事もあります。 差異がある場合、AWS Document などを活用しながら進めて頂けますと幸い

                                        JP Contents Hub
                                      • AI・Python活用レシピ100選 - Qiita

                                        ※ 一部ガイドラインに反する内容がありましたので、該当箇所を修正のうえ再投稿しております。 はじめに Axross は、エンジニアの"教育"と"実務"のギャップに着目し、「学んだが活用できない人を減らしたい」という想いで、ソフトバンク社内起業制度にて立ち上げたサービスです。 現役エンジニアによる実践ノウハウが"レシピ"として教材化されており、実際に動くものを作りながら、具体的な目的・テーマをもってプログラミングを学ぶことができます。 今回は、Axross運営が厳選した『AI・Python活用レシピを100選』をご紹介します。是非、みなさまのAIやPython学習の参考にしてみてください。 Axross:https://axross-recipe.com 公式Twitter:https://twitter.com/Axross_SBiv 基礎 スクレイピング 01 . JUMPの掲載順をスク

                                          AI・Python活用レシピ100選 - Qiita
                                        • 東大松尾研究室、無料でディープラーニングや自然言語処理を学べる講座開講 松尾豊氏が講師を務める講座も | Ledge.ai

                                          TOP > Article Theme > AI(人工知能)ニュース > 東大松尾研究室、無料でディープラーニングや自然言語処理を学べる講座開講 松尾豊氏が講師を務める講座も 東京大学 松尾研究室は1月29日から、無料でディープラーニング(深層学習)や自然言語処理について学べる、短期間のオンライン講座の受講者を募集している。対象は学生(大学院、大学、高専、専門学校生、高校、中学など)。募集は2月8日(月)の10時00分まで。選考結果は2月15日(月)までに受講決定者にメールで連絡する。 今回、募集しているオンライン講座は「スプリングセミナー2021:深層強化学習」「プリングセミナー2021:深層生成モデル」「プリングセミナー2021:Deep Learning for NLP講座」の3つ。なお、人工知能(AI)研究の第一人者で、東京大学 松尾研究室を率いる松尾豊氏は企画・監修だけではなく、

                                            東大松尾研究室、無料でディープラーニングや自然言語処理を学べる講座開講 松尾豊氏が講師を務める講座も | Ledge.ai
                                          • 我偽中国語翻訳機作成了 - Qiita

                                            のように、日本語の文章から偽中国語を自動生成したい。 偽中国語とは 中国語のようでいて日本人でも意味を理解できてしまう漢字の羅列のこと。 通常「私はご飯が食べたい」を中国語では 我想吃饭 と書きます。一方で偽中国語は 我飯食希望 と「私はご飯を食べることを希望する」と読めなくもない表記で記します。 これが偽中国語です。以前からTwitterやLINEなど各種SNSで使われてきたユーモアあふれる記法です。 そこで、日本語の文字列を与えることで偽中国語に変換してくれる翻訳機を作りました。 サンプル 実行環境 macOS High Sierra 10.13.6 Python 3.5.1 方針 実装方法 偽中国語の慣例上 1 、 - 動詞「○○する」は「○○実行」と変換することが多い - 「明日お酒飲みに行かない?」のような提案する文章の場合、文末に「如何?」を付ける - 「私は◯◯したい」のよう

                                              我偽中国語翻訳機作成了 - Qiita
                                            • ChatGPTはどのように学習を行なっているのか

                                              はじめに ChatGPTのインパクトが個人的にすごかったので、どういった学習が行われているのか、どういう課題があるのか等を理解しようと思い、OpenAIの記事をベースに情報をピックアップしてざっとまとめました。 あくまで私なりの解釈で情報を整理してまとめたものになりますので、いくつか専門性の低い分野に対しては曖昧な記述になっていたり、理解を誤って記載しているかもしれません。 もし間違い等がありましたらご指摘いただけると大変ありがたいです。 ChatGPT: Optimizing Language Models for Dialogue 参考 ChatGPTは、OpenAIによって開発された、対話に特化した言語モデルである。 特徴としては、 前の対話内容に続く質問への回答が可能。 間違いを認めることもできる。 正しくない前提に対する異議を唱えることもできる。 不適切なリクエストには応じない。

                                                ChatGPTはどのように学習を行なっているのか
                                              • IT未経験からMLエンジニアになるまでの2年半でやったこと - MLaaSS - Machine Learning as a Self-Satisfaction

                                                はじめに 自身の転職活動にあたり皆さんの転職エントリが非常に参考になったので、私も同じ境遇の方の参考になればと思い、書き残すことにしました。(ただ、本当に私と似た境遇の方にはなかなかリーチしづらい気がしていますが・・・) TLDR; 30歳でIT未経験からMLエンジニアに転職 約2年半独学で勉強(ほとんどkaggleしてただけ) 無関係に思えた現職での経験もなんだかんだ転職で役に立った 目次 自己紹介 現職について 転職の理由 勉強したこと 転職活動 終わりに 1.自己紹介 かまろという名前でTwitterなりkaggleなりをやっています。kaggleでは画像やNLPといったdeep learning系のコンペを中心に取り組んでおり、2019年の9月に金メダルを獲得しMasterになることができました。 恐らくここが他の転職エントリを書かれている方々と大きく異なる点かと思うのですが、現職

                                                  IT未経験からMLエンジニアになるまでの2年半でやったこと - MLaaSS - Machine Learning as a Self-Satisfaction
                                                • ChatGPT と自然言語処理 / 言語の意味の計算と最適輸送

                                                  「Workshop OT 2023 最適輸送とその周辺 – 機械学習から熱力学的最適化まで」で用いたスライドです

                                                    ChatGPT と自然言語処理 / 言語の意味の計算と最適輸送
                                                  • 海外の技術者が日本語の「文字化け」を本気で解説、日本人顔負けの日本通っぷりが披露される

                                                    by Whooym 文字が適切に表示されずに読めなくなってしまう「文字化け」は、海外の技術者の間でも「Mojibake」で通用するとのこと。そんな文字化けの種類について、東京で自然言語処理(NLP)の開発をしているポール・オリーリ・マッキャン氏が解説しました。 A Field Guide to Japanese Mojibake https://www.dampfkraft.com/mojibake-field-guide.html マッキャン氏によると、文字化けは作成した時と異なる文字コードで文書を開くことで発生するとのこと。文章が文字化けすると無意味な文字列になってしまうので読めませんが、どのような文字コードが使われたかによって異なるパターンが表れるので、慣れると使われている文字コードの種類を推測することができるそうです。 ◆UTF-8 UTF-8はインターネット上では最も一般的な文字

                                                      海外の技術者が日本語の「文字化け」を本気で解説、日本人顔負けの日本通っぷりが披露される
                                                    • 【決定版】GPTs開発の教科書|ChatGPT研究所

                                                      この記事は、一度使われて終わるような、ChatGPT にちょっとした機能を追加しただけの GPTではなく、本当に使われる素晴らしく便利な GPTs を作成、開発するための教科書として、書きました。 今までの GPTs 開発関連の情報を全てまとめた内容になっています。 この note 一冊を読めば、GPTs 制作の基礎から応用まで全部わかります。 記事の内容は必要に応じて適宜アップデートしていきます。 目次は以下です: 第1章 GPTsの概要とその可能性そもそも GPTs とはなんでしょうか? 一言で言うと、ChatGPTを自分独自に大幅にカスタマイズできる機能とそのカスタマイズされたAIのことです。 ただし、GPTsを単なるChatGPT のいち機能の一つとして考えるのは非常にもったいないです。 OpenAI は、GPT Store という、他の人が作ったGPTsを使えるようになるストアの

                                                        【決定版】GPTs開発の教科書|ChatGPT研究所
                                                      • 【Day 3】東大松尾研のLLM講座資料が公開されたから、詳しく読んでいくよ【備忘録】 - Qiita

                                                        Transformer 深層学習モデル以前の言語モデルの課題 言語モデルでやりたいことは、「今まで生成した単語列を元に、次の単語を予測する」ことで、その単語は今まで生成した単語列を条件とし、次にある単語がくる条件付き確率を求め、その確率が最大のものを選ぶということだった。(LLM資料p.8参照) ただ、これだと単語列が長くなったときや、類義語の処理に課題が生じてしまっていた。 ニューラル言語モデル しかし、計算したい条件付き確率をNNで推定することにより、対処できた。 Encoder-Decoder型のRNN(Recurrent Neural Network)が最も基本的なモデルにはなるが、これでは長文に対応できなかった。(勾配消失&単語間の長距離依存性の把握が困難) RNNが勾配消失するのは、活性化関数のtanhが1未満の値を取るため、BPTT時に掛け算されるとだんだん値が小さくなってし

                                                          【Day 3】東大松尾研のLLM講座資料が公開されたから、詳しく読んでいくよ【備忘録】 - Qiita
                                                        • Pythonで100万ドキュメントオーダーのサーチエンジンを作る(PageRank, tfidf, 転置インデックスとか) - にほんごのれんしゅう

                                                          検索エンジンを何故作ってみたかったか もともとこのブログのコンセプトのNLP的なことで、情報を整理してなにか便利にしたかった(Googleと同じモチベーションの世界の情報を整理する) 4年前にほぼ同じシステムを作ろうとしたとき、500万を超える大量のインデックスを検索するシステムは、数学的な理解度が十分でない+エンジニアリング力が伴わないなどでギブアップした背景があり、今回再チャレンジしたくなった ほぼすべての機能をpure python(+いくつかの例外はある)で実装して、世の中の ソフトウェアを使うだけ の検索エンジンをやってみたなどではなく、実際に理解して組んでみることを目的としたかった 依存パッケージと依存ソフトウェア GitHubのコードを参照してください 様々なサイトを巡回する必要があり、requestsが文字コードの推論を高確率で失敗するので、nkf をlinux環境で入れて

                                                            Pythonで100万ドキュメントオーダーのサーチエンジンを作る(PageRank, tfidf, 転置インデックスとか) - にほんごのれんしゅう
                                                          • 36億パラメータの日本語言語モデルを公開しました

                                                            LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは。 LINEのNLP Foundation Devチームの清野舜と高瀬翔とoverlastです。 LINEでは2020年11月から日本語に特化した大規模言語モデル「HyperCLOVA」の構築と応用に関わる研究開発に取り組んできましたが、この「HyperCLOVA」と並行するかたちで複数の大規模言語モデルの研究開発プロジェクトが進行しています。 今回はそれらの研究開発プロジェクトのうち、我々を含むMassive LM開発ユニットから、日本語言語モデル「japanese-large-lm(ジャパニーズ ラージ エルエム)」をOSSとして公開できる状況になりましたので、本ブログを通じてお伝えすることにしました。 この記事

                                                              36億パラメータの日本語言語モデルを公開しました
                                                            • 1年半のソフトウェアエンジニア長期インターンで出会ったオススメ本をたくさん紹介します - Qiita

                                                              イントロ ABEJAアドベントカレンダーの4日目に一昨日飛び込みました、長期インターン生の佐藤(Twitter: @TodayInsane)です。 去年は機械学習を通して、TWICEというK-POPグループへの愛を語りました。 ABEJAには昨年4月、「本当に何も出来ないけど、休学してプログラミングとかエンジニアの経験を積みたいんです」という何とも不安な主張をするぼくを受け入れていただきました。 この1年半のエンジニア / リサーチ両インターンの過程で出会った良い本をどしどし紹介します。 ちなみにインターン開始時は プログラミング、Pythonだけならちょびっと書けます!(ABCのB問題とか機械学習ライブラリの写経) HTMLってどんな風になってるんですか?(?) サーバ...??リクエスト...?? JavaScript、名前は聞いたことあります 英語の論文しんどい、2時間ぐらいかけてI

                                                                1年半のソフトウェアエンジニア長期インターンで出会ったオススメ本をたくさん紹介します - Qiita
                                                              • Elasticsearchで日本語検索を扱うためのマッピング定義 - ZOZO TECH BLOG

                                                                こんにちは、検索基盤部 検索基盤ブロックの渡です。私は検索基盤ブロックで、主にZOZOTOWNの検索周りのシステム開発に従事しています。 以前の記事では、Elasticsearchのマッピング設定の最適化について取り上げました。そして、今回は日本語による形態素解析を実現するまでの手順をご紹介します。 techblog.zozo.com 目次 目次 はじめに Elasticsearchで全文検索を実現させる手順 全文検索のためのマッピング定義 Analyzerの構造 日本語対応のAnalyzer 日本語対応のためのプラグイン追加 kuromoji Analyzerを指定したマッピング定義の例 kuromojiプラグイン機能 カスタムしたAnalyzerのマッピング定義 Analyzerの動作確認 modeを選択した場合のマッピング定義の例 Analyzer適用の注意点 kuromoji以外の

                                                                  Elasticsearchで日本語検索を扱うためのマッピング定義 - ZOZO TECH BLOG
                                                                • 趣味でKaggleを始めたことをきっかけにデータサイエンティストになった話 - Qiita

                                                                  Kaggleアドベントカレンダー2023の19日目の記事です. TL;DR データ分析未経験からkaggleでどんなことを学んだか 想像していたデータ分析と実業務とのGap kaggleやっていて良かったこと、kaggleでは学ばなかったこと はじめに 趣味でkaggleを始めたことをきっかけに、現在はデータ分析の仕事をしています。 Muj!rush!というアカウントでKaggleをしています。Kaggle expertです。 kaggleを始めてから3年程度経過したので(この3年間は、地球の公転が早まってんのかってくらい時間が経つのが早かったです)、これまでを振り返ることで、今後kaggleを始めてデータサイエンティストを目指すような方への参考になれば幸いです。 Kaggleと出会ったことで仕事への向き合い方や、今後のキャリアの考え方が変わったので、 僭越ながら一言だけ言わせてもらうと、

                                                                    趣味でKaggleを始めたことをきっかけにデータサイエンティストになった話 - Qiita
                                                                  • 掛谷英紀・筑波大准教授「岩田健太郎氏の問題点は国立大学で感染症学講座の教授を12年も務めながら、こういうときに適切な処置を現場で行える人材を育ててこなかったことを棚に上げて、批判だけしていること。」

                                                                    Hideki Kakeya, Dr.Eng. @hkakeya 3D, VR, AR, AI for Medicine, NLP on Social Issues, CSR, Engineering Ethics, Research Integrity, Science & Media Literacy, ENG-JPN Translation, Views are my own. Hideki Kakeya, Dr.Eng. @hkakeya 岩田氏について語られていない問題点を一つ指摘すると、彼は国立大学で感染症学講座の教授を12年も務めながら、こういうときに適切な処置を現場で行える人材を育ててこなかったことを棚に上げて、批判だけしていること。その批判は、自分が教育者として無能であるというブーメランとして戻ってくる。 2020-02-20 22:12:31 Hideki Kakeya,

                                                                      掛谷英紀・筑波大准教授「岩田健太郎氏の問題点は国立大学で感染症学講座の教授を12年も務めながら、こういうときに適切な処置を現場で行える人材を育ててこなかったことを棚に上げて、批判だけしていること。」
                                                                    • 歴史・年表でみるAWS全サービス一覧 -アナウンス日、General Availability(GA)、AWSサービス概要のまとめ- - NRIネットコムBlog

                                                                      小西秀和です。 Amazon Web Services(AWS)に関する情報や魅力を様々な観点から記事にしてみていますが、技術史が好きなこともあって今回はAWSサービスの発表の歴史を年表でまとめました。 AWSからもWhat's Newとして公式アナウンスは発表されていますが、アナウンス日、GA日(一般提供開始日)、サービス名、サービス概要といった情報に圧縮して時系列でAWSサービス一覧を一枚もので確認できる記事が今まで欲しかったので自分で作成してみることにしました。 AWS全サービスの歴史年表の作成方法 AWS全サービスの歴史年表の対象となるAWSサービスは次の手順で選定しました。 AWSサービス・製品一覧「Cloud Products(英語版)」にあるサービスのうち「~ on AWS」といったサードパーティー製品がメインとなるサービスを除いたリストを作成 AWSサービス・製品一覧に記載

                                                                        歴史・年表でみるAWS全サービス一覧 -アナウンス日、General Availability(GA)、AWSサービス概要のまとめ- - NRIネットコムBlog
                                                                      • ChatGPTを使って論文の英文校正をする

                                                                        Chat GPT は、自然言語処理 (NLP) 技術を使用して、特定の入力に基づいてテキストを生成する言語モデルです。 今回はChat GPT を使用して英語の文章の修正をして、文章の質と明瞭さを向上させる方法を紹介します。 https://chat.openai.com/chat それでは、Chat GPT を使用して英語の編集と校正を行うための手順について説明しましょう。 まず下記のprompt(AIに出す指示のこと)をチャットボックスに入れ””内に校正したい文章を入れます。日本語を直接入れても英語が出てきますが、Google翻訳で英訳した文章を入れた方が洗練された英語になります。(ChatGPTは日本語の入力も受け付けますが英語での入力の方が圧倒的に正確な回答が得られるため) 下記のprompt(一部改変)の出典はこちらのAwesome ChatGPT Promptsです。他にも”a

                                                                          ChatGPTを使って論文の英文校正をする
                                                                        • 高精度でテキスト分類を行えるAIの環境を用意しました【BERT】 - ニートの言葉

                                                                          こんにちは、あんどう(@t_andou)です。 最近、自然言語処理のAIの一種であるBERTをよく触っています。 今回はBERTのソースを読まなくてもサクッと試せる環境を用意しましたので、メモとして残しておきます。 BERTとはどういうものか 画像引用:https://arxiv.org/pdf/1810.04805.pdf 凄くざっくりと説明すると、BERTとは2018年末にGoogleの人たちが開発した自然言語処理において汎用的に使えて精度の良いAIです。 自然言語処理において精度を測るためにいくつかのタスクがあるのですが、発表された時点ではダントツの成績でした。 仕組みなどの詳細については論文を読むか解説記事をググってください。 2019/09/22時点で既により精度の良い手法がどんどん発表されていますが、BERTの情報量と比べるとまだ少ないため、入門としてはBERTを触ってみるのが

                                                                            高精度でテキスト分類を行えるAIの環境を用意しました【BERT】 - ニートの言葉
                                                                          • エンジニアリングマネージャーの理想と現実

                                                                            NLP2024 参加報告LT ~RAGの生成評価と懇親戦略~ / nlp2024_attendee_presentation_LT_masuda

                                                                              エンジニアリングマネージャーの理想と現実
                                                                            • よくあるデタラメな心理学の「法則」12選 | ライフハッカー・ジャパン

                                                                              「アルファ」「ベータ」理論この考え方は、生まれつき「アルファ」である人(ある階層構造におけるリーダーの役割にふさわしい)と「ベータ」である人(追従者)がいるというもので、動物界における階層構造を観察した結果に基づいています。 こうした観察結果は、自然界で誤解されてきただけでなく、科学的とは程遠い方法で人間社会に広く適用されてきました。 動物間の事情は、「アルファ対ベータ」よりもずっと複雑です。オオカミの研究では、この言葉はもう使われてもいません。 研究によって、「アルファのオス」は実際には父親であり、最も劣ったオオカミと対照的なのはその点だということが明らかになっているからです。 雄鶏や雌鶏の集団における「つつく順序」も同じです。 チンパンジーの場合は、集団のリーダーは肉体的に最も強いことが多いものの、寛大で共感力があり、集団の結束を高める傾向もあります。人間の「アルファの男性」とよく結び

                                                                                よくあるデタラメな心理学の「法則」12選 | ライフハッカー・ジャパン
                                                                              • あるプログラマーが飲食店で注文するとき、「まず4つあって、」と"メモリの確保"から始めた話が面白い

                                                                                norihitoishida @norihitoishida 某プログラマ氏がサイゼで注文する時「まず4つあって、」とメモリの確保から始めた話、何回聞いても笑ってしまう 2019-10-19 10:05:24 norihitoishida @norihitoishida 解釈をしたりしなかったりしています / ML ( NLP, anomaly detection, multimodality, AutoML ) / Factory Automation https://t.co/EVu6jNClhJ

                                                                                  あるプログラマーが飲食店で注文するとき、「まず4つあって、」と"メモリの確保"から始めた話が面白い
                                                                                • OpenAI API ドキュメント 日本語訳|#1 GET STARTED 前編|ゑぐみかるちゃあ

                                                                                  OpenAI API ドキュメントの日本語訳をこちらでまとめます。文字量の多いドキュメントなので、セクションごとに記事を分割しています。 今回は「GET STARTED 」のセクションからIntroduction と Quickstart を抜粋した前編です。 基本 DeepLで翻訳して、気になるところだけ書き換えています(ほぼ気になるところがないのが、DeepLのすごいところ)。原文との突き合わせができるようにはじめに原文を入れてますので、間違いなど見つけられましたら、ぜひご指摘ください。ご指摘箇所は随時反映させていただきます。 原文のリンクが有効になってますので、それぞれ必要な場合は原文リンクの方を参照ください。 Introduction|はじめに Overview|概要The OpenAI API can be applied to virtually any task that i

                                                                                    OpenAI API ドキュメント 日本語訳|#1 GET STARTED 前編|ゑぐみかるちゃあ