本文「nlp」を検索 - はてなブックマーク

1 - 40 件 / 2010件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

nlpの検索結果1 - 40 件 / 2010件

「未経験文系から3ヶ月でデータサイエンティストになって一発逆転」はここで終わり (2020/7/31 更新) - todo-mentor’s diary
- 1346 users
- todes-mentor.hatenablog.com
- テクノロジー
- 2020/07/13
データサイエンティストを生業にする手段と実態について述べる。途中、具体例・境界値の例として私個人の話もするが、なるべく一般性のある話をする。この記事で言いたいことは具体的には4つだ。プログラミングスクールをディスるなら代わりの入門方法を提供しようよ。もう「未経験文系から3ヶ月でデータサイエンティストで一発逆転物語」を止めろ。*1 おじさんは人生逆転したいなら真面目にやれ。若者はワンチャンじゃなくて、ちゃんと化け物になれよ。この記事についてはパブリック・ドメインとして転載・改変・リンク記載を自由にしてよいです。 (続き書いた) a. 入門は辛いが… b. 思考停止でプログラミングスクールに通うな。なろう系・始めてみよう系資料一覧（最速・最短ルート用）まずは動かしてみよう。強くてニューゲームが体験出来るぞ！入門以前の本一般向け業界本 (AI業界と展望がわかる本) 技術者入
197冊の教えを1つにまとめた黄金律の教科書 - 本しゃぶり
- 1138 users
- honeshabri.hatenablog.com
- 学び
- 2022/05/09
ビジネス書100冊の教えをまとめた本がある。自己啓発書100冊の教えをまとめた本がある。そして "答え" がここにある。 100冊読んで分かったこと 2022年4月、日本のビジネス書を語るなら絶対に外せない本が登場した。『ビジネス書ベストセラーを100冊読んで分かった成功の黄金律』である。ビジネス書ベストセラーを１００冊読んで分かった成功の黄金律作者:堀元見徳間書店Amazon その名の通り、日本で売れているビジネス書を100冊選び、それらを厳選した27の教えにまとめた本だ。この1冊があれば他にはいらない。本書の組入書籍として採用されたのは刊行が2016年以降*1、推定発行10万部以上*2など、複数の条件*3を満たした本であり、その内訳は国内82%、外国18%となっている。これだけ多くの厳選された書籍を使っているだけあって、教えの内容は多岐にわたる。コミュニケーションや情報処理
- 本
- あとで読む
- ビジネス
- 人生
- 読書
- 書籍
- 自己啓発
- 思考
- 習慣
- book
「どんな文章も3行に要約するAI」デモサイト、東大松尾研発ベンチャーが公開　「正確性は人間に匹敵」
- 1024 users
- www.itmedia.co.jp
- テクノロジー
- 2021/08/26
東京大学・松尾豊研究室発のAIベンチャーELYZA（イライザ／東京都文京区）は8月26日、文章の要約文を生成するAI「ELYZA DIGEST」を試せるデモサイトを公開した。人間より短時間で要約でき、要約の正確性は「人間に匹敵する」という。今後も精度を高め、議事録作りやコールセンターでの対話メモ作成などでの活用を目指す。同社は自然言語処理技術（NLP）の研究を進めており、日本語テキストデータの学習量・モデルの大きさともに日本最大級というAIエンジン「ELYZA Brain」を開発している。 ELYZA DIGESTは、大規模言語モデルを基に、要約というタスクに特化したAIとして開発。読み込んだテキストを基に、AIが一から要約文を生成する「生成型」モデルで、文の一部を抜き出す「抽出型」モデルなどと異なり、文の構造が崩れていたり、話者が多数いる会話文だったりしても、精度の高い要約文を生成でき
- AI
- 文章
- あとで読む
- webサービス
- 研究
- 言語
- 機械学習
- 自然言語処理
- 技術
- 人間
Smoozサービス終了に寄せて
- 994 users
- gist.github.com/mala
- テクノロジー
- 2020/12/23
202012_smooz.md Smoozサービス終了に寄せて前置きこの文章と、それに含まれる考察や各サービスへの脆弱性報告などはmala個人の活動であり、所属している企業とは関係ありません。一方で私は、企業が閲覧履歴を収集して何をしたいのか、所属してる企業や他社事例について、ある程度詳しい当事者でもあります。一般論として書けることは書けるが、(業務上知り得た知識で開示されてないものなど)個別具体的なことは書けないこともあり、また観測範囲に偏りがある可能性もあります。 Smoozに報告した脆弱性2件最近、Smoozというスマホ向けのブラウザアプリに2件脆弱性の報告をした。この記事を書いている時点で、Smoozの配布が停止されていて、修正バージョンの入手が出来ない。 2件目についてはまだ返事が来ていない。脆弱性情報の開示にあたって特段の許可は得ていないが、開発元からも利用停止す
引っぱらないリーダーのチーム作り戦術 - 日々の神ログ
- 705 users
- jollynap.hatenablog.com
- テクノロジー
- 2019/06/19
みなさんのチームにはチームの方針はありますか？チームのメンバーが理解して実践できるように共有されていますか？私たちのチームでは、新しい期が始まり少し経ってマネージャーから今期のチーム方針について共有がありました。私はチームのリーダーになってからは、目標の1つとしてチームマネジメントを設定しています。リーダーになって最初の半年は、1on1などを通して主に自分とメンバーとの信頼関係の構築に取り組みました。次の半年、今期は1対1の関係から範囲を広げチーム作りに取り組みたいと思い、チームを作るとはどういうことなのかをあらためて考えてみました。「THE CULTURE CODE 最強チームを作る方法」という本と「『一緒にいたい』と思われるリーダーになる。」という絵本を参考に引用しながら、チーム作りに必要なこと・リーダーとしてチーム作りにどう貢献していくかを書きたいと思います。期初からも
AI搭載版『ポートピア連続殺人事件』が4月24日にSteamで無料配信決定、『THE PORTOPIA SERIAL MURDER CASE』として名作ADVが蘇るスクエニAI部に経緯を訊いた
- 703 users
- jp.ign.com
- テクノロジー
- 2023/04/21
スクウェア・エニックスは、堀井雄二氏が手掛けた『ポートピア連続殺人事件』を題材に、先端AI技術を搭載したテックプレビュー『SQUARE ENIX AI Tech Preview: THE PORTOPIA SERIAL MURDER CASE』を2023年4月24日にSteamにて無料配信すると発表した。また公式サイトをオープンしている。 AIの一分野である自然言語処理（NLP）の技術を使った「NLPアドベンチャー」と銘打っており、日英の言語に対応している。「THE PORTOPIA SERIAL MURDER CASE」とは『SQUARE ENIX AI Tech Preview: THE PORTOPIA SERIAL MURDER CASE』（以下、THE PORTOPIA SERIAL MURDER CASE）は、『ドラゴンクエスト』シリーズで知られる堀井雄二氏が手掛けたADV
- AI
- ゲーム
- あとで読む
- game
- steam
- 人工知能
- これはすごい
- 事件
- ファミコン
- 文章
言語処理100本ノック 2020 (Rev 2)
- 592 users
- nlp100.github.io
- テクノロジー
- 2020/04/07
言語処理100本ノック 2020 (Rev 2) 言語処理100本ノックは，実用的でワクワクするような課題に取り組みながら，プログラミング，データ分析，研究のスキルを楽しく習得することを目指した問題集です．詳細ツイート
Python自然言語処理テクニック集【基礎編】
- 591 users
- www.mojirca.com
- テクノロジー
- 2021/03/28
自分がよく使用する日本語自然言語処理のテンプレをまとめたものです。主に自分でコピペして使う用にまとめたものですが、みなさんのお役に立てれば幸いです。環境はPython3系、Google Colaboratory（Ubuntu）で動作確認しています。 Pythonの標準機能とpipで容易にインストールできるライブラリに限定しています。機械学習、ディープラーニングは出てきません！テキストデータの前処理が中心です。前処理系大文字小文字日本語のテキストにも英語が出てくることはあるので。 s = "Youmou" print(s.upper()) # YOUMOU print(s.lower()) # youmou 全角半角日本語だとこちらのほうが大事。全角半角変換のライブラリはいくつかありますが、自分はjaconv派。 MIT Licenseで利用可能です。 import jaco
エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ
- 589 users
- tjo.hatenablog.com
- テクノロジー
- 2023/07/02
（『IT Text 自然語処理の基礎』より） 3ヶ月ほど前に空前のLLMブームについて概観する記事を書きましたが、それ以降も世間のLLMに対する狂騒ぶりは収まるどころかますます拍車がかかるという有様で、あまつさえ僕自身の仕事における日常業務にもじわじわと影響が及びつつあり、今後も良きにつけ悪しきにつけLLMと共生し続ける必要がありそうだと感じている今日この頃です。そんな猫も杓子もLLMに群がるが如き空前のブームを受けて、エンジニアやデータ分析職の方々の中には「LLMに興味はあるんだけど世の中にあまりにも多くのLLM関連コンテンツが溢れ返っていて何から手をつけたら良いのか分からない」という向きもあるように見受けられます。そこで、僕も断じてLLM以下生成AIの専門家などではないのですが、個人的に「このテキストを読めばLLM時代を生き抜くことが出来そうだ」と感じた書籍を、全くの独断と偏見で3冊
- LLM
- あとで読む
- 機械学習
- 学習
- エンジニア
- AI
- 自然言語処理
- データ
- 本
- 勉強
30分で完全理解するTransformerの世界
- 546 users
- zenn.dev/zenkigen_tech
- テクノロジー
- 2023/02/14
はじめに初めまして。ZENKIGENデータサイエンスチームのはまなすです。正式な所属はDeNAデータ本部AI技術開発部なのですが[1]、業務委託という形で今年度から深層学習系の開発等に携わっています。深層学習界隈では、2017年に衝撃的なタイトル（Attention Is All You Need）の論文が発表されてから早5年半、元出自の機械翻訳タスクを大きく越えて、Transformer関連の技術が様々な領域で用いられる汎用アーキテクチャとして目覚ましく発展し続けています。今回はそんなTransformerが現時点までにどのように活用されてきたか、また、どのように工夫されてきたかをざっくりと俯瞰し、流れをおさらいする目的の記事になります。本記事の大枠は、2021年時点でのサーベイ論文である A Survey of Transformers に倣いつつ、適宜、2023年2月上旬現在ま
- 機械学習
- あとで読む
- Transformer
- AI
- 学習
- 自然言語処理
- 勉強
- algorithm
- deeplearning
- ChatGPT
GPTの仕組みをちゃんと勉強したい本 - きしだのHatena
- 506 users
- nowokay.hatenablog.com
- テクノロジー
- 2023/04/25
やっぱGPTを仕組みから勉強したい、という本をいくつか見つけたのでまとめておきます。まず理論的な概要。機械学習からニューラルネットワーク、CNNでの画像処理、トランスフォーマーでの自然言語処理、音声認識・合成、そしてそれらを組み合わせたマルチモーダルと章が進むので、理論的な概観を得るのにいいと思います。最初は数式が多いのだけど、Σをfor文だと思いつつ、定義が説明文中に埋まってるPerlよりたちが悪い記号主体言語だと思えば読めるけどめんどくさいので飛ばしても問題ないと思います。深層学習からマルチモーダル情報処理へ (AI/データサイエンスライブラリ“基礎から応用へ” 3) 作者:中山英樹,二反田篤史,田村晃裕,井上中順,牛久祥孝サイエンス社Amazon で、もういきなり作る。トークナイザーから全部つくっていきます。TensorFlowでBERTをつくってGPT2をつくる
- GPT
- あとで読む
- ChatGPT
- AI
- 本
- 学習
- 人工知能
- 文章生成AI
- ライブラリ
- Transformer
もし「リーダブルコード」を弁護士が読んだら？ - MNTSQ Techブログ
- 506 users
- tech.mntsq.co.jp
- テクノロジー
- 2022/12/27
こんにちは。「リーダブルコード」を先月読破して、感銘を受けた弁護士の人です。なにに感銘を受けたかというと、「エンジニアが高級言語を効率的にコーディングするための工夫」は、契約という言語をコーディングするために援用できることがとても多いということです。例えば、リーダブルコードは「関数には空虚な名前（tmpとかretvalとか）でなく、エンティティの実体に即した名前をつけよう！」と提案しています。これめっちゃわかります！！！なぜなら、契約言語では当事者というクラスの表現のために「甲」「乙」という定義を未だに使います。そして、甲と乙を逆に書いてしまったままReviewを通過することが実際によくあります。オライリーさんには激怒されるでしょう。しかし、よく考えると高級言語と契約言語が似ているのは当然だと思うようになりました。それは、どちらも「一定のインプットを入れると、必ず一定のアウトプット
- 技術
- あとで読む
- 法律
- 社会
- law
- 契約
- language
- 言語
- プログラミング
- コード
Self-Attentionを全面的に使った新時代の画像認識モデルを解説！ - Qiita
- 485 users
- qiita.com/omiita
- テクノロジー
- 2020/08/31
08/31 (2020): 投稿 08/31 (2020): 「畳み込みを一切使わない」という記述に関して、ご指摘を受けましたので追記いたしました。線形変換においては「チャネル間の加重和である1x1畳み込み」を実装では用いています。 08/31 (2020): 本論文で提案されているモデルの呼称に関して認識が誤っていたためタイトルおよび文章を一部修正しました。言葉足らずの部分や勘違いをしている部分があるかと思いますが、ご指摘等をいただけますと大変ありがたいです。よろしくお願いします！(ツイッター:@omiita_atiimo) 近年の自然言語処理のブレイクスルーに大きく貢献したものといえば、やはりTransformerだと思います。そこからさらにBERTが生まれ、自然言語の認識能力などを測るGLUE Benchmarkではもはや人間が13位(2020/08現在)にまで落ちてしまっているほ
若い人の知らない国鉄職員の負の歴史が続々…「信じられないほど横柄」「切符を投げてよこす」「ストライキの数々」など
- 461 users
- togetter.com
- 世の中
- 2019/12/03
山添　拓 @pioneertaku84 中曽根元首相の死去が報じられる。1954年、原子力予算を最初に国会で提出したのも問うべき経歴だが、国鉄分割民営化強行の首相としても記憶される。ローカル線はなくならないブルートレインなど長距離列車もなくならない会社間をまたがっても乗り換えもなく不便にもならないーー全部ウソだった。 pic.twitter.com/03QqXcoePM 2019-11-29 23:49:05 Hideki Kakeya, Dr.Eng. @hkakeya 3D, VR, AR, AI for Medicine, Bioinformatics (COVID Origin), NLP, Research Integrity, Engineering Ethics, Views are my own. Hideki Kakeya, Dr.Eng. @hkakeya 若い
- 国鉄
- 歴史
- togetter
- あとで読む
- 国労
- 労働
- ストライキ
- 鉄道
- 労働組合
- 交通
This is The Entire Computer Science Curriculum in 1000 YouTube Videos
- 456 users
- laconicml.com
- テクノロジー
- 2021/01/13
This is The Entire Computer Science Curriculum in 1000 YouTube Videos In this article, we are going to create an entire Computer Science curriculum using only YouTube videos. The Computer Science curriculum is going to cover every skill essential for a Computer Science Engineer that has expertise in Artificial Intelligence and its subfields, like: Machine Learning, Deep Learning, Computer Vision,
超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
- 452 users
- prtimes.jp
- テクノロジー
- 2023/01/19
株式会社レアゾン・ホールディングス(本社：東京都新宿区、代表取締役：渡邉真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日株式会社レアゾン・ホールディングス(本社：東京都新宿区、代表取締役：渡邉真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。プロジェクトwebサイト：https://
- AI
- あとで読む
- 日本語
- 音声認識
- 音声
- voice
- 技術
- フリーソフト
- コーパス
- 機械学習
エクセルマクロのお作法（計算用シートという諸悪の根源について）
- 435 users
- anond.hatelabo.jp
- テクノロジー
- 2024/03/02
前置きこの日記の内容は、会社の後輩から「最近エクセルマクロを勉強し始めて（キラキラ）」という話を聞いて、先輩ムーブをかますために話した内容になります。とにかくこれから説明する「計算用シート」が憎くて憎くてたまらず、ちょっと引かれるほど熱弁してしまいました。ただ、他の方がどうされているのかや、逆に「計算用シート」を愛用する方の意見も聞きたくなり、増田に書いてみました。増田の経歴中小企業の非エンジニア（事務職員）エクセルマクロ歴８年くらい初めて触った言語がＶＢＡで、前任が作ったエクセルマクロを改修をいきなり頼まれたのがきっかけ会社の都合でJava Script、PHPからなる社内システムの改修、保守を担当したことあり今は趣味でPythonでNLP、LLMを勉強中この記事の趣旨エクセルマクロのお作法とか書きましたが、要するにエクセルマクロで「計算用シート」って色々な意味でよくないよね、
- excel
- あとで読む
- vba
- 増田
- プログラミング
- マクロ
- 仕事
- 労働
- PC
JP Contents Hub
- 432 users
- aws-samples.github.io
- テクノロジー
- 2022/09/18
AWS 日本語ハンズオン Amazon Web Services(AWS) の日本語ハンズオンやワークショップを、カテゴリごとにまとめています。右側の目次や、ヘッダー部分の検索ボックスから、各コンテンツにたどり着けます。また、Ctrl + F や command + F を使ったページ内検索もご活用いただけます。料金についてハンズオンで作成した AWS リソースは通常の料金が発生します。作成したリソースの削除を忘れずにお願いします。もし忘れてしまうと、想定外の料金が発生する可能性があります。画面の差異についてハンズオンで紹介されている手順と、実際の操作方法に差異がある場合があります。 AWS は随時アップデートされており、タイミングによってはハンズオンコンテンツが追いついていない事もあります。差異がある場合、AWS Document などを活用しながら進めて頂けますと幸い
- aws
- 学習
- あとで読む
- ハンズオン
- amazon
- study
- tutorial
- dynamodb
- ecs
- 教材
AI・Python活用レシピ100選 - Qiita
- 429 users
- qiita.com/Axross_SBiv
- テクノロジー
- 2021/09/01
※ 一部ガイドラインに反する内容がありましたので、該当箇所を修正のうえ再投稿しております。はじめに Axross は、エンジニアの"教育"と"実務"のギャップに着目し、「学んだが活用できない人を減らしたい」という想いで、ソフトバンク社内起業制度にて立ち上げたサービスです。現役エンジニアによる実践ノウハウが"レシピ"として教材化されており、実際に動くものを作りながら、具体的な目的・テーマをもってプログラミングを学ぶことができます。今回は、Axross運営が厳選した『AI・Python活用レシピを100選』をご紹介します。是非、みなさまのAIやPython学習の参考にしてみてください。 Axross：https://axross-recipe.com 公式Twitter：https://twitter.com/Axross_SBiv 基礎スクレイピング 01 . JUMPの掲載順をスク
- python
- あとで読む
- AI
- 学習
- レシピ
- 機械学習
- qiita
- プログラミング
- 分析
- データ
東大松尾研究室、無料でディープラーニングや自然言語処理を学べる講座開講松尾豊氏が講師を務める講座も | Ledge.ai
- 414 users
- ledge.ai
- テクノロジー
- 2021/02/01
TOP > Article Theme > AI（人工知能）ニュース > 東大松尾研究室、無料でディープラーニングや自然言語処理を学べる講座開講松尾豊氏が講師を務める講座も東京大学松尾研究室は1月29日から、無料でディープラーニング（深層学習）や自然言語処理について学べる、短期間のオンライン講座の受講者を募集している。対象は学生（大学院、大学、高専、専門学校生、高校、中学など）。募集は2月8日（月）の10時00分まで。選考結果は2月15日（月）までに受講決定者にメールで連絡する。今回、募集しているオンライン講座は「スプリングセミナー2021：深層強化学習」「プリングセミナー2021：深層生成モデル」「プリングセミナー2021：Deep Learning for NLP講座」の3つ。なお、人工知能（AI）研究の第一人者で、東京大学松尾研究室を率いる松尾豊氏は企画・監修だけではなく、
- AI
- あとで読む
- 学習
- ディープラーニング
- 機械学習
- 研究
- 勉強
- 松尾豊
- 大学
- 東京
我偽中国語翻訳機作成了 - Qiita
- 414 users
- qiita.com/shoichiro-k
- テクノロジー
- 2019/06/25
のように、日本語の文章から偽中国語を自動生成したい。偽中国語とは中国語のようでいて日本人でも意味を理解できてしまう漢字の羅列のこと。通常「私はご飯が食べたい」を中国語では我想吃饭と書きます。一方で偽中国語は我飯食希望と「私はご飯を食べることを希望する」と読めなくもない表記で記します。これが偽中国語です。以前からTwitterやLINEなど各種SNSで使われてきたユーモアあふれる記法です。そこで、日本語の文字列を与えることで偽中国語に変換してくれる翻訳機を作りました。サンプル実行環境 macOS High Sierra 10.13.6 Python 3.5.1 方針実装方法偽中国語の慣例上 1 、 - 動詞「○○する」は「○○実行」と変換することが多い - 「明日お酒飲みに行かない？」のような提案する文章の場合、文末に「如何?」を付ける - 「私は◯◯したい」のよう
- python
- あとで読む
- ネタ
- 中国語
- 言語
- Qiita
- 中国
- 翻訳
- 日本語
ChatGPTはどのように学習を行なっているのか
- 403 users
- zenn.dev/ttya16
- テクノロジー
- 2022/12/06
はじめに ChatGPTのインパクトが個人的にすごかったので、どういった学習が行われているのか、どういう課題があるのか等を理解しようと思い、OpenAIの記事をベースに情報をピックアップしてざっとまとめました。あくまで私なりの解釈で情報を整理してまとめたものになりますので、いくつか専門性の低い分野に対しては曖昧な記述になっていたり、理解を誤って記載しているかもしれません。もし間違い等がありましたらご指摘いただけると大変ありがたいです。 ChatGPT: Optimizing Language Models for Dialogue 参考 ChatGPTは、OpenAIによって開発された、対話に特化した言語モデルである。特徴としては、前の対話内容に続く質問への回答が可能。間違いを認めることもできる。正しくない前提に対する異議を唱えることもできる。不適切なリクエストには応じない。
- AI
- ChatGPT
- あとで読む
- 機械学習
- 人工知能
- 学習
- 技術
- OpenAI
- 自然言語処理
- ソフトウェア
IT未経験からMLエンジニアになるまでの2年半でやったこと - MLaaSS - Machine Learning as a Self-Satisfaction
- 395 users
- mlaass1.hatenablog.com
- テクノロジー
- 2020/07/08
はじめに自身の転職活動にあたり皆さんの転職エントリが非常に参考になったので、私も同じ境遇の方の参考になればと思い、書き残すことにしました。（ただ、本当に私と似た境遇の方にはなかなかリーチしづらい気がしていますが・・・） TLDR; 30歳でIT未経験からMLエンジニアに転職約2年半独学で勉強（ほとんどkaggleしてただけ）無関係に思えた現職での経験もなんだかんだ転職で役に立った目次自己紹介現職について転職の理由勉強したこと転職活動終わりに 1.自己紹介かまろという名前でTwitterなりkaggleなりをやっています。kaggleでは画像やNLPといったdeep learning系のコンペを中心に取り組んでおり、2019年の9月に金メダルを獲得しMasterになることができました。恐らくここが他の転職エントリを書かれている方々と大きく異なる点かと思うのですが、現職
- kaggle
- あとで読む
- エンジニア
- 機械学習
- 学習
- python
- データサイエンス
- 転職
- 技術
- IT
ChatGPT と自然言語処理 / 言語の意味の計算と最適輸送
- 391 users
- speakerdeck.com/eumesy
- テクノロジー
- 2023/03/18
「Workshop OT 2023 最適輸送とその周辺 – 機械学習から熱力学的最適化まで」で用いたスライドです
- ChatGPT
- あとで読む
- AI
- 自然言語処理
- nlp
- 人工知能
- 機械学習
- GPT
- 言語
海外の技術者が日本語の「文字化け」を本気で解説、日本人顔負けの日本通っぷりが披露される
- 368 users
- gigazine.net
- テクノロジー
- 2021/11/02
by Whooym 文字が適切に表示されずに読めなくなってしまう「文字化け」は、海外の技術者の間でも「Mojibake」で通用するとのこと。そんな文字化けの種類について、東京で自然言語処理(NLP)の開発をしているポール・オリーリ・マッキャン氏が解説しました。 A Field Guide to Japanese Mojibake https://www.dampfkraft.com/mojibake-field-guide.html マッキャン氏によると、文字化けは作成した時と異なる文字コードで文書を開くことで発生するとのこと。文章が文字化けすると無意味な文字列になってしまうので読めませんが、どのような文字コードが使われたかによって異なるパターンが表れるので、慣れると使われている文字コードの種類を推測することができるそうです。 ◆UTF-8 UTF-8はインターネット上では最も一般的な文字
- 文字コード
- あとで読む
- 文字化け
- 技術
- 文字
- GIGAZINE
- 日本
【決定版】GPTs開発の教科書｜ChatGPT研究所
- 343 users
- chatgpt-lab.com
- テクノロジー
- 2023/12/24
この記事は、一度使われて終わるような、ChatGPT にちょっとした機能を追加しただけの GPTではなく、本当に使われる素晴らしく便利な GPTs を作成、開発するための教科書として、書きました。今までの GPTs 開発関連の情報を全てまとめた内容になっています。この note 一冊を読めば、GPTs 制作の基礎から応用まで全部わかります。記事の内容は必要に応じて適宜アップデートしていきます。目次は以下です：第1章 GPTsの概要とその可能性そもそも GPTs とはなんでしょうか？一言で言うと、ChatGPTを自分独自に大幅にカスタマイズできる機能とそのカスタマイズされたAIのことです。ただし、GPTsを単なるChatGPT のいち機能の一つとして考えるのは非常にもったいないです。 OpenAI は、GPT Store という、他の人が作ったGPTsを使えるようになるストアの
- ChatGPT
- AI
- あとで読む
- 開発
- プログラミング
- gpt
- OpenAI
- テクニック
- 情報
【Day 3】東大松尾研のLLM講座資料が公開されたから、詳しく読んでいくよ【備忘録】 - Qiita
- 322 users
- qiita.com/mohki7
- テクノロジー
- 2024/02/17
Transformer 深層学習モデル以前の言語モデルの課題言語モデルでやりたいことは、「今まで生成した単語列を元に、次の単語を予測する」ことで、その単語は今まで生成した単語列を条件とし、次にある単語がくる条件付き確率を求め、その確率が最大のものを選ぶということだった。（LLM資料p.8参照）ただ、これだと単語列が長くなったときや、類義語の処理に課題が生じてしまっていた。ニューラル言語モデルしかし、計算したい条件付き確率をNNで推定することにより、対処できた。 Encoder-Decoder型のRNN（Recurrent Neural Network)が最も基本的なモデルにはなるが、これでは長文に対応できなかった。（勾配消失＆単語間の長距離依存性の把握が困難） RNNが勾配消失するのは、活性化関数のtanhが1未満の値を取るため、BPTT時に掛け算されるとだんだん値が小さくなってし
- LLM
- あとで読む
- AI
- 学習
- ChatGPT
- 資料
Pythonで100万ドキュメントオーダーのサーチエンジンを作る(PageRank, tfidf, 転置インデックスとか) - にほんごのれんしゅう
- 321 users
- catindog.hatenablog.com
- テクノロジー
- 2019/07/06
検索エンジンを何故作ってみたかったかもともとこのブログのコンセプトのNLP的なことで、情報を整理してなにか便利にしたかった(Googleと同じモチベーションの世界の情報を整理する) 4年前にほぼ同じシステムを作ろうとしたとき、500万を超える大量のインデックスを検索するシステムは、数学的な理解度が十分でない＋エンジニアリング力が伴わないなどでギブアップした背景があり、今回再チャレンジしたくなったほぼすべての機能をpure python(+いくつかの例外はある)で実装して、世の中のソフトウェアを使うだけの検索エンジンをやってみたなどではなく、実際に理解して組んでみることを目的としたかった依存パッケージと依存ソフトウェア GitHubのコードを参照してください様々なサイトを巡回する必要があり、requestsが文字コードの推論を高確率で失敗するので、nkf をlinux環境で入れて
36億パラメータの日本語言語モデルを公開しました
- 305 users
- engineering.linecorp.com
- テクノロジー
- 2023/08/14
LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは。 LINEのNLP Foundation Devチームの清野舜と高瀬翔とoverlastです。 LINEでは2020年11月から日本語に特化した大規模言語モデル「HyperCLOVA」の構築と応用に関わる研究開発に取り組んできましたが、この「HyperCLOVA」と並行するかたちで複数の大規模言語モデルの研究開発プロジェクトが進行しています。今回はそれらの研究開発プロジェクトのうち、我々を含むMassive LM開発ユニットから、日本語言語モデル「japanese-large-lm（ジャパニーズラージエルエム）」をOSSとして公開できる状況になりましたので、本ブログを通じてお伝えすることにしました。この記事
- LLM
- あとで読む
- AI
- LINE
- 機械学習
- 開発
- ChatGPT
- 自然言語処理
- nlp
- 日本語
1年半のソフトウェアエンジニア長期インターンで出会ったオススメ本をたくさん紹介します - Qiita
- 304 users
- qiita.com/TodayInsane
- テクノロジー
- 2020/12/04
イントロ ABEJAアドベントカレンダーの4日目に一昨日飛び込みました、長期インターン生の佐藤(Twitter: @TodayInsane)です。去年は機械学習を通して、TWICEというK-POPグループへの愛を語りました。 ABEJAには昨年4月、「本当に何も出来ないけど、休学してプログラミングとかエンジニアの経験を積みたいんです」という何とも不安な主張をするぼくを受け入れていただきました。この1年半のエンジニア / リサーチ両インターンの過程で出会った良い本をどしどし紹介します。ちなみにインターン開始時はプログラミング、Pythonだけならちょびっと書けます！(ABCのB問題とか機械学習ライブラリの写経) HTMLってどんな風になってるんですか？(？) サーバ...？？リクエスト...？？ JavaScript、名前は聞いたことあります英語の論文しんどい、2時間ぐらいかけてI
Elasticsearchで日本語検索を扱うためのマッピング定義 - ZOZO TECH BLOG
- 295 users
- techblog.zozo.com
- テクノロジー
- 2021/11/05
こんにちは、検索基盤部検索基盤ブロックの渡です。私は検索基盤ブロックで、主にZOZOTOWNの検索周りのシステム開発に従事しています。以前の記事では、Elasticsearchのマッピング設定の最適化について取り上げました。そして、今回は日本語による形態素解析を実現するまでの手順をご紹介します。 techblog.zozo.com 目次目次はじめに Elasticsearchで全文検索を実現させる手順全文検索のためのマッピング定義 Analyzerの構造日本語対応のAnalyzer 日本語対応のためのプラグイン追加 kuromoji Analyzerを指定したマッピング定義の例 kuromojiプラグイン機能カスタムしたAnalyzerのマッピング定義 Analyzerの動作確認 modeを選択した場合のマッピング定義の例 Analyzer適用の注意点 kuromoji以外の
- elasticsearch
- あとで読む
- 検索
- 全文検索
- search
- nlp
- インフラ
- 日本語
- 検索エンジン
- 開発
趣味でKaggleを始めたことをきっかけにデータサイエンティストになった話 - Qiita
- 290 users
- qiita.com/Muji___rushi
- テクノロジー
- 2023/12/20
Kaggleアドベントカレンダー2023の19日目の記事です． TL;DR データ分析未経験からkaggleでどんなことを学んだか想像していたデータ分析と実業務とのGap kaggleやっていて良かったこと、kaggleでは学ばなかったことはじめに趣味でkaggleを始めたことをきっかけに、現在はデータ分析の仕事をしています。 Muj!rush!というアカウントでKaggleをしています。Kaggle expertです。 kaggleを始めてから3年程度経過したので(この3年間は、地球の公転が早まってんのかってくらい時間が経つのが早かったです)、これまでを振り返ることで、今後kaggleを始めてデータサイエンティストを目指すような方への参考になれば幸いです。 Kaggleと出会ったことで仕事への向き合い方や、今後のキャリアの考え方が変わったので、僭越ながら一言だけ言わせてもらうと、
- kaggle
- あとで読む
- エンジニア
- データ
- 仕事
- 学習
- キャリア
- qiita
掛谷英紀・筑波大准教授「岩田健太郎氏の問題点は国立大学で感染症学講座の教授を12年も務めながら、こういうときに適切な処置を現場で行える人材を育ててこなかったことを棚に上げて、批判だけしていること。」
- 284 users
- togetter.com
- 世の中
- 2020/02/23
Hideki Kakeya, Dr.Eng. @hkakeya 3D, VR, AR, AI for Medicine, NLP on Social Issues, CSR, Engineering Ethics, Research Integrity, Science & Media Literacy, ENG-JPN Translation, Views are my own. Hideki Kakeya, Dr.Eng. @hkakeya 岩田氏について語られていない問題点を一つ指摘すると、彼は国立大学で感染症学講座の教授を12年も務めながら、こういうときに適切な処置を現場で行える人材を育ててこなかったことを棚に上げて、批判だけしていること。その批判は、自分が教育者として無能であるというブーメランとして戻ってくる。 2020-02-20 22:12:31 Hideki Kakeya,
- 医療
- togetter
- COVID-19
- 教育
- あとで読む
- 岩田健太郎
- 行政
- 社会
- twitter
歴史・年表でみるAWS全サービス一覧－アナウンス日、General Availability(GA)、AWSサービス概要のまとめ－ - NRIネットコムBlog
- 274 users
- tech.nri-net.com
- テクノロジー
- 2021/11/15
小西秀和です。 Amazon Web Services(AWS)に関する情報や魅力を様々な観点から記事にしてみていますが、技術史が好きなこともあって今回はAWSサービスの発表の歴史を年表でまとめました。 AWSからもWhat's Newとして公式アナウンスは発表されていますが、アナウンス日、GA日(一般提供開始日)、サービス名、サービス概要といった情報に圧縮して時系列でAWSサービス一覧を一枚もので確認できる記事が今まで欲しかったので自分で作成してみることにしました。 AWS全サービスの歴史年表の作成方法 AWS全サービスの歴史年表の対象となるAWSサービスは次の手順で選定しました。 AWSサービス・製品一覧「Cloud Products(英語版)」にあるサービスのうち「～ on AWS」といったサードパーティー製品がメインとなるサービスを除いたリストを作成 AWSサービス・製品一覧に記載
- aws
- あとで読む
- 歴史
- まとめ
- サービス
- amazon
ChatGPTを使って論文の英文校正をする
- 256 users
- www.ortho.m.chiba-u.jp
- 学び
- 2022/12/22
Chat GPT は、自然言語処理 (NLP) 技術を使用して、特定の入力に基づいてテキストを生成する言語モデルです。今回はChat GPT を使用して英語の文章の修正をして、文章の質と明瞭さを向上させる方法を紹介します。 https://chat.openai.com/chat それでは、Chat GPT を使用して英語の編集と校正を行うための手順について説明しましょう。まず下記のprompt（AIに出す指示のこと）をチャットボックスに入れ””内に校正したい文章を入れます。日本語を直接入れても英語が出てきますが、Google翻訳で英訳した文章を入れた方が洗練された英語になります。（ChatGPTは日本語の入力も受け付けますが英語での入力の方が圧倒的に正確な回答が得られるため）下記のprompt（一部改変）の出典はこちらのAwesome ChatGPT Promptsです。他にも”a
- 英語
- あとで読む
- ChatGPT
- english
- AI
- 論文
- 文章
- 人工知能
- webサービス
- テキスト
高精度でテキスト分類を行えるAIの環境を用意しました【BERT】 - ニートの言葉
- 252 users
- blog.takuya-andou.com
- テクノロジー
- 2019/09/22
こんにちは、あんどう（@t_andou）です。最近、自然言語処理のAIの一種であるBERTをよく触っています。今回はBERTのソースを読まなくてもサクッと試せる環境を用意しましたので、メモとして残しておきます。 BERTとはどういうものか画像引用：https://arxiv.org/pdf/1810.04805.pdf 凄くざっくりと説明すると、BERTとは2018年末にGoogleの人たちが開発した自然言語処理において汎用的に使えて精度の良いAIです。自然言語処理において精度を測るためにいくつかのタスクがあるのですが、発表された時点ではダントツの成績でした。仕組みなどの詳細については論文を読むか解説記事をググってください。 2019/09/22時点で既により精度の良い手法がどんどん発表されていますが、BERTの情報量と比べるとまだ少ないため、入門としてはBERTを触ってみるのが
- bert
- あとで読む
- AI
- 自然言語処理
- 機械学習
- google
- NLP
- データセット
- 学習
エンジニアリングマネージャーの理想と現実
- 249 users
- speakerdeck.com/hamadakoji
- テクノロジー
- 2023/04/12
NLP2024 参加報告LT ~RAGの生成評価と懇親戦略~ / nlp2024_attendee_presentation_LT_masuda
よくあるデタラメな心理学の「法則」12選 | ライフハッカー・ジャパン
- 246 users
- www.lifehacker.jp
- 学び
- 2022/04/09
「アルファ」「ベータ」理論この考え方は、生まれつき「アルファ」である人（ある階層構造におけるリーダーの役割にふさわしい）と「ベータ」である人（追従者）がいるというもので、動物界における階層構造を観察した結果に基づいています。こうした観察結果は、自然界で誤解されてきただけでなく、科学的とは程遠い方法で人間社会に広く適用されてきました。動物間の事情は、「アルファ対ベータ」よりもずっと複雑です。オオカミの研究では、この言葉はもう使われてもいません。研究によって、「アルファのオス」は実際には父親であり、最も劣ったオオカミと対照的なのはその点だということが明らかになっているからです。雄鶏や雌鶏の集団における「つつく順序」も同じです。チンパンジーの場合は、集団のリーダーは肉体的に最も強いことが多いものの、寛大で共感力があり、集団の結束を高める傾向もあります。人間の「アルファの男性」とよく結び
- 心理
- あとで読む
- 研究
- ネタ
- 言語
あるプログラマーが飲食店で注文するとき、「まず４つあって、」と"メモリの確保"から始めた話が面白い
- 243 users
- togetter.com
- 暮らし
- 2019/10/19
norihitoishida @norihitoishida 某プログラマ氏がサイゼで注文する時「まず4つあって、」とメモリの確保から始めた話、何回聞いても笑ってしまう 2019-10-19 10:05:24 norihitoishida @norihitoishida 解釈をしたりしなかったりしています / ML ( NLP, anomaly detection, multimodality, AutoML ) / Factory Automation https://t.co/EVu6jNClhJ
OpenAI API ドキュメント日本語訳｜#1 GET STARTED 前編｜ゑぐみかるちゃあ
- 242 users
- note.com/egumiculture
- テクノロジー
- 2023/03/11
OpenAI API ドキュメントの日本語訳をこちらでまとめます。文字量の多いドキュメントなので、セクションごとに記事を分割しています。今回は「GET STARTED 」のセクションからIntroduction と Quickstart を抜粋した前編です。基本 DeepLで翻訳して、気になるところだけ書き換えています(ほぼ気になるところがないのが、DeepLのすごいところ)。原文との突き合わせができるようにはじめに原文を入れてますので、間違いなど見つけられましたら、ぜひご指摘ください。ご指摘箇所は随時反映させていただきます。原文のリンクが有効になってますので、それぞれ必要な場合は原文リンクの方を参照ください。 Introduction｜はじめに Overview｜概要The OpenAI API can be applied to virtually any task that i
- AI
- あとで読む
- api
- ChatGPT
- 機械学習
- OpenAPI
- ドキュメント
- 日本語
- OpenAI
- tutorial