並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 10996件

新着順 人気順

自然言語処理の検索結果1 - 40 件 / 10996件

  • PythonでWebスクレイピングする時の知見をまとめておく - Stimulator

    - はじめに - 最近はWebスクレイピングにお熱である。 趣味の機械学習のデータセット集めに利用したり、自身のカードの情報や各アカウントの支払い状況をスクレイピングしてスプレッドシートで管理したりしている。 最近この手の記事は多くあるものの「~してみた」から抜けた記事が見当たらないので、大規模に処理する場合も含めた大きめの記事として知見をまとめておく。 追記 2018/03/05: 大きな内容なのでここに追記します。 github.com phantomJSについての記載が記事内でありますが、phantomJSのメンテナが止めたニュースが記憶に新しいですが、上記issueにて正式にこれ以上バージョンアップされないとの通達。 記事内でも推奨していますがheadless Chrome等を使う方が良さそうです。 - アジェンダ - 主に以下のような話をします。 - はじめに - - アジェンダ

      PythonでWebスクレイピングする時の知見をまとめておく - Stimulator
    • GPT-3の衝撃 - ディープラーニングブログ

      この1週間はGPT-3のユースケースの広さに驚かされる毎日でした. シリコンバレーでは話題騒然ですが日本ではほとんど話題になっていないので,勢いで書くことにしました. GPT-3はOpenAIが開発した言語生成モデルです.名前の由来であるGenerative Pretrained Transformerの通り,自然言語処理で広く使われるTransformerモデルを言語生成タスクで事前学習しています. 先月申請すれば誰でもGPT-3を利用できるOpenAI APIが発表され,様々な業種の開発者によって驚くべきデモンストレーションがいくつも公開されています. 特に話し言葉からJSXやReactのコードを生成するデモは著名なベンチャーキャピタルから注目を集め,誇大広告気味だと警鐘を鳴らす事態に発展しています. This is mind blowing. With GPT-3, I built

        GPT-3の衝撃 - ディープラーニングブログ
      • 技術ようつべチャンネル集 - Qiita

        役立つYouTubeのチャンネルまとめ 数学、物理、アルゴリズム、プログラミング、などなど自分が使う技術に役立ちそうだな、困ったときによく見たなと思うチャンネルを紹介する。 取っ掛かり、ハマりがち、コツみたいな物が拾える。数学がメイン。随時更新していくつもり。 当たり前だけどちゃんと本も読んで勉強するんだぞ。 背景 YouTubeは視聴する登録チャンネルの数が増えると、チャンネルが埋もれて発掘困難になりがち (chrome拡張でできるチャンネルのフォルダ分け機能は、ぽちぽち登録するのも面倒で、そのフォルダの中から掘り出すのも難しい) モチベが上がる(おべんつよしたい)チャンネルを探してるうちに湧いてくる、わんにゃんコンテンツ(だいちゅき)に流され一日が終わるため、 モチベが上がる有用なチャンネルにすぐにたどり着くために、よく使うQiitaに列挙しておくことにした Streamや大学専用サイ

          技術ようつべチャンネル集 - Qiita
        • 「未経験文系から3ヶ月でデータサイエンティストになって一発逆転」はここで終わり (2020/7/31 更新) - todo-mentor’s diary

          データサイエンティストを生業にする手段と実態について述べる。 途中、具体例・境界値の例として私個人の話もするが、なるべく一般性のある話をする。 この記事で言いたいことは具体的には4つだ。 プログラミングスクールをディスるなら代わりの入門方法を提供しようよ。 もう「未経験文系から3ヶ月でデータサイエンティストで一発逆転物語」を止めろ。*1 おじさんは人生逆転したいなら真面目にやれ。 若者はワンチャンじゃなくて、ちゃんと化け物になれよ。 この記事についてはパブリック・ドメインとして転載・改変・リンク記載を自由にしてよいです。 (続き書いた) a. 入門は辛いが… b. 思考停止でプログラミングスクールに通うな。 なろう系・始めてみよう系資料一覧 (最速・最短ルート用) まずは動かしてみよう。強くてニューゲームが体験出来るぞ! 入門以前の本 一般向け業界本 (AI業界と展望がわかる本) 技術者入

            「未経験文系から3ヶ月でデータサイエンティストになって一発逆転」はここで終わり (2020/7/31 更新) - todo-mentor’s diary
          • データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 渋谷駅前で働くデータサイエンティストのブログ

            追記(2017年7月) こちらのスキル要件ですが、2017年版を新たに書きましたので是非そちらをご覧ください。 「データサイエンティストというかデータ分析職に就くためのスキル要件」という話題が某所であったんですが、僕にとって馴染みのあるTokyoR界隈で実際に企業のデータ分析職で活躍している人たちのスキルを眺めてみるに、 みどりぼん程度の統計学の知識 はじパタ程度の機械学習の知識 RかPythonでコードが組める SQLが書ける というのが全員の最大公約数=下限ラインかなぁと。そんなわけで、ちょろっと色々与太話を書いてみます。なお僕の周りの半径5mに限った真実かもしれませんので、皆さん自身がどこかのデータサイエンティスト()募集に応募して蹴られたとしても何の保証もいたしかねますので悪しからず。 統計学の知識は「みどりぼん以上」 データ解析のための統計モデリング入門――一般化線形モデル・階層

              データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 渋谷駅前で働くデータサイエンティストのブログ
            • 新規事業をひとりで作るノウハウ - 怠惰を求めて勤勉に行き着く

              生存報告も兼ねて。 カリフォルニアに来てもう半年ぐらい経った感覚ですが、実はまだ4ヶ月ほどでした。非常に多くの素敵な方々との出会いがあり、妻も僕も子供もこの皆さまの助けがあってどうにか生きております。どう感謝してよいか言葉にできないほどです。 さて、ビジネス上の僕のミッションは次の3つです。 主に投資や連携目的の交渉(の技術面のサポート) 日本との連携 新規事業の開発 どれもなかなか難しいです。会ってアポぐらいなら応じてくれる会社も多いですが、投資や連携といってもバブル崩壊以後経済成長できていない我が国はもはや「商習慣だけめんどくさいのに今やカネも持ってないから相手にしてられない連中」というのは肌で感じます。ご存知の通り、サンフランシスコ・ベイエリアはIT企業会社員が年収5000万円もらうような場所です。なかなか同じ規模感で会話するのが難しいレベルに達しています。 こみこみという噂のNet

                新規事業をひとりで作るノウハウ - 怠惰を求めて勤勉に行き着く
              • データサイエンティストもしくは機械学習エンジニアになるためのスキル要件とは(2017年夏版) - 渋谷駅前で働くデータサイエンティストのブログ

                この記事は2年前の以下の記事のアップデートです。 前回はとりあえずデータサイエンティストというかデータ分析職一般としてのスキル要件として、「みどりぼん程度の統計学の知識」「はじパタ程度の機械学習の知識」「RかPythonでコードが組める」「SQLが書ける」という4点を挙げたのでした。 で、2年経ったらいよいよ統計分析メインのデータサイエンティスト(本物:及びその他の統計分析職)vs. 機械学習システム実装メインの機械学習エンジニアというキャリアの分岐が如実になってきた上に、各方面で技術革新・普及が進んで来たので、上記の過去記事のスキル要件のままでは対応できない状況になってきたように見受けられます。 そこで、今回の記事では「データサイエンティスト」*1「機械学習エンジニア」のそれぞれについて、現段階で僕が個人的に考える「最低限のスキル要件」をさっくり書いてみようかと思います。最初にそれらを書

                  データサイエンティストもしくは機械学習エンジニアになるためのスキル要件とは(2017年夏版) - 渋谷駅前で働くデータサイエンティストのブログ
                • 初学者に教えたい、MicrosoftがGitHubで公開している教材が最高だった! - Qiita

                  はじめに エンジニアやデータサイエンティストの人材育成のためのオープンソースな教材を探していたらMicrosoftがGitHubでかなり質の高い教材をweb開発、データサイエンティスト、機械学習、IoTの四項目を対象に提供してるのを発見したため共有したいと思う。 正直、マイクロソフトと聞くとGoogleやらFacebookに比べていけてないイメージを持っていたけど、実際にMicrosoftのGitHubレポジトリを見て、彼らはここ数年で大きく変わったように思える。特に人材育成や学習教材に関しては世界一かもしれないなんて思っています。本記事では筆者が自信を持っておすすめするMicrosoftのオープン教材を紹介するのでぜひ自身の勉強や人材育成に生かしてもらえれば本記事を執筆した甲斐があります。(もちろん僕がお勧めしているだけでなくてGitHubのスター数も多く世界的に認められています!) こ

                    初学者に教えたい、MicrosoftがGitHubで公開している教材が最高だった! - Qiita
                  • 「人工知能」ブームに乗り遅れた!という方々に捧げる人工知能(機械学習)まとめ記事 - 六本木で働くデータサイエンティストのブログ

                    (Photo credit: A Health Blog via Visual Hunt / CC BY-SA) 「人工知能」ブームが本格化してまだほんの数ヶ月だと思うんですが、気がついたらTV含む大手メディアが皆こぞって毎日のように「人工知能」を取り上げ、あまつさえ政府や与党の諮問会議でまで「人工知能」の語が飛び交う有様で、一体何をどうしたらこうなるのか僕には全く分かりません(汗)。 とは言え、実際にビジネスの現場でも「人工知能」への期待感が日に日に高まり続けているのは事実で、例えば友人知人の経営者との酒席でも「最近人工知能ってめっちゃくちゃ流行ってるじゃん、あれって実際どうなの?本当に役に立つの?今からでも人工知能事業に参入すべきなのかな?それとも俺たちあいつらに滅ぼされちゃうの?」みたいなことを聞かれることが多いんですよね。 ということで、そういう「人工知能」ブームに乗り遅れたけれど

                      「人工知能」ブームに乗り遅れた!という方々に捧げる人工知能(機械学習)まとめ記事 - 六本木で働くデータサイエンティストのブログ
                    • コンピュータサイエンスが気になるプログラマに勧める書籍リスト - Rubyist Magazine 第61号 巻頭言

                      コンピュータサイエンスが気になるプログラマに勧める書籍リスト Rubyist Magazine 第 61 号をお届けします。 (今回は内容に合わせて文体を変えております。ご了承ください。) さて、コンピュータサイエンス(以下「CS」)は知らないけど日々プログラミングしている、というプログラマの方はたくさんいらっしゃるかと思います。 そんな方でも、ふとCSを知ってる方がいいのかなとか、CSも知らないとまずいのかな……などと思い、改めて勉強してみたいけどとっつきが悪いとか、うっかり手にとったCSの教科書が何を言ってるかさっぱりで10秒で閉じた、という方もいらっしゃるかと思います。 それでもCSが気になるので、「本腰を入れて勉強をする前に、どういうことをやってるのか眺めてみたい」くらいの温度感の方向けに、CSに隣接するジャンルで、職業プログラマや趣味プログラマの人なら読めそうな書籍のリストを作っ

                      • 日本語形態素解析の裏側を覗く!MeCab はどのように形態素解析しているか - クックパッド開発者ブログ

                        こんにちは、買物情報事業部の荒引 (@a_bicky) です。 前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。 形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。 なお、MeCab は汎用テキスト変換ツールとしても使用できます が、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。 アジェンダ 形態素解析とは MeCab における最適な解析結果の推

                          日本語形態素解析の裏側を覗く!MeCab はどのように形態素解析しているか - クックパッド開発者ブログ
                        • 文系パパエンジニアが放送大学等でコンピュータサイエンス・数学を学んで理系学士を取りに行く話 - とあるCS学徒のブログ

                          ※取りに行く話なのでまだ取ってません。 界隈ではコンピュータサイエンス(以下CS)を学ぶことが流行っていますが、これはとあるパパのとある一例です。どなたかの参考になれば。 こちらの通り申請致しました。 https://t.co/IDkVJAWjc2— Y (@wbspry) 2021年2月13日 誰? 事の経緯 なぜ大学でCS・数学を学びたいのか CS系学位を課す外資大企業たち CSできるマンへの憧れ 立ちはだかる数学の壁 dynamicなものよりstaticなもの ところで、CSって何? 選択肢と選択 なぜUoPeopleではなかったか 週次の人巻き込み課題が大変そう 単位移行が可能なのか(※当時は)よくわからなかった とはいえ なぜ帝京理工通信ではなかったか なぜJAISTではなかったか 学位授与機構との出会い 新しい学士への途(単位累積加算制度)とは 学位取得までの流れ そして単位集

                            文系パパエンジニアが放送大学等でコンピュータサイエンス・数学を学んで理系学士を取りに行く話 - とあるCS学徒のブログ
                          • ぼくはこうやって(8年前)Googleに入った - アスペ日記

                            入って1年ちょっとで辞めたぼくだが、流れに乗って書いてみる。 正直なところ、ぼくが書く意味はないと思った。 「どうやって」という話になると「入社試験を受けたら入れた」ということになるし、それはもう他の人が書いているからだ。 しかし、他の人の記事を見ているうちに、これならぼくが書けば違った視点からの記事が書けるんじゃないかと思った。 テーマは「光と影」。 ぼくの生い立ちを少し語る。 両親は京大卒。 父親は大学教授(最終的に)。 母親はぼくが2歳のときに統合失調症を発症、17歳のときに自殺。 子供は姉(2歳年上)とぼくの二人。 母親が統合失調症で病院に出たり入ったりしていたため、ぼくは家で姉と二人になることが多く、壮絶にいじめられた。 自閉的傾向が強かったぼくは、姉からしたら気持ち悪い存在だったんだろう。 その当時(ぼくは1974年生まれ)は自閉症なんて知られていなかった。 ぼくはどこからどう

                              ぼくはこうやって(8年前)Googleに入った - アスペ日記
                            • 「どんな文章も3行に要約するAI」デモサイト、東大松尾研発ベンチャーが公開 「正確性は人間に匹敵」

                              東京大学・松尾豊研究室発のAIベンチャーELYZA(イライザ/東京都文京区)は8月26日、文章の要約文を生成するAI「ELYZA DIGEST」を試せるデモサイトを公開した。人間より短時間で要約でき、要約の正確性は「人間に匹敵する」という。今後も精度を高め、議事録作りやコールセンターでの対話メモ作成などでの活用を目指す。 同社は自然言語処理技術(NLP)の研究を進めており、日本語テキストデータの学習量・モデルの大きさともに日本最大級というAIエンジン「ELYZA Brain」を開発している。 ELYZA DIGESTは、大規模言語モデルを基に、要約というタスクに特化したAIとして開発。読み込んだテキストを基に、AIが一から要約文を生成する「生成型」モデルで、文の一部を抜き出す「抽出型」モデルなどと異なり、文の構造が崩れていたり、話者が多数いる会話文だったりしても、精度の高い要約文を生成でき

                                「どんな文章も3行に要約するAI」デモサイト、東大松尾研発ベンチャーが公開 「正確性は人間に匹敵」
                              • Python による日本語自然言語処理

                                はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも

                                • 【速報】Google「被リンクからオーサーランクに移行する」SEO業者全滅か!?

                                  Googleの品質管理チームの責任者であるマット・カッツ(Matt Cutts)氏が公開した動画にて、これから検索のルールを被リンク重視から著者重視に変えていくと明言した。信頼できる人物が執筆したかどうかをコンピューターで解析してオーサーランクをはじき出すものとみられる。 動画は英語だが、右下から日本語字幕を設定することができる。 http://youtu.be/iC5FDzUh0P4 重要なポイントは以下の2つ。 (1)バックリンクからオーサーランクに移行する (2)あと数年はバックリンクも使う 要するにこれからは被リンクが多いページよりも、特定分野の専門家が書いたページのほうが価値が高いと考え、検索で上位に表示するということだ。著者の評価には自然言語処理の技術を使ってどれだけ信頼できる人物なのかランク付けするとのこと。 著者のランク付けがどのような基準で行われるのかが気になるところだが

                                    【速報】Google「被リンクからオーサーランクに移行する」SEO業者全滅か!?
                                  • 統計屋による新社会人のための統計系入門書お薦め一覧 - あんちべ!

                                    本稿では統計学・データマイニング・機械学習関連書籍について 内容が易しいこと。数学力(特に微積・線形代数)を求められないこと 入手しやすいこと。絶版や学会に入らないと入手不可などではない、値段が安いこと 実務に繋げやすいこと。 持ち運びしやすいこと。忙しい新社会人が通勤中や休み時間ポケットからさっと取り出し、継続して勉強出来ること を主眼に選定したお薦め書籍を紹介します。 (満たせない要望も多いですが) 主な対象者は、文系で数学や統計学をやってこなかった、 プログラミングもわからない(Excelで四則演算やマウス操作くらいは使える) けどいつかマーケティングやデータマイニングやってやるぜ! って考えてる新卒の方です。 筆者自身は経済学科出身の文系で、あまり数学力に自信がないなりに Web企業でデータマイニングをしているという人間です。 ここで紹介している内容で 「統計学・機械学習・データマ

                                      統計屋による新社会人のための統計系入門書お薦め一覧 - あんちべ!
                                    • サンフランシスコで創業したスタートアップを解散した話|さっそ

                                      どうも、さっそ (@satorusasozaki) です。 ぼくは「シリコンバレーで世界を変えるプロダクト作る!」という目標を掲げ、3年前に渡米しました。最初の2年間はエンジニアとして活動し、3年目に現地で出会った4人の仲間とスタートアップを始めました。1年少し続けたのですが解散することになったので、今日は以下の3点を中心に、振り返りを書いてみたいと思います。 ・シリコンバレーで現地の人とスタートアップを創業するまで ・スタートアップな生活 ・スタートアップが解散する理由 シリコンバレーで現地の人とスタートアップをするのはどんな感じなのか、できるだけ具体的に想像していただけるように、私生活など、仕事以外のことも織り交ぜながら書いていきたいと思います。これからサンフランシスコ・シリコンバレーに来て何かやってみたいという人のお役に立てれば嬉しいです。 ・・・ スタートアップを始めるまで最初に、

                                        サンフランシスコで創業したスタートアップを解散した話|さっそ
                                      • 正規表現メモ

                                        \x{} \pは後続する名前が表すクラス(プロパティ、スクリプト、ブロック)に属する文字にマッチし、 \Pは後続する名前のクラスに属さない文字にマッチします。 クラスの名前が一文字のときはブレースを省略できます。 クラス名の前に^を置くことにより否定形の指定を行うことも可能です。 Perl 5.8 での変更点 Perl5.8以降(5.6でも使えたようですが)では \pや\Pで始まるプロパティ指定に標準Unicode属性を使うこともできます。 詳しくは perlunicode perlunicode - Perl における Unicode サポート を参照してください。 日本語による説明が Unicodestandard にもあります。 Perl 5.8以降ではユーザーが任意のプロパティを作成することができます (IsまたはInを必ず前置)。 詳しくは perlunicode perluni

                                        • Smoozサービス終了に寄せて

                                          202012_smooz.md Smoozサービス終了に寄せて 前置き この文章と、それに含まれる考察や各サービスへの脆弱性報告などはmala個人の活動であり、所属している企業とは関係ありません。 一方で私は、企業が閲覧履歴を収集して何をしたいのか、所属してる企業や他社事例について、ある程度詳しい当事者でもあります。 一般論として書けることは書けるが、(業務上知り得た知識で開示されてないものなど)個別具体的なことは書けないこともあり、また観測範囲に偏りがある可能性もあります。 Smoozに報告した脆弱性2件 最近、Smoozというスマホ向けのブラウザアプリに2件脆弱性の報告をした。 この記事を書いている時点で、Smoozの配布が停止されていて、修正バージョンの入手が出来ない。 2件目についてはまだ返事が来ていない。 脆弱性情報の開示にあたって特段の許可は得ていないが、開発元からも利用停止す

                                            Smoozサービス終了に寄せて
                                          • Hiroshi Takahashi

                                            Skip to the content. 機械学習の研究者を目指す人へ 機械学習の研究を行うためには、プログラミングや数学などの前提知識から、サーベイの方法や資料・論文の作成方法まで、幅広い知識が必要になります。本レポジトリは、学生や新社会人を対象に、機械学習の研究を行うにあたって必要になる知識や、それらを学ぶための書籍やWebサイトをまとめたものです。 目次 プログラミングの準備 Pythonを勉強しよう 分かりやすいコードを書けるようになろう 数学の準備 最適化数学を学ぼう 基本的なアルゴリズムとその実践 機械学習の全体像を学ぼう 基本的なアルゴリズムを学ぼう 深層学習の基礎を学ぼう scikit-learnやPyTorchのチュートリアルをやってみよう サーベイの方法 国際会議論文を読もう Google Scholarを活用しよう arXivをチェックしよう スライドの作り方 論文の

                                            • データサイエンティストを目指すというかデータ分析を生業にするなら読んでおきたい初級者向け5冊&中級者向け12冊(2015年冬版) - 渋谷駅前で働くデータサイエンティストのブログ

                                              (Photo via VisualHunt) 追記 2017年3月現在の最新書籍リストはこちらです。 最近になってまた色々とデータサイエンティストを目指す人向けのお薦め書籍リストとか資料リストとかが出てきてるんですが、個人的には何かと思うところがあるので僕も適当にまとめておきます。偏りありまくり、完全に主観で決めたリストなので文句が出まくるかと思いますが、もはや毎回のことなのでご容赦を。 なおこちらのリストはあくまでもビジネスの現場でデータ分析を生業にする(しようとしている)人たち向けのものであり、研究者含めたガチ勢の方々向けのものではありませんのでどうか悪しからずご了承下さい。 ちなみに毎回言ってますが、アフィリエイトは全くやっていないのでここに貼られたリンクを踏んで皆さんが購入されても僕の懐には一銭も入りません。拙著だけはそもそも例外ですが(笑)。*1 初級者向け5冊 一応初級者向けと

                                                データサイエンティストを目指すというかデータ分析を生業にするなら読んでおきたい初級者向け5冊&中級者向け12冊(2015年冬版) - 渋谷駅前で働くデータサイエンティストのブログ
                                              • ディープラーニングの有名ライブラリ5種を最短距離で試す半日コース(TensorFlow, Chainer, Caffe, DeepDream, 画風変換) - その後のその後

                                                「いつか勉強しよう」と人工知能/機械学習/ディープラーニング(Deep Learning)といったトピックの記事の見つけてはアーカイブしてきたものの、結局2015年は何一つやらずに終わってしまったので、とにかく一歩でも足を踏み出すべく、本質的な理解等はさておき、とにかく試してみるということをやってみました。 試したのは、TensorFlow、Chainer、Caffe といった機械学習およびディープラーニングの代表的なライブラリ/フレームワーク3種と、2015年に話題になったディープラーニングを利用したアプリケーション2種(DeepDream、chainer-gogh)。 (DeepDreamで試した結果画像) タイトルに半日と書きましたが、たとえばTensorFlowは環境構築だけなら10分もあれば終わるでしょうし、Chainerなんてコマンド一発なので5秒くらいです。Caffeは僕はハ

                                                  ディープラーニングの有名ライブラリ5種を最短距離で試す半日コース(TensorFlow, Chainer, Caffe, DeepDream, 画風変換) - その後のその後
                                                • いい話(W社を辞めました) - アスペ日記

                                                  (2015/09/01追記:この記事は私がW社に在籍した2013年4月から2014年4月までの間の個人的な経験に基づくものです。就職の参考にされる方は、その後W社の社風や開発者の扱いに変化があったかどうか等についてご自身で最新の情報を得ていただければと思います。) (2019/08/17追記:社名を「W社」に置換しました。) 記事タイトルの通り、W社を退職したので、退職エントリを書く。 (最近雑文に対していろいろと予防線を張ることが流行っているらしいので、一応これもポエムだと書いておく。役に立つことは書いていない) 今日が最終出社日だった。 ちょうど 1 年ぐらい勤めたことになる。 2 社連続で 1 年で辞めたことで、自分が社会不適合者であることが誰の目にも明らかになってしまった。 これから先の人生の見通しは暗い。 その間に子供が生まれたのだが、不憫でたまらない。 いい話というのは、Goo

                                                    いい話(W社を辞めました) - アスペ日記
                                                  • ディープラーニングの判断根拠を理解する手法 - Qiita

                                                    ディープラーニングは特定分野で非常に高い精度が出せることもあり、その応用範囲はどんどん広がっています。 しかし、そんなディープラーニングにも弱点はあります。その中でも大きい問題点が、「何を根拠に判断しているかよくわからない」ということです。 ディープラーニングは、学習の過程でデータ内の特徴それ自体を学習するのが得意という特性があります。これにより「人が特徴を抽出する必要がない」と言われたりもしますが、逆に言えばどんな特徴を抽出するかはネットワーク任せということです。抽出された特徴はその名の通りディープなネットワークの中の重みに潜在しており、そこから学習された「何か」を人間が理解可能な形で取り出すというのは至難の業です。 例題:このネットワークが何を根拠に猫を猫として判断しているか、ネットワークの重みを可視化した上図から答えよ(制限時間:3分) image from CS231n Visua

                                                      ディープラーニングの判断根拠を理解する手法 - Qiita
                                                    • 夏の技術職インターンシップ講義資料公開 - クックパッド開発者ブログ

                                                      こんにちは!クックパッド編集室メディア開発グループ長の @yoshiori です。 このまえ夏の技術職インターンシップの前半の開発講義・課題部分が終わったのでさっそく公開しちゃいます! ちなみにこのインターンの対象者はプログラミングはわかるし自分で(授業とかではなく)コード書いている人なので超初心者向けでは無く、少なくともひとつ以上の言語でプログラミングが出来る人向けです。 一日目 TDD + git 編(@yoshiori) 講義初日なのでまずは簡単に肩慣らし & 開発の基礎の部分として TDD と git で始めました。 git については軽く説明し TDD は基本のテストファーストで進めて行きました。 ちゃんと何かをするたびにテストを実行し、メッセージを見れば次にすることが分かるというのを体験してもらい、GREEN が良くて RED が悪いのではなく、GREEN を想定しているのに

                                                        夏の技術職インターンシップ講義資料公開 - クックパッド開発者ブログ
                                                      • プロとアマの小説の特徴を数値化して比較してみたらやっぱり差があったので、それを埋めるための型付き小説記述用言語 TypeNovel を公開した件について - anti scroll

                                                        ラノベのタイトルみたいな記事を書く、という夢が叶いました。 github.com 開発に至った動機 以前から、アマチュアの小説はプロに比べると、描写不足な傾向があるのかもしれない、と思っていました。 特に不足がちだと感じるのは「時間」に関する描写です。 季節がわからなかったり、昼か夜か、平日か休日かみたいなことが不明瞭な作品が多い気がします。 しかし印象だけで語ってもアレなので、実際に差があるのかどうかを計測してみました。 計算式は、 時間描写の文の数 * 時間描写分布のエントロピー / 文の数 です。 「時間描写分布のエントロピー」というのは「全体を通じて、どれだけ満遍なく時間表現が書かれているか」という数字だと思ってください。 例えば時間描写が冒頭部にしかなかったりすると数値が小さくなり、全編を通じて満遍なく描写されていると、数値が大きくなります。 あと時間描写というのは、一応「季節、

                                                          プロとアマの小説の特徴を数値化して比較してみたらやっぱり差があったので、それを埋めるための型付き小説記述用言語 TypeNovel を公開した件について - anti scroll
                                                        • 機械学習が独学できる日本語Youtube難易度別まとめ - Qiita

                                                          こんにちは。 在宅の機会が増えて以来Youtubeを見る機会が増え、機械学習などが勉強できるチャンネルをいくつか探しては見ていました。探した中でよかったと思ったものをメモしていたのですが、せっかくなので公開したいと思います。日本語のソースがあるもののみ対象にしており、『これ無料でいいのか?』と思ったチャンネルを紹介したいと思います。主観で以下のレベルに分けましたがあくまで参考程度にお願いいたします。 基本:Pythonを触ってみた人 Pythonの説明・動かし方などを解説していて、動画によっては踏み込んだ内容になる 応用:アルゴリズムを使いこなしたい人 「model.fit(X, y)して動かしてみた」よりも踏みこみ、Python自体の説明は少ない 発展:研究開発もしたい人 最新の手法の仕組みの理解などが主眼であり、Pythonの解説はほぼ無い もしおすすめのチャンネルございましたらぜひコ

                                                            機械学習が独学できる日本語Youtube難易度別まとめ - Qiita
                                                          • 無料でここまでできる→外国語を書くのに役立つサイト24選まとめ

                                                            外国語を書くのに、すべて丸投げしておまかせできるウェブサービスは存在しない。 有料で、向こうにちゃんと翻訳できる人がいる場合でもできるのは、〈外国語で書く〉という問題解決を支援することである。 複数の情報源(ソース)から得られたものを突き合せて信頼性を高めるのが情報に関する問題解決の基本スタンスである。 どのような辞書も事典も専門家も、間違えることは必ずあるから、ひとつの情報源だけに頼ることは避けられる。 突き合わせるだけで問題が解決する訳ではないが、突合せにより浮かび上がる情報源の間の違いが、問題解決の糸口になる。 機械翻訳 英語←→フランス語、日本語←→韓国語などに比べて日本語←→英語その他の外国語の機械翻訳は、現在のところ実用レベルにはほど遠い。 しかし、とても信用できない機械翻訳も、異なる機械翻訳から得られる複数の結果を突合することで、見えてくるものがある。 ◯翻訳比較くんwith

                                                              無料でここまでできる→外国語を書くのに役立つサイト24選まとめ
                                                            • 258億語の日本語コーパスをウェブで公開~国立国語研究所 言語研究や自然言語処理技術開発での基礎資料

                                                                258億語の日本語コーパスをウェブで公開~国立国語研究所 言語研究や自然言語処理技術開発での基礎資料
                                                              • 【保存版・初心者向け】独学でAIエンジニアになりたい人向けのオススメの勉強方法 - Qiita

                                                                追記 【2020年版・初心者向け】独学でAIエンジニアになりたい人向けのオススメの勉強方法 【保存版・初心者向け】独学でAIエンジニアになりたい人向けのオススメのAI勉強方法 また、Pythonや機械学習がオンライン上で学べるAI Academyをnoteでも書きましたが、3/17日からほとんどのコンテンツを永続的に無料で利用できるよう致しましたので、是非使って頂けますと幸いです。 AI Academy Bootcamp 我々が提供している個人向けオンラインAIブートキャンプのご紹介です。 AI Academy Bootcamp AI Academy Bootcampは、「短期間でAI活用スキルを付けたい」と考えている方や、 「データサイエンティスト」や「機械学習エンジニア」として就業を目指している方向けの AI特化型オンラインブートキャンプです。 講義動画とオンラインマンツーマンの演習授

                                                                  【保存版・初心者向け】独学でAIエンジニアになりたい人向けのオススメの勉強方法 - Qiita
                                                                • 【完全保存版】GPT を特定の目的に特化させて扱う (Fine-tuning, Prompt, Index, etc.) - Qiita

                                                                  【完全保存版】GPT を特定の目的に特化させて扱う (Fine-tuning, Prompt, Index, etc.)OpenAIChatGPTlangchainGPT-4LlamaIndex ChatGPT に代表される今日の AI ブームを牽引しているのは 大規模言語モデル(Large-scale Language Model, LLM) と言っても過言ではないでしょう。LLM とは大量のテキストデータを使ってトレーニングされた自然言語処理のモデルで、代表的なものに、GPT(OpenAI)、Llama(Meta)、PaLM(Google)があります。我々開発者は、事前学習されたこれらのモデルを使って簡単にアプリケーションを作ることができます。 LLM が遂行可能な言語的タスク LLM を使って行える言語的タスクには次のような種類があります: Classification: 感情やポジ

                                                                    【完全保存版】GPT を特定の目的に特化させて扱う (Fine-tuning, Prompt, Index, etc.) - Qiita
                                                                  • 機械学習に挑んだ一年間 – 機械学習について一から学び、仕事に活用するまでの道のり | POSTD

                                                                    この記事は、去年私が書いた「Machine Learning in a Week(機械学習に挑んだ一週間)」という記事の続編です。その記事では、私が5日間集中的に機械学習を学び、のめり込んでいった経緯について説明しています。 機械学習に挑んだ一週間 一般の人にとって機械学習の分野に足を踏み入れるのは、無謀なことに思えるでしょう。medium.com 私は順調なスタートを切った後も、時間を見つけて勉強を続け、およそ一年後には、仕事で機械学習を活用した初プロジェクトを立ち上げることができました。そのプロジェクトでは、さまざまなタイプの機械学習や自然言語処理(NLP)の技術を駆使して、 Xeneta の 潜在顧客の特定 を行っています。 趣味でやっていたことが仕事になって、とても嬉しかったです。 同時に、仕事として機械学習を利用するのは博士号を持つ限られた人だけだ、という思い込みも払拭されました

                                                                      機械学習に挑んだ一年間 – 機械学習について一から学び、仕事に活用するまでの道のり | POSTD
                                                                    • 断言しよう、チャットボットブームは去るし関連ビジネスも失敗するよ

                                                                      会社名を明かせないが、業界大手のベンチャーキャピタルに所属している。 主な出資先は所謂ミドル、レイターと呼ばれる「成長、拡大期」のベンチャーである。 私自身も一回事業立ち上げ、売却した経験を持つ。 さて、そんな私も最近は起業前、もしくは新規事業を立ち上げようとしている方にアドバイスをすることが多い。 そしてその中でもここ1ヶ月は会う人の3割がチャットボット系のサービスのアイデアを語るのである。 「やめたほうが良い」と毎回アドバイスするのだが、毎回伝える3つの点についてここに記したい。 願わくばこの記事が広まり、浅はかな「対話型サービスの未来」を考えているベンチャーが断念し、より可能性の高いビジネスに切り替えて欲しい。 そしてこの記事を受けても尚、私の予測を上回り成功するチャットボットサービスが出てきてほしいとも思う。 前置きが長くなったが、以下3点がチャットボットが失敗する理由である。 1

                                                                        断言しよう、チャットボットブームは去るし関連ビジネスも失敗するよ
                                                                      • Netflixにおける日本語字幕の導入

                                                                        (Please note that this article is a localized (to Japanese) version of a corresponding tech blog article in the English language) Netflixでは、2015年9月の日本における配信サービス開始時から日本語字幕を提供しています。 今回のブログでは、日本語字幕提供に至るまでの技術的な取り組みについて説明します。 字幕ソースファイルの仕様、字幕ソースファイルからNetflix配信用字幕への変換モデル、Netflixにおける日本語字幕の納品モデルなどを取り上げます。さらに、W3C字幕規格Timed Text Markup Language 2 (TTML2)導入に向けた対応についても触れます。 2014年の終盤にかけて、Netflixでは2015年9月に予定していた日

                                                                          Netflixにおける日本語字幕の導入
                                                                        • 勉強に役立ちそうなエントリの一覧 - 大人になってからの再学習

                                                                          このブログでカバーされている「勉強に役立ちそうなエントリ」の一覧です。 ★をつけたものは、書くときに頑張ったような気がするので、見て損は無いと思う。というもの。 ■ 理工系の大学学部生くらいを対象とした用語の説明 ・★ベクトルの内積とは - 大人になってからの再学習 ・★固有ベクトル・固有値 - 大人になってからの再学習 ・★log(1+x)のテイラー展開・マクローリン展開 - 大人になってからの再学習 ・★写像:単射、全射、全単射 - 大人になってからの再学習 ・★フーリエ変換 - 大人になってからの再学習 ・★フーリエ級数展開の式を理解する - 大人になってからの再学習 ・★フーリエ級数展開の式を理解する(2) - 大人になってからの再学習 ・★プログラミングで理解する反射律・対称律・推移律・反対称律 - 大人になってからの再学習 ・★群・環・体 - 大人になってからの再学習 ・★分散

                                                                            勉強に役立ちそうなエントリの一覧 - 大人になってからの再学習
                                                                          • 日本の住所の正規化に本気で取り組んでみたら大変すぎて鼻血が出た。 - Qiita

                                                                            先日、弊社では Community Geocoder というサービスをリリースしました。 Community Geocoder 紹介記事 さて、このジオコーダーは、住所を正規化してそれを「大字町丁目コード」という12桁の数字に変換し、そのコードをファイル名として GitHub ページ上に大量においた JSON ファイルにアクセスして緯度経度を取得するということをやっています。 つまり、住所の正規化からコードに変換する部分がとても重要で、そもそも正規化に失敗してしまうとどうしようもないという仕様なんです。 さいわい先日経産省が公開した IMI コンポーネントツール である程度のことをやってくれるのですが(というかそうであることを期待したのですが)、いろいろ調べ始めると住所という仕組みはほんとに複雑で、Facebook で絡んでくださった @hfu さんいわくまさに「自然言語処理そのもの」であ

                                                                              日本の住所の正規化に本気で取り組んでみたら大変すぎて鼻血が出た。 - Qiita
                                                                            • 読書猿Classic

                                                                              Reading Monkey ChatGPTについてブログ記事を書こうと思います。アドバイスしてください。 ChatGPT ChatGPTは、自然言語処理タスクのためのトランスフォーマー・ベースのモデルで、大量のテキストデータを学習しています。 ブログ記事を書く際には、ChatGPTの特徴や使用方法について説明し、実際に使用した例や、改良の余地などについても触れることが有益でしょう。また、ChatGPTが扱えるタスクや利用可能な言語についても説明することで、記事の内容を充実させることができます。 Reading Monkey ChatGPTの特徴を5歳の子供にも分かるように説明してください ChatGPT ChatGPTは、大量の文章を読んで、人間のように文章を書くことができるコンピュータープログラムです。 例えば、あなたが「私は犬が好きだ」と言ったら、ChatGPTは「なぜ犬が好きなの?

                                                                                読書猿Classic
                                                                              • 高専のカリキュラム! 情報工学を体系的に学ぶために高専のカリキュラムをまとめる。 - nigoblog

                                                                                今回は「情報工学を体系的にやりてぇな...」という方のために 情報工学を体系的に学べるような記事を書きます。 内容は高専のカリキュラムを時系列にまとめ、参考になった教科書などを! というわけで1年目から書いていきます~ もちろん思い出しながらなのでヌケモレが有りそうですが… 1年目 ここではぶっちゃけ専門はほとんどありませんでした。 やったことは コンピュータ・リテラシー 情報数学 コンピュータ・リテラシー 色々Linuxに触れてみよう的な感じの授業。 最初にセットアップして、Emacsとかコマンドラインとか徹底的にやりました。 バッファの概念とか当時はさっぱりだった気が。 とにかくコマンドラインを使いまくったのでその時やっといて本当に良かったなと。 情報数学 何が情報数学なのだかようわからなかったけど、 数列 証明 2進数 不等式 集合論 なんかをやりました。他にも合った気がするけど。

                                                                                  高専のカリキュラム! 情報工学を体系的に学ぶために高専のカリキュラムをまとめる。 - nigoblog
                                                                                • 文字列アルゴリズムの学びかた - Hatena Developer Blog

                                                                                  こんにちは!はてなアプリケーションエンジニアの id:takuya-a です。 みなさんは、このような疑問をもったことはありませんか? grep はどのように文字列を検索しているのか? MeCab はどうやって辞書を高速にルックアップしているのか? パーサやコンパイラを作りたいけど、何から始めればいいのか? 本稿では、「文字列アルゴリズムとはどんなものなのか?」「なぜ重要なのか?」「何を知っておくべきか?」「どうやって勉強すればいいのか?」といった疑問にお答えしていこうと思います。 文字列アルゴリズムの意外な応用や、モチベーションを保ちやすい勉強のしかた、文字列アルゴリズムを勉強するために行った社内での取り組み、実装するときのコツといったトピックについても触れています。 このエントリは、はてなエンジニアアドベントカレンダー2016の22日目の記事です。昨日は id:syou6162 さんに

                                                                                    文字列アルゴリズムの学びかた - Hatena Developer Blog