並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 350件

新着順 人気順

テキストマイニングの検索結果1 - 40 件 / 350件

  • 国会採掘

    本サイトは 国立国会図書館 国会議事録検索システム を通じて収集したデータを使用しています。 本サイトのデータは単語の使用回数を議事録から機械的に抽出したものであり、該当の単語に関する発言者の主張・賛否、発言の根拠、発言の妥当性を示すものではありません。

      国会採掘
    • 1つでも該当すると、「会議の成功率」は5分の1以下 AIが導き出した、会議の成功を阻む5要素

      働き方が多様化した時代にも柔軟に対応し、最短距離で成果を最大化する「チームマネジメント」について、3回にわけて特集した株式会社SmartMeetingと株式会社SmartHRのセミナー。 本記事では、「成果を上げるための会議」をテーマに、『超・会議術~テレワーク時代の新しい働き方』の著者・越川慎司氏が登壇した、3回目のセミナーの模様をお届けします。日本企業における労働時間に占める社内会議の時間割合や、「会議の成功」の定義、そして会議でアウトプットが出ない理由など、さまざまなトピックが語られました。 延べ17万人超の労働時間を減らし、売上を上げる支援 越川慎司氏(以下、越川):クロスリバーの越川でございます。はじめの40分で「815社に対応してきた会議データの実情」と「質と量を改善するためにどうしたらいいのか」といった資料を共有させていただきます。「こうやったらうまくいくよ」ではなくて、実例

        1つでも該当すると、「会議の成功率」は5分の1以下 AIが導き出した、会議の成功を阻む5要素
      • 朝日新聞社、長文を要約するAPIを無償公開 500字→200字に圧縮、重要事項の自動抽出も

        朝日新聞社は4月2日、指定した字数や割合に長文を要約する「長文要約生成API」を開発したと発表した。評価用途に限り、無償で利用できる。会議の議事録や、採用活動で受け付けるエントリーシートの速読などに役立てられるという。

          朝日新聞社、長文を要約するAPIを無償公開 500字→200字に圧縮、重要事項の自動抽出も
        • 大学で読んだ情報科学関連の教科書 - ジョイジョイジョイ

          先日、博士(情報学)になりました。学部と大学院をあわせた 9 年間で読んだ情報科学関連の教科書・専門書を思い出を振り返りつつここにまとめます。私は授業はあまり聞かずに独学するタイプだったので、ここに挙げた書籍を通読すれば、大学に通わなくてもおおよそ情報学博士ほどの知識は身につくものと思われます。ただし、特に大学院で重要となる論文を読み書きすることについては本稿には含めておりません。それらについては論文読みの日課についてや論文の書き方などを参考にしてください。 joisino.hatenablog.com 凡例:(半端)とは、数章だけ読んだ場合か、最後まで読んだものの理解が浅く、今となっては薄ぼんやりとしか覚えていないことを指します。☆は特におすすめなことを表します。 学部一年 寺田 文行『線形代数 増訂版』 黒田 成俊『微分積分』 河野 敬雄『確率概論』 東京大学教養学部統計学教室『統計学

            大学で読んだ情報科学関連の教科書 - ジョイジョイジョイ
          • 山上徹也容疑者の全ツイートの内容分析から見えた、その孤独な政治的世界(伊藤 昌亮) @gendai_biz

            安倍晋三元首相が銃撃されてからおよそ1ヵ月が経った。容疑者・山上徹也の犯行動機や彼が抱えていた屈折については、供述内容などから断片的に伝わってきてはいるが、まとまった像はなかなか見えてこない。 以下では、成蹊大学の伊藤昌亮教授が、山上容疑者のものとされるツイートを定性的・定量的な手法で分析、容疑者が持っていた独特の政治的傾向を探った(文中敬称略)。 調査の概略 本論では、安倍晋三元首相銃撃事件を起こした山上徹也容疑者のものとされるツイートの分析から、その政治的傾向を探ってみたい。彼はどんな立場から何を見、何に憤り、自らが生きる政治的世界をどう捉えていたのだろうか。 まず調査の概略を記しておこう。対象としたのは、Togetterにアーカイブされている彼自身のすべてのツイート、1147件だ。リツイートは含まず、引用リツイートについては当人のコメント部分だけを含むものとした。 それらを対象に、「

              山上徹也容疑者の全ツイートの内容分析から見えた、その孤独な政治的世界(伊藤 昌亮) @gendai_biz
            • 香川県ゲーム規制条例「パブコメ」…LINEのチームが分析、シンポで発表へ - 弁護士ドットコムニュース

                香川県ゲーム規制条例「パブコメ」…LINEのチームが分析、シンポで発表へ - 弁護士ドットコムニュース
              • 【2021年永久保存版】全部知ってる?WEB関係の人なら知らなきゃ損なツール&サービス50選 | Moriricca Media

                今回はWEB関係の人なら知らないと損!なくらい便利なツールやサービスを、50個まとめて、利用目的別にご紹介します。 2021年になりましたが、近年より良いサービスが開発されたものもあります。ご自身のニーズにあわせ、並行して利用して頂くのがおすすめです。 この記事では古くなった情報は新しいものに書き換え、時代の流れに沿った最新サービスだけをビッシリと集めさせて頂きました。 今回は2万字の大ボリュームでお届けします! 一部、個人的な経験談も混じえてご紹介するので、お急ぎの方はこのブログをブックマークし、ポイントだけ押さえて後からじっくりWEBサービスを見て頂けると幸いです。 クライアントにツールを提案したりもできますので、隙間時間にでもゆるりと読んで頂ければと思います。 それではお楽しみください! (この記事が良いと思ったら自由にシェアしてね) ★サイト解析に使えるツール・サービス 「WEBサ

                  【2021年永久保存版】全部知ってる?WEB関係の人なら知らなきゃ損なツール&サービス50選 | Moriricca Media
                • 高校生全員が「Python」を履修するかも。「情報科」における学習内容、Pythonやmicro:bitが例示に挙がりましたが致命的なミスが!→訂正されました - パパ教員の戯れ言日記

                  2019年5月27日追記:この記事のオチに使われている事態は修正された模様です。その点をご勘案の上、お読みください。 小学生では「プログラミング的思考」が導入される新学習指導要領ですが、高等学校では更に進みます。 高等学校においては、情報科において共通必履修科目「情報Ⅰ」を新設し、全ての生徒がプログラミングのほか、ネットワーク(情報セキュリティを含む)やデータベースの基礎等について学習 文科省の資料より 教育新聞の記事によれば、 情報科は現在、「社会と情報」か「情報の科学」を選択することになっている。全国的に、プログラミングが学習内容にない「社会と情報」のみを開設している学校が多く、情報科の専任教員を配置せずに他教科の教員が兼任で受け持つケースも少なくない となっていますが、新学習指導要領では、「情報Ⅰ」は必修になるので、全ての学校で指導されるはず。 そして、教員用の研修教材として文科省が

                    高校生全員が「Python」を履修するかも。「情報科」における学習内容、Pythonやmicro:bitが例示に挙がりましたが致命的なミスが!→訂正されました - パパ教員の戯れ言日記
                  • pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama

                    これは二段構えの構成を持っています。この二段構えを正確に検出し、テキストを理解することが望ましいです。 Unstructuredを使うPythonのライブラリであるUnstructuredを試してみましょう。 参考記事 導入は非常に簡単です。 pip install 'unstructured[pdf]' 実装も簡単です。 解析コード: from unstructured.partition.pdf import partition_pdf pdf_elements = partition_pdf("pdf/7_71_5.pdf") 表示コード: for structure in pdf_elements: print(structure) 結果: 残念ながら、2段組のカラムを正確に検出することはできませんでした。 Grobidを使うGrobidは、peS2oというオープンアクセス論文のコ

                      pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama
                    • 各業界でのデータサイエンスの活用について調べてみた(随時追加) – かものはしの分析ブログ

                      都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト 仕事で、いろんな会社でデータサイエンスってどう使われているのですか?と聞かれることがあり、自分としてはなんとなくしか掴めていないな、知ったかぶりしたくないなと思うところがあったので、やや手厚くリサーチをしてみようと思いました。 2022/3/6の段階では11つの市場しかないですが、最終的には30市場を目指します。 【2021/11/27追記】 公開したところ、それなりにこの記事に関心を持ってくださった方が多かったようなので、少しずつ事例を埋めていこうと思います。 業界

                        各業界でのデータサイエンスの活用について調べてみた(随時追加) – かものはしの分析ブログ
                      • [Python]機械学習などでテキストデータを特徴量にする際のソースコード集

                        都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト テキストデータの特徴量化について 仕事ではテキストデータを多用するので、機械学習などで扱うためにテキストデータを特徴量にするためのアプローチを色々と整理してソースコードを残しておきたいと思います。今回はあくまでも私の知っているものだけなので、網羅性はないかもしれませんが悪しからず。 (2019/08/18 追記)Stackingをカジュアルに行えるvecstackというモジュールを用いた予測も試してみました。下の方の追記をご覧ください。 アプローチ テキストデータを特

                          [Python]機械学習などでテキストデータを特徴量にする際のソースコード集
                        • 『きかんしゃトーマス』490話を2周した夏の記録 | オモコロ

                          ツクツクボウシが鳴いている。夏の終わりの始まりだ。僕はアパートの一室に閉じこもり、血走った眼で『きかんしゃトーマス』を観ていた。 ◇ 遡ること数ヶ月前。友人の家に遊びに行った僕は、彼の1歳半になる息子をあやしていた。動物と子どもには昔から好かれなくて、いないないばあをしては泣かれ、高い高いをしては嗚咽が出るほどの号泣をされた。異変に気づいた友人はすぐに息子を僕から取り上げ、iPadで動画を再生し始めた。 画面に映ったのは、きかんしゃトーマスだった。 イギリスにあるとされる架空の島「ソドー島」を舞台に、「トーマス」を中心とした人格を持った機関車たちが活躍する人形劇。そういえば僕も幼い頃、きかんしゃトーマスの虜だった。実家には今も当時のプラレールが大切に保存されている。 懐かしいオープニング映像と共に、青い機関車が走り出す。この世の終わりみたいな顔をしていた子どもは嘘のように泣き止み、目を丸く

                            『きかんしゃトーマス』490話を2周した夏の記録 | オモコロ
                          • 高精度でテキスト分類を行えるAIの環境を用意しました【BERT】 - ニートの言葉

                            こんにちは、あんどう(@t_andou)です。 最近、自然言語処理のAIの一種であるBERTをよく触っています。 今回はBERTのソースを読まなくてもサクッと試せる環境を用意しましたので、メモとして残しておきます。 BERTとはどういうものか 画像引用:https://arxiv.org/pdf/1810.04805.pdf 凄くざっくりと説明すると、BERTとは2018年末にGoogleの人たちが開発した自然言語処理において汎用的に使えて精度の良いAIです。 自然言語処理において精度を測るためにいくつかのタスクがあるのですが、発表された時点ではダントツの成績でした。 仕組みなどの詳細については論文を読むか解説記事をググってください。 2019/09/22時点で既により精度の良い手法がどんどん発表されていますが、BERTの情報量と比べるとまだ少ないため、入門としてはBERTを触ってみるのが

                              高精度でテキスト分類を行えるAIの環境を用意しました【BERT】 - ニートの言葉
                            • 【追記】鬼滅の刃の作者が女性と分かって叩いている人はたぶんそんなにいない - ネットロアをめぐる冒険

                              【5/17 20:10追記】 Twitterの収集ワードを変えて検索をしたところ、該当するツイートがありました。 今日はトレンドにのって雑な記事。 「鬼滅の作者が女性と知ってアンチがわいてる」的なtwを見かけたので、我が家の鬼滅大好き10歳児に「鬼滅の作者は女性らしいよ」と伝えたらしばしポカンとしていて、1時間後くらいに「そっか…男か女かとか考えたことなかった…そっか…人間…」と呟いており、なにやら神的なイメージだった様子。 — ぼのきち (@bono_kichi) 2020年5月17日 これは、ネット上では5月16日に掲載された文春の記事*1から、『鬼滅の刃』の作者が女性だろうという話が話題になったことからですね。 ネット上では様々に噂されてきましたが、実は作者は女性です。家庭の事情もあり、長く東京で漫画家生活を続けることはできないみたい。連載終了のタイミングで実家に帰るのではと囁かれて

                                【追記】鬼滅の刃の作者が女性と分かって叩いている人はたぶんそんなにいない - ネットロアをめぐる冒険
                              • 1つの HTML ファイルだけで完結する校正支援ツールの作り方

                                こんにちは。LINEヤフー株式会社でテキストマイニングや自然言語処理などをやっている山下( @yto )です。 Yahoo!デベロッパーネットワークのテキスト解析 Web API が CORS(Cross-Origin Resource Sharing)対応したため、サーバがなくてもブラウザから直接 Web API にアクセスできるようになりました(参考)。 そのテキスト解析 Web API の機能の一つである「校正支援」は日本語文章の品質チェック(校正)を支援するもので、文字の入力ミス、言葉の誤用、わかりにくい表記、不適切な表現などが使われていないかをチェックして、指摘します(内部の辞書データをベースとしているため完全なものではないことをご承知おきください)。 この校正支援機能のサンプルプログラムとして「HTML ファイル1つだけで完結する校正支援ツール」を作ったので紹介します。入力され

                                  1つの HTML ファイルだけで完結する校正支援ツールの作り方
                                • JK炎上はデマなのか、そして誰もいなくなった - ネットロアをめぐる冒険

                                  細かく書きませんが、女子高生が車を買ったというツイートがバズり、それが「炎上した」として、アカウントが削除され、「#JK炎上」というタグでもって、「炎上」させたとされる人たちへの批判が巻き起こりました。 しかし一方で、元々の彼女のツイートのリプには多くの好意的なコメントが寄せられており、そもそも「炎上」自体がデマなのではないか、というツイートもバズってました。 個人的に気になった件なのですが、時間も経ちましたので、時系列に整理してみました*1。いわゆるまとめたものは不正確なものも多いので… 【時系列目次】 8月30日 女子高生のツイート 9月1日8時半ごろ 5chにスレッドがたつ 9月1日 20時頃  当該ツイートを批判するツイートが投稿(のちに炎上) 9月2日夜中 制服から特定しようとするYahoo知恵袋がたつ 9月2日3時ごろ 5chのスレッドのまとめが立ち始める 9月4日~5日にかけ

                                    JK炎上はデマなのか、そして誰もいなくなった - ネットロアをめぐる冒険
                                  • 科学技術情報分析の面白さ

                                    下記のイベントで講演した資料です。私はDay 1に「科学技術情報分析の面白さ」というテーマで発表しました。 データ可視化ショーケースイベント Data Visualization meetup 2021 https://peatix.com/event/3120368 「データ可視化研究の可視化」を始め、テキストマイニングやネットワーク分析を用いた事例を紹介しつつ、特許や論文・学術文献といった科学技術情報の面白さや動向をお話しました。データ可視化・分析に係る方々の参考になれば幸いです。 Day 1 https://www.youtube.com/watch?v=VxaZR55H9dE Day 2 https://www.youtube.com/watch?v=ZFxLzngdN_c

                                      科学技術情報分析の面白さ
                                    • 2019-nCoVについてのメモとリンク

                                      リンク集目次 国内外の状況 政府機関・国際機関等 学術情報 疫学論文 分子生物学/ウイルス学論文 臨床論文 インフォデミック関係 ワクチン関係 変異株関係 時系列メモ目次 新型コロナウイルス(2020年1月6日,11日) インペリグループによる患者数推定(2020年1月18日) 患者数急増,西浦さんたちの論文(2020年1月20日,23日) WHOはPHEIC宣言せず(2020年1月23-24日) 絶対リスクと相対リスク(2020年1月26日) 研究ラッシュが起こるかも(2020年1月27日) なぜ新感染症でなく指定感染症なのか? なぜ厚労省令でなく閣議決定なのか?(2020年1月27日) コロナウイルスに対する個人防御(2020年1月27日) 国内ヒト=ヒト感染発生(2020年1月28日) フォローアップセンター設置,緊急避難等(2020年1月29日) PHEICの宣言(2020年1月3

                                      • 【文春オンライン「ChatGPTには逆立ちしてもできないことがある」平井鳥取県知事が誤解覚悟で「使用禁止」を訴えた真意】の記事を読んで|ppp

                                        【文春オンライン「ChatGPTには逆立ちしてもできないことがある」平井鳥取県知事が誤解覚悟で「使用禁止」を訴えた真意】の記事を読んで ■5/22追記 投稿したのは数日前なのに、なんだこれ? ちょっと怖い。 ■はじめに 日曜日、chatGPT-4(以下「GPT」)のプロンプトや拡張機能を色々と試していました。また、GoogleのBardも使えるようになっていたので、素人なりに試行錯誤していました。 朝から何時間も試行して疲れたので、ちょっと気分転換にTwitterの”おすすめ”に流れてくるツイートを漫然と見ていました。 すると、見出しの記事が流れてきました。別に私は鳥取県知事に対して好意も悪意もない・・・というか、あの時おすすめツイートが流れてこなければ、他組織の首長のインタビューを読むことは恐らくなかったでしょう。北海道知事や沖縄県知事が何をしようと関心ないし、それと同じ程度に関心ないも

                                          【文春オンライン「ChatGPTには逆立ちしてもできないことがある」平井鳥取県知事が誤解覚悟で「使用禁止」を訴えた真意】の記事を読んで|ppp
                                        • データサイエンスにオススメの本80冊! - Qiita

                                          文字数が超えるため、本の画像をて削除しました。興味がある方は、元記事をご覧ください。 2019年データサイエンスにオススメの本80冊! ビッグデータの発展とともに、データサイエンスは今広く知られるようになりました。大学にデータサイエンスを学べる学部ができたり、データサイエンティストを目指している人もたくさんいるでしょう。この記事では、統計学から機械学習やマーケティングまで、初心者がデータサイエンスを学ぶのにおすすめの本を80冊紹介します! #Part I: データサイエンス概論 1.『データサイエンス講義 』Rachel Schutt、Cathy O'Neil 著 本書では、データサイエンスを行う上で、どのようなプロセスが必要か、データサイエンティストとしてはどのようなスキルセットが必要で、どのような思考方法を選択する必要があるのかを実例を多数示しながら紹介します。 2.『戦略的データサイ

                                            データサイエンスにオススメの本80冊! - Qiita
                                          • エコーニュースR – 「一般社団法人Colabo」の分析(30) 開示文書67ページ、ほぼぜんぶ手書きの「仁藤夢乃日誌」で読むコラボ

                                            エコーニュース>国内>「一般社団法人Colabo」の分析(30) 開示文書67ページ、ほぼぜんぶ手書きの「仁藤夢乃日誌」で読むコラボ 「一般社団法人Colabo」の分析(30) 開示文書67ページ、ほぼぜんぶ手書きの「仁藤夢乃日誌」で読むコラボ 一般社団法人Colabo(以下、コラボ)の活動で、よく知られているものの一つが都内繁華街で行う、少女への食事などを提供するバスカフェ事業だ。シニカルに見るとメディア露出や寄附金集めの際の売りとなる「PRポイント」と言ってもいいかもしれない。 (マーキングなど、カラーでの書き込みのみ筆者による。以下も同様。) そして新宿のバスカフェについては新宿区の敷地を無償利用しているところ、形式的には新宿区へ後援申請を行い、毎回ごとに活動報告書が提出されている。今回、連載の30回はこの、2020年4月1日以降の新宿区への活動報告書67枚を通じて、社会運動の中でコ

                                              エコーニュースR – 「一般社団法人Colabo」の分析(30) 開示文書67ページ、ほぼぜんぶ手書きの「仁藤夢乃日誌」で読むコラボ
                                            • 黒ビールにアイスクリームを浮かべて富豪の気分

                                              海外旅行とピクニック、あとビールが好き。なで肩が過ぎるので、サラリーマンのくせに側頭部と肩で受話器をホールドするやつができない。 前の記事:業務スーパーでとりあえず買うべきものは「からし小袋100個入り」だろうて > 個人サイト つるんとしている 豊穣の黒い飲みもの 用意するのはこの2つ。東京ブラックという黒ビールと、MOW バニラ(森永乳業) ビールは一缶の半分くらい。アイスクリームのほうはカップの3割くらいを掬い取ってグラスに盛り付ければ完成。 甘いのがお好きな方は、アイスはがつんと6割くらいいってもOK アイスクリームが黒ビールに溶け込んで、こころもち粘度を増した褐色の液体をゆっくりと啜る…おいしい。ほうとため息が出るほどおいしい。脳にじーんとくる。 この滋味をいったいどのように表現すればいいのでしょう。たとえばもし、この飲み物を1万人に飲ませて感想を書いてもらい、それをワードクラウ

                                                黒ビールにアイスクリームを浮かべて富豪の気分
                                              • AIが三国志を読んだら、孔明が知力100、関羽が武力99、を求められるのか?をガチで考える物語(自然言語処理編) - Qiita

                                                吉川英治の「三国志」@青空文庫をINPUTとして、 「自然言語処理」と「機械学習」によって上記のように、 武力や知力などのパラメータを推論する。 三国志小説の機械学習結果として、 1つの武将を50次元ベクトルに変換し、そのベクトルを、 全く同じ「式」に入れて出てきた値が、上記の表。 このような方法:「小説(自然言語)」⇒「数値化」⇒「式」 によって、武力/知力を求めることが出来るか? という実験&研究が今回のテーマ。 他の成果としては、 以下のような武将名の「演算」が楽しめる。 (これも実際の出力結果より抜粋) 諸葛亮に近い人は誰? ⇒ 姜維、司馬懿、陸遜、周瑜、魏延、馬謖 劉備にとっての関羽は、曹操にとって誰? ⇒ 袁紹、張遼 ※若いころの馴染み的な意味や対比が多いので袁紹? 孫権にとっての魯粛は、劉備にとって誰? ⇒ 司馬徽(水鏡先生)、徐庶 ※賢者を紹介するポジションなのか? 精度の

                                                  AIが三国志を読んだら、孔明が知力100、関羽が武力99、を求められるのか?をガチで考える物語(自然言語処理編) - Qiita
                                                • 夢中になった技術が「打ち込める仕事」になるまで ─ OSS検索エンジンの開発にコミットし事業にも貢献する - Findy Engineer Lab

                                                  はじめまして、 @mocobetaと申します。 パッケージソフトウェアベンダー、コンサルティング会社、Webサービス企業などを経て、現在は株式会社LegalForceというスタートアップの研究開発セクションでソフトウェアエンジニアをしています。 個人としては、Python形態素解析ライブラリjanomeを開発するとともに、OSS検索エンジンライブラリApache Luceneのコミッターをしています。ちなみに本記事のアイキャッチ画像は、絵師さんに描いてもらったjanomeのキャラクターです。とてもかわいく描いていただいて、お気に入りの1枚です。 この記事では、進路とエンジニアとしての力不足に悩んでいた私の若手時代から、10年(以上)の模索期間を経て、ライフワークにしたいと思える技術に出会い、なんとか好きな仕事で食べていけるようになるまでを振り返ります。アップダウンの激しいIT業界において、

                                                    夢中になった技術が「打ち込める仕事」になるまで ─ OSS検索エンジンの開発にコミットし事業にも貢献する - Findy Engineer Lab
                                                  • 日本語形態素解析器 Sudachi の語彙データ(SudachiDict)および単語ベクトル(chiVe)が AWS 上で Open Data として公開されました | Amazon Web Services

                                                    Amazon Web Services ブログ 日本語形態素解析器 Sudachi の語彙データ(SudachiDict)および単語ベクトル(chiVe)が AWS 上で Open Data として公開されました 多くの機械学習デベロッパーの方々が、AWS 上でさまざまなアルゴリズムの開発やモデルの構築を行なっています。中でも自然言語処理を行う際には、対象言語の言語ごとの辞書データや単語ベクトルデータを用いることが一般的です。これらのデータは GB 以上のサイズにおよび、また計算の際にも大量の GPU および CPU を必要とするため、従来こうしたモデルを構築する際には常にストレージおよびコンピューティングのリソースの調達が問題となってきました。AWS 上で自然言語処理モデルの開発を行う際には、Amazon SageMaker を用いて学習に必要なリソースを確保することで、ALBERT の

                                                      日本語形態素解析器 Sudachi の語彙データ(SudachiDict)および単語ベクトル(chiVe)が AWS 上で Open Data として公開されました | Amazon Web Services
                                                    • 有価証券報告テキストマイニング入門 - 株式会社ホクソエムのブログ

                                                      はじめに こんにちは, ホクソエムサポーターのKAZYです。 先日猫カフェデビューをして, 猫アレルギーであることがわかりました🐈。 次はフクロウカフェに挑戦してみようかなと思っています🦉。 ところで皆様, 有価証券報告書は読んでますか? 私は読んでいません。 読めません。 眺めていると眠くなります💤。 私は眠くなるんですが, 有価証券報告書ってテキストマイニングするのに向いているんです。企業の事業や財務情報が詳細に書かれています。 XBRL形式で構造化されています。 数千社分のテキストが手に入ります。 おまけに無料です。 どうです?興味湧いてきませんか? 本記事ではPythonを使って有価証券報告書をテキストマイニングする方法を紹介します。 有価証券報告書をダウンロードするところからご紹介するのでご安心を。 こんな方が見たら役に立つかも 企業分析をプログラミングでやりたいが何してい

                                                        有価証券報告テキストマイニング入門 - 株式会社ホクソエムのブログ
                                                      • 学習済み日本語word2vecとその評価について - 株式会社ホクソエムのブログ

                                                        ホクソエムサポーターの白井です。 今回は日本語の word2vec に着目し、日本語の学習済み word2vec の評価方法について紹介します。 自然言語は非構造化データであるため、単語や文章を計算機で扱いやすい表現に変換する必要があります。 そのための方法の1つに word2vec があり、Bag of Words (BoW) や tf-idf とならんでよく用いられます。 一般に、word2vec は Mikolovが提案した手法 (CBOW, Skip-gram) をはじめ、 GloVe や fastText など、単語をベクトルで表現する単語分散表現のことを指します。 word2vec は教師なし学習のため、コーパスさえ準備できれば誰でも新しい単語分散表現を学習することができます。 しかし、実際に word2vec を使う際に、どのように評価すれば良いのかがよく分からず、配布されて

                                                          学習済み日本語word2vecとその評価について - 株式会社ホクソエムのブログ
                                                        • 大阪府知事選挙 2023 候補者の演説を徹底分析!投票日は4月9日 | NHK政治マガジン

                                                          大阪府知事選挙は3月23日に告示され、立候補したのは届け出順に、▽無所属の新人で法学者の谷口真由美氏(48)、▽参政党の新人で歯科医師の吉野敏明氏(55)、▽無所属の新人で共産党が推薦する元参議院議員の辰巳孝太郎氏(46)、▽大阪維新の会の現職の吉村洋文氏(47)、▽諸派の新人で執筆業の稲垣秀哉氏(53)、▽政治家女子48党の新人で薬剤師の佐藤さやか氏(34)の6人です。 NHKはそれぞれの候補者の演説を、AIを使った「テキストマイニング」という手法で分析し、有権者にどのような内容を訴えたのかを読み解きました。 演説の中で使われた政策や選挙運動に関する言葉の回数を集計し、より多く使われた言葉をより大きく表示しています。 谷口氏は、15分余り演説し、最も多く使った言葉は「人」の13回でした。 「若い『人』やお年寄りが、希望を持っていい『町』だと思える大阪にしたい」といった文脈で多く使われまし

                                                            大阪府知事選挙 2023 候補者の演説を徹底分析!投票日は4月9日 | NHK政治マガジン
                                                          • 【雑記】「社会学」憎悪について|後藤和智@テキストマイニングとか

                                                            「社会学」に対する憎悪(本当に無知に基づいているとしか言い様がない、かつ一方的で中傷としか言い様がない)が渦巻いている。まあその流れの源流に私の『おまえが若者を語るな!』(角川Oneテーマ21、2008年)もあるのかと考えるとかなり複雑で頭を抱えたくなる気持ちである。 私が同書で批判したのは宮台真司をはじめとするポピュラー社会学で、それらを非科学的なものとして斬り捨てたのだが、そういう語りに感化された人たちが、いつしか「自分たちにとって都合の悪いことを言う連中」全般を「社会学者」呼ばわりするようになっている。どうも、他称社会学者の工学修士です。 ところでそういった「社会学」バッシングの流れは、むしろポピュラー社会学の影響を強く受けているということは指摘しておきたい。例えば表現規制反対派ムラの連中の振る舞い(例えば「強力効果論」「限定効果論」へのこだわりとか、あるいは「近代社会というのは法律

                                                              【雑記】「社会学」憎悪について|後藤和智@テキストマイニングとか
                                                            • ノア・スミス「ニュースはますます悪いことを偏って取り上げがちになってきてる」(2024年1月16日)

                                                              ニュースを見てるアメリカ人のあいだでこれほど多くの悲観論が通説になりつつあるのは,どうしてだろう? ひとつには,2010年代後半の社会全体の動揺が挙げられる.それと,国が危機のさなかにあるという感覚をつくりだすことで利益を手に入れたがってるアウトサイダー政治派閥が〔そういう悲観的で危機を煽る〕メッセージを送り出していることも,理由の一端にあると思う.ただ,この十年~二十年ほどで,他でもなくニュースメディアがますます悲観的になってきたっていう事情もある. Binsbergen et al. による新しい論文では,テキストマイニング手法を使って新聞で用いられている言葉を分析している.彼らは,経済ニュースと経済以外のニュースの両方でプラスの感情とマイナスの感情をはかる尺度を構築した.短期的には,経済に関する感情は経済関係の出来事に対応している――景気後退やインフレにはマイナスの感情が対応するし,

                                                                ノア・スミス「ニュースはますます悪いことを偏って取り上げがちになってきてる」(2024年1月16日)
                                                              • 著作権協会国際連合「日本のAI学習は権利者からの許可と報酬の支払いを条件に」文化庁に申し入れ

                                                                ぜんぶ翻訳 「AI と著作権に関する考え方について」への協議 CISACについて 私は、国際作家・作曲家協会連合である CISAC を代表してこの文章を書いています。 CISACは、著作者団体の世界的なネットワークとして、116カ国から225の団体が加盟しています。 CISACは、会員を通じて、音楽、演劇、文学、オーディオビジュアル、グラフィック、ビジュアル・アートなど、あらゆる芸術分野の500万人以上のクリエイターの利益を代表しています。 CISACは、「人工知能と著作権に関する協議」について、日本政府にコメントを提出する機会を得たことを嬉しく思います。 AIについて このテクノロジーは人間の創造性を高め、イノベーションを支援する一方で、クリエイターの権利や生活を脅かす存在にもなっています。 重要な問題のひとつは、テキストマイニングやデータマイニング(TDM)を含むAIの学習目的で、権利

                                                                  著作権協会国際連合「日本のAI学習は権利者からの許可と報酬の支払いを条件に」文化庁に申し入れ
                                                                • Webブラウザのもう一つのパーサ: Preload Scanner | PerfData

                                                                  Firefoxでは、Preload Scannerという呼称ではなく、Speculative Parserと呼称されています。 Shallow Parsing Preload Scannerは、Shallow Parsing(浅いパース処理)という手法を使います。 Shallow Parsingシャローパーシングとは、文法解析の一種であり、構文解析の表層的なレベルで行われる解析手法です。 Shallow Parsingは、文法構造を完全に解析する深層解析(Deep Parsing)とは異なり、文書やコードの全体的な構造を理解しようとはせず、特定の情報やパターンを効率的に抽出することに焦点を当てています。 WebブラウザのPreload Scannerにおいては、Shallow ParsingがHTMLドキュメントの表層的な構造を迅速に解析する役割を担っています。 Preload Scann

                                                                    Webブラウザのもう一つのパーサ: Preload Scanner | PerfData
                                                                  • 「セキュリティエンジニアのための English Reading」が公開されました - 午前7時のしなもんぶろぐ

                                                                    お久しぶりです。しなもんです。 ここ数ヶ月作成していた「セキュリティエンジニアのための English Reading」が無事 IPA のサイトで公開されましたのでここで紹介させていただきます。 日本のセキュリティエンジニア全員に是非!是非!ご覧いただきたい内容に仕上がっていると自負しておりますので (誇張あり)、どうか冷やかしでも一度ご覧いただけると幸いです。 www.ipa.go.jp 中核人材育成プログラムとは プロジェクトの背景 「セキュリティエンジニアのための English Reading」紹介 Awareness ~英語情報の重要性を理解する~ Practice ~より「楽に」「上手く」読む~ Training ~リーディング力を鍛える~ セキュリティ英単語集 特長①: セキュリティニュースで「実際に使われている」単語を厳選 特長②: セキュリティならではの意味・使用例を掲載

                                                                      「セキュリティエンジニアのための English Reading」が公開されました - 午前7時のしなもんぶろぐ
                                                                    • 文章を自動で分類するAI、ユーザーローカルが無償提供 AIをプログラミングなしで作れる機能も

                                                                      ユーザーローカルは1月8日、入力された文章を「エンタメニュース」「趣味の話」といったカテゴリーに自動で分類する「ユーザーローカル テキスト自動分類AI」の無償提供を始めた。AIが文章を分析し、テーマや書き手の感情を推定する。 AIは、入力された文章を「仕事」「恋愛」など13のカテゴリーに振り分ける「ニュースカテゴリー分類」と、「肯定的」「否定的」といった感情に分類する「感情カテゴリー分類」の2パターンに対応。 ユーザーがExcelで作ったカテゴリー分け済みの文章の表を、教師データとしてアップロードすれば、オリジナルのAIを作成できる機能も搭載している。 具体的な用途としては、企業に届いた問い合わせメールの振り分けや、アンケート結果の分類、作品へのレビューやコメントの感情ごとの分類などを想定。今後は作成したオリジナルのAIを外部システムに組み込むためのAPIを提供する予定。 関連記事 Web

                                                                        文章を自動で分類するAI、ユーザーローカルが無償提供 AIをプログラミングなしで作れる機能も
                                                                      • 高校の「情報II」でデータサイエンスがしっかり学べる!すごい!

                                                                        高校の「情報II」でデータサイエンスがしっかり学べる!すごい! 2020-06-25-1 [Programming][Python][BookReview] データサイエンティストに俺はなる!! Python 初学者のタツヲです。 いまどきは高校の授業(情報II)でデータサイエンスをやるのですね。 文部科学省から教員用の資料が公開されてるのを知りました。 「情報II」を取った高校生がどんなことを学んでいるのかを知るために、さっそく調査です! 高等学校情報科「情報Ⅱ」教員研修用教材(本編):文部科学省 第3章がデータサイエンスの話題ですので、そこを読みました。 で、読んでみた感想ですが、内容が本格的すぎて震える。 大学のデータサイエンス演習のテキストじゃないのかよ、これ。 流し読みでは一部ついていけないところも(真面目に読む必要あり)。 高校生のうちからこの辺をマスターできれば将来安泰でしょ

                                                                          高校の「情報II」でデータサイエンスがしっかり学べる!すごい!
                                                                        • 読売新聞、Web記事の“生成AIへの学習利用”を禁止に 利用規約を改定 スクレイピングなどもNG

                                                                          読売新聞社は1月25日、Webメディア「読売新聞オンライン」の利用規約を改定すると発表した。掲載記事を生成AIなどに学習させる行為などを新たに禁じる。2月1日から適用する。 禁止事項として新たに3点を追加。「データマイニング、テキストマイニングなどのコンピュータによる言語解析行為」「クローリング、スクレイピングなどの自動化した手段でデータ収集や抽出、加工、解析、蓄積などをする行為」「生成AIなどに学習させる行為、生成AIなどを開発する行為」を禁じた。 これらの禁止事項を含めた情報解析のために、同メディアの記事を利用したい場合は、読売新聞とライセンス契約を結ぶ必要があるとしている。 生成AIを巡っては、米The New York Timesは2023年12月に米Microsoftと米OpenAIを著作権侵害で提訴するなど、新聞業界は反発している。The New York Timesは「両社が

                                                                            読売新聞、Web記事の“生成AIへの学習利用”を禁止に 利用規約を改定 スクレイピングなどもNG
                                                                          • Web会議の議事録を自動作成、頻出単語の分析も ユーザーローカルが無料公開

                                                                            ユーザーローカルは9月15日、Web会議の議事録を自動作成するサービスを無料公開した。複数の話者の音声を認識し、会議の内容をテキストとして自動で保存する。会話の内容や発言者の感情をテキストマイニングで分析し、ワードクラウドやグラフで可視化することもできる。 会議の可視化機能では、会議中の頻出単語を1枚のワードクラウドにまとめて表示できる。ディープラーニング技術でユーザーの発言を分析し、ネガティブ・ポジティブを判定して表示することも可能だ。

                                                                              Web会議の議事録を自動作成、頻出単語の分析も ユーザーローカルが無料公開
                                                                            • 鬼滅の刃がヒットした本当のところ

                                                                              鬼滅の刃が爆売れしているのはなぜか?というのを論じる記事をたまに見るが、どれも本質的ではない。惜しいものならあるのだが。 今回は、ヒットした理由の本当のところを述べてみたい。 結論から言うと、愛や憎しみの表現が上手いからだ。 鬼滅の刃は、他のジャンプ作品に比べて愛憎や人間同士の繋がりを描いた場面が多い。 そのうえで、キャラクターが魅力的であり、バトル描写があり、一応は恋愛要素もある。 これでウケないはずがない。 私の意見だけでは根拠に乏しいので、引用をさせてほしい。 『ベストセラーコード』という、アメリカの言語学者とフリージャーナリストによる共著だ。テキストマイニングという数学的アプローチにより、実際に世にウケる作品のパターンについて記した本だ。1万冊以上の小説をスキャンして機械分析にかけている。 少し長い。結論は最後の方にある。 しかし、このふたり(注:書中で紹介されているベストセラー作

                                                                                鬼滅の刃がヒットした本当のところ
                                                                              • 23/7/5 データサイエンスエキスパート合格 チートシートと攻略ガイド - LWのサイゼリヤ

                                                                                データサイエンスエキスパート ゲームクリア 攻略チートシート配布 攻略指針 図書館を巡ってアイテム収集 図書館の初見殺しトラップ攻略 参考書籍 統計基礎 統計学(初歩) 統計学(高度) ベイズ統計 分散分析 数学基礎 線形代数 微積分 計算基礎 情報全般 データベース アルゴリズム モデリング・AIと評価 歴史・応用分野・AIなど 多変量解析 時系列解析 グラフィカルモデル テキスト分析 因果推論 機械学習・モデル評価・ニューラルネットワーク データサイエンスエキスパート ゲームクリア 日本統計学会が主催するデータサイエンスエキスパート試験に合格した。 www.toukei-kentei.jp データサイエンスエキスパートは、統計検定より実践寄りであるデータサイエンスシリーズの最上位資格という位置付け。下位資格には「データサイエンス基礎」や「データサイエンス発展」があるが簡単そうだったので

                                                                                  23/7/5 データサイエンスエキスパート合格 チートシートと攻略ガイド - LWのサイゼリヤ
                                                                                • 仕事用にTransformer/BERTの情報をまとめる – かものはしの分析ブログ

                                                                                  都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト 最近、『Transformerによる自然言語処理』という書籍を買って、これまであまり追いかけていなかったTransformerについて仕事でカジュアルに使えるレベルまで色々と準備してみようと思い、その過程で見つけた色々な情報をまとめてみました。 以前、『BERTによる自然言語処理入門: Transformersを使った実践プログラミング』も買って、写経しながら試していたのですが、仕事であまり使う機会がなかったのであまり身につかなかったです。その反省も込めて、仕事でその

                                                                                    仕事用にTransformer/BERTの情報をまとめる – かものはしの分析ブログ