並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 584件

新着順 人気順

抽出の検索結果1 - 40 件 / 584件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

抽出に関するエントリは584件あります。 技術機械学習ツール などが関連タグです。 人気エントリには 『朝日新聞社、長文を要約するAPIを無償公開 500字→200字に圧縮、重要事項の自動抽出も』などがあります。
  • 朝日新聞社、長文を要約するAPIを無償公開 500字→200字に圧縮、重要事項の自動抽出も

    朝日新聞社は4月2日、指定した字数や割合に長文を要約する「長文要約生成API」を開発したと発表した。評価用途に限り、無償で利用できる。会議の議事録や、採用活動で受け付けるエントリーシートの速読などに役立てられるという。

      朝日新聞社、長文を要約するAPIを無償公開 500字→200字に圧縮、重要事項の自動抽出も
    • 音楽データからボーカル・ドラム・ベースの音を個別に抽出できる「spleeter」

      ボーカルや複数の楽器で構成された音楽データを、機械学習を用いてそれぞれの音に分類したファイルとして出力する「spleeter」がGitHubで公開されています。ボーカルの声や伴奏の部分だけを抽出できるとのことで、実際に使ってみました。 deezer/spleeter: Deezer source separation library including pretrained models. https://github.com/deezer/spleeter 以下のURLにアクセスすれば、spleeterでサンプルの楽曲を分離することができます。 spleeter.ipynb - Colaboratory https://colab.research.google.com/github/deezer/spleeter/blob/master/spleeter.ipynb#scrollTo=

        音楽データからボーカル・ドラム・ベースの音を個別に抽出できる「spleeter」
      • 下水から抽出した、無臭の白い結晶…正体は? 農家向けに販売 | 毎日新聞

        和白水処理センターに集められた下水から回収、抽出された再生リン。最終処理を経て肥料となり、8月下旬から農家への販売が始まった。博多湾の水質環境改善を目的に始まった処理は、市民生活と農業をつなぐ新たな可能性になろうとしている=福岡市東区で、津村豊和撮影 福岡市に七つある下水処理施設の一つ、東区の和白(わじろ)水処理センター。積み上がった白い結晶を職員に両手のひらですくってもらうと、指の間から砂のようにさらさらとこぼれ落ちた。臭いも全くない。 結晶の正体は「再生リン」。窒素、カリウムと並ぶ化学肥料の3要素の一つのリン酸を、市民生活で出た下水から回収、抽出したものだ。市は博多湾の水質汚濁を防ぐため、1996年にリンの回収事業をスタート。さらに、国土交通省が開発した回収技術を今年4月に導入したことで回収量が15倍になり、年間に最大で150トンを見込めるようになっ…

          下水から抽出した、無臭の白い結晶…正体は? 農家向けに販売 | 毎日新聞
        • Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python

          ■イベント 
:第54回情報科学若手の会 https://wakate.connpass.com/event/222829/ ■登壇概要 タイトル:Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python 発表者: 
技術本部 DSOC R&D研究員  青見 樹 ▼Twitter https://twitter.com/SansanRandD

            Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python
          • Excelで誰でも簡単言語処理 (感情推定, 固有表現抽出, キーワード抽出, 文類似度推定 etc...) - Qiita

            Excelで誰でも簡単言語処理 (感情推定, 固有表現抽出, キーワード抽出, 文類似度推定 etc...)ExcelAPIVBA自然言語処理COTOHA 3行まとめ Excel関数一発で高度な言語処理を使えるようにしました 感情推定、固有表現抽出など日本語を分析・整理するのにいろいろ使えます Windows + Officeユーザならマクロファイルで誰でも簡単に使えます ※Macだと多分動かないと思います。VBAのHTTPリクエストを有効にできないため。。。 9/1追記: コメント頂きましたが、64bit版OfficeだとjsonParseが動かないようなのでアップデートしてみました。動作確認できていないので自己責任でお願いします https://github.com/korinzuz2/excelcotoha/blob/master/COTOHA公開用64bitExcel対応版.xls

              Excelで誰でも簡単言語処理 (感情推定, 固有表現抽出, キーワード抽出, 文類似度推定 etc...) - Qiita
            • 「脱VBA」の道筋がついに見えた、ExcelデータをPythonで抽出・加工する方法

              「Excelデータをプログラムで扱うのなら、VBA(Visual Basic for Applications)を使うべし」。多くの人はそう思っているでしょう。もちろんVBAはMicrosoft Officeのソフトを操るのにとても便利なプログラミング言語ですが、弱点もあります。 その1つが、Officeにしばられてしまうこと。業務に必要なデータ量がExcelや「Access」のカバーする範囲で収まらなくなったら、もう扱えません。 また互換性の問題から、Windows上で書かれたVBAのソースコードは基本的に、macOSやLinuxでは動かせません。VBAはプログラミング初心者にとって理解しやすい一方で、コードが冗長になりがちという側面もあります。 今からプログラミングを学んで業務を自動化したいなら、筆者はPythonをお薦めします。Pythonはシンプルで勉強しやすく、ライブラリーが豊富

                「脱VBA」の道筋がついに見えた、ExcelデータをPythonで抽出・加工する方法
              • 【マンガの産業革命!?】「写真からマンガ背景用の線画を抽出するAIの性能が割とえぐい感じになった」

                🐸かえる明王.jp🐸🛋️ @FrogMyoO コレ、商品として売ったら絶対産業革命がマンガ業界で起きるわ しかもこれをblenderで作った3DCGデータにも使えれば本当に一人で週間マンガ描ける時代が来るわ twitter.com/minux302/statu… 2022-06-17 19:12:22

                  【マンガの産業革命!?】「写真からマンガ背景用の線画を抽出するAIの性能が割とえぐい感じになった」
                • Windows10の無償デスクトップ自動化ツール「Power Automate Desktop」でPDFからのデータ抽出を自動化する

                  対象読者 Excel/PowerPointなど、一般的なツールの操作を理解している人 RPAツールを用いて業務を自動化したい人 PDFアクション PDF(Portable Document Format)とは、Adobe社が開発したページ記述言語PostScriptをベースにしたドキュメント形式のこと。環境やプリンターによらずに保存・転送・閲覧・印刷が可能であり、電子ドキュメントにおける事実上の標準のファイル形式として広く使用されています。ファイルの中に、テキストデータと描画命令、画像などのコードが圧縮されて格納されています。 Power Automate for Desktopでも、これらのファイルを扱うアクションが用意されています。 PDFからテキストを抽出 PDFから画像を抽出 PDFからテーブルを抽出 新しい PDFファイルへのPDFファイルページの抽出 PDFファイルを統合 本稿

                    Windows10の無償デスクトップ自動化ツール「Power Automate Desktop」でPDFからのデータ抽出を自動化する
                  • 「画像の一括ダウンロード」「ページ情報の抽出」などの操作をプログラミング不要で自動化できる「Browserflow」レビュー

                    インターネットを利用していると「Googleマップの検索結果をスプレッドシートにまとめる」「Twitterのフォローを全て解除する」といった手動でポチポチ作業するのは面倒な作業が必要になることがあります。Google Chrome向け拡張機能「Browserflow」を使えばブラウザ上の面倒な作業をプログラミングの知識がなくとも簡単に自動化できるとのことなので、実際にBrowserflowを使って使い勝手や自動化の方法を確認してみました。 Browserflow - Automate your work on any website https://browserflow.app/ Browserflowの公式サイトにアクセスすると、拡張機能配布ページへリンクする「Add to Chrome」と記されたボタンが用意されているのでクリックします。 配布ページに移動したら「Chromeに追加」

                      「画像の一括ダウンロード」「ページ情報の抽出」などの操作をプログラミング不要で自動化できる「Browserflow」レビュー
                    • ChatGPTの面白い使い方「テンプレート・固有表現抽出・感情分析・エッセイを書かせる」 - シロッコの青空ぶろぐ

                      ランキング参加中GPT 目次 ChatGPTの面白い使い方 この書き出しはChatGPTに書いてもらった。 テンプレートで出力フォーマットが指定できる アメリカ合衆国の大統領リスト 大統領リストの出力 固有表現を抽出させる 固有表現とは 固有表現抽出 ChatGPTの回答 ChatGPTは感情分析が出来る 次の分析対象文を感情分析して 分析対象文の感情分析結果 アメリカ国家の歌詞を感情分析して 日本の国歌「君が代」の歌詞を感情分析して ChatGPTにエッセイを書いて貰う ペットにするのに最適な蛇を教えて 「ボールパイソンはペットに最適」というエッセイを書いて ChatGPTが書いた「ボールパイソンはペットに最適」 まとめ ChatGPTの面白い使い方 こんにちは、私はブロガーのシロッコです。最近、人工知能の言語モデルChatGPTが大きな話題となっています。ChatGPTは、自然言語処理

                        ChatGPTの面白い使い方「テンプレート・固有表現抽出・感情分析・エッセイを書かせる」 - シロッコの青空ぶろぐ
                      • ソニーによる世界最高の音源分離技術で実現した、ボーカルだけをキレイに抽出できるSoundmain Studioの新機能|DTMステーション

                        以前DTMステーションで紹介したことのある、ソニー・ミュージックエンタテインメントのプロジェクトSoundmain(サウンドメイン)。ここでは、ソニーグループが研究・開発する最新の音楽関連テクノロジーがいち早く機能として実装され、クリエイターが利用できるようになっているのですが、今回ボーカル抽出という新機能が追加されました。これは、ブラウザ上で使える音楽制作プラットフォームSoundmain内の音楽制作サービスSoundmain Studio上で使える機能で、音源からボーカルのみを抜き出し、手軽に高品質なボーカル音源を作成することができます。 つまり楽器などの演奏も消せるわけなのですが、驚くべきはその精度。ボーカル抽出といえば、さまざまなソフトで行うことが可能ですが、声がシュワシュワになってしまったり、オケが残ってしまったりすることがありますよね。それに対し、Soundmain Studi

                          ソニーによる世界最高の音源分離技術で実現した、ボーカルだけをキレイに抽出できるSoundmain Studioの新機能|DTMステーション
                        • イースト、 PDFからの構造化テキスト抽出に成功、岩波新書をEPUB化

                          イースト株式会社(本社:東京都渋谷区代々木、代表:熊野哲也)は、テキストPDFからの構造化テキストの取り出しに成功し、この技術を使った岩波新書EPUB化を開始しました。「EPUBpack(イーパブパック)」というクラウドストレージを使ったトータルサービスとして販売します。 抽出アプリは、PDFに目次頁、大見出し、小見出しなど若干のマークを付け、構造化されたマークダウン(簡易HTML)形式のテキストを出力します。その際、画像、表、グラフなどの図版はキャプション文字を組み込んだ画像ファイルが生成され、ルビ、窓見出し、頁単位の縦組み/横組み混在なども正しく抽出されます。 このマークダウンファイルを独自のCMS(コンテンツ管理クラウド)に入れ、電書協ガイドに沿った正確なEPUBを制作、「EPUB 3.2」にも対応します。CMSなので書籍の改訂が容易で、コンテンツの履歴管理にはGitを使用しています

                            イースト、 PDFからの構造化テキスト抽出に成功、岩波新書をEPUB化
                          • 超音波で水出しコーヒーの抽出時間を24時間から3分に短縮 - fabcross for エンジニア

                            オーストラリアのニューサウスウェールズ大学は2024年5月7日、超音波を使って、味を損なうことなくコールドブリュー(低温抽出)コーヒーを3分以内で作る方法を開発したと発表した。この研究についての論文は『Ultrasonics Sonochemistry』に掲載されている。 ホットコーヒーと比べて、滑らかで酸味や苦みが少ないコールドブリューコーヒーを好む人は少なくない。しかし、冷水でゆっくりと風味を抽出するのには12時間から24時間かかるため、飲みたい時に手軽に用意できないのが難点だった。 研究チームは、コールドブリューの抽出プロセスをスピードアップすることを目指し、挽いたコーヒー豆の抽出を早めるために超音波リアクターを使用する手法を開発した。具体的には、既存のBrevilleのエスプレッソマシンに、研究チームが特許を持つ独自の音波伝達システムを搭載。ボルトで固定された変換器を、金属のホーン

                              超音波で水出しコーヒーの抽出時間を24時間から3分に短縮 - fabcross for エンジニア
                            • デスクトップ版「Power Automate」の独自フォーム機能が一般提供に/すべてのマウスボタン操作をサポート、PDFの表データをそのまま抽出するなどの改善も

                                デスクトップ版「Power Automate」の独自フォーム機能が一般提供に/すべてのマウスボタン操作をサポート、PDFの表データをそのまま抽出するなどの改善も
                              • [電話予約の無人化]Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(日付,時間など)を抽出 | DevelopersIO

                                [電話予約の無人化]Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(日付,時間など)を抽出 はじめに Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(電話番号,日時,名前,人数)を正しく抽出できるか検証しました。 コールセンターでは、有人対応から無人対応に変更したいニーズが増えているように思います。 電話予約の無人対応を想定し、1回の発話で、下記の5つの予約情報を抽出できるか確認します。 お名前 電話番号 予約日 予約時間 人数 発話で予約情報を抽出する方法として、GPT-4 Turbo のJSONモードを利用します。 JSONモードの詳細は、下記を参照ください。 例えば、「名前はクラスメソッドで、電話番号は09011111111。来週の火曜日の19時に4名で予約できます

                                  [電話予約の無人化]Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(日付,時間など)を抽出 | DevelopersIO
                                • Stable Diffusionで画像からプロンプト(呪文)を生成・抽出する方法。Fooocusの新機能「Describe」が便利でした (1/3)

                                  本連載「Stable Diffusion入門 from Thailand」は、2024年に入って1回目。今年も「Stable Diffusion」をメインに、画像生成AI周辺の話題について入門者視点でお伝えしていきたい。 今回の話題は、Stable Diffusionを手軽に使えるユーザーインターフェースの「Fooocus」。12月13日にリリースされた新バージョン「Fooocus 2.1.831」には、画像をアップロードするとテキストプロンプト(呪文)を生成する「Describe」機能が追加されている。 画像をドラッグ&ドロップしてボタンを押すだけ

                                    Stable Diffusionで画像からプロンプト(呪文)を生成・抽出する方法。Fooocusの新機能「Describe」が便利でした (1/3)
                                  • 画像からテキストを抽出、ファイル名を一括変更…Windowsを快適にする公式無料ツール「PowerToys」おすすめ機能7選 | 文春オンライン

                                    「PowerToys」という無料ツールをご存知でしょうか。Windowsをさらに使いやすくする十数個の機能をまとめた、Microsoftの公式ツールです。カユイところに手が届く数々の機能はいちど使うと手が放せなくなるほどで、どうしてこれがWindowsに最初から組み込まれていないのだろうと首をひねってしまうほどです。 そんな「PowerToys」は、今年9月に入って登場した最新版の「0.62.0」で、これまでなかった新機能がいくつか追加され、より充実したツールへと生まれ変わりました。 今回は最新の「0.62.0」で追加された機能も含め、筆者が「これは特に便利」と感じたPowerToysの便利機能を厳選して紹介します。ピンと来る機能があれば、ぜひこの機会にインストールして試してみてください。ダウンロードはMicrosoftストア、もしくはこちらから行えます。

                                      画像からテキストを抽出、ファイル名を一括変更…Windowsを快適にする公式無料ツール「PowerToys」おすすめ機能7選 | 文春オンライン
                                    • フリーの解凍・圧縮ソフト「7-Zip」がVHDX形式仮想ディスクファイルの抽出に対応/仮想マシンからファイル・フォルダーを抜き出せる

                                        フリーの解凍・圧縮ソフト「7-Zip」がVHDX形式仮想ディスクファイルの抽出に対応/仮想マシンからファイル・フォルダーを抜き出せる
                                      • 無料でMP3変換・動画変換・動画から音声抽出・動画と音声を結合・複数動画を1本に結合・最大音量調節・動画の解像度変更・動画回転・音ずれ修正・動画カットができるFirefoxアドオン「Media Converter and Muxer - Audio Tools」

                                        動画や音声ファイルを無料のツールだけで編集しようとすると、目的に応じてたくさんのツールをインストールしなければならない場合がありますが、Firefoxの拡張機能「Media Converter and Muxer - Audio Tools」をインストールすれば動画や音声ファイルのフォーマットや、解像度の変更、音ずれ修正、動画ファイルのカット編集など10種類の機能を無料で使うことができます。 Media Converter and Muxer - Audio Tools – ? Firefox (ja) 向け拡張機能を入手 https://addons.mozilla.org/ja/firefox/addon/media-conversion-tool/ 目次: ◆インストール手順 ◆MP3 Converter:MP3変換 ◆Custom Converter:動画の変換 ◆Audio Ex

                                          無料でMP3変換・動画変換・動画から音声抽出・動画と音声を結合・複数動画を1本に結合・最大音量調節・動画の解像度変更・動画回転・音ずれ修正・動画カットができるFirefoxアドオン「Media Converter and Muxer - Audio Tools」
                                        • Windows 10の標準機能だけで画像からテキストを抽出する方法

                                          画像ファイルからテキストを抽出したい場合、何らかのOCR(光学式文字認識)ソフトウェアを利用するのが一般的だ。しかし、BetaNewsは1月6日(米国時間)、「Windows 10 has a secret way to grab text from images」において、特定のソフトウェアを使わずに、Windows 10に付属する標準機能だけでテキストの抽出を行う方法を伝えた。なお、この方法は現在のところ英語のテキストにしか対応しておらず、残念ながら日本語は読み取ることができない。 Windowsの標準機能といっても、何らかのORCツールが標準でインストールされているというわけではない。したがって、スタートメニューのアプリケーション一覧を探しても該当する機能は見つからない。Betanewsで紹介されているのは、Windowsの検索ユーティリティとスクリーンショットを取得するための「切り

                                            Windows 10の標準機能だけで画像からテキストを抽出する方法
                                          • 毎月勤労統計調査、抽出率逆数の扱いを2018年1月から改悪していたことが判明 - remcat: 研究資料集

                                            毎月勤労統計調査の抽出率逆数の扱いがおかしいことについて、10月に「毎月勤労統計調査の改善に関するワーキンググループ」参加者にあてて情報提供していた。その内容が、11月5日の第3回会議 で言及されたようである。 この件についてこれまで書いてきた記事は、つぎの5本。 毎月勤労統計調査、今後のベンチマーク更新で大きなギャップ発生のおそれ https://remcat.hatenadiary.jp/entry/20210911/gap (9月11日) 母集団労働者数推計の謎:毎月勤労統計調査とセンサスはなぜ乖離しているのか https://remcat.hatenadiary.jp/entry/20210920/workerpop (9月20日) 毎月勤労統計調査、2018年の集計方法変更で何か間違えた模様 https://remcat.hatenadiary.jp/entry/20211009

                                              毎月勤労統計調査、抽出率逆数の扱いを2018年1月から改悪していたことが判明 - remcat: 研究資料集
                                            • 出涸らしからお茶を抽出し続けている旧友の話

                                              この話はフィクションだが、具体的な内容を書くと筆者を特定されてしまうので、自分の好きな「お茶」を比喩にして書く(お茶を悪く言う意図はない)。 自分の旧友に、(比喩として)出涸らしの茶葉から更にお茶を抽出する、といったようなことを、もう何十年も続けている奴が居る。 ===== 奴とは、お茶が好きという共通点から知り合った。 もともとそれなりにクリエイティビティはあって、普通にやれば独創的なお茶を作れるスキルや経験の持ち主ではあるのだが、過去なんとなく「出涸らしをアレンジしたお茶」を出したところ、それがちょっとお茶のコミュニティ内でウケたため、ライフステージが変わってからも、成功体験として強く印象に残ったその作業を、何十年と続けている、というような状況である。 奴が、出涸らしからお茶を抽出し続けるようになった原因として、ひとつだけ思い当たるものがある。 それは、お茶が好きというきっかけから、知

                                                出涸らしからお茶を抽出し続けている旧友の話
                                              • Synthesizer VがDTM界にまた新たな革命!人の歌声から音程と歌詞を抽出して再合成。ARA 2対応でDAWとの有機的な融合も実現|DTMステーション

                                                Dreamtonicsが開発する歌声合成ソフト、Synthesizer Vは、これまでアップデートの度に世の中に大きな衝撃を与えてきたのはみなさんもご存じのとおりですが、11月24日、また新たなバージョン、1.11.0を発表するとともに、そのβテスト版である1.11.0 Beta1が公開になりました。今年6月に登場した1.9.0ではラップを実現し、8月に登場した1.10.0では人間のフィードバックを強化学習するRLHFに対応してより上手に歌うようになったばかり。そして今回の1.11.0では歌わせるエンジン部分そのものというより、歌声合成ソフトとしてのツール部分を大きく進化させ、まさにDTM界に衝撃を与える機能を実現させたのです。 その1つ目は、人の歌声を元にスコアを作成すると同時に歌詞も入れ込んでしまうという機能の実現です。昔から鼻歌を元にスコアを作るという技術はありましたが、それらとは次

                                                  Synthesizer VがDTM界にまた新たな革命!人の歌声から音程と歌詞を抽出して再合成。ARA 2対応でDAWとの有機的な融合も実現|DTMステーション
                                                • ChatGPT APIのFunction callingを使って、請求書の構造化データを抽出する | gihyo.jp

                                                  いまからわかる!ChatGPT活用プログラミング ChatGPT APIのFunction callingを使って⁠⁠、請求書の構造化データを抽出する 先月、OpenAIからFunction calling(関数呼び出し)機能がリリースされました。これが何なのか、何のために使うべきなのか、ちょっと見ただけでは分かりづらいと思います。 今回は請求書から情報抽出をするというよくありがちなケースを題材に、Function callingの利便性を示してみます。 Function callingとは OpenAIが2023年6月13日にリリースしたChat APIの追加機能です。主にできることとして以下の3つが挙げられています。 外部ツールを呼び出して質問に答えるチャットボットを作成する 自然言語を内部APIの呼び出しやSQLに変換する テキストから構造化データを抽出する たとえば天気予報と血液型

                                                    ChatGPT APIのFunction callingを使って、請求書の構造化データを抽出する | gihyo.jp
                                                  • PostgreSQL 12が正式リリース。Bツリー周りの改善による性能向上、JSONパスによる抽出可能など

                                                    オープンソースのリレーショナルデータベース「PostgreSQL 12」の正式版がリリースされました。PostgreSQL 11の登場から約1年ぶりのメジャーバージョンアップです(日本語プレスリリース)。 PostgreSQL 12では、Bツリーインデックス周りの改善、サイズ縮小などにより全体的な性能向上を実現。パーティション化されたテーブルに対するクエリでは、テーブル管理情報を効率的に作成、操作することにより、特に数千もの多くのパーティションから構成されるテーブルに対する検索での性能向上につながっています。 jsonb型のデータに対して、SQLでの問い合わせにJSONパスが利用可能になりました。これによりJSONデータに対する部分指定での抽出が可能になりました。 インデックスへの書き込みをブロックせずにインデックスを再構築するReindex Concurrentlyコマンドが導入されたた

                                                      PostgreSQL 12が正式リリース。Bツリー周りの改善による性能向上、JSONパスによる抽出可能など
                                                    • ChatGPTは文字コードをどのように解釈しているか Unicodeの「日本語認識」「括弧の抽出」「旧字体と新字体の変換」を実験してみた

                                                      「YAPC(Yet Another Perl Conference)」は、Perlを軸としたITに関わるすべての人のためのカンファレンスです。ライトニングトークにはPR TIMES インターンのShun氏が登壇。ChatGPTと文字コードについて話します。 ChatGPTは文字コードをどのように解釈しているか 土屋俊介氏:こんにちは。先ほど、発表が4分だと知った土屋です。PR TIMESというところで、機械学習のインターンをしています。 (スライドを示して)昨今、ChatGPTというものがメチャメチャはやっていますよね。私は使っていく中で、(ChatGPTが)文字コードをどのように解釈しているかが気になりました。なぜそんなニッチな話が気になるのかというと、自然言語処理とWebに関わっている以上、文字コードに関するプログラムをよく書くんです。その関係で気になったので調べてみました。 (スライ

                                                        ChatGPTは文字コードをどのように解釈しているか Unicodeの「日本語認識」「括弧の抽出」「旧字体と新字体の変換」を実験してみた
                                                      • 「超音波」で水出しコーヒーの抽出時間を24時間から3分に短縮する技術が登場

                                                        低温でじっくりコーヒーを抽出する水出しコーヒーは、酸味や苦味が少ないまろやかな味わいが特徴ですが、作るのに12~24時間かかるという問題があります。そんな水出しコーヒーの抽出にかかる時間を超音波で劇的に短縮する技術を、オーストラリアの研究チームが発表しました。市販のエスプレッソマシンに超音波発生装置を取り付けるだけで実現したこの技術により、家庭でも手軽に水出しコーヒーが楽しめるようになると研究者らは語っています。 Coffee brewing sonoreactor for reducing the time of cold brew from several hours to minutes while maintaining sensory attributes - ScienceDirect https://www.sciencedirect.com/science/article/

                                                          「超音波」で水出しコーヒーの抽出時間を24時間から3分に短縮する技術が登場
                                                        • iOS 15のSafariで表示したWebサイトやTwitterなどに投稿されている画像からテキスト認識表示を利用してテキストを抽出する方法。

                                                          Webサイトをキャプチャした画像などiOS 15のSafari上に表示された画像からテキスト認識表示を利用してテキストをコピーする方法です。詳細は以下から。 Appleは2021年06月に開催したWWDC21の基調講演の中で、iOS 15/iPadOS 15の新機能として写真内にあるテキストを抽出し、コピー&ペーストできるようにする「テキスト認識表示 (Live Text)」機能を発表、 Apple Web Developer Experience Teamのエバンジェリストを務めるJen Simmonsさんは、このテキスト認識表示はiOS 15/iPadOS 15のモバイルSafariにも統合され、抽出されたテキストデータはWebコンテンツの一部ではなくShadow DOMとして挿入されるため、 JavaScriptなどの影響は受けずにコピーやWeb内検索が利用可能で、例えばTwitte

                                                            iOS 15のSafariで表示したWebサイトやTwitterなどに投稿されている画像からテキスト認識表示を利用してテキストを抽出する方法。
                                                          • grepでは困難な、特定文字列の存在行から別の文字列が存在する行までの抽出 (Perlのflip-flop演算子の使い方) - 理系学生日記

                                                            特定の文字列がある行から、別の特定の文字列がある行までを抽出したいということがよくあります。 これgrep等を使うと苦労する話なんですが、flip-flop演算子を使ったPerlのone-linerで可能です。 例えば昨日の記事ではgit help commitの中から--no-edit/オプションの説明を抽出しました。 これは--no-editという文字列が出てくるところから空行までを抽出すれば良い。これは以下のようにすれば可能です。 $ git help commit | perl -nle 'print if /--no-edit/ ... /^\s*$/' 解説自体に空行が混じるケースでは以下のようにすれば良いでしょう。 この例では、--cleanupという文字列が出現してから、次のオプション(-文字列形式)が出るまでを抽出しています。 $ git help commit | pe

                                                              grepでは困難な、特定文字列の存在行から別の文字列が存在する行までの抽出 (Perlのflip-flop演算子の使い方) - 理系学生日記
                                                            • 変異ウイルス 1週間で1234人抽出検査 うち56人陽性確認 厚労省 | NHKニュース

                                                              海外で広がる変異した新型コロナウイルスについて、国内では先月末までの1週間に全国で1200人あまりに検査が行われ、このうち4.5%にあたる56人の感染が確認されたことが厚生労働省のまとめでわかりました。 変異ウイルスについて、厚生労働省は自治体に対し、新規感染者の5%から10%を目安に検体を抽出して調べるよう求めています。 厚生労働省が各自治体の速報値をまとめたところ、先月28日までの1週間に、全国で1234人の感染者について、変異ウイルスを調べるPCR検査が実施されたことがわかりました。 これは、この期間に確認された新規感染者のおよそ17%にあたります。 そして、変異ウイルスへの感染が確認されたのは、検査を行った人の4.5%にあたる56人でした。 地域別にみますと ▽兵庫県では55人の検査が行われ、16人の感染が確認されたほか、 ▽神奈川県では25人の検査が行われ感染が確認されたのは10

                                                                変異ウイルス 1週間で1234人抽出検査 うち56人陽性確認 厚労省 | NHKニュース
                                                              • Javaを使ってPDFからテキストを抽出する(Apache PDFBox 編) - デベルマン

                                                                最新の情報を利用する場合は、キャッシュレス・消費者還元事業(https://cashless.go.jp/)のページより入手してください。 処理実装今回読み取りに使用するPDFは、以下のように店舗が一覧化されています。この一覧から、「No.」「都道府県」「市区町村」「事業所名(屋号)」「業種」「業種(サブカテゴリ)」「還元率」の7種類の情報を個別の文字列として取得しましょう。 ちなみにいろいろひっかかるこの一覧。「伊達の牛タン本舗」の各店でスペース有り無しが混在しているのが細かいけどすごく気になるし、No.10001にはおそらく間違いが2つ存在してます。まず気になる文字化けはハイフン。その上で「だし廊」と「だし廊 -NIBO-」は別店舗。この一覧の作者は詰めが甘いように思う。。 こんにちは!だし廊本店です! 遅くなり申し訳ございません! 今週の限定の献立表が出来ました! 今週もだし廊でお待

                                                                • 【知ってた?】PDFの分割はChromeでもできる! 必要なページだけを抽出する方法

                                                                  WindowsやMac、スマホといった異なる環境でも、常に同じ見た目で資料を表示できるPDFファイルは、ビジネスの現場でもよく使れます。しかし、必要なページだけを取り出したいとき、手軽なアプリがなくて困っていませんか? 実はChromeで何とかなるのです。 専用アプリがなくてもPDFは分割できる 最近ではPDFファイルを使う機会がとても増えました。ExcelやPowerPointで作成したファイルを、ほかの人と共有する目的でPDFに変換している人も多いと思います。 PDFには、異なるパソコンやスマートフォンでも同じ見た目で表示できること、ファイルサイズが小さいこと、改ざんがしにくいことなど、いくつものメリットがあります。しかし、改ざんがしにくいゆえに、必要なページだけを抽出することもできず、困ったことはありませんか? 例えば、数十ページあるPDFファイルを参考資料として相手に送りたいとき、

                                                                    【知ってた?】PDFの分割はChromeでもできる! 必要なページだけを抽出する方法
                                                                  • Wikipediaを用いた日本語の固有表現抽出データセットの公開

                                                                    ML事業部の近江崇宏です。 ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現(固有名詞)を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。(企業名抽出については過去のブログ記事を参考にしてください。) 一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日本語の学習データセットを公開いたします!ご自由にお使いいただければと思います! レポジトリ:https://github.com/stockmarkteam/ner-wikipedia-dataset 固有表現をハイライトしたサンプ

                                                                      Wikipediaを用いた日本語の固有表現抽出データセットの公開
                                                                    • 歴史好きにはたまらない! 江戸時代なのに現代風デザインの地図サイト「れきちず」が3D表示に対応 地図データをベクトルタイル化。「江戸切絵図」から町家領域の抽出も【地図ウォッチ】

                                                                        歴史好きにはたまらない! 江戸時代なのに現代風デザインの地図サイト「れきちず」が3D表示に対応 地図データをベクトルタイル化。「江戸切絵図」から町家領域の抽出も【地図ウォッチ】
                                                                      • 統計学とはそもそも「無作為抽出された少量のデータ」を分析するためのものであった - 渋谷駅前で働くデータサイエンティストのブログ

                                                                        しばらく前にQuoraにこんなアンサーを書いたことを思い出したので、ついでにリブログ記事として転載の上加筆修正したものを用意してみました。僕にしては珍しくコッテコテの頻度主義的な話題である上に、「p値なんか使うのはやめてしまえ」という記事を以前に書いておきながらこんな議論をするのは自己矛盾かもしれませんが(笑)、これまでの統計学の歴史を紐解くことで、温故知新ということで新たに理解されることもあるのかなと思っています。 小標本のための統計学と、「スチューデント」ことゴセットの話 補足 小標本のための統計学と、「スチューデント」ことゴセットの話 近代統計学とは、「無作為抽出によって得られた小標本を分析することで、その背後にある母集団の性質を推定する」ために改良が積み重ねられてきた営みです。すなわち、統計学は「少量のデータを扱う学問」そのものだとも言えます。 (Skbkekas - 投稿者自身に

                                                                          統計学とはそもそも「無作為抽出された少量のデータ」を分析するためのものであった - 渋谷駅前で働くデータサイエンティストのブログ
                                                                        • めがねのあぶデカロケ地bot on Twitter: "つるの剛士が大坂なおみを叩いたってあったから 彼のツイートから『大坂なおみ』『大坂』『なおみ』『blm』『黒人』『差別』など関連ワードで検索抽出したけど、んなもん無かったんだが(困惑 https://t.co/XHtsh3UqVv"

                                                                          つるの剛士が大坂なおみを叩いたってあったから 彼のツイートから『大坂なおみ』『大坂』『なおみ』『blm』『黒人』『差別』など関連ワードで検索抽出したけど、んなもん無かったんだが(困惑 https://t.co/XHtsh3UqVv

                                                                            めがねのあぶデカロケ地bot on Twitter: "つるの剛士が大坂なおみを叩いたってあったから 彼のツイートから『大坂なおみ』『大坂』『なおみ』『blm』『黒人』『差別』など関連ワードで検索抽出したけど、んなもん無かったんだが(困惑 https://t.co/XHtsh3UqVv"
                                                                          • Python+数学講座と機械学習講座が無料に Pythonでデータの抽出から可視化までが可能に | Ledge.ai

                                                                            サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

                                                                              Python+数学講座と機械学習講座が無料に Pythonでデータの抽出から可視化までが可能に | Ledge.ai
                                                                            • 検索クエリからファジーにキーワードを抽出する(スミス・ウォーターマン法に基づく実装) - Giftmall Inside Blog

                                                                              TL;DR 表記揺れがふくまれる検索クエリにマッチしたコンテンツを表示するための手法として、スミス・ウォーターマン法に基づくあいまい検索を実装して検索精度を向上しました。この手法は機械学習システムを使わないためメンテナンスコストが低く、その一方で速度面でも実用的な性能を持ちチューニングしやすいのが特長です。 はじめに こんにちは、ギフトモールで検索エンジンなどを開発している @samayotta です。 私たちギフトモールはプレゼントに特化したECサービスを提供しています。ギフトECにおいても、ユーザのニーズにマッチする商品を探すための検索機能は重要となります。例えば、弊社が運用しているギフトECサービスの一つであるギフトモールは、ユーザが入力する文字列の検索クエリから関連するキーワードを検出し、そのキーワードに紐づいているコンテンツ(商品、記事、etc.)を提示する検索機能を持っています

                                                                                検索クエリからファジーにキーワードを抽出する(スミス・ウォーターマン法に基づく実装) - Giftmall Inside Blog
                                                                              • BERTによるニュース記事の構造化:企業名抽出

                                                                                はじめにMachine Learning部門の近江です。ストックマークでは、自然言語処理技術の研究開発を行っています。 先日、弊社のTech Blogにて弊社が公開している言語モデルを紹介しました。 ストックマークが公開した言語モデルの一覧と振り返り 今回は、言語モデルがプロダクトにおいて実際にどのように利用されているかについての一例を紹介します。 ニュース記事の構造化マーケティング、新規事業開発などの調査業務では、調査を行う人が書籍、ニュース記事、ホームページなどの情報を網羅的に調べ、整理し、報告書などにまとめていきます。その際に扱う情報は膨大であり、そのため調査業務には多くの時間と労力がかかります。 弊社のプロダクトである「Astrategy」は機械学習を用いてニュース記事から特徴となる情報を抽出し、構造化することで、大量のニュース記事を効率的に俯瞰し、さらに新規事業開発などに繋がりう

                                                                                  BERTによるニュース記事の構造化:企業名抽出
                                                                                • スプラトゥーン2のプレイ動画から、やられたシーンだけをディープラーニングで自動抽出する - Qiita

                                                                                  手っ取り早く、やられたシーンを抽出したい人向け OBSと連携するWebアプリを作成しました 詳細はこちらの記事をご参照ください。 スプラトゥーン3で、やられたシーンをOBSのリプレイバッファで自動保存する 以前のWebアプリ スプラトゥーン2 やられたシーン自動頭出しツール「iKut」 Dockerイメージ こちらでDockerイメージを配布しています。 はじめに スプラトゥーン2を発売日からやりこんで3年になります。2年かけて全ルールがウデマエXに到達しましたが、そこからXパワーが上がらずウデマエX最底辺で停滞しています。最近は自分のプレイ動画を見て対策を立てるのですが、すべての動画を見るのは大変です。そこで敵にやられたシーンは特に修正すべき自分の弱点があると考え、そこだけを自動で抽出するシステムを作ってみました。 ↑このシーンを切り出します。 画像の引用 この記事では任天堂株式会社のゲ

                                                                                    スプラトゥーン2のプレイ動画から、やられたシーンだけをディープラーニングで自動抽出する - Qiita

                                                                                  新着記事