抽出の人気記事 584件 - はてなブックマーク

1 - 40 件 / 584件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

抽出の検索結果1 - 40 件 / 584件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

抽出に関するエントリは584件あります。技術、機械学習、ツールなどが関連タグです。人気エントリには『朝日新聞社、長文を要約するAPIを無償公開　500字→200字に圧縮、重要事項の自動抽出も』などがあります。

朝日新聞社、長文を要約するAPIを無償公開　500字→200字に圧縮、重要事項の自動抽出も
- 731 users
- www.itmedia.co.jp
- テクノロジー
- 2021/04/02
朝日新聞社は4月2日、指定した字数や割合に長文を要約する「長文要約生成API」を開発したと発表した。評価用途に限り、無償で利用できる。会議の議事録や、採用活動で受け付けるエントリーシートの速読などに役立てられるという。
- api
- あとで読む
- 文章
- 技術
- 機械学習
- 要約
- 新聞
- AI
- IT
- webサービス
音楽データからボーカル・ドラム・ベースの音を個別に抽出できる「spleeter」
- 551 users
- gigazine.net
- テクノロジー
- 2019/11/07
ボーカルや複数の楽器で構成された音楽データを、機械学習を用いてそれぞれの音に分類したファイルとして出力する「spleeter」がGitHubで公開されています。ボーカルの声や伴奏の部分だけを抽出できるとのことで、実際に使ってみました。 deezer/spleeter: Deezer source separation library including pretrained models. https://github.com/deezer/spleeter 以下のURLにアクセスすれば、spleeterでサンプルの楽曲を分離することができます。 spleeter.ipynb - Colaboratory https://colab.research.google.com/github/deezer/spleeter/blob/master/spleeter.ipynb#scrollTo=
- DTM
- 音楽
- あとで読む
- 楽器
- GitHub
- データ
- music
- ソフトウェア
- GIGAZINE
- Python
下水から抽出した、無臭の白い結晶…正体は？　農家向けに販売 | 毎日新聞
- 431 users
- mainichi.jp
- 世の中
- 2022/09/24
和白水処理センターに集められた下水から回収、抽出された再生リン。最終処理を経て肥料となり、8月下旬から農家への販売が始まった。博多湾の水質環境改善を目的に始まった処理は、市民生活と農業をつなぐ新たな可能性になろうとしている＝福岡市東区で、津村豊和撮影福岡市に七つある下水処理施設の一つ、東区の和白（わじろ）水処理センター。積み上がった白い結晶を職員に両手のひらですくってもらうと、指の間から砂のようにさらさらとこぼれ落ちた。臭いも全くない。結晶の正体は「再生リン」。窒素、カリウムと並ぶ化学肥料の3要素の一つのリン酸を、市民生活で出た下水から回収、抽出したものだ。市は博多湾の水質汚濁を防ぐため、1996年にリンの回収事業をスタート。さらに、国土交通省が開発した回収技術を今年4月に導入したことで回収量が15倍になり、年間に最大で150トンを見込めるようになっ…
- 農業
- 環境
- 技術
- 科学
- あとで読む
- 資源
- これはすごい
- 肥料
- 社会
- 研究
Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python
- 396 users
- speakerdeck.com/sansandsoc
- テクノロジー
- 2021/09/26
■イベント  ：第54回情報科学若手の会 https://wakate.connpass.com/event/222829/ ■登壇概要タイトル：Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python 発表者：  技術本部 DSOC R&D研究員　青見樹 ▼Twitter https://twitter.com/SansanRandD
- python
- pdf
- あとで読む
- データ
- プログラミング
- data
- https
- 表
- ライブラリ
- event

Excelで誰でも簡単言語処理 (感情推定, 固有表現抽出, キーワード抽出, 文類似度推定 etc...) - Qiita
- 375 users
- qiita.com/Harusugi
- テクノロジー
- 2019/08/05
Excelで誰でも簡単言語処理 (感情推定, 固有表現抽出, キーワード抽出, 文類似度推定 etc...)ExcelAPIVBA自然言語処理COTOHA 3行まとめ Excel関数一発で高度な言語処理を使えるようにしました感情推定、固有表現抽出など日本語を分析・整理するのにいろいろ使えます Windows + Officeユーザならマクロファイルで誰でも簡単に使えます ※Macだと多分動かないと思います。VBAのHTTPリクエストを有効にできないため。。。 9/1追記: コメント頂きましたが、64bit版OfficeだとjsonParseが動かないようなのでアップデートしてみました。動作確認できていないので自己責任でお願いします https://github.com/korinzuz2/excelcotoha/blob/master/COTOHA公開用64bitExcel対応版.xls
- excel
- あとで読む
- 形態素解析
- API
- Qiita
- 言語
- VBA
- 自然言語処理
- nlp
- tips
「脱VBA」の道筋がついに見えた、ExcelデータをPythonで抽出・加工する方法
- 359 users
- xtech.nikkei.com
- テクノロジー
- 2020/02/04
「Excelデータをプログラムで扱うのなら、VBA（Visual Basic for Applications）を使うべし」。多くの人はそう思っているでしょう。もちろんVBAはMicrosoft Officeのソフトを操るのにとても便利なプログラミング言語ですが、弱点もあります。その1つが、Officeにしばられてしまうこと。業務に必要なデータ量がExcelや「Access」のカバーする範囲で収まらなくなったら、もう扱えません。また互換性の問題から、Windows上で書かれたVBAのソースコードは基本的に、macOSやLinuxでは動かせません。VBAはプログラミング初心者にとって理解しやすい一方で、コードが冗長になりがちという側面もあります。今からプログラミングを学んで業務を自動化したいなら、筆者はPythonをお薦めします。Pythonはシンプルで勉強しやすく、ライブラリーが豊富
【マンガの産業革命！？】「写真からマンガ背景用の線画を抽出するAIの性能が割とえぐい感じになった」
- 352 users
- togetter.com
- テクノロジー
- 2022/06/17
🐸かえる明王.jp🐸🛋️ @FrogMyoO コレ、商品として売ったら絶対産業革命がマンガ業界で起きるわしかもこれをblenderで作った3DCGデータにも使えれば本当に一人で週間マンガ描ける時代が来るわ twitter.com/minux302/statu… 2022-06-17 19:12:22
- AI
- あとで読む
- マンガ
- 機械学習
- 写真
- 漫画
- comic
- 創作
- togetter
- manga
Windows10の無償デスクトップ自動化ツール「Power Automate Desktop」でPDFからのデータ抽出を自動化する
- 339 users
- codezine.jp
- テクノロジー
- 2022/07/27
対象読者 Excel／PowerPointなど、一般的なツールの操作を理解している人 RPAツールを用いて業務を自動化したい人 PDFアクション PDF（Portable Document Format）とは、Adobe社が開発したページ記述言語PostScriptをベースにしたドキュメント形式のこと。環境やプリンターによらずに保存・転送・閲覧・印刷が可能であり、電子ドキュメントにおける事実上の標準のファイル形式として広く使用されています。ファイルの中に、テキストデータと描画命令、画像などのコードが圧縮されて格納されています。 Power Automate for Desktopでも、これらのファイルを扱うアクションが用意されています。 PDFからテキストを抽出 PDFから画像を抽出 PDFからテーブルを抽出新しい PDFファイルへのPDFファイルページの抽出 PDFファイルを統合本稿
- pdf
- あとで読む
- windows
- RPA
- ツール
- Power Automate Desktop
- データ
- PAD
- tool
- PC
「画像の一括ダウンロード」「ページ情報の抽出」などの操作をプログラミング不要で自動化できる「Browserflow」レビュー
- 314 users
- gigazine.net
- テクノロジー
- 2021/11/21
インターネットを利用していると「Googleマップの検索結果をスプレッドシートにまとめる」「Twitterのフォローを全て解除する」といった手動でポチポチ作業するのは面倒な作業が必要になることがあります。Google Chrome向け拡張機能「Browserflow」を使えばブラウザ上の面倒な作業をプログラミングの知識がなくとも簡単に自動化できるとのことなので、実際にBrowserflowを使って使い勝手や自動化の方法を確認してみました。 Browserflow - Automate your work on any website https://browserflow.app/ Browserflowの公式サイトにアクセスすると、拡張機能配布ページへリンクする「Add to Chrome」と記されたボタンが用意されているのでクリックします。配布ページに移動したら「Chromeに追加」
ChatGPTの面白い使い方「テンプレート・固有表現抽出・感情分析・エッセイを書かせる」 - シロッコの青空ぶろぐ
- 254 users
- sirocco.hatenablog.com
- テクノロジー
- 2023/02/23
ランキング参加中GPT 目次 ChatGPTの面白い使い方この書き出しはChatGPTに書いてもらった。テンプレートで出力フォーマットが指定できるアメリカ合衆国の大統領リスト大統領リストの出力固有表現を抽出させる固有表現とは固有表現抽出 ChatGPTの回答 ChatGPTは感情分析が出来る次の分析対象文を感情分析して分析対象文の感情分析結果アメリカ国家の歌詞を感情分析して日本の国歌「君が代」の歌詞を感情分析して ChatGPTにエッセイを書いて貰うペットにするのに最適な蛇を教えて「ボールパイソンはペットに最適」というエッセイを書いて ChatGPTが書いた「ボールパイソンはペットに最適」まとめ ChatGPTの面白い使い方こんにちは、私はブロガーのシロッコです。最近、人工知能の言語モデルChatGPTが大きな話題となっています。ChatGPTは、自然言語処理
ソニーによる世界最高の音源分離技術で実現した、ボーカルだけをキレイに抽出できるSoundmain Studioの新機能｜DTMステーション
- 253 users
- www.dtmstation.com
- 学び
- 2022/10/15
以前DTMステーションで紹介したことのある、ソニー・ミュージックエンタテインメントのプロジェクトSoundmain（サウンドメイン）。ここでは、ソニーグループが研究・開発する最新の音楽関連テクノロジーがいち早く機能として実装され、クリエイターが利用できるようになっているのですが、今回ボーカル抽出という新機能が追加されました。これは、ブラウザ上で使える音楽制作プラットフォームSoundmain内の音楽制作サービスSoundmain Studio上で使える機能で、音源からボーカルのみを抜き出し、手軽に高品質なボーカル音源を作成することができます。つまり楽器などの演奏も消せるわけなのですが、驚くべきはその精度。ボーカル抽出といえば、さまざまなソフトで行うことが可能ですが、声がシュワシュワになってしまったり、オケが残ってしまったりすることがありますよね。それに対し、Soundmain Studi
- dtm
- あとで読む
- 音楽
- 技術
- 音源分離
- 音声
- sony
- tech
- ソニー
- music
イースト、 PDFからの構造化テキスト抽出に成功、岩波新書をEPUB化
- 242 users
- prtimes.jp
- 学び
- 2019/07/18
イースト株式会社(本社：東京都渋谷区代々木、代表：熊野哲也)は、テキストPDFからの構造化テキストの取り出しに成功し、この技術を使った岩波新書EPUB化を開始しました。「EPUBpack(イーパブパック)」というクラウドストレージを使ったトータルサービスとして販売します。抽出アプリは、PDFに目次頁、大見出し、小見出しなど若干のマークを付け、構造化されたマークダウン(簡易HTML)形式のテキストを出力します。その際、画像、表、グラフなどの図版はキャプション文字を組み込んだ画像ファイルが生成され、ルビ、窓見出し、頁単位の縦組み/横組み混在なども正しく抽出されます。このマークダウンファイルを独自のCMS(コンテンツ管理クラウド)に入れ、電書協ガイドに沿った正確なEPUBを制作、「EPUB 3.2」にも対応します。CMSなので書籍の改訂が容易で、コンテンツの履歴管理にはGitを使用しています
- PDF
- 電子書籍
- あとで読む
- epub
- 技術
- 出版
- publishing
- 書店
- ebook
超音波で水出しコーヒーの抽出時間を24時間から3分に短縮 - fabcross for エンジニア
- 225 users
- engineer.fabcross.jp
- テクノロジー
- 2024/06/06
オーストラリアのニューサウスウェールズ大学は2024年5月7日、超音波を使って、味を損なうことなくコールドブリュー（低温抽出）コーヒーを3分以内で作る方法を開発したと発表した。この研究についての論文は『Ultrasonics Sonochemistry』に掲載されている。ホットコーヒーと比べて、滑らかで酸味や苦みが少ないコールドブリューコーヒーを好む人は少なくない。しかし、冷水でゆっくりと風味を抽出するのには12時間から24時間かかるため、飲みたい時に手軽に用意できないのが難点だった。研究チームは、コールドブリューの抽出プロセスをスピードアップすることを目指し、挽いたコーヒー豆の抽出を早めるために超音波リアクターを使用する手法を開発した。具体的には、既存のBrevilleのエスプレッソマシンに、研究チームが特許を持つ独自の音波伝達システムを搭載。ボルトで固定された変換器を、金属のホーン
- コーヒー
- あとで読む
- 水出しコーヒー
- 食
- 研究
- 技術
- ネタ
- goods
デスクトップ版「Power Automate」の独自フォーム機能が一般提供に／すべてのマウスボタン操作をサポート、PDFの表データをそのまま抽出するなどの改善も
- 217 users
- forest.watch.impress.co.jp
- テクノロジー
- 2022/05/20
- RPA
- あとで読む
- PowerAutomate
- microsoft
- デスク
- マウス
- データ
- *あとで読む
- PDF
[電話予約の無人化]Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(日付,時間など)を抽出 | DevelopersIO
- 217 users
- dev.classmethod.jp
- テクノロジー
- 2023/11/21
[電話予約の無人化]Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(日付,時間など)を抽出はじめに Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(電話番号,日時,名前,人数)を正しく抽出できるか検証しました。コールセンターでは、有人対応から無人対応に変更したいニーズが増えているように思います。電話予約の無人対応を想定し、1回の発話で、下記の５つの予約情報を抽出できるか確認します。お名前電話番号予約日予約時間人数発話で予約情報を抽出する方法として、GPT-4 Turbo のJSONモードを利用します。 JSONモードの詳細は、下記を参照ください。例えば、「名前はクラスメソッドで、電話番号は09011111111。来週の火曜日の19時に4名で予約できます
- AI
- あとで読む
- aws
- gpt
- ChatGPT
- JSON
- amazon
- python
- 人工知能
Stable Diffusionで画像からプロンプト（呪文）を生成・抽出する方法。Fooocusの新機能「Describe」が便利でした (1/3)
- 216 users
- ascii.jp
- テクノロジー
- 2024/01/17
本連載「Stable Diffusion入門 from Thailand」は、2024年に入って1回目。今年も「Stable Diffusion」をメインに、画像生成AI周辺の話題について入門者視点でお伝えしていきたい。今回の話題は、Stable Diffusionを手軽に使えるユーザーインターフェースの「Fooocus」。12月13日にリリースされた新バージョン「Fooocus 2.1.831」には、画像をアップロードするとテキストプロンプト（呪文）を生成する「Describe」機能が追加されている。画像をドラッグ＆ドロップしてボタンを押すだけ
画像からテキストを抽出、ファイル名を一括変更…Windowsを快適にする公式無料ツール「PowerToys」おすすめ機能7選 | 文春オンライン
- 189 users
- bunshun.jp
- テクノロジー
- 2022/09/16
「PowerToys」という無料ツールをご存知でしょうか。Windowsをさらに使いやすくする十数個の機能をまとめた、Microsoftの公式ツールです。カユイところに手が届く数々の機能はいちど使うと手が放せなくなるほどで、どうしてこれがWindowsに最初から組み込まれていないのだろうと首をひねってしまうほどです。そんな「PowerToys」は、今年9月に入って登場した最新版の「0.62.0」で、これまでなかった新機能がいくつか追加され、より充実したツールへと生まれ変わりました。今回は最新の「0.62.0」で追加された機能も含め、筆者が「これは特に便利」と感じたPowerToysの便利機能を厳選して紹介します。ピンと来る機能があれば、ぜひこの機会にインストールして試してみてください。ダウンロードはMicrosoftストア、もしくはこちらから行えます。
- windows
- あとで読む
- ツール
- PowerToys
- ソフトウェア
- MicroSoft
- 便利
- tool
フリーの解凍・圧縮ソフト「7-Zip」がVHDX形式仮想ディスクファイルの抽出に対応／仮想マシンからファイル・フォルダーを抜き出せる
- 184 users
- forest.watch.impress.co.jp
- テクノロジー
- 2022/01/06
- windows
- あとで読む
- VHDX
- 7zip
- PC
- ツール
- software
- app
- ソフトウェア
無料でMP3変換・動画変換・動画から音声抽出・動画と音声を結合・複数動画を1本に結合・最大音量調節・動画の解像度変更・動画回転・音ずれ修正・動画カットができるFirefoxアドオン「Media Converter and Muxer - Audio Tools」
- 175 users
- gigazine.net
- テクノロジー
- 2019/08/22
動画や音声ファイルを無料のツールだけで編集しようとすると、目的に応じてたくさんのツールをインストールしなければならない場合がありますが、Firefoxの拡張機能「Media Converter and Muxer - Audio Tools」をインストールすれば動画や音声ファイルのフォーマットや、解像度の変更、音ずれ修正、動画ファイルのカット編集など10種類の機能を無料で使うことができます。 Media Converter and Muxer - Audio Tools – ? Firefox (ja) 向け拡張機能を入手 https://addons.mozilla.org/ja/firefox/addon/media-conversion-tool/ 目次： ◆インストール手順 ◆MP3 Converter：MP3変換 ◆Custom Converter：動画の変換 ◆Audio Ex
Windows 10の標準機能だけで画像からテキストを抽出する方法
- 167 users
- news.mynavi.jp
- テクノロジー
- 2021/01/09
画像ファイルからテキストを抽出したい場合、何らかのOCR（光学式文字認識）ソフトウェアを利用するのが一般的だ。しかし、BetaNewsは1月6日(米国時間)、「Windows 10 has a secret way to grab text from images」において、特定のソフトウェアを使わずに、Windows 10に付属する標準機能だけでテキストの抽出を行う方法を伝えた。なお、この方法は現在のところ英語のテキストにしか対応しておらず、残念ながら日本語は読み取ることができない。 Windowsの標準機能といっても、何らかのORCツールが標準でインストールされているというわけではない。したがって、スタートメニューのアプリケーション一覧を探しても該当する機能は見つからない。Betanewsで紹介されているのは、Windowsの検索ユーティリティとスクリーンショットを取得するための「切り
- OCR
- Windows
- あとで読む
- windows10
- tips
- ツール
- 画像
- 仕事
- search
毎月勤労統計調査、抽出率逆数の扱いを2018年1月から改悪していたことが判明 - remcat: 研究資料集
- 167 users
- remcat.hatenadiary.jp
- 政治と経済
- 2021/12/29
毎月勤労統計調査の抽出率逆数の扱いがおかしいことについて、10月に「毎月勤労統計調査の改善に関するワーキンググループ」参加者にあてて情報提供していた。その内容が、11月5日の第3回会議で言及されたようである。この件についてこれまで書いてきた記事は、つぎの5本。毎月勤労統計調査、今後のベンチマーク更新で大きなギャップ発生のおそれ https://remcat.hatenadiary.jp/entry/20210911/gap (9月11日) 母集団労働者数推計の謎：毎月勤労統計調査とセンサスはなぜ乖離しているのか https://remcat.hatenadiary.jp/entry/20210920/workerpop (9月20日) 毎月勤労統計調査、2018年の集計方法変更で何か間違えた模様 https://remcat.hatenadiary.jp/entry/20211009
- 統計
- あとで読む
- statistics
- 労働
- 行政
- Politics
- 政治
- コメント
出涸らしからお茶を抽出し続けている旧友の話
- 156 users
- anond.hatelabo.jp
- アニメとゲーム
- 2023/04/30
この話はフィクションだが、具体的な内容を書くと筆者を特定されてしまうので、自分の好きな「お茶」を比喩にして書く（お茶を悪く言う意図はない）。自分の旧友に、（比喩として）出涸らしの茶葉から更にお茶を抽出する、といったようなことを、もう何十年も続けている奴が居る。 ===== 奴とは、お茶が好きという共通点から知り合った。もともとそれなりにクリエイティビティはあって、普通にやれば独創的なお茶を作れるスキルや経験の持ち主ではあるのだが、過去なんとなく「出涸らしをアレンジしたお茶」を出したところ、それがちょっとお茶のコミュニティ内でウケたため、ライフステージが変わってからも、成功体験として強く印象に残ったその作業を、何十年と続けている、というような状況である。奴が、出涸らしからお茶を抽出し続けるようになった原因として、ひとつだけ思い当たるものがある。それは、お茶が好きというきっかけから、知
Synthesizer VがDTM界にまた新たな革命!人の歌声から音程と歌詞を抽出して再合成。ARA 2対応でDAWとの有機的な融合も実現｜DTMステーション
- 145 users
- www.dtmstation.com
- エンタメ
- 2023/11/24
Dreamtonicsが開発する歌声合成ソフト、Synthesizer Vは、これまでアップデートの度に世の中に大きな衝撃を与えてきたのはみなさんもご存じのとおりですが、11月24日、また新たなバージョン、1.11.0を発表するとともに、そのβテスト版である1.11.0 Beta1が公開になりました。今年6月に登場した1.9.0ではラップを実現し、8月に登場した1.10.0では人間のフィードバックを強化学習するRLHFに対応してより上手に歌うようになったばかり。そして今回の1.11.0では歌わせるエンジン部分そのものというより、歌声合成ソフトとしてのツール部分を大きく進化させ、まさにDTM界に衝撃を与える機能を実現させたのです。その1つ目は、人の歌声を元にスコアを作成すると同時に歌詞も入れ込んでしまうという機能の実現です。昔から鼻歌を元にスコアを作るという技術はありましたが、それらとは次
- DTM
- 音楽
- あとで読む
- ツール
- vocaloid
- DAW
- music
- tool
ChatGPT APIのFunction callingを使って、請求書の構造化データを抽出する | gihyo.jp
- 145 users
- gihyo.jp
- テクノロジー
- 2023/07/18
いまからわかる！ChatGPT活用プログラミング ChatGPT APIのFunction callingを使って⁠⁠、請求書の構造化データを抽出する先月、OpenAIからFunction calling（関数呼び出し）機能がリリースされました。これが何なのか、何のために使うべきなのか、ちょっと見ただけでは分かりづらいと思います。今回は請求書から情報抽出をするというよくありがちなケースを題材に、Function callingの利便性を示してみます。 Function callingとは OpenAIが2023年6月13日にリリースしたChat APIの追加機能です。主にできることとして以下の3つが挙げられています。外部ツールを呼び出して質問に答えるチャットボットを作成する自然言語を内部APIの呼び出しやSQLに変換するテキストから構造化データを抽出するたとえば天気予報と血液型
- ChatGPT
- あとで読む
- 人工知能
- APIエコノミー
- 文章生成AI
- api
- 機械学習
- techfeed
- GPT
- OCR
PostgreSQL 12が正式リリース。Bツリー周りの改善による性能向上、JSONパスによる抽出可能など
- 137 users
- www.publickey1.jp
- テクノロジー
- 2019/10/07
オープンソースのリレーショナルデータベース「PostgreSQL 12」の正式版がリリースされました。PostgreSQL 11の登場から約1年ぶりのメジャーバージョンアップです（日本語プレスリリース）。 PostgreSQL 12では、Bツリーインデックス周りの改善、サイズ縮小などにより全体的な性能向上を実現。パーティション化されたテーブルに対するクエリでは、テーブル管理情報を効率的に作成、操作することにより、特に数千もの多くのパーティションから構成されるテーブルに対する検索での性能向上につながっています。 jsonb型のデータに対して、SQLでの問い合わせにJSONパスが利用可能になりました。これによりJSONデータに対する部分指定での抽出が可能になりました。インデックスへの書き込みをブロックせずにインデックスを再構築するReindex Concurrentlyコマンドが導入されたた
- postgresql
- あとで読む
- db
- JSON
- Publickey
- database
- software
- web
- ニュース
ChatGPTは文字コードをどのように解釈しているか　Unicodeの「日本語認識」「括弧の抽出」「旧字体と新字体の変換」を実験してみた
- 126 users
- logmi.jp
- テクノロジー
- 2023/05/09
「YAPC（Yet Another Perl Conference）」は、Perlを軸としたITに関わるすべての人のためのカンファレンスです。ライトニングトークにはPR TIMES インターンのShun氏が登壇。ChatGPTと文字コードについて話します。 ChatGPTは文字コードをどのように解釈しているか土屋俊介氏：こんにちは。先ほど、発表が4分だと知った土屋です。PR TIMESというところで、機械学習のインターンをしています。（スライドを示して）昨今、ChatGPTというものがメチャメチャはやっていますよね。私は使っていく中で、（ChatGPTが）文字コードをどのように解釈しているかが気になりました。なぜそんなニッチな話が気になるのかというと、自然言語処理とWebに関わっている以上、文字コードに関するプログラムをよく書くんです。その関係で気になったので調べてみました。（スライ
「超音波」で水出しコーヒーの抽出時間を24時間から3分に短縮する技術が登場
- 118 users
- gigazine.net
- 暮らし
- 2024/05/08
低温でじっくりコーヒーを抽出する水出しコーヒーは、酸味や苦味が少ないまろやかな味わいが特徴ですが、作るのに12～24時間かかるという問題があります。そんな水出しコーヒーの抽出にかかる時間を超音波で劇的に短縮する技術を、オーストラリアの研究チームが発表しました。市販のエスプレッソマシンに超音波発生装置を取り付けるだけで実現したこの技術により、家庭でも手軽に水出しコーヒーが楽しめるようになると研究者らは語っています。 Coffee brewing sonoreactor for reducing the time of cold brew from several hours to minutes while maintaining sensory attributes - ScienceDirect https://www.sciencedirect.com/science/article/
- science
- あとで読む
- coffee
- コーヒー
- 技術
- 食
- サイエンス
- ネタ
- cooking
- 謎
iOS 15のSafariで表示したWebサイトやTwitterなどに投稿されている画像からテキスト認識表示を利用してテキストを抽出する方法。
- 118 users
- applech2.com
- テクノロジー
- 2021/09/29
Webサイトをキャプチャした画像などiOS 15のSafari上に表示された画像からテキスト認識表示を利用してテキストをコピーする方法です。詳細は以下から。 Appleは2021年06月に開催したWWDC21の基調講演の中で、iOS 15/iPadOS 15の新機能として写真内にあるテキストを抽出し、コピー＆ペーストできるようにする「テキスト認識表示 (Live Text)」機能を発表、 Apple Web Developer Experience Teamのエバンジェリストを務めるJen Simmonsさんは、このテキスト認識表示はiOS 15/iPadOS 15のモバイルSafariにも統合され、抽出されたテキストデータはWebコンテンツの一部ではなくShadow DOMとして挿入されるため、 JavaScriptなどの影響は受けずにコピーやWeb内検索が利用可能で、例えばTwitte
- iOS
- あとで読む
- Safari
- apple
- 画像
- !!
grepでは困難な、特定文字列の存在行から別の文字列が存在する行までの抽出 (Perlのflip-flop演算子の使い方) - 理系学生日記
- 113 users
- kiririmode.hatenablog.jp
- テクノロジー
- 2021/02/28
特定の文字列がある行から、別の特定の文字列がある行までを抽出したいということがよくあります。これgrep等を使うと苦労する話なんですが、flip-flop演算子を使ったPerlのone-linerで可能です。例えば昨日の記事ではgit help commitの中から--no-edit/オプションの説明を抽出しました。これは--no-editという文字列が出てくるところから空行までを抽出すれば良い。これは以下のようにすれば可能です。 $ git help commit | perl -nle 'print if /--no-edit/ ... /^\s*$/' 解説自体に空行が混じるケースでは以下のようにすれば良いでしょう。この例では、--cleanupという文字列が出現してから、次のオプション(-文字列形式)が出るまでを抽出しています。 $ git help commit | pe
- perl
- あとで読む
- grep
- tips
- command
- git
変異ウイルス 1週間で1234人抽出検査うち56人陽性確認厚労省 | NHKニュース
- 98 users
- www3.nhk.or.jp
- 政治と経済
- 2021/03/10
海外で広がる変異した新型コロナウイルスについて、国内では先月末までの1週間に全国で1200人あまりに検査が行われ、このうち4.5％にあたる56人の感染が確認されたことが厚生労働省のまとめでわかりました。変異ウイルスについて、厚生労働省は自治体に対し、新規感染者の5％から10％を目安に検体を抽出して調べるよう求めています。厚生労働省が各自治体の速報値をまとめたところ、先月28日までの1週間に、全国で1234人の感染者について、変異ウイルスを調べるPCR検査が実施されたことがわかりました。これは、この期間に確認された新規感染者のおよそ17％にあたります。そして、変異ウイルスへの感染が確認されたのは、検査を行った人の4.5％にあたる56人でした。地域別にみますと ▽兵庫県では55人の検査が行われ、16人の感染が確認されたほか、 ▽神奈川県では25人の検査が行われ感染が確認されたのは10
- COVID-19
- あとで読む
- 社会
- social
- 災害
- 健康
- 科学
- 医療
- hatena
Javaを使ってPDFからテキストを抽出する（Apache PDFBox 編） - デベルマン
- 92 users
- develman.net
- テクノロジー
- 2019/09/12
最新の情報を利用する場合は、キャッシュレス・消費者還元事業（https://cashless.go.jp/）のページより入手してください。処理実装今回読み取りに使用するPDFは、以下のように店舗が一覧化されています。この一覧から、「No.」「都道府県」「市区町村」「事業所名（屋号）」「業種」「業種（サブカテゴリ）」「還元率」の7種類の情報を個別の文字列として取得しましょう。ちなみにいろいろひっかかるこの一覧。「伊達の牛タン本舗」の各店でスペース有り無しが混在しているのが細かいけどすごく気になるし、No.10001にはおそらく間違いが２つ存在してます。まず気になる文字化けはハイフン。その上で「だし廊」と「だし廊 -NIBO-」は別店舗。この一覧の作者は詰めが甘いように思う。。こんにちは！だし廊本店です！遅くなり申し訳ございません！今週の限定の献立表が出来ました！今週もだし廊でお待
【知ってた？】PDFの分割はChromeでもできる！必要なページだけを抽出する方法
- 88 users
- dekiru.net
- テクノロジー
- 2019/08/26
WindowsやMac、スマホといった異なる環境でも、常に同じ見た目で資料を表示できるPDFファイルは、ビジネスの現場でもよく使れます。しかし、必要なページだけを取り出したいとき、手軽なアプリがなくて困っていませんか？実はChromeで何とかなるのです。専用アプリがなくてもPDFは分割できる最近ではPDFファイルを使う機会がとても増えました。ExcelやPowerPointで作成したファイルを、ほかの人と共有する目的でPDFに変換している人も多いと思います。 PDFには、異なるパソコンやスマートフォンでも同じ見た目で表示できること、ファイルサイズが小さいこと、改ざんがしにくいことなど、いくつものメリットがあります。しかし、改ざんがしにくいゆえに、必要なページだけを抽出することもできず、困ったことはありませんか？例えば、数十ページあるPDFファイルを参考資料として相手に送りたいとき、
- pdf
- chrome
- あとで読む
- tips
- Google
- 未分類
Wikipediaを用いた日本語の固有表現抽出データセットの公開
- 85 users
- tech.stockmark.co.jp
- テクノロジー
- 2020/12/15
ML事業部の近江崇宏です。ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現（固有名詞）を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。（企業名抽出については過去のブログ記事を参考にしてください。）一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日本語の学習データセットを公開いたします！ご自由にお使いいただければと思います！レポジトリ：https://github.com/stockmarkteam/ner-wikipedia-dataset 固有表現をハイライトしたサンプ
歴史好きにはたまらない！江戸時代なのに現代風デザインの地図サイト「れきちず」が3D表示に対応地図データをベクトルタイル化。「江戸切絵図」から町家領域の抽出も【地図ウォッチ】
- 85 users
- internet.watch.impress.co.jp
- テクノロジー
- 2024/05/22
- 地図
- map
- あとで読む
- 歴史
- history
- デザイン
- webサービス
統計学とはそもそも「無作為抽出された少量のデータ」を分析するためのものであった - 渋谷駅前で働くデータサイエンティストのブログ
- 76 users
- tjo.hatenablog.com
- 学び
- 2021/02/23
しばらく前にQuoraにこんなアンサーを書いたことを思い出したので、ついでにリブログ記事として転載の上加筆修正したものを用意してみました。僕にしては珍しくコッテコテの頻度主義的な話題である上に、「p値なんか使うのはやめてしまえ」という記事を以前に書いておきながらこんな議論をするのは自己矛盾かもしれませんが（笑）、これまでの統計学の歴史を紐解くことで、温故知新ということで新たに理解されることもあるのかなと思っています。小標本のための統計学と、「スチューデント」ことゴセットの話補足小標本のための統計学と、「スチューデント」ことゴセットの話近代統計学とは、「無作為抽出によって得られた小標本を分析することで、その背後にある母集団の性質を推定する」ために改良が積み重ねられてきた営みです。すなわち、統計学は「少量のデータを扱う学問」そのものだとも言えます。 (Skbkekas - 投稿者自身に
- 統計
- Statistics
- あとで読む
- history
- 科学
めがねのあぶデカロケ地bot on Twitter: "つるの剛士が大坂なおみを叩いたってあったから彼のツイートから『大坂なおみ』『大坂』『なおみ』『blm』『黒人』『差別』など関連ワードで検索抽出したけど、んなもん無かったんだが(困惑 https://t.co/XHtsh3UqVv"
- 76 users
- twitter.com/eachtime1208
- 世の中
- 2020/09/09
つるの剛士が大坂なおみを叩いたってあったから彼のツイートから『大坂なおみ』『大坂』『なおみ』『blm』『黒人』『差別』など関連ワードで検索抽出したけど、んなもん無かったんだが(困惑 https://t.co/XHtsh3UqVv
Python＋数学講座と機械学習講座が無料に Pythonでデータの抽出から可視化までが可能に | Ledge.ai
- 72 users
- ledge.ai
- テクノロジー
- 2022/03/18
サインインした状態で「いいね」を押すと、マイページの「いいね履歴」に一覧として保存されていくので、再度読みたくなった時や、あとでじっくり読みたいときに便利です。
検索クエリからファジーにキーワードを抽出する（スミス・ウォーターマン法に基づく実装） - Giftmall Inside Blog
- 72 users
- inside.luchegroup.com
- テクノロジー
- 2022/12/15
TL;DR 表記揺れがふくまれる検索クエリにマッチしたコンテンツを表示するための手法として、スミス・ウォーターマン法に基づくあいまい検索を実装して検索精度を向上しました。この手法は機械学習システムを使わないためメンテナンスコストが低く、その一方で速度面でも実用的な性能を持ちチューニングしやすいのが特長です。はじめにこんにちは、ギフトモールで検索エンジンなどを開発している @samayotta です。私たちギフトモールはプレゼントに特化したECサービスを提供しています。ギフトECにおいても、ユーザのニーズにマッチする商品を探すための検索機能は重要となります。例えば、弊社が運用しているギフトECサービスの一つであるギフトモールは、ユーザが入力する文字列の検索クエリから関連するキーワードを検出し、そのキーワードに紐づいているコンテンツ(商品、記事、etc.)を提示する検索機能を持っています
- アルゴリズム
- 検索
- あとで読む
- search
- 技術
- 開発
- 仕事
BERTによるニュース記事の構造化：企業名抽出
- 70 users
- tech.stockmark.co.jp
- テクノロジー
- 2020/07/15
はじめにMachine Learning部門の近江です。ストックマークでは、自然言語処理技術の研究開発を行っています。先日、弊社のTech Blogにて弊社が公開している言語モデルを紹介しました。ストックマークが公開した言語モデルの一覧と振り返り今回は、言語モデルがプロダクトにおいて実際にどのように利用されているかについての一例を紹介します。ニュース記事の構造化マーケティング、新規事業開発などの調査業務では、調査を行う人が書籍、ニュース記事、ホームページなどの情報を網羅的に調べ、整理し、報告書などにまとめていきます。その際に扱う情報は膨大であり、そのため調査業務には多くの時間と労力がかかります。弊社のプロダクトである「Astrategy」は機械学習を用いてニュース記事から特徴となる情報を抽出し、構造化することで、大量のニュース記事を効率的に俯瞰し、さらに新規事業開発などに繋がりう
スプラトゥーン2のプレイ動画から、やられたシーンだけをディープラーニングで自動抽出する - Qiita
- 70 users
- qiita.com/tfandkusu
- アニメとゲーム
- 2020/09/12
手っ取り早く、やられたシーンを抽出したい人向け OBSと連携するWebアプリを作成しました詳細はこちらの記事をご参照ください。スプラトゥーン3で、やられたシーンをOBSのリプレイバッファで自動保存する以前のWebアプリスプラトゥーン2 やられたシーン自動頭出しツール「iKut」 DockerイメージこちらでDockerイメージを配布しています。はじめにスプラトゥーン2を発売日からやりこんで3年になります。2年かけて全ルールがウデマエXに到達しましたが、そこからXパワーが上がらずウデマエＸ最底辺で停滞しています。最近は自分のプレイ動画を見て対策を立てるのですが、すべての動画を見るのは大変です。そこで敵にやられたシーンは特に修正すべき自分の弱点があると考え、そこだけを自動で抽出するシステムを作ってみました。 ↑このシーンを切り出します。画像の引用この記事では任天堂株式会社のゲ