This post details CVE-2024-4367, a vulnerability in PDF.js found by Codean Labs. PDF.js is a JavaScript-based PDF viewer maintained by Mozilla. This bug allows an attacker to execute arbitrary JavaScript code as soon as a malicious PDF file is opened. This affects all Firefox users (<126) because PDF.js is used by Firefox to show PDF files, but also seriously impacts many web- and Electron-based a
ログイン読み込んでいます…
デジタル庁デジタル社会共通機能グループ地方業務システム基盤チーム 2024/5 【監修】 笹原宏之(早稲田大学 社会科学総合学術院 社会科学部 教授) 山下真里(熊本大学 大学院人文社会科学研究部 准教授) 文字包摂ガイドライン 目次 1.文字包摂ガイドラインの目的................................................. 1 2.用語の解説 ................................................................ 2 3.文字同定作業の手順・予備知識・留意点....................................... 7 4.包摂可能な部首の字形について............................................... 9 5.包摂可能な基準につい
PDFファイルからプロパティ情報を削除する 画面は、実際にインターネット上で公開されているPDFファイルのプロパティを開いたところ(一部モザイクを施している)。これを見ると、サポートが切れたWord 2013(2023年4月11日でサポート終了)で作成されていることが分かる。サポート切れであってもアプリケーションを使い続けることは可能とはいえ、攻撃者からこうした組織はセキュリティが「甘い」と判断される危険性がある。また、氏名が「作成者」欄などに入力されているものもあり、個人が特定される可能性もある。そこで、本Tech TIPSではPDFファイルからプロパティ情報を削除する方法を紹介する。 最近では、Webサイトに製品マニュアルや企業の財務状況などをPDFファイルで公開しているところも多いようだ。こうしたPDFファイルのプロパティには、作成者やPDFの作成に使用したアプリケーションなどが埋め
PDFをLLMで解析する前処理のパーサーは何が良いのか?(pdfminer, PyMuPDF, pypdf, Unstructured)PythonpdfminerPyMuPDFpyPDFUnstructured 現状の LLM は PDF ファイルを直接処理出来ない為、予めなんらかのプレーンテキスト形式に変換する必要があります。 (PDFを読める各チャットアプリも内部的には何らかの手段でプレーンテキスト形式に変換しているはずです) 変換を行ってくれるライブラリは複数存在する為、動作の違いを確認します。 抽出プログラム 抽出する対象のPDFファイルはBedrockユーザーガイドの日本語版を使います。
DifyとGradioで作るPDF処理ワークフローアプリケーション ターゲット読者: Python開発者、特にDifyやLangchainなどのツールに興味があり、PDF処理ワークフローを自動化したいと考えている人 今日のビジネスでは、請求書の処理、契約書の分析、レポートの生成など、さまざまな場面でPDF文書が使用されています。これらのPDF文書を手作業で処理することは、時間と労力がかかり、ミスが発生しやすいため、多くの企業が自動化ソリューションを求めています。 この記事では、Dify、Gradio、Langchainという3つの強力なツールを組み合わせて、PDF処理ワークフローを自動化するPythonアプリケーションを構築する方法を紹介します。 1. はじめに Dify は、コードを書かずにAIアプリケーションを構築できるプラットフォームです。直感的なインターフェースを備えており、開発者
オランダのセキュリティベンダーCodean Labsは5月20日(現地時間)、「PDF.js」に任意のJavaScriptコードを実行できる脆弱性(CVE-2024-4367)があることを明らかにした。 【画像】実証コード(PoC)が成功した様子 「PDF.js」は、HTML5で構築されたPDFビューワー。「Firefox 19」以降に搭載されている内蔵PDFビューワーなどに用いられている。 PDF形式は複雑なことで有名で、これまでも攻撃のターゲットになってきた。しかし、その多くはC/C++実装のメモリ破壊バグを狙ったものであり、低レベルなメモリアクセスを扱わないJavaScriptで構築された「PDF.js」はそれと無縁に思える。 しかし、Codean Labsによると「PDF.js」でフォントをレンダリングするコードには見落としがあるという。「PDF.js」はパフォーマンスに最適化する
大量のPDFにアクセスを集めるには?今回の相談内容は、運用しているBtoBサイトに、データを掲載したPDFが大量にあり、これにアクセスを集めたいというものです。HTML化するのがよいことはわかっているものの、何しろ大量にあるので工数をかけて実施するかどうか、悩んでおられます。今回の質問はペンネーム「ぐにぐに」さんが寄せてくださいました。いつもありがとうございます。 かけられる工数は期待できる効果で決まるSEOに限らずどんなことでも、かけられる費用は期待できる効果で決まります。今回のケースなら、PDFをHTMLにすることで売上への貢献がどれくらいになるかによって、PDFのHTML化にかけられる工数が決まってくるでしょう。 PDFのHTML化といっても、単純にファイル形式を変換してアップロードするだけの場合から、グローバルナビゲーションやパンくずリストのついた通常のHTMLページへと整形し直す
ご覧いただきありがとうございます、ノグチデザインhttps://x.com/n_seitanと申します。 こちらはX(Twitter)で発信しているデザイン講座を全て集めたpdfを配布させていただくページです。 4年間、恐らく計1000時間近く(1枚につきだいたい3〜4時間)かけかなりこだわって制作してきた講座でして、情報の内容・魅せ方共にデザイン本に引けを取らないと自負しております(過去講座のクオリティは今見ると結構ひどいのですが・・笑 内容に関しては今でも自信を持ってお見せできるクオリティです。) pdfはざっくりジャンルを分けておりまして、 ・文字講座 50枚 ・色彩講座 86枚 ・その他講座 61枚 ・ミニ講座 24枚 ・過去講座 46枚 ・YouTubeサムネ講座 8枚 の計275枚となっています。 各pdfデータのほか、下記のように個別の高画質jpgデータも入っております。 申
1. はじめに Webページや動画からテキスト情報を抽出することは、情報収集やデータ分析など、様々なタスクにおいて重要です。この記事では、DockerとFastAPIを用いて、URLからテキストを抽出するアプリケーションを構築する方法について解説します。Dockerは、アプリケーションの実行環境をコンテナ化することで、環境依存の問題を解消し、デプロイを容易にする技術です。FastAPIは、Python製のWebフレームワークであり、高速で効率的なAPI開発を可能にします。 この記事を活用するとできること youtubeから字幕(transcript)を取得して、Difyで要約させる WebサイトのURLから、テキストを出力して、Difyのワークフローに流し込む Web上のPDFからテキストを抽出して、DifyでQAチャットボットを構築する 2. 環境構築 2.1 Dockerfile 以下
ブックカバーのPDFデータを無料配布してくれているサイトをまとめました! ぜひ、お気に入りを見つけてみて下さい。 ※便宜上、サンプル画像を掲載していますがダウンロードは各サイトからお願いします。 ※各サイトの規約を確認の上、規約にのっとってご使用下さい。 ※記載している素材数は筆者独自に集計したものです。 フリー素材配信サイトのブックカバー Book Style ブックカバーデザイン無料配布サイト Bookooma WOLCA Papar Museum イラストAC Microsoft Office 書店のブックカバー Amazon もったいない本舗 TSUTAYA Online 未来屋書店 BOOKOFF Online honto 出版社のブックカバー 幻冬舎(黒猫のモンロヲ) 少年写真新聞社 東京創元社 図書館のブックカバー レファンレンス協同データベース事業 大阪市立図書館 大阪府
ログイン読み込んでいます…
サピックスは定期的に復習テストがあるため、プリント形式のテキスト(はスキャナで落としています。 ※ノートにやる手もありますが、我が家は根っからプリント記入式 ここで1点課題が。 サピックスから帰って、解答欄に記入がないプリントをすぐスキャナですればよいのですが親が仕事だとスキャンに落とすのが遅れることがままあるんですよね。。。 そうなると出来上がるのが 既に答えを書いてしまったプリント(>_<) これをスキャナに落とすと、当然書いた答えも一緒に電子データ化されます。 印刷すると答え丸見えなるので子供の復習にもなりません。 消しゴムで答えを消すのは大変なので、スキャンしたpdfから答えを無料で消す方法をご紹介したいとオモイマス。 pdfから答えを消すやり方 ①PDF-XChange Viewerをインストール ②答えを書いたプリントのpdfを開く ③「ツール」→「コメントとマークアップツール
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く