pdf-vision-reader

childbamboo/claude-code-marketplace-sample · updated Apr 8, 2026

MDX-style export adds YAML metadata + attribution linking explainx.ai and this canonical listing URL.

$npx skills add https://github.com/childbamboo/claude-code-marketplace-sample --skill pdf-vision-reader
0 commentsdiscussion
summary

図表が多い PDF を画像化して、Claude の vision 機能で内容を解析・Markdown 化するスキルです。

skill.md

PDF Vision Reader

図表が多い PDF を画像化して、Claude の vision 機能で内容を解析・Markdown 化するスキルです。

クイックスタート

基本的な使い方

# 1. PDF を画像に変換
wsl python3 scripts/pdf_to_images.py "/mnt/c/path/to/file.pdf"

# 2. 各画像を Read ツールで読み込んで解析
# 3. Markdown 形式でまとめる

前提条件

必要なパッケージ:

# Python パッケージ
wsl pip3 install pdf2image Pillow

# システムパッケージ (poppler)
wsl sudo apt-get update
wsl sudo apt-get install -y poppler-utils

ワークフロー

ステップ1: PDF を画像に変換

wsl python3 scripts/pdf_to_images.py "/mnt/c/path/to/document.pdf"

これにより document_pages/ ディレクトリが作成され、各ページが画像として保存されます:

  • page_001.png
  • page_002.png
  • page_003.png
  • ...

ステップ2: 各画像を解析

Read ツールで各画像を順番に読み込み、内容を解析します。

解析時の指示例:

この画像の内容を詳しく説明してください:
- タイトルや見出し
- 本文テキスト
- 図表の説明
- グラフやチャートのデータ
- 重要なポイント

ステップ3: Markdown に統合

各ページの解析結果を統合して、一つの Markdown ファイルを作成します。

使用例

例1: プレゼンテーション資料を Markdown 化

User: "presentation.pdf を vision で解析して Markdown 化して"
Assistant:
1. scripts/pdf_to_images.py で PDF を画像に変換
2. 各画像を Read ツールで読み込み
3. 各ページの内容を解析(タイトル、図表、テキスト)
4. 全ページの解析結果を統合
5. Write ツールで Markdown ファイルに保存

例2: 特定のページのみ解析

User: "document.pdf の 5-10 ページだけ解析して"
Assistant:
1. PDF を画像に変換(全ページ)
2. page_005.png から page_010.png のみ Read で読み込み
3. 該当ページの内容を Markdown 化

解析の観点

自動的に抽出する情報

各ページの画像から以下を抽出:

  1. テキスト情報

    • タイトル・見出し
    • 本文テキスト
    • 箇条書きリスト
    • 注釈・キャプション
  2. 図表

    • 図の種類(フローチャート、組織図、etc.)
    • 図の説明・要約
    • 主要な要素と関係性
  3. グラフ・チャート

    • グラフの種類(棒グラフ、円グラフ、etc.)
    • 軸ラベル
    • 主要なデータポイント
    • トレンドや傾向
  4. テーブル

    • テーブルの構造
    • ヘッダー行
    • データの内容
    • Markdown テーブル形式に変換
  5. レイアウト・構造

    • ページ全体のレイアウト
    • セクション分け
    • 強調されている情報

Markdown 出力フォーマット

# [PDFタイトル]

**解析日時:** YYYY-MM-DD
**総ページ数:** N

---

## Page 1: [ページタイトル]

### 概要
[ページの概要説明]

### 主要な内容
- [ポイント1]
- [ポイント2]

### 図表
**図1: [図のタイトル]**
[図の説明]

### テキスト内容
[ページ内のテキスト]

---

## Page 2: [ページタイトル]
...

スクリプト詳細

pdf_to_images.py

機能:

  • PDF の各ページを PNG 画像に変換
  • 解像度指定可能(デフォルト: 200 DPI)
  • 出力ディレクトリの自動作成

使い方:

python scripts/pdf_to_images.py <pdf_path> [output_dir] [dpi]

# 例
python scripts/pdf_to_images.py document.pdf ./images 300

出力:

  • [pdf_name]_pages/page_001.png
  • [pdf_name]_pages/page_002.png
  • ...

対応可能なコンテンツ

  • ✅ テキスト(日本語・英語)
  • ✅ 図表・ダイアグラム
  • ✅ グラフ・チャート
  • ✅ テーブル
  • ✅ スクリーンショット
  • ✅ インフォグラフィック
  • ✅ 複雑なレイアウト
  • ⚠️ 手書きメモ(精度は状況による)
  • ⚠️ 低解像度画像(精度低下の可能性)

テキスト抽出との違い

pdf-reader (テキスト抽出)

  • ✅ テキストのみの PDF で高速
  • ✅ 純粋なテキスト抽出
  • ❌ 図表は抽出不可
  • ❌ レイアウトは簡略化

pdf-vision-reader (画像解析)

  • ✅ 図表・グラフを理解
  • ✅ 複雑なレイアウトを保持
  • ✅ ビジュアル要素の説明
  • ⚠️ 処理時間が長い
  • ⚠️ API コスト(画像解析)

推奨される使い分け

PDF の種類 推奨スキル
テキスト中心の文書 pdf-reader
プレゼンテーション資料 pdf-vision-reader
図表・グラフが多い資料 pdf-vision-reader
技術図面・設計書 pdf-vision-reader
論文(図表含む) pdf-vision-reader
単純なテキストPDF pdf-reader

トラブルシューティング

pdf2image が見つからない

wsl pip3 install pdf2image

poppler-utils が見つからない

wsl sudo apt-get update
wsl sudo apt-get install -y poppler-utils

画像変換が失敗する

  • PDF が破損していないか確認
  • ディスク容量を確認
  • メモリ不足の可能性(大きな PDF は分割処理)

解析精度が低い

  • DPI を上げる(300 推奨)
    python scripts/pdf_to_images.py document.pdf ./images 300
    
  • 元の PDF の画質を確認

パフォーマンス

処理時間の目安

ページ数 画像変換 解析(Claude vision) 合計
10ページ 5秒 30-60秒 ~1分
30ページ 15秒 90-180秒 ~3分
100ページ 50秒 300-600秒 ~10分

最適化のヒント

  1. 必要なページのみ処理

    • 全ページ変換後、重要なページのみ解析
  2. DPI の調整

    • 図表が多い: 300 DPI
    • テキスト中心: 150-200 DPI
  3. バッチ処理

    • 複数 PDF を並行処理しない(順次処理)

パス変換

Windows パスから WSL パスへの変換:

  • C:\Users\.../mnt/c/Users/...
  • D:\Projects\.../mnt/d/Projects/...

関連ツール

  • pdf-reader: テキスト中心の PDF 用
  • docx-reader: Word 文書用
  • OCR ツール: pytesseract(テキスト特化)

バージョン履歴

  • v1.0.0 (2026-01-06): 初期リリース
    • PDF → 画像変換機能
    • Vision ベースの解析ワークフロー
    • 図表・グラフの理解対応
    • Markdown 出力フォーマット
how to use pdf-vision-reader

How to use pdf-vision-reader on Cursor

AI-first code editor with Composer

1

Prerequisites

Before installing skills in Cursor, ensure your development environment meets these requirements:

  • Cursor installed and configured on your development machine
  • Node.js version 16.0+ with npm package manager (verify with node --version)
  • Active project directory or workspace where you want to add pdf-vision-reader
2

Execute installation command

Execute the skills CLI command in your project's root directory to begin installation:

$npx skills add https://github.com/childbamboo/claude-code-marketplace-sample --skill pdf-vision-reader

The skills CLI fetches pdf-vision-reader from GitHub repository childbamboo/claude-code-marketplace-sample and configures it for Cursor.

3

Select Cursor when prompted

The CLI will show a list of available agents. Use arrow keys to navigate and space to select Cursor:

◆ Which agents do you want to install to?
│ ── Universal (.agents/skills) ── always included ────
│ • Amp
│ • Antigravity
│ • Cline
│ • Codex
│ ●Cursor(selected)
│ • Cursor
│ • Windsurf
4

Verify installation

Confirm successful installation by checking the skill directory location:

.cursor/skills/pdf-vision-reader

Reload or restart Cursor to activate pdf-vision-reader. Access the skill through slash commands (e.g., /pdf-vision-reader) or your agent's skill management interface.

Security & Verification Notice

We perform automated surface-level scans (Gen AI Scanner, Socket, Snyk) during installation. These checks detect common vulnerabilities but do not guarantee complete security. Always review skill source code and verify the publisher's reputation before production use.

Skills execute code in your development environment. Always verify the publisher's identity, review recent commits, and test in isolated environments before production deployment.

List & Monetize Your Skill

Submit your Claude Code skill and start earning

GET_STARTED →

Use Cases

Task Automation & Efficiency

Automate repetitive workflows and reduce manual effort

Example

Generate reports, summarize documents, draft communications

Save 3-5 hours per week on routine tasks

Knowledge Enhancement

Learn new skills, understand complex topics, get expert guidance

Example

Explain concepts, provide examples, suggest learning resources

Accelerate learning and skill development by 2x

Quality Improvement

Enhance output quality through reviews, suggestions, and refinements

Example

Review drafts, suggest improvements, catch errors

Improve work quality by 30-40% with less effort

Implementation Guide

Prerequisites

  • Claude Desktop or compatible AI client with skill support
  • Clear understanding of task or problem to solve
  • Willingness to iterate and refine outputs

Time Estimate

15-45 minutes depending on use case complexity

Installation Steps

  1. 1.Install skill using provided installation command
  2. 2.Test with simple use case relevant to your work
  3. 3.Evaluate output quality and relevance
  4. 4.Iterate on prompts to improve results
  5. 5.Integrate into regular workflow if valuable

Common Pitfalls

  • Expecting perfect results without iteration
  • Not providing enough context in prompts
  • Using skill for tasks outside its intended scope
  • Accepting outputs without review and validation

Best Practices

✓ Do

  • +Start with clear, specific prompts
  • +Provide relevant context and constraints
  • +Review and refine all outputs before using
  • +Iterate to improve output quality
  • +Document successful prompt patterns

✗ Don't

  • Don't use without understanding skill limitations
  • Don't skip validation of outputs
  • Don't share sensitive information in prompts
  • Don't expect skill to replace human judgment

💡 Pro Tips

  • Be specific about desired format and style
  • Ask for multiple options to choose from
  • Request explanations to understand reasoning
  • Combine AI efficiency with human expertise

When to Use This

✓ Use When

Use when skill capabilities match your task, clear ROI on time saved, and you can validate outputs. Best for repetitive tasks, learning, and quality improvement.

✗ Avoid When

Avoid when task requires deep expertise you can't validate, involves sensitive decisions, or when learning process is more valuable than speed of completion.

Learning Path

  1. 1Familiarize yourself with skill capabilities and limitations
  2. 2Start with low-risk, non-critical tasks
  3. 3Progress to more complex and valuable use cases
  4. 4Build expertise through regular use and experimentation

Discussion

Product Hunt–style comments (not star reviews)
  • No comments yet — start the thread.
general reviews

Ratings

4.640 reviews
  • Ganesh Mohane· Dec 4, 2024

    Registry listing for pdf-vision-reader matched our evaluation — installs cleanly and behaves as described in the markdown.

  • Amelia Brown· Dec 4, 2024

    Solid pick for teams standardizing on skills: pdf-vision-reader is focused, and the summary matches what you get after install.

  • Hana Torres· Dec 4, 2024

    Keeps context tight: pdf-vision-reader is the kind of skill you can hand to a new teammate without a long onboarding doc.

  • Noah Martinez· Nov 27, 2024

    pdf-vision-reader has been reliable in day-to-day use. Documentation quality is above average for community skills.

  • Rahul Santra· Nov 23, 2024

    Solid pick for teams standardizing on skills: pdf-vision-reader is focused, and the summary matches what you get after install.

  • Valentina Kim· Nov 23, 2024

    Registry listing for pdf-vision-reader matched our evaluation — installs cleanly and behaves as described in the markdown.

  • Soo Jain· Nov 23, 2024

    pdf-vision-reader is among the better-maintained entries we tried; worth keeping pinned for repeat workflows.

  • Hana Ghosh· Oct 18, 2024

    pdf-vision-reader fits our agent workflows well — practical, well scoped, and easy to wire into existing repos.

  • Pratham Ware· Oct 14, 2024

    I recommend pdf-vision-reader for anyone iterating fast on agent tooling; clear intent and a small, reviewable surface area.

  • Sakura Diallo· Oct 14, 2024

    Useful defaults in pdf-vision-reader — fewer surprises than typical one-off scripts, and it plays nicely with `npx skills` flows.

showing 1-10 of 40

1 / 4