From Muno-OS (beta)
Extrae texto de PDFs e imágenes usando AWS Textract. Especialmente útil para PDFs de diseño (Illustrator) sin texto extraíble. Trigger en "extraer texto", "OCR", "leer PDF escaneado", "documento sin texto", "Textract".
How this skill is triggered — by the user, by Claude, or both
Slash command
/Muno-OS (beta):document-ocrThe summary Claude sees in its skill listing — used to decide when to auto-load this skill
Extrae texto de PDFs e imágenes usando AWS Textract. Útil para documentos escaneados o PDFs de diseño que no tienen texto extraíble.
Extrae texto de PDFs e imágenes usando AWS Textract. Útil para documentos escaneados o PDFs de diseño que no tienen texto extraíble.
document-ocr/
├── SKILL.md
Scripts de referencia (en /scripts/ocr/):
textract_pdf_analyzer.py - Procesar PDFstextract_images_analyzer.py - Procesar imagenesus-east-1 (default)python3 scripts/ocr/textract_pdf_analyzer.py "documento.pdf" "resultado"
Output: Archivos .txt con texto extraido por pagina.
python3 scripts/ocr/textract_images_analyzer.py "carpeta_imagenes/" "resultado"
Los PDFs creados en Illustrator o herramientas de diseño frecuentemente no tienen texto extraíble (el texto está como curvas/paths).
Solución: Convertir a imágenes primero
# 1. Convertir PDF a imágenes con ImageMagick
magick -density 300 "archivo.pdf" -quality 100 "output/page.png"
# 2. Procesar imágenes con Textract
python3 scripts/ocr/textract_images_analyzer.py "output/" "resultado"
PDFs de diseño: El Read tool de Claude no extrae texto de PDFs de Illustrator. Usar flujo de conversión a imagen + Textract.
Límites de Textract:
Calidad de imagen importa: Para mejor OCR, usar density 300 o más al convertir PDF.
Tablas: Textract puede detectar tablas, pero el output puede necesitar post-procesamiento.
Idioma: Textract funciona mejor con inglés, pero soporta español y otros idiomas.
Costos: Textract tiene costo por página. Verificar pricing antes de procesar documentos grandes.
Región: us-east-1
Cuenta: [configurar en AWS CLI]
python3 scripts/ocr/textract_pdf_analyzer.py input.pdf output_prefix
# Envia PDF a Textract, guarda resultado en .txt y .json
# Para PDFs >5MB usa analisis asincrono con S3
python3 scripts/ocr/textract_images_analyzer.py input_folder/ output_prefix
# Procesa todas las imagenes PNG en la carpeta
Archivos de texto plano con el contenido extraído:
resultado_page_1.txtresultado_page_2.txtO archivo consolidado:
resultado_full.txtSi Textract no está disponible:
npx claudepluginhub munolabs/muno-os-plugin --plugin Muno-OS (beta)Parses complex documents with PaddleOCR to extract text, tables, formulas, charts, and layout structure. Use for invoices, academic papers, multi-column layouts, or any document needing structured understanding.
This skill should be used when the user says "process documents", "extract text from PDF", "OCR this document", "convert PDF to markdown", "extract emails from documents", "parse document", "document conversion", "batch OCR", "extract structured data from PDF", "read PDF", "extract tables from PDF", "convert Word document", "convert docx to markdown", or wants to extract, convert, or process documents and scanned images.
Extracts text and structured data from single or batch PDFs using 9 backends with automatic fallback, OCR for scanned docs, and markdown output via CLI.