Extrae un sitio de listados estático en un dataset estructurado
Cuándo usarlo: Necesitas un dataset de un sitio público que no tiene API.
Requisitos previos
- Skill instalado — git clone https://github.com/yfe404/web-scraper ~/.claude/skills/web-scraper
- Node 20 para Apify Actors — nvm install 20
Flujo
-
Deja que el skill haga el reconocimientoUsa web-scraper. Objetivo: https://example.com/listings. Quiero nombre + URL + categoría. Reconocimiento primero — cuéntame la ruta de extracción más barata.✓ Copiado→ El skill reporta: 'sitemap.xml disponible, usa Cheerio'
-
Arma la estructura del Apify ActorArma la estructura de un actor Apify Cheerio de TypeScript para esa extracción.✓ Copiado→ Árbol del actor + main.ts listo para ejecutar
-
Ejecuta e iteraEjecuta localmente en 10 páginas; ajusta los selectores si es necesario.✓ Copiado→ Salida JSON limpia
Resultado: Un Apify Actor que puedes desplegar para scrapes programados.
Errores comunes
- Saltar a Playwright cuando Cheerio sería suficiente — Confía en el reconocimiento — navegadores con interfaz cuestan 10x más innecesariamente