Acciones
PBI #1884
abierta
JV
[Historia de Usuario] Crawler Inicial del Dominio
PBI #1884:
[Historia de Usuario] Crawler Inicial del Dominio
Estado:
Nueva
Prioridad:
Normal
Asignado a:
-
Fecha de inicio:
2025-10-20
Fecha fin:
% Realizado:
0%
Tiempo estimado:
Descripción
Como administrador de cliente
Quiero rastrear automáticamente el contenido de mi sitio web
Para que el chatbot pueda responder preguntas basadas en el contenido del sitio
- Criterios de Aceptación
- El admin indica `startUrl` y profundidad de rastreo en el back-office
- El sistema ejecuta un job de crawling respetando robots.txt
- Las páginas relevantes se almacenan como documentos
- Los chunks se generan con embeddings para RAG
- Los chunks están disponibles para recuperación en consultas
Relacionado con: RF-006, RF-008
Gherkin: Ver ESCENARIOS_GHERKIN.md - Scenario: Crawler inicial del dominio del cliente
Requisitos Técnicos:
- Workers con BullMQ
- Extracción HTML + Metadatos
- Chunking inteligente
- Embeddings OpenAI
Acciones