PBI #1884
abierta[Historia de Usuario] Crawler Inicial del Dominio
0%
Descripción
Como administrador de cliente
Quiero rastrear automáticamente el contenido de mi sitio web
Para que el chatbot pueda responder preguntas basadas en el contenido del sitio
- Criterios de Aceptación
- El admin indica `startUrl` y profundidad de rastreo en el back-office
- El sistema ejecuta un job de crawling respetando robots.txt
- Las páginas relevantes se almacenan como documentos
- Los chunks se generan con embeddings para RAG
- Los chunks están disponibles para recuperación en consultas
Relacionado con: RF-006, RF-008
Gherkin: Ver ESCENARIOS_GHERKIN.md - Scenario: Crawler inicial del dominio del cliente
Requisitos Técnicos:
- Workers con BullMQ
- Extracción HTML + Metadatos
- Chunking inteligente
- Embeddings OpenAI
JV Actualizado por Jose Miguel Valenzuela hace alrededor de 2 meses
- Tipo cambiado de Tareas a Soporte
Actualizado tracker a tipo PBI/Feature - Historia de Usuario
JV Actualizado por Jose Miguel Valenzuela hace alrededor de 2 meses
- Tipo cambiado de Soporte a PBI