¿Qué aprende SiteBot de
tu negocio?
Un bot solo es tan bueno como su conocimiento. Descubrí cómo SiteBot construye un Knowledge Base completo usando crawl automático, OCR, documentos y configuración inteligente.
SiteBot combina 3 fuentes de información para responderle a tus clientes con precisión:
Crawl automático de 6 plataformas: productos, páginas, pagos, envíos.
PDF, Word, Excel, TXT e imágenes con OCR automático (ES+EN).
Super Prompt, tono y reglas del negocio configurables por vos.
01.Crawl automático del sitio
SiteBot se conecta a tu tienda (o sitio) y lee automáticamente toda la información relevante. Sin intervención manual. Sin copiar y pegar. El bot aprende como lo haría un empleado nuevo leyendo el catálogo.
Qué extrae de tu sitio
Productos y catálogo
- Nombre, SKU, precio, stock
- Descripción completa
- URL del producto
- Categorías y estructura
Páginas del sitio
- About, Contact, FAQ
- Políticas, términos
- Privacidad
- Info de la tienda
Pagos y envíos
- Métodos de pago activos
- Carriers y precios
- Zonas geográficas
- Impuestos y monedas
Marketing
- Cupones y promociones
- Reseñas de productos
- Horario de atención
- Datos de contacto
Plataformas soportadas (6)
| Plataforma | Conexión | Fuente |
|---|---|---|
| WordPress / WooCommerce | REST API + Application Password | WP API |
| PrestaShop | Base de datos (solo lectura) | MySQL directo |
| Shopify | OAuth 2.0 Client Credentials | Admin API |
| OpenCart | Base de datos (solo lectura) | MySQL directo |
| Magento 2 | Base de datos (solo lectura) | MySQL directo |
| HTML estático | Crawl público de URL | HTML parsing |
Siempre actualizado
El crawl se ejecuta automáticamente al crear un cliente, y podés re-ejecutarlo con un click desde el panel cuando cambies algo importante (productos nuevos, precios, promociones). No requiere re-subir nada manualmente.
02.Documentos subidos
Para información que no está publicada en tu sitio — catálogos internos, manuales, fichas técnicas, políticas legales, oficios, listas de precios especiales, fotos de documentos — podés subir archivos directamente al panel del cliente.
Formatos soportados
| Formato | Extensiones | Procesamiento | Calidad |
|---|---|---|---|
| PDF con texto | .pdf |
Nativo Extracción directa con pdftotext | ⭐⭐⭐⭐⭐ |
| PDF escaneado | .pdf |
OCR Convierte cada página a imagen y lee | ⭐⭐⭐⭐ |
| Word | .doc .docx |
Nativo Extracción de texto y tablas | ⭐⭐⭐⭐⭐ |
| Excel | .xls .xlsx |
Nativo Lectura por hojas/filas/columnas | ⭐⭐⭐⭐⭐ |
| Texto plano | .txt |
Nativo Con detección de encoding | ⭐⭐⭐⭐⭐ |
| Imágenes | .jpg .jpeg .png .gif .webp |
OCR Reconocimiento óptico con tesseract | ⭐⭐⭐⭐ |
Límite: 10 MB por archivo · Idiomas del OCR: español + inglés (spa+eng)
Cadena de extracción inteligente de PDF
Cuando subís un PDF, SiteBot intenta 4 métodos en orden. Cada uno es fallback del anterior:
¿El PDF tiene texto seleccionable? → Extracción perfecta instantánea.
¿Es escaneado o imagen? → pdftoppm convierte cada página a PNG 200 dpi → tesseract extrae el texto.
Fallback para PDFs con formato no estándar. Descomprime streams y busca operadores de texto.
Si ningún método funciona: "No se pudo extraer texto. El PDF puede estar protegido o dañado." Nunca se guarda basura.
Ejemplos reales de casos de uso
Subís un PDF profesional con 50 fichas técnicas. SiteBot extrae 100% del texto en segundos y responde preguntas detalladas.
El cliente imprime sus precios en papel y los fotografía. SiteBot los lee por OCR y los usa para cotizar.
Documento legal de 3 páginas recibido por scanner. SiteBot lo procesa página por página y lo incorpora al conocimiento.
Lista grande que no está en el sitio. Subís el Excel y SiteBot tiene todo el catálogo disponible al instante.
Tip SEO muy importante
El texto dentro de imágenes y PDFs escaneados no lo ve Google.
Si tenés información clave (precios, horarios, promociones, datos de contacto) solo como imagen en tu sitio:
- ✓ SiteBot sí la lee (por OCR)
- ✗ Pero perdés posicionamiento en buscadores
- ✗ Google no indexa el contenido de las imágenes
Recomendación: pasá esa info a HTML real. Ganás doble — SiteBot la entiende nativo sin errores de OCR, y Google la indexa mejor. El OCR es una red de seguridad, no una estrategia.
03.Personalidad y comportamiento
Los datos son la mitad. La otra mitad es cómo querés que el bot se comunique. SiteBot te deja configurar cada detalle:
Super Prompt personalizado
Texto maestro que define tono, estilo, reglas del negocio, qué decir y qué NO. Ejemplo:
"Sos un vendedor experto de electrónica. Tono informal y amigable. Siempre sugerí el producto más caro primero. Nunca hables de la competencia."
Preset de industria
Plantillas pre-armadas para 10+ sectores:
- Ventas e-commerce
- Soporte técnico
- Restaurante
- Servicios profesionales
- Inmobiliaria
- Educación
- Salud
- Turismo
- Belleza
- Automotriz
Identidad visual
- Nombre personalizado del bot
- Color del widget (hex)
- Emoji o icono
- Mensaje de bienvenida
Control fino
- Longitud de respuesta (corta/media/larga)
- Idioma (detección automática)
- Quick reply buttons sugeridos
- Memoria de sesión
04.Seguridad y privacidad
El Knowledge Base contiene información sensible del negocio. SiteBot lo protege en cada capa:
Tokens OAuth y contraseñas sensibles (Shopify, BD) se guardan cifrados. Nunca viajan en claro.
Las conexiones a bases de datos usan permisos SELECT exclusivamente. Imposible modificar nada de tu tienda.
No guardamos IP, email ni datos personales del visitante. Solo estadísticas agregadas.
El widget y todas las comunicaciones usan TLS. Sin excepciones.
05.Best Practices
✓ Hacer
- Crawler primero. Si la info está en tu tienda, dejala ahí — es automática y siempre actualizada.
- Documentos únicos. Subí solo lo que NO está publicado (catálogos internos, oficios, fichas privadas).
- Word/Excel antes que imágenes. Menos errores de OCR, extracción perfecta.
- Refrescá el knowledge cuando hagas cambios importantes.
- Probá conexiones antes de guardar configuración nueva.
✗ Evitar
- Duplicar información. No subas un PDF con los mismos productos que ya están en la tienda — confunde al bot.
- Imágenes borrosas. El OCR funciona con imágenes nítidas y bordes claros.
- PDFs con contraseña. No se pueden leer. Quitá la protección antes.
- Documentos obsoletos. Revisá y desactivá los que ya no aplican (hay un toggle on/off).
06.Preguntas frecuentes
¿Cada cuánto se actualiza el knowledge del sitio?
Al crear el cliente se ejecuta el primer crawl automáticamente. Luego podés ejecutarlo manualmente con un click desde el panel. En el roadmap está implementar crawl programado (diario/semanal).
¿SiteBot puede modificar algo de mi tienda?
No. Las conexiones a base de datos usan usuarios con permiso SELECT únicamente. Las APIs (WordPress, Shopify) también se configuran con scopes de solo lectura. Es físicamente imposible que el bot escriba, borre o modifique datos.
¿Qué pasa si subo un PDF escaneado de mala calidad?
El OCR hace lo posible pero si la imagen es muy borrosa, los resultados pueden tener errores. En ese caso SiteBot avisa y sugiere subir una versión más nítida. La detección de contenido ilegible evita que se guarde basura.
¿Puedo desactivar un documento sin borrarlo?
Sí. En el tab Documentos hay un toggle ON/OFF para cada archivo. Desactivado, el bot lo ignora pero el archivo queda guardado para reactivarlo después.
¿El bot entiende inglés?
Sí. Todo el sistema de respuesta está en modelo Claude (multi-idioma nativo). El OCR específicamente está configurado para español + inglés, que cubre el 99% de los casos en nuestra región.
¿Puedo ver exactamente qué entendió SiteBot?
Sí. En el panel admin, cada cliente tiene un tab Knowledge donde se muestra el resumen visual: total de páginas, productos, documentos, muestras de texto extraído por tipo, y botón de refrescar.
¿Listo para activar SiteBot?
Instalá SiteBot en 5 minutos y empezá a convertir visitas en ventas.
Quiero mi SiteBot