Saltar al contenido
KnowHow

¿Qué aprende SiteBot de
tu negocio?

Un bot solo es tan bueno como su conocimiento. Descubrí cómo SiteBot construye un Knowledge Base completo usando crawl automático, OCR, documentos y configuración inteligente.

SiteBot combina 3 fuentes de información para responderle a tus clientes con precisión:

1. Tu sitio web

Crawl automático de 6 plataformas: productos, páginas, pagos, envíos.

2. Documentos

PDF, Word, Excel, TXT e imágenes con OCR automático (ES+EN).

3. Personalidad

Super Prompt, tono y reglas del negocio configurables por vos.

01.Crawl automático del sitio

SiteBot se conecta a tu tienda (o sitio) y lee automáticamente toda la información relevante. Sin intervención manual. Sin copiar y pegar. El bot aprende como lo haría un empleado nuevo leyendo el catálogo.

Qué extrae de tu sitio

Productos y catálogo

  • Nombre, SKU, precio, stock
  • Descripción completa
  • URL del producto
  • Categorías y estructura

Páginas del sitio

  • About, Contact, FAQ
  • Políticas, términos
  • Privacidad
  • Info de la tienda

Pagos y envíos

  • Métodos de pago activos
  • Carriers y precios
  • Zonas geográficas
  • Impuestos y monedas

Marketing

  • Cupones y promociones
  • Reseñas de productos
  • Horario de atención
  • Datos de contacto

Plataformas soportadas (6)

PlataformaConexiónFuente
WordPress / WooCommerceREST API + Application PasswordWP API
PrestaShopBase de datos (solo lectura)MySQL directo
ShopifyOAuth 2.0 Client CredentialsAdmin API
OpenCartBase de datos (solo lectura)MySQL directo
Magento 2Base de datos (solo lectura)MySQL directo
HTML estáticoCrawl público de URLHTML parsing

Siempre actualizado

El crawl se ejecuta automáticamente al crear un cliente, y podés re-ejecutarlo con un click desde el panel cuando cambies algo importante (productos nuevos, precios, promociones). No requiere re-subir nada manualmente.

02.Documentos subidos

Para información que no está publicada en tu sitio — catálogos internos, manuales, fichas técnicas, políticas legales, oficios, listas de precios especiales, fotos de documentos — podés subir archivos directamente al panel del cliente.

Formatos soportados

FormatoExtensionesProcesamientoCalidad
PDF con texto .pdf Nativo Extracción directa con pdftotext ⭐⭐⭐⭐⭐
PDF escaneado .pdf OCR Convierte cada página a imagen y lee ⭐⭐⭐⭐
Word .doc .docx Nativo Extracción de texto y tablas ⭐⭐⭐⭐⭐
Excel .xls .xlsx Nativo Lectura por hojas/filas/columnas ⭐⭐⭐⭐⭐
Texto plano .txt Nativo Con detección de encoding ⭐⭐⭐⭐⭐
Imágenes .jpg .jpeg .png .gif .webp OCR Reconocimiento óptico con tesseract ⭐⭐⭐⭐

Límite: 10 MB por archivo · Idiomas del OCR: español + inglés (spa+eng)

Cadena de extracción inteligente de PDF

Cuando subís un PDF, SiteBot intenta 4 métodos en orden. Cada uno es fallback del anterior:

1
pdftotext

¿El PDF tiene texto seleccionable? → Extracción perfecta instantánea.

2
OCR automático

¿Es escaneado o imagen? → pdftoppm convierte cada página a PNG 200 dpi → tesseract extrae el texto.

3
Parser PHP puro

Fallback para PDFs con formato no estándar. Descomprime streams y busca operadores de texto.

4
Mensaje claro

Si ningún método funciona: "No se pudo extraer texto. El PDF puede estar protegido o dañado." Nunca se guarda basura.

Ejemplos reales de casos de uso

Catálogo técnico en PDF

Subís un PDF profesional con 50 fichas técnicas. SiteBot extrae 100% del texto en segundos y responde preguntas detalladas.

Foto de lista de precios

El cliente imprime sus precios en papel y los fotografía. SiteBot los lee por OCR y los usa para cotizar.

Oficio escaneado

Documento legal de 3 páginas recibido por scanner. SiteBot lo procesa página por página y lo incorpora al conocimiento.

Excel con 500 productos

Lista grande que no está en el sitio. Subís el Excel y SiteBot tiene todo el catálogo disponible al instante.

Tip SEO muy importante

El texto dentro de imágenes y PDFs escaneados no lo ve Google.

Si tenés información clave (precios, horarios, promociones, datos de contacto) solo como imagen en tu sitio:

  • ✓ SiteBot sí la lee (por OCR)
  • ✗ Pero perdés posicionamiento en buscadores
  • ✗ Google no indexa el contenido de las imágenes

Recomendación: pasá esa info a HTML real. Ganás doble — SiteBot la entiende nativo sin errores de OCR, y Google la indexa mejor. El OCR es una red de seguridad, no una estrategia.

03.Personalidad y comportamiento

Los datos son la mitad. La otra mitad es cómo querés que el bot se comunique. SiteBot te deja configurar cada detalle:

Super Prompt personalizado

Texto maestro que define tono, estilo, reglas del negocio, qué decir y qué NO. Ejemplo:

"Sos un vendedor experto de electrónica. Tono informal y amigable. Siempre sugerí el producto más caro primero. Nunca hables de la competencia."

Preset de industria

Plantillas pre-armadas para 10+ sectores:

  • Ventas e-commerce
  • Soporte técnico
  • Restaurante
  • Servicios profesionales
  • Inmobiliaria
  • Educación
  • Salud
  • Turismo
  • Belleza
  • Automotriz

Identidad visual

  • Nombre personalizado del bot
  • Color del widget (hex)
  • Emoji o icono
  • Mensaje de bienvenida

Control fino

  • Longitud de respuesta (corta/media/larga)
  • Idioma (detección automática)
  • Quick reply buttons sugeridos
  • Memoria de sesión

04.Seguridad y privacidad

El Knowledge Base contiene información sensible del negocio. SiteBot lo protege en cada capa:

Cifrado AES-256-CBC

Tokens OAuth y contraseñas sensibles (Shopify, BD) se guardan cifrados. Nunca viajan en claro.

Usuarios solo lectura

Las conexiones a bases de datos usan permisos SELECT exclusivamente. Imposible modificar nada de tu tienda.

Conversaciones anónimas

No guardamos IP, email ni datos personales del visitante. Solo estadísticas agregadas.

HTTPS obligatorio

El widget y todas las comunicaciones usan TLS. Sin excepciones.

05.Best Practices

✓ Hacer

  • Crawler primero. Si la info está en tu tienda, dejala ahí — es automática y siempre actualizada.
  • Documentos únicos. Subí solo lo que NO está publicado (catálogos internos, oficios, fichas privadas).
  • Word/Excel antes que imágenes. Menos errores de OCR, extracción perfecta.
  • Refrescá el knowledge cuando hagas cambios importantes.
  • Probá conexiones antes de guardar configuración nueva.

✗ Evitar

  • Duplicar información. No subas un PDF con los mismos productos que ya están en la tienda — confunde al bot.
  • Imágenes borrosas. El OCR funciona con imágenes nítidas y bordes claros.
  • PDFs con contraseña. No se pueden leer. Quitá la protección antes.
  • Documentos obsoletos. Revisá y desactivá los que ya no aplican (hay un toggle on/off).

06.Preguntas frecuentes

¿Cada cuánto se actualiza el knowledge del sitio?

Al crear el cliente se ejecuta el primer crawl automáticamente. Luego podés ejecutarlo manualmente con un click desde el panel. En el roadmap está implementar crawl programado (diario/semanal).

¿SiteBot puede modificar algo de mi tienda?

No. Las conexiones a base de datos usan usuarios con permiso SELECT únicamente. Las APIs (WordPress, Shopify) también se configuran con scopes de solo lectura. Es físicamente imposible que el bot escriba, borre o modifique datos.

¿Qué pasa si subo un PDF escaneado de mala calidad?

El OCR hace lo posible pero si la imagen es muy borrosa, los resultados pueden tener errores. En ese caso SiteBot avisa y sugiere subir una versión más nítida. La detección de contenido ilegible evita que se guarde basura.

¿Puedo desactivar un documento sin borrarlo?

Sí. En el tab Documentos hay un toggle ON/OFF para cada archivo. Desactivado, el bot lo ignora pero el archivo queda guardado para reactivarlo después.

¿El bot entiende inglés?

Sí. Todo el sistema de respuesta está en modelo Claude (multi-idioma nativo). El OCR específicamente está configurado para español + inglés, que cubre el 99% de los casos en nuestra región.

¿Puedo ver exactamente qué entendió SiteBot?

Sí. En el panel admin, cada cliente tiene un tab Knowledge donde se muestra el resumen visual: total de páginas, productos, documentos, muestras de texto extraído por tipo, y botón de refrescar.

¿Listo para activar SiteBot?

Instalá SiteBot en 5 minutos y empezá a convertir visitas en ventas.

 Quiero mi SiteBot