Saltar al contenido

OCR + chatbot: por qué importa para PyMEs con catálogos en PDF e imágenes

Muchas PyMEs costarricenses tienen sus catálogos en PDF o imágenes, no en el sitio web. El OCR en chatbots cambia la regla — te explicamos cómo y por qué.

El catálogo fantasma de las PyMEs costarricenses

Si sos PyME en CR, probablemente tenés esto en tu computadora:

Esta información NO está en tu sitio web. Tampoco en ningún sistema. Vive solo en archivos sueltos que envías manualmente cuando un cliente pregunta.

El problema: tu chatbot web no tiene acceso a esta información. Cliente pregunta por un producto que está en el PDF, bot responde "no tengo esa información", perdiste la venta.

La solución: OCR automático en el chatbot

OCR (Optical Character Recognition) es la tecnología que extrae texto de imágenes y PDFs escaneados. Un chatbot moderno permite subir estos archivos y procesar el texto automáticamente.

El flujo técnico:

  1. Subís el PDF / imagen al panel del chatbot
  2. Sistema detecta si es nativo (texto seleccionable) o escaneado (imagen)
  3. Si es nativo: extrae texto directo con pdftotext
  4. Si es escaneado: convierte cada página a imagen con pdftoppm y corre OCR con tesseract
  5. El texto extraído se agrega al knowledge base del bot
  6. El cliente pregunta, el bot responde con la info del PDF

Formatos soportados

Casos reales en CR

Ferretería de Cartago: tenía 4,000 productos en un PDF de 120 páginas exportado de su sistema viejo. Subió el PDF al bot, el OCR procesó en 8 minutos. Ahora el bot responde "¿tienen tornillo M8 x 30mm?" en segundos, con el precio real.

Restaurante en Escazú: menú era una foto en PNG (diseñada en Canva, sin texto). OCR extrajo los 45 platos con precios. Bot responde "¿cuánto vale el rib eye?" sin que el dueño tenga que copiar el menú al sitio web.

Distribuidora farmacéutica: catálogo del proveedor venía como PDF escaneado de 200 páginas. El bot lo procesó de noche. Al día siguiente, los clientes podían preguntar por cualquier producto por SKU o nombre.

Idiomas y calidad

Buenos chatbots soportan OCR en español e inglés. La calidad depende de:

Un PDF limpio recién exportado tiene 99% precisión. Un escaneo viejo de los 90s puede tener 70-85% precisión — aún útil para búsquedas fuzzy.

Tip SEO importante

Acá hay un detalle que muchas PyMEs no saben: el texto dentro de imágenes NO lo lee Google. Si tu menú es una imagen, para Google tu restaurante no ofrece ningún plato. Esto afecta tu ranking en "restaurantes cerca de mí + tipo de plato".

Solución doble:

  1. Subir la imagen al chatbot (OCR lo resuelve del lado cliente)
  2. También escribir el menú como HTML en tu sitio web (lo resuelve del lado Google)

El bot te cubre en el chat, el HTML te cubre en SEO. Ambos son necesarios.

Costos

En términos técnicos, OCR con tesseract (open source) es gratis. Lo que cuesta es procesamiento de servidor. Los buenos chatbots lo incluyen en el plan base sin cargo extra por página procesada.

SiteBot, por ejemplo, incluye OCR ilimitado en todos los planes desde $10/mes. No hay cuota por página.

Limitaciones honestas

Cómo empezar

Si tenés PDFs o imágenes con info de tu negocio que tus clientes preguntan, subilos a tu chatbot. No requieren preparación especial — el bot se encarga. En minutos tu bot sabe lo que antes solo sabías vos.

Ver cómo SiteBot construye su Knowledge Base →

¿Querés probarlo con tu propio negocio?

SiteBot instala en 5 minutos. Sin contrato, sin setup. Desde $10/mes.

 Ver planes