El catálogo fantasma de las PyMEs costarricenses
Si sos PyME en CR, probablemente tenés esto en tu computadora:
- Un PDF con el catálogo de productos (que mandás por WhatsApp)
- Una foto del menú del restaurante (tomada con el celular)
- Una imagen con la lista de precios del proveedor
- Un catálogo escaneado del distribuidor
Esta información NO está en tu sitio web. Tampoco en ningún sistema. Vive solo en archivos sueltos que envías manualmente cuando un cliente pregunta.
El problema: tu chatbot web no tiene acceso a esta información. Cliente pregunta por un producto que está en el PDF, bot responde "no tengo esa información", perdiste la venta.
La solución: OCR automático en el chatbot
OCR (Optical Character Recognition) es la tecnología que extrae texto de imágenes y PDFs escaneados. Un chatbot moderno permite subir estos archivos y procesar el texto automáticamente.
El flujo técnico:
- Subís el PDF / imagen al panel del chatbot
- Sistema detecta si es nativo (texto seleccionable) o escaneado (imagen)
- Si es nativo: extrae texto directo con
pdftotext - Si es escaneado: convierte cada página a imagen con
pdftoppmy corre OCR contesseract - El texto extraído se agrega al knowledge base del bot
- El cliente pregunta, el bot responde con la info del PDF
Formatos soportados
- PDF nativo: texto seleccionable (ej. exportado desde Word)
- PDF escaneado: imagen de páginas (ej. escaneado de catálogo físico)
- Imágenes: JPG, PNG, GIF, WEBP
- Documentos: Word (.docx), Excel (.xlsx), TXT
Casos reales en CR
Ferretería de Cartago: tenía 4,000 productos en un PDF de 120 páginas exportado de su sistema viejo. Subió el PDF al bot, el OCR procesó en 8 minutos. Ahora el bot responde "¿tienen tornillo M8 x 30mm?" en segundos, con el precio real.
Restaurante en Escazú: menú era una foto en PNG (diseñada en Canva, sin texto). OCR extrajo los 45 platos con precios. Bot responde "¿cuánto vale el rib eye?" sin que el dueño tenga que copiar el menú al sitio web.
Distribuidora farmacéutica: catálogo del proveedor venía como PDF escaneado de 200 páginas. El bot lo procesó de noche. Al día siguiente, los clientes podían preguntar por cualquier producto por SKU o nombre.
Idiomas y calidad
Buenos chatbots soportan OCR en español e inglés. La calidad depende de:
- Resolución del escaneo (300dpi o más = ideal)
- Limpieza de la imagen (sin manchas, sin inclinación)
- Tipografía clara (fuentes estándar vs manuscrita)
Un PDF limpio recién exportado tiene 99% precisión. Un escaneo viejo de los 90s puede tener 70-85% precisión — aún útil para búsquedas fuzzy.
Tip SEO importante
Acá hay un detalle que muchas PyMEs no saben: el texto dentro de imágenes NO lo lee Google. Si tu menú es una imagen, para Google tu restaurante no ofrece ningún plato. Esto afecta tu ranking en "restaurantes cerca de mí + tipo de plato".
Solución doble:
- Subir la imagen al chatbot (OCR lo resuelve del lado cliente)
- También escribir el menú como HTML en tu sitio web (lo resuelve del lado Google)
El bot te cubre en el chat, el HTML te cubre en SEO. Ambos son necesarios.
Costos
En términos técnicos, OCR con tesseract (open source) es gratis. Lo que cuesta es procesamiento de servidor. Los buenos chatbots lo incluyen en el plan base sin cargo extra por página procesada.
SiteBot, por ejemplo, incluye OCR ilimitado en todos los planes desde $10/mes. No hay cuota por página.
Limitaciones honestas
- Imágenes con tipografía muy estilizada fallan (ej. letras decorativas)
- Escaneos con folios numerados, sellos y anotaciones a mano pueden confundir
- Tablas complejas con muchas columnas pueden extraerse desordenadas
- PDFs con DRM o cifrados no se pueden procesar
Cómo empezar
Si tenés PDFs o imágenes con info de tu negocio que tus clientes preguntan, subilos a tu chatbot. No requieren preparación especial — el bot se encarga. En minutos tu bot sabe lo que antes solo sabías vos.
Ver cómo SiteBot construye su Knowledge Base →
¿Querés probarlo con tu propio negocio?
SiteBot instala en 5 minutos. Sin contrato, sin setup. Desde $10/mes.
Ver planes