Icono del sitio Home Assistant Fácil

Domótica con IA: Guía completa de LLM Vision en Home Assistant con cámaras ESP32-CAM

visión artificial home assistant inteligencia artificial
Domótica Inteligente con IA para tu Hogar ECONÓMICO

La domótica y la inteligencia artificial (IA) están convergiendo de una forma sorprendente. Hasta hace poco, el análisis de imágenes en sistemas de automatización del hogar se limitaba a la detección de movimiento o reconocimiento de rostros integrado en cámaras avanzadas.

Hoy en día, gracias a la integración LLM Vision, podemos ir mucho más allá: describir escenas completas, reconocer objetos específicos y condicionar automatizaciones complejas sin necesidad de hardware de alto coste. En esta guía, desarrollada paso a paso, te mostraré cómo instalar y configurar LLM Vision en Home Assistant, cómo elegir y afinar modelos de lenguaje (LLM), y cómo dotar a una cámara ESP32-CAM de apenas 5 € de superpoderes para que entienda lo que ve.

El objetivo de este artículo es servir de complemento al vídeo original y convertirse en tu manual de referencia si eres nuevo en Home Assistant y la domótica. Abordaremos desde los conceptos básicos hasta ejemplos prácticos de detección de ropa tendida, reconocimiento de personas y apertura automática de puertas al salir de casa. Además, incluiremos enlaces de interés para que profundices en cada tema.

Capítulos vídeo Sistema domótico con IA gratuita

Si quieres ir a tiro hecho, aquí te dejo los capítulos del vídeo.

00:00 Introducción

01:18 ¿Qué es LLM Vision?

03:04 Instalación y configuración LLM Vision Home Assistant

06:40 Proveedores de Inteligencia Artificial

09:13 Visión Artificial en Home Assistant

10:38 Cómo detectar ropa tendida

12:38 Cómo reconocer personas

14:39 Cómo reconocer acciones y movimientos

16:43 El futuro de la IA y Home Assistant

¿Qué es LLM Vision?

LLM Vision es una integración no oficial para Home Assistant que permite utilizar modelos de lenguaje (LLM) como ChatGPT, Gemini, LLaMa-4 o cualquier otro que configures localmente para analizar imágenes y vídeo en tu sistema domótico. Sus funciones principales son:

LLM Vision no compite con sistemas como Frigate, que realizan detección de objetos en local con modelos de visión por computadora. En lugar de ello, aprovecha las capacidades de comprensión de contexto de los LLM para describir acciones, estados y cambios relevantes en la escena. Por ejemplo, puede detectar si una persona está sentada, subiendo o bajando escaleras, si hay ropa tendida, el tipo de muebles o incluso la hora aproximada del día según la iluminación.

Requisitos previos

Antes de empezar, asegúrate de contar con lo siguiente:

Si todavía no tienes HACS, sigue esta guía oficial: https://hacs.xyz/documentation/installation/manual. Para familiarizarte con Home Assistant, consulta esto: https://www.home-assistant.io/getting-started.

Instalación y configuración básica de LLM Vision

  1. Accede a la web oficial de LLM Vision: https://llmvision.org
  2. Haz clic en Get Started y luego en Instalación.
  3. Pulsa el botón azul que abre el repositorio en HACS y selecciona Descargar.
  4. Reinicia Home Assistant una vez completada la descarga.
  5. Ve a Configuración > Dispositivos e Integraciones y busca «LLM Vision».
  6. Añade la integración y completa los datos de configuración general:

El System Prompt es clave para orientar el estilo y nivel de detalle. Un ejemplo de System Prompt:

«Eres un asistente para un sistema domótico. Analiza imágenes de interiores y exteriores, describe acciones relevantes (puertas abriéndose, personas, luces), ignora detalles estáticos (mobiliario, plantas) y responde con un estilo directo para alertas.»

El Title Prompt debe generarte títulos breves (máx. 5 palabras) en formato «<Objeto> en <ubicación>». Por ejemplo: «Puerta abierta en salón».

Una vez completada esta configuración, ya tendrás la integración lista para añadir proveedores de LLM.

Proveedores de LLM: nube vs local

Los proveedores son los servicios de IA que procesan las imágenes. Pueden clasificarse en:

Proveedores en la nube

Ventajas

Inconvenientes

Opciones recomendadas:

En Google AI Studio puedes obtener hasta 500 solicitudes/día gratis con Gemini 2.5 Flash. Para registrarte: https://cloud.google.com/ai-studio.

Proveedores en local

Ventajas

Inconvenientes

Ejemplo: Groq LLaMA 4 (límites gratuitos, precisión media). Requiere instalar un servidor local.

Recomendación inicial: combina un proveedor gratuito en la nube (Google o Groq) con otro de pago opcional (OpenAI). De este modo pruebas sin coste y escalas si necesitas más precisión.

Configuración de un proveedor (ejemplo con Google AI Studio)

  1. Regístrate en Google AI Studio y crea un proyecto.
  2. Activa la API de Vertex AI y crea una clave API.
  3. Copia la clave API.
  4. En Home Assistant, ve a LLM Vision > Proveedores > Añadir.
  5. Selecciona «Google Vertex AI» y pega la clave.
  6. Ajusta parámetros de temperatura (0–1) y top_p (0–1).
  7. Guarda la configuración.

Temperatura baja (0–0,5) genera respuestas conservadoras y precisas. Temperatura alta (0,7–1) ofrece salidas creativas. Top_p baja produce respuestas más seguras; top_p alta mayor diversidad de salida.

Configuración de cámaras ESP32-CAM con ESPHome

El módulo ESP32-CAM es una solución de videovigilancia ultra económica (5–10 €). Sus características principales:

Instalación de ESPHome

  1. Si no tienes ESPHome, ve a Integraciones > ESPHome > Instalar.
  2. Crea un nuevo dispositivo e indica su nombre (ej. esp32_cam_salon).
  3. Selecciona «ESP32” y el puerto serie USB.
  4. Configura la red Wi-Fi (SSID y contraseña).
  5. Copia y pega el siguiente YAML de ejemplo:

esphome: name: esp32_cam_salon platform: ESP32 board: esp32cam

wifi: ssid: «TuRedWiFi» password: «TuContraseña» manual_ip: static_ip: 192.168.1.100 gateway: 192.168.1.1 subnet: 255.255.255.0

esp32_camera: name: Cámara Salón external_clock: pin: GPIO0 frequency: 20MHz i2c_pins: sda: GPIO21 scl: GPIO22 data_pins: [GPIO5, GPIO18, GPIO19, GPIO21, GPIO36, GPIO39, GPIO34, GPIO35] vsync_pin: GPIO25 href_pin: GPIO23 pixel_clock_pin: GPIO22

api: ota: logger:

  1. Compila y sube el firmware vía USB o OTA.
  2. Una vez online, Home Assistant detectará automáticamente la cámara.
  3. Asigna una IP fija en tu router para evitar cambios de dirección.

En las notas del vídeo original hay enlaces a módulos mejorados en Aliexpress. Si necesitas el código completo y optimizado, apúntate a la lista de correo en https://programarfacil.com y escribe «chapapote» para recibirlo.

Acciones de LLM Vision en Home Assistant

LLM Vision pone a tu disposición cinco acciones principales. Las dos más útiles para empezar son:

Image Analyzer

Permite analizar una única imagen (snapshot) de una cámara o fichero local. Devuelve:

Uso típico: detección puntual (ropa tendida, presencia animal, objetos nuevos).

Stream Analyzer

Permite grabar y analizar un stream en directo durante X segundos y hasta N fotogramas. Devuelve:

Uso ideal: monitorización activa, detección de comportamiento (subir/bajar escaleras, salida de casa, movimiento continuo).

Otras acciones

Explóralas en la documentación oficial: https://llmvision.org/docs/actions.

Ejemplos prácticos de automatizaciones

Detección de ropa tendida en la terraza

Situación: quieres recibir una notificación si dejas la ropa tendida y comienza a llover.

Configuración:

  1. Crea un sensor booleano en Home Assistant:

sensor: – platform: llm_vision name: Ropa Tendida Detectada scan_interval: 900 # cada 15 minutos action: service: llm_vision.analyze_image data: provider: google_vertex_ai model: gemini-2.5-flash prompt: «Comprueba si hay ropa tendida y qué tiempo hace.» image_entity: camera.terraza max_tokens: 120 expose_image: true

  1. Crea una automatización:

automation: – alias: Alerta ropa tendida trigger: platform: state entity_id: sensor.ropa_tendida_detectada to: ‘on’ action: – service: notify.mobile_app data: title: «Ropa tendida en terraza» message: «Se ha detectado ropa tendida y parece que va a llover.»

Explicación: cada 15 minutos LLM Vision analiza una captura de la cámara. Si identifica ropa tendida y condiciones meteorológicas adversas, el sensor pasa a ON y recibes una notificación.

Reconocimiento de personas con ESP32-CAM

Objetivo: apagar automáticamente las luces de una habitación cuando no haya nadie.

  1. Configura un sensor LLM Vision:

sensor: – platform: llm_vision name: Presencia Despacho scan_interval: 60 action: service: llm_vision.analyze_image data: provider: groq_llama4 prompt: «Comprueba si hay alguna persona en la imagen y qué está haciendo.» image_entity: camera.esp32_cam_despacho max_tokens: 100 expose_image: false

  1. Automatización de luces:

automation: – alias: Apagar luces despacho sin presencia trigger: platform: state entity_id: sensor.presencia_despacho to: ‘off’ for: ’00:05:00′ action: – service: light.turn_off target: entity_id: light.despacho

Explicación: cada minuto se analiza la imagen del ESP32-CAM. Si el modelo detecta que no hay persona, el sensor queda en OFF. Tras 5 minutos sin presencia, se apagan las luces.

Detección de salida de casa y apertura automática de puertas

Caso avanzado: abrir la puerta cuando una persona baja las escaleras y sale de casa.

  1. Script para análisis de stream:
  1. Automatización basada en detección inicial:

automation: – alias: Abrir puerta al salir trigger: platform: state entity_id: sensor.presencia_terraza to: ‘on’ action: – service: script.abrir_puerta_si_sale

Explicación: cuando la cámara detecta presencia en la terraza, el script graba un stream de 5 s y analiza 10 fotogramas. Si el modelo devuelve True (persona bajando escaleras), se desbloquea la puerta automática.

Buenas prácticas y optimización

Para sacar el máximo partido a LLM Vision y controlar costes:

Casos de uso adicionales

Conclusión

La integración LLM Vision revoluciona la domótica al permitir que tu sistema comprenda el mundo visual como lo haría un humano. Con Home Assistant, HACS y cámaras económicas como la ESP32-CAM, puedes montar una plataforma inteligente capaz de describir escenas, detectar comportamientos y tomar decisiones automatizadas en tiempo real. Esta guía te ha mostrado desde la instalación y configuración hasta ejemplos prácticos de automatizaciones avanzadas. Ahora depende de ti imaginar nuevos casos y llevar tu hogar al siguiente nivel de inteligencia.

Si necesitas más información, no dudes en visitar las siguientes referencias:

Y si quieres el código completo de ESP32-CAM con ESPHome, apúntate al curso gratuito de domótica en https://programarfacil.com y solicita el archivo escribiendo «chapapote, pásame el código ESPHome».

¡Empieza hoy mismo a dotar de inteligencia visual tu hogar y comparte tus resultados en la comunidad!

Salir de la versión móvil