AgentHouse: Cuando las bases de datos empiezan a hablar nuestro idioma
5 min de lectura

AgentHouse: Cuando las bases de datos empiezan a hablar nuestro idioma

987 palabras

Hace unos meses, cuando Anthropic lanzó su protocolo MCP (Model Context Protocol), sabía que íbamos a ver integraciones interesantes entre LLMs y bases de datos. Lo que no esperaba era ver algo tan pulido y funcional como AgentHouse de ClickHouse tan pronto.

Tengo planificado probar esta demo en breve, pero ya solo leyendo sobre ella me parece fascinante la idea de poder preguntarle a una base de datos cosas como “¿cuáles son los repositorios más populares de GitHub este mes?” y obtener no solo una respuesta, sino visualizaciones automáticas.

¿Qué es AgentHouse?

AgentHouse es básicamente un playground donde puedes hablar con bases de datos usando lenguaje natural. Es una demo que ClickHouse ha puesto disponible en llm.clickhouse.com para mostrar cómo su base de datos puede integrarse con LLMs a través del protocolo MCP.

La idea surgió internamente en ClickHouse cuando el equipo de integración creó una pequeña demo conectando Claude Sonnet con una base de datos ClickHouse. Lo que comenzó como una prueba de concepto rápida se convirtió en “Dwaine” (Data Warehouse AI Natural Expert), un asistente interno que ayuda a los equipos de ventas, operaciones, producto y finanzas a obtener insights sin necesidad de escribir SQL.

Los componentes técnicos

La arquitectura de AgentHouse es interesante porque combina varias tecnologías de manera elegante:

Claude Sonnet como cerebro

Utilizan Claude Sonnet de Anthropic, que resulta especialmente bueno para entender contextos complejos y razonar sobre datos estructurados. Por lo que he visto, Sonnet parece ser una de las mejores opciones para generar SQL y interpretar resultados de consultas.

LibreChat como interfaz

Para la UI han optado por LibreChat, un proyecto open-source que proporciona una interfaz limpia para trabajar con LLMs. Es una elección inteligente porque permite conversaciones naturales y la creación de artefactos visuales (gráficos, tablas) directamente en la interfaz.

ClickHouse MCP Server: el secreto

El componente más interesante es el servidor MCP específico para ClickHouse que han desarrollado. Este servidor actúa como puente entre la base de datos y el LLM, proporcionando:

  • Transferencia eficiente de datos entre ClickHouse y LLMs
  • Optimización inteligente de consultas SQL generadas por el LLM
  • Gestión de contexto para conversaciones estatales sobre datos
  • Acceso seguro y controlado a recursos de base de datos

Datasets disponibles

Una de las cosas que más me llama la atención es la variedad de datasets que han incluido. Tienen 37 datasets diferentes que cubren casos de uso muy diversos:

# Algunos ejemplos disponibles:
- github: Datos de actividad de GitHub, actualizado cada hora
- pypi: Descargas de paquetes Python - más de 1.3 trillones de filas
- hackernews: Posts y comentarios de Hacker News
- stackoverflow: Preguntas y respuestas de Stack Overflow
- nyc_taxi: Datos de viajes de taxi de NYC
- opensky: Datos de aviación de OpenSky Network

Lo que promete la experiencia

Según la documentación y demos que he visto, el comportamiento parece bastante consistente con diferentes tipos de consultas:

Consulta simple: “¿Cuáles son los lenguajes de programación más populares en GitHub?”

Consulta compleja: “Muéstrame la evolución de las descargas de paquetes Python relacionados con machine learning en los últimos 6 meses”

Consulta con visualización: “Crea un gráfico que muestre la distribución de precios de propiedades en Londres por distrito”

Lo que parece más impresionante es que no solo genera el SQL correcto, sino que también interpreta los resultados y crea visualizaciones apropiadas automáticamente.

El protocolo MCP en acción

Desde la perspectiva técnica, lo más interesante de AgentHouse es ver el protocolo MCP funcionando en un entorno real. MCP permite que los LLMs interactúen de manera segura y estructurada con recursos externos, en este caso, bases de datos ClickHouse.

La implementación maneja varios aspectos críticos:

  • Gestión de contexto: El LLM mantiene contexto sobre el esquema de la base de datos y consultas previas
  • Optimización de consultas: El servidor MCP puede optimizar las consultas SQL generadas por el LLM
  • Seguridad: Acceso controlado a los datos con permisos apropiados
  • Manejo de errores: Interpretación inteligente de errores de SQL y sugerencias de corrección

Reflexiones sobre el futuro

AgentHouse representa lo que creo que será el futuro de la interacción con datos. La idea de tener que aprender SQL, entender esquemas complejos y construir dashboards manualmente está empezando a parecer… anticuada.

En mi experiencia trabajando con equipos no técnicos, una de las mayores barreras para el uso eficiente de datos siempre ha sido la complejidad técnica. Herramientas como AgentHouse podrían eliminar esa barrera completamente.

Casos de uso prácticos

Veo varios escenarios donde esto podría ser especialmente útil:

Para equipos de producto: “¿Cómo ha evolucionado el engagement de usuarios en las últimas semanas?”

Para marketing: “Muéstrame el funnel de conversión por canal de adquisición”

Para operaciones: “¿Cuáles son los errores más comunes en nuestros logs de aplicación?”

Para análisis exploratorio: “Busca patrones anómalos en los datos de transacciones del último mes”

Limitaciones y consideraciones

Aunque es impresionante, hay algunas cosas a tener en cuenta:

  • Precisión: Aunque Claude Sonnet es muy bueno, ocasionalmente puede generar consultas incorrectas con datos complejos
  • Seguridad: En un entorno real, necesitarías implementar controles de acceso más granulares
  • Rendimiento: Para datasets muy grandes, las consultas generadas por LLM pueden no ser las más eficientes
  • Contexto: El LLM puede perder contexto en conversaciones muy largas

¿Cómo probarlo?

Si quieres experimentar con AgentHouse:

  1. Ve a llm.clickhouse.com
  2. Inicia sesión con tu cuenta de Google
  3. Pregunta “¿Qué datasets tienes disponibles?” para empezar
  4. Experimenta con consultas en lenguaje natural

Mi recomendación sería empezar con preguntas simples y ir aumentando la complejidad gradualmente para entender las capacidades del sistema.

AgentHouse es un ejemplo perfecto de cómo las tecnologías emergentes pueden combinarse para crear experiencias genuinamente útiles. No es solo una demo técnica impresionante, sino una visión del futuro de cómo interactuaremos con nuestros datos. Definitivamente está en mi lista de cosas por probar en breve.

NOTA: Si estás pensando en implementar algo similar en tu organización, el código del servidor MCP de ClickHouse está disponible en GitHub, lo cual es un gran punto de partida.

Comentarios

Artículos relacionados

5 min

1052 palabras

Hace unos meses me topé con algo que realmente me llamó la atención: la posibilidad de tener mi propio “ChatGPT” funcionando en casa, sin enviar datos a ningún lado, usando únicamente un Raspberry Pi 5. Suena demasiado bueno para ser verdad, ¿no?

Pues resulta que con Ollama y un Pi 5 es perfectamente posible montar un servidor de IA local que funciona sorprendentemente bien. Te cuento mi experiencia y cómo puedes hacerlo tú también.

5 min

1004 palabras

Últimamente no para de hablarse de agentes de IA por todas partes. Cada empresa tiene su roadmap lleno de “agentes que van a revolucionar esto y aquello”, pero cuando rascas un poco, te das cuenta de que pocos han conseguido realmente construir algo útil y que funcione en producción.

Hace poco leí un artículo muy interesante de LangChain sobre cómo construir agentes de forma práctica, y me ha parecido un enfoque muy sensato que quería compartir contigo. Lo he adaptado con mis propias reflexiones después de haberme dado más de un cabezazo intentando implementar sistemas “inteligentes” que al final no lo eran tanto.

6 min

1147 palabras

Dos protocolos, dos filosofías

En los últimos meses han aparecido dos protocolos que van a cambiar cómo construimos sistemas de IA: Agent2Agent Protocol (A2A) de Google y Model Context Protocol (MCP) de Anthropic. Pero aquí está el tema: no compiten entre sí.

Es más, tras analizar ambos durante semanas, me he dado cuenta de que entender la diferencia entre A2A y MCP es crucial para cualquiera que esté construyendo sistemas de IA más allá de simples chatbots.

8 min

1681 palabras

Hace unos años, muchos investigadores de IA (incluso los más reputados) predecían que el prompt engineering sería una habilidad temporal que desaparecería rápidamente. Se equivocaron completamente. No solo no ha desaparecido, sino que ha evolucionado hacia algo mucho más sofisticado: Context Engineering.

Y no, no es solo otro término de moda. Es una evolución natural que refleja la complejidad real de trabajar con LLMs en aplicaciones productivas.

De prompt engineering a context engineering

El problema con el término “prompt engineering” es que mucha gente lo confunde con blind prompting - simplemente escribir una pregunta en ChatGPT y esperar un resultado. Eso no es ingeniería, es usar una herramienta.

4 min

650 palabras

El hype vs la realidad: reflexiones de un desarrollador con 30 años de guerra

Esta mañana me he topado con una charla que me ha hecho reflexionar bastante sobre todo este revuelo que hay montado con la IA y el desarrollo de software. El ponente, con una dosis saludable de escepticismo, hace un “reality check” sobre las afirmaciones grandilocuentes que estamos escuchando por todas partes.

La charla completa que ha inspirado estas reflexiones. Vale la pena verla entera.

02
Jul 2025
8 min

1530 palabras

Otro protocolo más que promete cambiarlo todo

Cuando IBM Research anunció el Agent Communication Protocol (ACP) como parte del proyecto BeeAI, mi primera reacción fue la habitual: “Ah, otro protocolo universal más”. Con casi 30 años en esto, he visto demasiados “estándares definitivos” que acabaron en el olvido.

Pero hay algo diferente en ACP que me hizo prestar atención: no promete resolver todos los problemas del mundo. Simplemente se enfoca en uno muy específico: hacer que agentes de IA de diferentes frameworks puedan hablar entre sí. Y lo hace de una manera que realmente tiene sentido.