Hace unos meses, cuando Anthropic lanzó su protocolo MCP (Model Context Protocol), sabía que íbamos a ver integraciones interesantes entre LLMs y bases de datos. Lo que no esperaba era ver algo tan pulido y funcional como AgentHouse de ClickHouse tan pronto.
Tengo planificado probar esta demo en breve, pero ya solo leyendo sobre ella me parece fascinante la idea de poder preguntarle a una base de datos cosas como “¿cuáles son los repositorios más populares de GitHub este mes?” y obtener no solo una respuesta, sino visualizaciones automáticas.
¿Qué es AgentHouse?
AgentHouse es básicamente un playground donde puedes hablar con bases de datos usando lenguaje natural. Es una demo que ClickHouse ha puesto disponible en llm.clickhouse.com para mostrar cómo su base de datos puede integrarse con LLMs a través del protocolo MCP.
La idea surgió internamente en ClickHouse cuando el equipo de integración creó una pequeña demo conectando Claude Sonnet con una base de datos ClickHouse. Lo que comenzó como una prueba de concepto rápida se convirtió en “Dwaine” (Data Warehouse AI Natural Expert), un asistente interno que ayuda a los equipos de ventas, operaciones, producto y finanzas a obtener insights sin necesidad de escribir SQL.
Los componentes técnicos
La arquitectura de AgentHouse es interesante porque combina varias tecnologías de manera elegante:
Claude Sonnet como cerebro
Utilizan Claude Sonnet de Anthropic, que resulta especialmente bueno para entender contextos complejos y razonar sobre datos estructurados. Por lo que he visto, Sonnet parece ser una de las mejores opciones para generar SQL y interpretar resultados de consultas.
LibreChat como interfaz
Para la UI han optado por LibreChat, un proyecto open-source que proporciona una interfaz limpia para trabajar con LLMs. Es una elección inteligente porque permite conversaciones naturales y la creación de artefactos visuales (gráficos, tablas) directamente en la interfaz.
ClickHouse MCP Server: el secreto
El componente más interesante es el servidor MCP específico para ClickHouse que han desarrollado. Este servidor actúa como puente entre la base de datos y el LLM, proporcionando:
- Transferencia eficiente de datos entre ClickHouse y LLMs
- Optimización inteligente de consultas SQL generadas por el LLM
- Gestión de contexto para conversaciones estatales sobre datos
- Acceso seguro y controlado a recursos de base de datos
Datasets disponibles
Una de las cosas que más me llama la atención es la variedad de datasets que han incluido. Tienen 37 datasets diferentes que cubren casos de uso muy diversos:
# Algunos ejemplos disponibles:
- github: Datos de actividad de GitHub, actualizado cada hora
- pypi: Descargas de paquetes Python - más de 1.3 trillones de filas
- hackernews: Posts y comentarios de Hacker News
- stackoverflow: Preguntas y respuestas de Stack Overflow
- nyc_taxi: Datos de viajes de taxi de NYC
- opensky: Datos de aviación de OpenSky Network
Lo que promete la experiencia
Según la documentación y demos que he visto, el comportamiento parece bastante consistente con diferentes tipos de consultas:
Consulta simple: “¿Cuáles son los lenguajes de programación más populares en GitHub?”
Consulta compleja: “Muéstrame la evolución de las descargas de paquetes Python relacionados con machine learning en los últimos 6 meses”
Consulta con visualización: “Crea un gráfico que muestre la distribución de precios de propiedades en Londres por distrito”
Lo que parece más impresionante es que no solo genera el SQL correcto, sino que también interpreta los resultados y crea visualizaciones apropiadas automáticamente.
El protocolo MCP en acción
Desde la perspectiva técnica, lo más interesante de AgentHouse es ver el protocolo MCP funcionando en un entorno real. MCP permite que los LLMs interactúen de manera segura y estructurada con recursos externos, en este caso, bases de datos ClickHouse.
La implementación maneja varios aspectos críticos:
- Gestión de contexto: El LLM mantiene contexto sobre el esquema de la base de datos y consultas previas
- Optimización de consultas: El servidor MCP puede optimizar las consultas SQL generadas por el LLM
- Seguridad: Acceso controlado a los datos con permisos apropiados
- Manejo de errores: Interpretación inteligente de errores de SQL y sugerencias de corrección
Reflexiones sobre el futuro
AgentHouse representa lo que creo que será el futuro de la interacción con datos. La idea de tener que aprender SQL, entender esquemas complejos y construir dashboards manualmente está empezando a parecer… anticuada.
En mi experiencia trabajando con equipos no técnicos, una de las mayores barreras para el uso eficiente de datos siempre ha sido la complejidad técnica. Herramientas como AgentHouse podrían eliminar esa barrera completamente.
Casos de uso prácticos
Veo varios escenarios donde esto podría ser especialmente útil:
Para equipos de producto: “¿Cómo ha evolucionado el engagement de usuarios en las últimas semanas?”
Para marketing: “Muéstrame el funnel de conversión por canal de adquisición”
Para operaciones: “¿Cuáles son los errores más comunes en nuestros logs de aplicación?”
Para análisis exploratorio: “Busca patrones anómalos en los datos de transacciones del último mes”
Limitaciones y consideraciones
Aunque es impresionante, hay algunas cosas a tener en cuenta:
- Precisión: Aunque Claude Sonnet es muy bueno, ocasionalmente puede generar consultas incorrectas con datos complejos
- Seguridad: En un entorno real, necesitarías implementar controles de acceso más granulares
- Rendimiento: Para datasets muy grandes, las consultas generadas por LLM pueden no ser las más eficientes
- Contexto: El LLM puede perder contexto en conversaciones muy largas
¿Cómo probarlo?
Si quieres experimentar con AgentHouse:
- Ve a llm.clickhouse.com
- Inicia sesión con tu cuenta de Google
- Pregunta “¿Qué datasets tienes disponibles?” para empezar
- Experimenta con consultas en lenguaje natural
Mi recomendación sería empezar con preguntas simples y ir aumentando la complejidad gradualmente para entender las capacidades del sistema.
AgentHouse es un ejemplo perfecto de cómo las tecnologías emergentes pueden combinarse para crear experiencias genuinamente útiles. No es solo una demo técnica impresionante, sino una visión del futuro de cómo interactuaremos con nuestros datos. Definitivamente está en mi lista de cosas por probar en breve.
NOTA: Si estás pensando en implementar algo similar en tu organización, el código del servidor MCP de ClickHouse está disponible en GitHub, lo cual es un gran punto de partida.
Comentarios