AgentHouse: Cuando las bases de datos empiezan a hablar nuestro idioma
5 min de lectura

AgentHouse: Cuando las bases de datos empiezan a hablar nuestro idioma

987 palabras

Hace unos meses, cuando Anthropic lanzó su protocolo MCP (Model Context Protocol), sabía que íbamos a ver integraciones interesantes entre LLMs y bases de datos. Lo que no esperaba era ver algo tan pulido y funcional como AgentHouse de ClickHouse tan pronto.

Tengo planificado probar esta demo en breve, pero ya solo leyendo sobre ella me parece fascinante la idea de poder preguntarle a una base de datos cosas como “¿cuáles son los repositorios más populares de GitHub este mes?” y obtener no solo una respuesta, sino visualizaciones automáticas.

¿Qué es AgentHouse?

AgentHouse es básicamente un playground donde puedes hablar con bases de datos usando lenguaje natural. Es una demo que ClickHouse ha puesto disponible en llm.clickhouse.com para mostrar cómo su base de datos puede integrarse con LLMs a través del protocolo MCP.

La idea surgió internamente en ClickHouse cuando el equipo de integración creó una pequeña demo conectando Claude Sonnet con una base de datos ClickHouse. Lo que comenzó como una prueba de concepto rápida se convirtió en “Dwaine” (Data Warehouse AI Natural Expert), un asistente interno que ayuda a los equipos de ventas, operaciones, producto y finanzas a obtener insights sin necesidad de escribir SQL.

Los componentes técnicos

La arquitectura de AgentHouse es interesante porque combina varias tecnologías de manera elegante:

Claude Sonnet como cerebro

Utilizan Claude Sonnet de Anthropic, que resulta especialmente bueno para entender contextos complejos y razonar sobre datos estructurados. Por lo que he visto, Sonnet parece ser una de las mejores opciones para generar SQL y interpretar resultados de consultas.

LibreChat como interfaz

Para la UI han optado por LibreChat, un proyecto open-source que proporciona una interfaz limpia para trabajar con LLMs. Es una elección inteligente porque permite conversaciones naturales y la creación de artefactos visuales (gráficos, tablas) directamente en la interfaz.

ClickHouse MCP Server: el secreto

El componente más interesante es el servidor MCP específico para ClickHouse que han desarrollado. Este servidor actúa como puente entre la base de datos y el LLM, proporcionando:

  • Transferencia eficiente de datos entre ClickHouse y LLMs
  • Optimización inteligente de consultas SQL generadas por el LLM
  • Gestión de contexto para conversaciones estatales sobre datos
  • Acceso seguro y controlado a recursos de base de datos

Datasets disponibles

Una de las cosas que más me llama la atención es la variedad de datasets que han incluido. Tienen 37 datasets diferentes que cubren casos de uso muy diversos:

# Algunos ejemplos disponibles:
- github: Datos de actividad de GitHub, actualizado cada hora
- pypi: Descargas de paquetes Python - más de 1.3 trillones de filas
- hackernews: Posts y comentarios de Hacker News
- stackoverflow: Preguntas y respuestas de Stack Overflow
- nyc_taxi: Datos de viajes de taxi de NYC
- opensky: Datos de aviación de OpenSky Network

Lo que promete la experiencia

Según la documentación y demos que he visto, el comportamiento parece bastante consistente con diferentes tipos de consultas:

Consulta simple: “¿Cuáles son los lenguajes de programación más populares en GitHub?”

Consulta compleja: “Muéstrame la evolución de las descargas de paquetes Python relacionados con machine learning en los últimos 6 meses”

Consulta con visualización: “Crea un gráfico que muestre la distribución de precios de propiedades en Londres por distrito”

Lo que parece más impresionante es que no solo genera el SQL correcto, sino que también interpreta los resultados y crea visualizaciones apropiadas automáticamente.

El protocolo MCP en acción

Desde la perspectiva técnica, lo más interesante de AgentHouse es ver el protocolo MCP funcionando en un entorno real. MCP permite que los LLMs interactúen de manera segura y estructurada con recursos externos, en este caso, bases de datos ClickHouse.

La implementación maneja varios aspectos críticos:

  • Gestión de contexto: El LLM mantiene contexto sobre el esquema de la base de datos y consultas previas
  • Optimización de consultas: El servidor MCP puede optimizar las consultas SQL generadas por el LLM
  • Seguridad: Acceso controlado a los datos con permisos apropiados
  • Manejo de errores: Interpretación inteligente de errores de SQL y sugerencias de corrección

Reflexiones sobre el futuro

AgentHouse representa lo que creo que será el futuro de la interacción con datos. La idea de tener que aprender SQL, entender esquemas complejos y construir dashboards manualmente está empezando a parecer… anticuada.

En mi experiencia trabajando con equipos no técnicos, una de las mayores barreras para el uso eficiente de datos siempre ha sido la complejidad técnica. Herramientas como AgentHouse podrían eliminar esa barrera completamente.

Casos de uso prácticos

Veo varios escenarios donde esto podría ser especialmente útil:

Para equipos de producto: “¿Cómo ha evolucionado el engagement de usuarios en las últimas semanas?”

Para marketing: “Muéstrame el funnel de conversión por canal de adquisición”

Para operaciones: “¿Cuáles son los errores más comunes en nuestros logs de aplicación?”

Para análisis exploratorio: “Busca patrones anómalos en los datos de transacciones del último mes”

Limitaciones y consideraciones

Aunque es impresionante, hay algunas cosas a tener en cuenta:

  • Precisión: Aunque Claude Sonnet es muy bueno, ocasionalmente puede generar consultas incorrectas con datos complejos
  • Seguridad: En un entorno real, necesitarías implementar controles de acceso más granulares
  • Rendimiento: Para datasets muy grandes, las consultas generadas por LLM pueden no ser las más eficientes
  • Contexto: El LLM puede perder contexto en conversaciones muy largas

¿Cómo probarlo?

Si quieres experimentar con AgentHouse:

  1. Ve a llm.clickhouse.com
  2. Inicia sesión con tu cuenta de Google
  3. Pregunta “¿Qué datasets tienes disponibles?” para empezar
  4. Experimenta con consultas en lenguaje natural

Mi recomendación sería empezar con preguntas simples y ir aumentando la complejidad gradualmente para entender las capacidades del sistema.

AgentHouse es un ejemplo perfecto de cómo las tecnologías emergentes pueden combinarse para crear experiencias genuinamente útiles. No es solo una demo técnica impresionante, sino una visión del futuro de cómo interactuaremos con nuestros datos. Definitivamente está en mi lista de cosas por probar en breve.

NOTA: Si estás pensando en implementar algo similar en tu organización, el código del servidor MCP de ClickHouse está disponible en GitHub, lo cual es un gran punto de partida.

Comentarios

Últimas Entradas

5 min

911 palabras

A few months ago, when Anthropic launched their MCP (Model Context Protocol), I knew we’d see interesting integrations between LLMs and databases. What I didn’t expect was to see something as polished and functional as ClickHouse’s AgentHouse so soon.

I’m planning to test this demo soon, but just reading about it, the idea of being able to ask a database questions like “What are the most popular GitHub repositories this month?” and getting not just an answer, but automatic visualizations, seems fascinating.

9 min

1747 palabras

If you’re using tools like Claude Code, GitHub Copilot Workspace, or similar, you’ve probably noticed there’s technical jargon that goes beyond simply “chatting with AI”. I’m talking about terms like rules, commands, skills, MCP, and hooks.

These concepts are the architecture that makes AI agents truly useful for software development. They’re not just fancy marketing words — each one serves a specific function in how the agent works.

Let’s break them down one by one in a clear way.

3 min

590 palabras

Últimamente estoy siguiendo de cerca todo lo que rodea al protocolo MCP (Model Context Protocol), y hace poco me encontré con un proyecto que tiene bastante sentido: MCPHero.

La realidad es que aunque MCP está pegando fuerte, muchas librerías de IA “tradicionales” como openai o google-genai siguen sin soporte nativo para MCP. Solo soportan tool/function calls. MCPHero viene a solucionar precisamente esto: hacer de puente entre servidores MCP y estas librerías.

2 min

315 palabras

Lately I’ve been closely following everything around the MCP protocol (Model Context Protocol), and recently I found a project that makes a lot of sense: MCPHero.

The reality is that although MCP is taking off, many “traditional” AI libraries like openai or google-genai still don’t have native MCP support. They only support tool/function calls. MCPHero comes to solve exactly this: make a bridge between MCP servers and these libraries.

What is MCPHero?

MCPHero is a Python library that lets you use MCP servers as tools/functions in native AI libraries. Basically, it lets you connect to any MCP server and use its tools as if they were native OpenAI or Google Gemini tools.

5 min

1052 palabras

Hace unos meses me topé con algo que realmente me llamó la atención: la posibilidad de tener mi propio “ChatGPT” funcionando en casa, sin enviar datos a ningún lado, usando únicamente un Raspberry Pi 5. Suena demasiado bueno para ser verdad, ¿no?

Pues resulta que con Ollama y un Pi 5 es perfectamente posible montar un servidor de IA local que funciona sorprendentemente bien. Te cuento mi experiencia y cómo puedes hacerlo tú también.

5 min

1053 palabras

A few months ago I came across something that really caught my attention: the possibility of having my own “ChatGPT” running at home, without sending data anywhere, using only a Raspberry Pi 5. Sounds too good to be true, right?

Well, it turns out that with Ollama and a Pi 5 it’s perfectly possible to set up a local AI server that works surprisingly well. Let me tell you my experience and how you can do it too.