Vicente Jorquera
Vicente Jorquera

Fecha de publicación 16/05/2026

MeetPulse: Transcripción e inteligencia de reuniones sin límites artificiales ni brechas de privacidad

MeetPulse es un asistente de reuniones open source que combina una aplicación de escritorio en Tauri con un backend serverless para grabar, transcribir y analizar reuniones extensas con IA, manteniendo control sobre costos, privacidad y almacenamiento de datos. El proyecto nace como respuesta a las limitaciones de herramientas SaaS tradicionales, ofreciendo transcripciones sin barreras artificiales de minutos, deduplicación inteligente de audio, recuperación ante fallos y una arquitectura propia basada en Rust, React, FastAPI, PostgreSQL, Cloudflare R2, Railway y Gemini.

Ejemplo transcripción

Aviso: El contenido de audio y transcripción utilizado en este ejemplo pertenece a Con Peras y Finanzas. Su aparición en esta captura de pantalla es de carácter educativo y referencial para exponer las capacidades semánticas de MeetPulse, sin ninguna relación comercial ni reclamación de autoría sobre dicho material.”

El dolor diario: Muchas reuniones y herramientas limitadas

En mi día a día como Arquitecto de Software y Consultor, las reuniones semanales son una constante inevitable. Sin embargo, la carga administrativa que conllevan drena una enorme cantidad de energía: redactar minutas detalladas, recordar compromisos técnicos exactos y estructurar resúmenes precisos para el equipo y para mi propia knowledgebase asociada a cada cliente y proyecto. Para resolver esto, primero intenté apoyarme en las soluciones existentes en el mercado, pero rápidamente me encontré con dos muros infranqueables.

Por un lado, herramientas como Notion AI imponen límites de minutos de transcripción extremadamente estrictos en sus planes económicamente accesibles, volviéndose inviables para un ritmo de trabajo real. Por otro lado, la transcripción nativa de Microsoft Teams presentaba fallos constantes de precisión semántica sobretodo cuando entran en juego distintos acentos e idiomas durante la misma reunión. A esto se sumaba la nula soberanía sobre la privacidad: entregar los audios de mis clientes y las estrategias confidenciales de mi entorno laboral a nubes opacas de terceros era un riesgo inaceptable que con clientes con criterios de seguridad estrictos me evitaba poder utilizar las herramientas previamente mencionadas.

Ante la falta de una herramienta precisa, ilimitada (o con límites razonables para mis necesidades) y sobretodo que entregue control de los datos, decidí construir mi propia solución: MeetPulse. Un proyecto personal nacido para resolver mi propio problema diario, cuyo código he disponibilizado de forma abierta y open source en GitHub.

Vista de Transcripción

Vista de transcripción literal de un audio

Aviso: El contenido de audio y transcripción utilizado en este ejemplo pertenece a Con Peras y Finanzas. Su aparición en esta captura de pantalla es de carácter educativo y referencial para exponer las capacidades semánticas de MeetPulse, sin ninguna relación comercial ni reclamación de autoría sobre dicho material.”

Vista de Análisis

Vista de análisis de una transcripción

Aviso: El contenido de audio y transcripción utilizado en este ejemplo pertenece a Con Peras y Finanzas. Su aparición en esta captura de pantalla es de carácter educativo y referencial para exponer las capacidades semánticas de MeetPulse, sin ninguna relación comercial ni reclamación de autoría sobre dicho material.”


Una arquitectura híbrida y de control total

Para lograr una alternativa real que no dependiera de suscripciones de terceros, estructuré MeetPulse combinando la ligereza del entorno de escritorio con un backend serverless altamente eficiente. Toda la infraestructura está diseñada bajo un modelo elástico que se despliega en servicios propios, consumiendo recursos únicamente cuando se procesa un archivo:

Arquitectura de MeetPulse

Nota de arquitectura: Este diagrama ilustra de forma simplificada el diseño funcional de MeetPulse. Si estás pensando en llevar un modelo híbrido similar a un entorno de producción real, ten en cuenta las siguientes consideraciones estándar de seguridad:

  • Aislamiento de infraestructura: Tanto la base de datos PostgreSQL como la API REST deberían operar en redes privadas, bloqueando cualquier acceso directo desde el internet público.
  • Protección perimetral: Es recomendable implementar un API Gateway (como el de Cloudflare o Azure APIM) frente al backend para centralizar políticas de seguridad, mitigación de amenazas y rate limiting.
  • Seguridad en el cliente: Al distribuir el ejecutable compilado (.exe), recuerda que las URLs de conexión o variables estáticas expuestas en el código frontend de Rust/Tauri pueden ser descubiertas mediante ingeniería inversa.
  • Repositorio y Control (GitHub): Centraliza todo el código fuente del ecosistema, dividiendo de forma limpia la aplicación de escritorio y la API del backend.

Componentes que conforman la arquitectura:

  • Cliente de Escritorio Nativo: Una aplicación ligera construida en Rust + Tauri + React + Vite. Al ejecutarse de forma nativa en Windows, me permite capturar el audio del micrófono y el audio del sistema por loopback localmente y sin fricciones de red.
  • Backend Contenedorizado (API REST): Desarrollado con FastAPI y una base de datos PostgreSQL, empaquetado mediante un Dockerfile y desplegado de forma serverless en Railway. Al ser serverless, la infraestructura se apaga de forma lógica cuando no está en uso, reduciendo los costos operativos a prácticamente cero.
  • Almacenamiento Soberano de Artefactos (Storage): Los archivos de audio originales y las minutas generadas se guardan en un bucket privado de Cloudflare R2. Al no tener costos de salida (egress fees), mantengo el control absoluto de los datos bajo mi propio dominio personal y configuraciones DNS en Cloudflare.
  • Procesamiento Semántico (IA): El motor cognitivo consume directamente la API de Gemini 3.1 Flash Lite en Google AI Studio. Este modelo ofrece una ventana de contexto masiva ideal para llamadas extensas, combinada con un costo por token extremadamente bajo que elimina cualquier restricción comercial de minutos.

Del código al impacto en el flujo de trabajo

La integración de estos componentes arquitectónicos se traduce directamente en ventajas reales para mi flujo de trabajo:

  • Transcripciones sin restricciones corporativas: Al conectarse directamente con la API de Gemini mediante mi backend, las barreras artificiales de minutos mensuales desaparecen, permitiéndome procesar tantas horas de audio como requiera mi semana técnica.
  • Aislamiento lógico y seguridad: Cada petición se autentica de forma estricta mediante Google ID Tokens. El backend gestiona un aislamiento de datos basado en un tenant_id en PostgreSQL, asegurando que toda la información relacional y los documentos de texto estén completamente segregados y blindados.
  • Deduplicación inteligente de audio: El pipeline calcula un Hash SHA-256 de cada archivo antes de procesarlo. Si intento subir la misma reunión por error, el sistema la detecta y reutiliza el análisis Markdown almacenado en R2, protegiendo el consumo innecesario de tokens de la API.
  • Widget flotante y resiliencia local: Un widget compacto que se mantiene siempre encima me permite controlar la grabación (grabar, pausar, reanudar) de forma discreta mientras estoy en una llamada. Cuenta además con un sistema de crash recovery que salva los segmentos de audio locales si la aplicación se cierra inesperadamente.

Vista principal MeetPulse Desktop


Conclusión: El valor de ser dueño de tu tecnología

MeetPulse es la demostración de que no tenemos por qué resignarnos a las limitaciones comerciales abusivas de las plataformas SaaS ni a comprometer la confidencialidad de nuestro entorno laboral por comodidad.

Al centralizar el desarrollo en GitHub y aprovechar las ventajas de infraestructuras elásticas como Railway, Cloudflare R2 y Google AI Studio, es posible diseñar un asistente a medida que trabaje para nosotros bajo nuestros propios términos. Al final del día, el verdadero valor de la ingeniería de software no es solo consumir herramientas externas, sino tener la capacidad de construir y ser los dueños de nuestra propia tecnología de productividad.

Enlaces:

Compartir post