DataSkills Hub

OpenMetadata

OpenMetadata es una plataforma de gobernanza de datos. Proporciona descubrimiento de datos, lineage end-to-end, calidad de datos y gestión de metadatos centralizada. Conecta con Trino, PostgreSQL, Airflow, y otros componentes del stack.

#Getting Started

#Acceder a OpenMetadata

Abrir la interfaz web

<tu-url>

Acceder con credenciales provistos por el equipo de plataforma o SSO corporativo.

Sección Descripción
Search & Explore Descubrir datasets, tablas, columnas, usuarios
Data Catalog Catálogo jerárquico de datos organizados
Lineage Flujo de datos: origen → transformación → uso
Data Quality Tests de calidad, validaciones y métricas
Governance Tags, glossary, owners, políticas de acceso
Pipelines Historial de pipelines Airflow y ejecuciones
Settings Integrations, servicios, configuración

#Descubrimiento y Exploración

#Buscar datasets y tablas

Desde la barra de búsqueda principal:

1. Escribir el nombre de la tabla (ej: "ventas")
2. Usar filtros: Type, Owner, Tags, Tier
3. Ordenar por: Relevance, Popularity, Recently Updated

Ejemplo de búsqueda avanzada:

tag:"financial" AND owner:"analytics-team" AND service:"Trino"

#Explorar estructura de una tabla

Al abrir una tabla, ver:

Tab Contenido
Overview Descripción, propietario, tags, esquema de columnas
Schema Columnas con tipos, descripciones, PII detectada
Lineage De dónde viene y a dónde va (upstream/downstream)
Samples Vista previa de datos (primeras filas)
Quality Tests de calidad, validaciones y resultados
Activity Cambios recientes, creación, modificaciones

#Agregar descripciones y documentación

  1. Abrir la tabla en OpenMetadata
  2. Clic en Description (área vacía o edit icon)
  3. Escribir documentación markdown:
# Ventas Consolidadas

Datos consolidados de ventas por país, producto y mes.

**Última actualización:** 2026-03-14
**Frecuencia:** Diaria
**Dueño:** Analytics Team
  1. Guardar cambios

#Etiquetado y Gobernanza

#Agregar Tags

Tags categorizan y facilitan descubrimiento:

1. Abrir tabla → Clic en "Tags" (esquina superior derecha)
2. Buscar o crear nuevo tag:
   - financial (datos financieros)
   - pii (contiene datos personales)
   - deprecated (no usar)
   - sensitive (acceso restringido)
3. Guardar

#Glossary Terms (Diccionario de Negocios)

Vincular términos de negocio estandarizados a columnas:

1. Tabla → Schema tab
2. Clic en una columna → "Glossary Term"
3. Buscar o crear término (ej: "Ingresos Totales")
4. Confirmar

Administrar glossary (solo Admins):

Settings → Glossary → + Nuevo término

#Ownership y Responsibility

Definir propietarios de datos:

1. Tabla → Clic en "Owner" (Overview tab)
2. Asignar usuario o equipo
3. Definir rol: Data Owner, Steward, Developer

Roles recomendados:

Rol Responsabilidad
Owner Responsable de calidad y acceso
Steward Mantiene documentación y metadata
Developer Crea y modifica la tabla

#Lineage de Datos

#Ver flujo end-to-end

Abrir tabla → Lineage tab

Upstream (origen):
  Airflow DAG → Raw table (PostgreSQL)

Transformación (actual):
  hive.analytics.ventas (Trino)

Downstream (consumo):
  Superset Dashboard "Ventas KPI"
  Tableau Report "Monthly Report"

#Entender lineage automático

OpenMetadata detecta lineage desde:

  • Airflow DAGs → Conexiones entre tasks y tablas
  • SQL Queries → Parser de INSERT INTO ... SELECT FROM
  • Trino Metadata → Vistas y relaciones
  • Pipelines registradas → NiFi, dbt, otros

Lineage no se detecta automáticamente si:

- Query es dinámico/generado en runtime
- Tabla existe en sistema no integrado
- DAG no tiene metadata en Airflow
→ Registrar manualmente en OpenMetadata

#Calidad de Datos

#Crear Test de Calidad

  1. Tabla → Quality tab+ Add Test
  2. Seleccionar tipo de test:
Test Type Ejemplo
Column Value Rango: fecha BETWEEN '2025-01-01' y hoy
Column Count Filas ≥ 1000 en tabla
Null Count NULLs en columna < 5%
Uniqueness Valores únicos en columna cliente_id
Custom SQL Query SQL personalizado con threshold

#Ejemplo: Test de Calidad

-- Custom SQL Test en OpenMetadata
-- Validar que no hay ventas negativas

SELECT COUNT(*) as invalid_rows
FROM hive.analytics.ventas
WHERE monto < 0
  HAVING COUNT(*) < 10  -- Pasa si hay menos de 10 filas inválidas

#Resultados y Alertas

Ver estado de tests:

Quality tab → Test Results
- ✓ PASSED: Test OK
- ✗ FAILED: Falló umbral configurado
- ⏸ ABORTED: Error en ejecución

Configurar notificaciones (admins):

Settings → Notifications → Alertas para tests fallidos

#Pipelines y Ingestion

#Conectar servicios (Ingestion)

Para que OpenMetadata descubra metadatos automáticamente:

  1. Settings → Services → Databases
  2. Crear conexión:
Service Type: Trino
Service Name: trino-production
Host: <tu-url>
Port: <puerto>
Database: hive
  1. Ingestion Schedules: ejecutar cada 6 horas
  2. OpenMetadata importa tablas, columnas, tipos automáticamente

#Airflow Pipeline Tracking

Ver ejecuciones de DAGs en OpenMetadata:

1. Search & Explore → "Pipelines"
2. Ver historial de ejecuciones
3. Filtrar por estado: SUCCESS, FAILED, RUNNING
4. Clic en ejecución → Ver logs de Airflow

OpenMetadata integra con Airflow automaticamente si está configurado en Settings.

#Monitoreo y Troubleshooting

#Ver historial de cambios

Tabla → Activity tab

Muestra:

Quién → cambió QUÉ → CUÁNDO
- "John Doe added tag 'financial'" (2026-03-14 14:30)
- "Jane Smith updated description" (2026-03-14 13:15)
- "System ingested 5 new columns" (2026-03-14 10:00)

#Buscar datos sensibles (PII Detection)

OpenMetadata detecta automáticamente:

- Email addresses (email, correo)
- Phone numbers (teléfono, phone)
- Social security numbers (SSN)
- Credit cards (tarjeta_credito)
- Nombres (name, nombre)

Ver columnas PII:

1. Tabla → Schema tab
2. Columnas marcadas con 🔒 PII
3. Clic → Confirmar o descartar detección

#Health Check y Estatus

1. Settings → Service Health
2. Ver status de cada integración:
   - ✓ Trino: Connected
   - ✓ PostgreSQL: Connected
   - ✗ NiFi: Disconnected → revisar logs

#Mejores Prácticas

#Estándares de catalogación

Práctica Recomendación
Descripción Obligatoria en tabla y columnas críticas
Owner Asignar siempre (equipo o persona)
Tags Mínimo 2: categoría + nivel sensibilidad
Glossary Terms Usar diccionario unificado
Tier Ranking Marcar Tier 1 (crítico) si es KPI

#Nomenclatura de tablas

OpenMetadata agrupa por patrón:

✓ hive.analytics.ventas_mensuales
✓ hive.raw.ventas_raw
✓ postgres.operational.clientes

✗ hive.temp.table1 (evitar nombres genéricos)
✗ hive.analytics.ventas_v2_v3 (evitar versiones)

#Linaje documentado

Mantener lineage limpio:

1. Si creas tabla nueva → registrar en OpenMetadata
2. Si query tiene transformación compleja → documentar en descripción
3. Si eliminas tabla → retirar del catálogo (no dejar huérfana)

#Also see