Data Team MICOpenMetadata es una plataforma de gobernanza de datos. Proporciona descubrimiento de datos, lineage end-to-end, calidad de datos y gestión de metadatos centralizada. Conecta con Trino, PostgreSQL, Airflow, y otros componentes del stack.
Abrir la interfaz web
<tu-url>
Acceder con credenciales provistos por el equipo de plataforma o SSO corporativo.
| Sección | Descripción |
|---|---|
| Search & Explore | Descubrir datasets, tablas, columnas, usuarios |
| Data Catalog | Catálogo jerárquico de datos organizados |
| Lineage | Flujo de datos: origen → transformación → uso |
| Data Quality | Tests de calidad, validaciones y métricas |
| Governance | Tags, glossary, owners, políticas de acceso |
| Pipelines | Historial de pipelines Airflow y ejecuciones |
| Settings | Integrations, servicios, configuración |
Desde la barra de búsqueda principal:
1. Escribir el nombre de la tabla (ej: "ventas")
2. Usar filtros: Type, Owner, Tags, Tier
3. Ordenar por: Relevance, Popularity, Recently Updated
Ejemplo de búsqueda avanzada:
tag:"financial" AND owner:"analytics-team" AND service:"Trino"
Al abrir una tabla, ver:
| Tab | Contenido |
|---|---|
| Overview | Descripción, propietario, tags, esquema de columnas |
| Schema | Columnas con tipos, descripciones, PII detectada |
| Lineage | De dónde viene y a dónde va (upstream/downstream) |
| Samples | Vista previa de datos (primeras filas) |
| Quality | Tests de calidad, validaciones y resultados |
| Activity | Cambios recientes, creación, modificaciones |
# Ventas Consolidadas
Datos consolidados de ventas por país, producto y mes.
**Última actualización:** 2026-03-14
**Frecuencia:** Diaria
**Dueño:** Analytics Team
Tags categorizan y facilitan descubrimiento:
1. Abrir tabla → Clic en "Tags" (esquina superior derecha)
2. Buscar o crear nuevo tag:
- financial (datos financieros)
- pii (contiene datos personales)
- deprecated (no usar)
- sensitive (acceso restringido)
3. Guardar
Vincular términos de negocio estandarizados a columnas:
1. Tabla → Schema tab
2. Clic en una columna → "Glossary Term"
3. Buscar o crear término (ej: "Ingresos Totales")
4. Confirmar
Administrar glossary (solo Admins):
Settings → Glossary → + Nuevo término
Definir propietarios de datos:
1. Tabla → Clic en "Owner" (Overview tab)
2. Asignar usuario o equipo
3. Definir rol: Data Owner, Steward, Developer
Roles recomendados:
| Rol | Responsabilidad |
|---|---|
| Owner | Responsable de calidad y acceso |
| Steward | Mantiene documentación y metadata |
| Developer | Crea y modifica la tabla |
Abrir tabla → Lineage tab
Upstream (origen):
Airflow DAG → Raw table (PostgreSQL)
Transformación (actual):
hive.analytics.ventas (Trino)
Downstream (consumo):
Superset Dashboard "Ventas KPI"
Tableau Report "Monthly Report"
OpenMetadata detecta lineage desde:
INSERT INTO ... SELECT FROMLineage no se detecta automáticamente si:
- Query es dinámico/generado en runtime
- Tabla existe en sistema no integrado
- DAG no tiene metadata en Airflow
→ Registrar manualmente en OpenMetadata
| Test Type | Ejemplo |
|---|---|
| Column Value | Rango: fecha BETWEEN '2025-01-01' y hoy |
| Column Count | Filas ≥ 1000 en tabla |
| Null Count | NULLs en columna < 5% |
| Uniqueness | Valores únicos en columna cliente_id |
| Custom SQL | Query SQL personalizado con threshold |
-- Custom SQL Test en OpenMetadata
-- Validar que no hay ventas negativas
SELECT COUNT(*) as invalid_rows
FROM hive.analytics.ventas
WHERE monto < 0
HAVING COUNT(*) < 10 -- Pasa si hay menos de 10 filas inválidas
Ver estado de tests:
Quality tab → Test Results
- ✓ PASSED: Test OK
- ✗ FAILED: Falló umbral configurado
- ⏸ ABORTED: Error en ejecución
Configurar notificaciones (admins):
Settings → Notifications → Alertas para tests fallidos
Para que OpenMetadata descubra metadatos automáticamente:
Service Type: Trino
Service Name: trino-production
Host: <tu-url>
Port: <puerto>
Database: hive
Ver ejecuciones de DAGs en OpenMetadata:
1. Search & Explore → "Pipelines"
2. Ver historial de ejecuciones
3. Filtrar por estado: SUCCESS, FAILED, RUNNING
4. Clic en ejecución → Ver logs de Airflow
OpenMetadata integra con Airflow automaticamente si está configurado en Settings.
Tabla → Activity tab
Muestra:
Quién → cambió QUÉ → CUÁNDO
- "John Doe added tag 'financial'" (2026-03-14 14:30)
- "Jane Smith updated description" (2026-03-14 13:15)
- "System ingested 5 new columns" (2026-03-14 10:00)
OpenMetadata detecta automáticamente:
- Email addresses (email, correo)
- Phone numbers (teléfono, phone)
- Social security numbers (SSN)
- Credit cards (tarjeta_credito)
- Nombres (name, nombre)
Ver columnas PII:
1. Tabla → Schema tab
2. Columnas marcadas con 🔒 PII
3. Clic → Confirmar o descartar detección
1. Settings → Service Health
2. Ver status de cada integración:
- ✓ Trino: Connected
- ✓ PostgreSQL: Connected
- ✗ NiFi: Disconnected → revisar logs
| Práctica | Recomendación |
|---|---|
| Descripción | Obligatoria en tabla y columnas críticas |
| Owner | Asignar siempre (equipo o persona) |
| Tags | Mínimo 2: categoría + nivel sensibilidad |
| Glossary Terms | Usar diccionario unificado |
| Tier Ranking | Marcar Tier 1 (crítico) si es KPI |
OpenMetadata agrupa por patrón:
✓ hive.analytics.ventas_mensuales
✓ hive.raw.ventas_raw
✓ postgres.operational.clientes
✗ hive.temp.table1 (evitar nombres genéricos)
✗ hive.analytics.ventas_v2_v3 (evitar versiones)
Mantener lineage limpio:
1. Si creas tabla nueva → registrar en OpenMetadata
2. Si query tiene transformación compleja → documentar en descripción
3. Si eliminas tabla → retirar del catálogo (no dejar huérfana)