Data Lakehouse — Arquitetura

dados costal colliers


Visao Geral

O Data Lakehouse (Databricks + Delta Lake em Azure/AWS) centraliza todas as fontes de dados da operacao. Combina a flexibilidade de um Data Lake (qualquer tipo de dado) com a governanca e performance de um Data Warehouse.

Por que nao basta um ERP + SharePoint?

  • ERP (Sienge) foi desenhado para registrar transacoes, nao para unificar dados estruturados e nao estruturados ou treinar modelos de IA
  • SharePoint/Teams sao bons repositorios documentais, mas nao oferecem engine de processamento distribuido nem catalogo de dados para IA/ML
  • O Lakehouse permite BI e IA no mesmo lugar, acoplando Power BI e ferramentas de mercado sobre uma base unica

Camadas de Dados

Bronze (Raw)

Dados brutos de todas as fontes, sem transformacao:

  • ERP Sienge (transacoes, custos, contratos, medicoes)
  • Comunicacoes (Teams, WhatsApp, e-mail, Zoom)
  • Documentos (SharePoint, planilhas, PDFs, memoriais)
  • Sensores e IoT (drones, cameras 360, nuvens de pontos)
  • Fotos e videos de obra

Silver (Curated)

Dados limpos, validados e normalizados:

  • Custos por projeto
  • Produtividades historicas
  • Cronogramas e marcos
  • Metricas de qualidade
  • Desempenho de fornecedores

Gold (Analytics)

Dados agregados e enriquecidos para analytics e ML:

  • Modelos preditivos de custo
  • Analises de risco
  • Benchmarks de produtividade
  • Indicadores de performance
  • Feature store para modelos

Stack Tecnologico (Target)

ComponenteTecnologiaFuncao
LakehouseDatabricks + Delta LakeArmazenamento e processamento
CloudAzure ou AWSInfraestrutura
OrquestracaoDatabricks Workflows / AirflowAgendamento de pipelines
BIPower BIVisualizacao e dashboards
MLDatabricks ML / MLflowTreinamento e deploy de modelos
APIsFastAPI / Azure FunctionsServicos de entrega

Principios de Arquitetura

  1. Plataforma, nao ferramenta — Entregavel e uma plataforma de dados multi-tenant, sobre a qual modulos sao plugados
  2. APIs em tudo — Toda ferramenta deve ter API para evitar lock-in
  3. Dado termina no Lake — Estrategia com SaaS transitorios com APIs, mas o dado sempre fica no Lake
  4. Multi-tenant — Replicavel para outras unidades de negocio e paises LatAm
  5. Governanca desde o dia 1 — Perfis de acesso, trilha de auditoria, compliance

Relacionados