Data Lakehouse — Arquitetura
Visao Geral
O Data Lakehouse (Databricks + Delta Lake em Azure/AWS) centraliza todas as fontes de dados da operacao. Combina a flexibilidade de um Data Lake (qualquer tipo de dado) com a governanca e performance de um Data Warehouse.
Por que nao basta um ERP + SharePoint?
- ERP (Sienge) foi desenhado para registrar transacoes, nao para unificar dados estruturados e nao estruturados ou treinar modelos de IA
- SharePoint/Teams sao bons repositorios documentais, mas nao oferecem engine de processamento distribuido nem catalogo de dados para IA/ML
- O Lakehouse permite BI e IA no mesmo lugar, acoplando Power BI e ferramentas de mercado sobre uma base unica
Camadas de Dados
Bronze (Raw)
Dados brutos de todas as fontes, sem transformacao:
- ERP Sienge (transacoes, custos, contratos, medicoes)
- Comunicacoes (Teams, WhatsApp, e-mail, Zoom)
- Documentos (SharePoint, planilhas, PDFs, memoriais)
- Sensores e IoT (drones, cameras 360, nuvens de pontos)
- Fotos e videos de obra
Silver (Curated)
Dados limpos, validados e normalizados:
- Custos por projeto
- Produtividades historicas
- Cronogramas e marcos
- Metricas de qualidade
- Desempenho de fornecedores
Gold (Analytics)
Dados agregados e enriquecidos para analytics e ML:
- Modelos preditivos de custo
- Analises de risco
- Benchmarks de produtividade
- Indicadores de performance
- Feature store para modelos
Stack Tecnologico (Target)
| Componente | Tecnologia | Funcao |
|---|---|---|
| Lakehouse | Databricks + Delta Lake | Armazenamento e processamento |
| Cloud | Azure ou AWS | Infraestrutura |
| Orquestracao | Databricks Workflows / Airflow | Agendamento de pipelines |
| BI | Power BI | Visualizacao e dashboards |
| ML | Databricks ML / MLflow | Treinamento e deploy de modelos |
| APIs | FastAPI / Azure Functions | Servicos de entrega |
Principios de Arquitetura
- Plataforma, nao ferramenta — Entregavel e uma plataforma de dados multi-tenant, sobre a qual modulos sao plugados
- APIs em tudo — Toda ferramenta deve ter API para evitar lock-in
- Dado termina no Lake — Estrategia com SaaS transitorios com APIs, mas o dado sempre fica no Lake
- Multi-tenant — Replicavel para outras unidades de negocio e paises LatAm
- Governanca desde o dia 1 — Perfis de acesso, trilha de auditoria, compliance