Roadmap de Implementação — V0 → Produção
Roadmap faseado alinhado com: (1) cronograma Sienge abr–out 2026, (2) ondas de agentes Costal, (3) maturidade de dados identificada no inventário.
Fase 1 — Fundação (semanas 1–6)
Objetivo: Infraestrutura mínima operacional + primeiras 2 fontes no Bronze
Infra
- Provisionar buckets AWS S3 (colliers-lake-dev + colliers-lake-prd) em us-east-1
- Criar workspace Databricks (AWS) com Unity Catalog habilitado
- Configurar AWS IAM — roles e grupos RBAC iniciais (Admin, Data Engineer)
- Criar prefixos S3 por camada (bronze/, silver/, gold/) + S3 Lifecycle Policies de retenção
- Configurar AWS Secrets Manager para secrets (Sienge API credentials, Smart Colliers token)
- Habilitar audit logs do Unity Catalog → armazenar em bronze/corp/audit
Ingestão — Sienge (P1)
- Criar credencial de API no Portal de Integrações Sienge (tenant CTS)
- Implementar conector BULK → bronze/sps/sienge/ (priority: purchase_orders, contracts)
- Implementar webhook receiver (AWS Lambda) para eventos Sienge
- Idempotência por
x-sienge-id - Roteamento por
x-sienge-tenant(CTS vs Costal) - DLQ (Dead Letter Queue) para falhas de ingestão
- Idempotência por
- Carga histórica inicial via BULK (todos os módulos em implantação)
Ingestão — Smart Colliers (P1)
- Mapear autenticação (
login/loginsistema/→ token) - Implementar conector REST → bronze/rems/smart_colliers/ (priority: buildings, contracts, financial_monthly)
- Orquestrar com Databricks Workflows (job diário 01h)
Unity Catalog
- Registrar primeiros datasets Bronze com metadados obrigatórios
- Configurar column masking para campos PII de condôminos
Critério de saída: Sienge + Smart Colliers chegando no Bronze, jobs estáveis por 5 dias seguidos.
Fase 2 — Silver e Primeiros Gold (semanas 7–14)
Objetivo: Camada Silver operacional para SPS e REMS + primeiros Gold para Power BI
Transformações Silver — SPS
- Pipeline dbt:
bronze.sps.sienge.purchase_orders→silver.sps.purchase_orders - Pipeline dbt:
bronze.sps.sienge.contracts + measurements→silver.sps.measurements - Pipeline dbt:
bronze.sps.sienge.budget_baseline→silver.sps.budget_vs_actual(join com actuals) - Pipeline dbt:
bronze.sps.sienge.construction_reports→silver.sps.construction_reports - Implementar dbt tests para entidades Silver SPS
Transformações Silver — REMS
- Pipeline dbt:
bronze.rems.smart_colliers.financial_*→silver.rems.financial_monthly - Pipeline dbt:
bronze.rems.smart_colliers.service_orders→silver.rems.service_orders - Pipeline dbt:
bronze.rems.smart_colliers.buildings→silver.rems.buildings(dim) - Implementar dbt tests para entidades Silver REMS
Gold — SPS
-
gold.sps.project_performance: custo orçado vs realizado por projeto -
gold.sps.supplier_scorecard: histórico de preço e prazo por fornecedor
Gold — REMS
-
gold.rems.financial_dashboard: previsto x realizado mensal por empreendimento -
gold.rems.building_health: índice de saúde operacional (KPI composto)
Power BI
- Conectar Power BI ao Gold via Databricks SQL connector (substituir SQL Server direto do Smart Colliers)
- Publicar Dashboard SPS (project_performance)
- Publicar Dashboard REMS (financial_dashboard)
Documentos não-estruturados (início)
- Pipeline de extração Sumex (132 docs): template parsing → silver/rems/sumex_weekly
- Pipeline de extração ROP (64 docs): structured extraction → silver/rems/rop_monthly
Critério de saída: Power BI funcionando via Lake (não mais SQL Server direto), 2 dashboards publicados.
Fase 3 — SharePoint + IM + Feature Store (semanas 15–22)
Objetivo: IM no Lake, Book Financeiro estruturado, feature store para agentes Onda 1
Ingestão — SharePoint / OneDrive (P1)
- Implementar conector Graph API (delta sync) → bronze/sps/sharepoint/projects/
- Implementar conector Graph API → bronze/im/sharepoint/
- Configurar DLP scan no Bronze para detecção de PII em documentos (AWS Macie)
Transformações Silver — IM
- Pipeline dbt:
bronze.im.sharepoint.offices + external.siila→silver.im.offices_market - Pipeline dbt:
bronze.im.sharepoint.logistics→silver.im.logistics_market - Pipeline dbt:
bronze.ext.incc + bronze.ext.cub→silver.ext.construction_indexes
Gold — IM
-
gold.im.market_dashboard: painel de mercado (escritórios + logística) -
gold.im.benchmarks: custo/m² por tipologia e região (alimenta Atlas)
Feature Store para Agentes (Onda 1)
-
gold.cross.ai_feature_store.budget_history: histórico de CPUs para Atlas -
gold.cross.ai_feature_store.contracts_index: índice de contratos para Sentinel -
gold.cross.ai_feature_store.financial_signals: sinais financeiros para King
Book Financeiro
- Pipeline Document AI: bronze/rems/documents/book_financeiro/ → silver/rems/book_financeiro_monthly
Critério de saída: Feature store disponível para equipe de agentes Costal. IM no Lake.
Fase 4 — CIVAS, Otimização e Governança Completa (semanas 23+)
Objetivo: Cobertura completa de fontes, tuning de performance, governança madura
Ingestão — CIVAS
- Carga histórica: bronze/civas/sharepoint/appraisals/ (anos 2016–2019)
- Investigar laudos 2020–2024 ausentes (Q-018 — perguntar Ricardo Betancourt)
- Pipeline LLM: extração estruturada de laudos PDF → silver/civas/appraisals
Otimização
- Z-ordering nas tabelas Silver de alta cardinalidade (project_id, building_id, contract_id)
- Compactação automática com Databricks Optimize (scheduled job noturno)
- Bloom filters em joins frequentes (contract_id, supplier_id)
- Liquid clustering nas tabelas Gold (tuning por padrão de query do Power BI)
Governança
- Catálogo Unity Catalog completo para todos os datasets (Bronze + Silver + Gold)
- Lineage em nível de coluna para datasets Restrito e Confidencial
- Dashboard de qualidade de dados (dbt docs + alertas automáticos)
- Processo LGPD testado ponta-a-ponta (soft-delete → hard-delete → rebuild Gold)
- Nomeação formal de Data Stewards por domínio
Comunicações Microsoft 365
- Teams → bronze/corp/teams (Graph API)
- Outlook → bronze/corp/emails (Graph API)
- Zoom gravações + transcrições → bronze/corp/zoom
Mapa de dependências críticas
| Dependência | Impacto | Owner | Status |
|---|---|---|---|
| Sienge em operação (módulos FIN + SUP + ENG) | Bloqueia Fase 1 Sienge | Rafael + Gescon | Em implantação (go-live estimado out/2026) |
| Credencial API Sienge confirmada (versão CTS) | Bloqueia conector Sienge | Gabriel + Carlos (Gescon) | Pendente |
| Smart Colliers: confirmar autenticação API | Bloqueia Fase 1 Smart Colliers | Gabriel + Robson | Pendente |
| AWS account aprovada (IAM, billing, limites de serviço) | Bloqueia toda infra | TI Colliers + Anouk | Pendente |
| Power BI migração (SQL Server → Lake) | Fase 2 | Gabriel + BI Colliers | Planejado |
| Agentes Onda 1 (Atlas, Sentinel) — especificação | Fase 3 feature store | Equipe Costal | Em andamento |
Riscos identificados
| ID | Risco | Probabilidade | Impacto | Mitigação |
|---|---|---|---|---|
| R-001 | Sienge implantação atrasa além de out/2026 | Alta | Alto | Começar com Smart Colliers + SharePoint; Sienge entra depois |
| R-002 | Dados históricos SPS (~500 projetos) não acessíveis | Média | Alto | Carga parcial por prioridade de projeto; não bloquear |
| R-003 | Smart Colliers não tem API de histórico (só atual) | Média | Médio | Extrair snapshots diários desde o início |
| R-004 | PII em documentos não detectado pelo DLP | Baixa | Alto | Revisão manual amostral + prompt de LLM classificador |
| R-005 | Laudos CIVAS 2020–2024 em outra biblioteca não mapeada | Média | Baixo | Q-018 precisa ser respondida antes de priorizar CIVAS |
| R-006 | BDI e margens vazam para Gold via feature store | Baixa | Alto | Revisão obrigatória de todos os campos da feature store |
Estimativa de custo (referência)
Detalhamento completo em Orçamento de Infraestrutura Colliers. Três cenários entre US 5.200/mês (prd+hml) — AWS + Databricks. Recomendação: iniciar no Cenário 1, escalar conforme Sienge e agentes Costal entrarem em produção.