Roadmap de Implementação — V0 → Produção

Roadmap faseado alinhado com: (1) cronograma Sienge abr–out 2026, (2) ondas de agentes Costal, (3) maturidade de dados identificada no inventário.


Fase 1 — Fundação (semanas 1–6)

Objetivo: Infraestrutura mínima operacional + primeiras 2 fontes no Bronze

Infra

  • Provisionar buckets AWS S3 (colliers-lake-dev + colliers-lake-prd) em us-east-1
  • Criar workspace Databricks (AWS) com Unity Catalog habilitado
  • Configurar AWS IAM — roles e grupos RBAC iniciais (Admin, Data Engineer)
  • Criar prefixos S3 por camada (bronze/, silver/, gold/) + S3 Lifecycle Policies de retenção
  • Configurar AWS Secrets Manager para secrets (Sienge API credentials, Smart Colliers token)
  • Habilitar audit logs do Unity Catalog → armazenar em bronze/corp/audit

Ingestão — Sienge (P1)

  • Criar credencial de API no Portal de Integrações Sienge (tenant CTS)
  • Implementar conector BULK → bronze/sps/sienge/ (priority: purchase_orders, contracts)
  • Implementar webhook receiver (AWS Lambda) para eventos Sienge
    • Idempotência por x-sienge-id
    • Roteamento por x-sienge-tenant (CTS vs Costal)
    • DLQ (Dead Letter Queue) para falhas de ingestão
  • Carga histórica inicial via BULK (todos os módulos em implantação)

Ingestão — Smart Colliers (P1)

  • Mapear autenticação (login/loginsistema/ → token)
  • Implementar conector REST → bronze/rems/smart_colliers/ (priority: buildings, contracts, financial_monthly)
  • Orquestrar com Databricks Workflows (job diário 01h)

Unity Catalog

  • Registrar primeiros datasets Bronze com metadados obrigatórios
  • Configurar column masking para campos PII de condôminos

Critério de saída: Sienge + Smart Colliers chegando no Bronze, jobs estáveis por 5 dias seguidos.


Fase 2 — Silver e Primeiros Gold (semanas 7–14)

Objetivo: Camada Silver operacional para SPS e REMS + primeiros Gold para Power BI

Transformações Silver — SPS

  • Pipeline dbt: bronze.sps.sienge.purchase_orderssilver.sps.purchase_orders
  • Pipeline dbt: bronze.sps.sienge.contracts + measurementssilver.sps.measurements
  • Pipeline dbt: bronze.sps.sienge.budget_baselinesilver.sps.budget_vs_actual (join com actuals)
  • Pipeline dbt: bronze.sps.sienge.construction_reportssilver.sps.construction_reports
  • Implementar dbt tests para entidades Silver SPS

Transformações Silver — REMS

  • Pipeline dbt: bronze.rems.smart_colliers.financial_*silver.rems.financial_monthly
  • Pipeline dbt: bronze.rems.smart_colliers.service_orderssilver.rems.service_orders
  • Pipeline dbt: bronze.rems.smart_colliers.buildingssilver.rems.buildings (dim)
  • Implementar dbt tests para entidades Silver REMS

Gold — SPS

  • gold.sps.project_performance: custo orçado vs realizado por projeto
  • gold.sps.supplier_scorecard: histórico de preço e prazo por fornecedor

Gold — REMS

  • gold.rems.financial_dashboard: previsto x realizado mensal por empreendimento
  • gold.rems.building_health: índice de saúde operacional (KPI composto)

Power BI

  • Conectar Power BI ao Gold via Databricks SQL connector (substituir SQL Server direto do Smart Colliers)
  • Publicar Dashboard SPS (project_performance)
  • Publicar Dashboard REMS (financial_dashboard)

Documentos não-estruturados (início)

  • Pipeline de extração Sumex (132 docs): template parsing → silver/rems/sumex_weekly
  • Pipeline de extração ROP (64 docs): structured extraction → silver/rems/rop_monthly

Critério de saída: Power BI funcionando via Lake (não mais SQL Server direto), 2 dashboards publicados.


Fase 3 — SharePoint + IM + Feature Store (semanas 15–22)

Objetivo: IM no Lake, Book Financeiro estruturado, feature store para agentes Onda 1

Ingestão — SharePoint / OneDrive (P1)

  • Implementar conector Graph API (delta sync) → bronze/sps/sharepoint/projects/
  • Implementar conector Graph API → bronze/im/sharepoint/
  • Configurar DLP scan no Bronze para detecção de PII em documentos (AWS Macie)

Transformações Silver — IM

  • Pipeline dbt: bronze.im.sharepoint.offices + external.siilasilver.im.offices_market
  • Pipeline dbt: bronze.im.sharepoint.logisticssilver.im.logistics_market
  • Pipeline dbt: bronze.ext.incc + bronze.ext.cubsilver.ext.construction_indexes

Gold — IM

  • gold.im.market_dashboard: painel de mercado (escritórios + logística)
  • gold.im.benchmarks: custo/m² por tipologia e região (alimenta Atlas)

Feature Store para Agentes (Onda 1)

  • gold.cross.ai_feature_store.budget_history: histórico de CPUs para Atlas
  • gold.cross.ai_feature_store.contracts_index: índice de contratos para Sentinel
  • gold.cross.ai_feature_store.financial_signals: sinais financeiros para King

Book Financeiro

  • Pipeline Document AI: bronze/rems/documents/book_financeiro/ → silver/rems/book_financeiro_monthly

Critério de saída: Feature store disponível para equipe de agentes Costal. IM no Lake.


Fase 4 — CIVAS, Otimização e Governança Completa (semanas 23+)

Objetivo: Cobertura completa de fontes, tuning de performance, governança madura

Ingestão — CIVAS

  • Carga histórica: bronze/civas/sharepoint/appraisals/ (anos 2016–2019)
  • Investigar laudos 2020–2024 ausentes (Q-018 — perguntar Ricardo Betancourt)
  • Pipeline LLM: extração estruturada de laudos PDF → silver/civas/appraisals

Otimização

  • Z-ordering nas tabelas Silver de alta cardinalidade (project_id, building_id, contract_id)
  • Compactação automática com Databricks Optimize (scheduled job noturno)
  • Bloom filters em joins frequentes (contract_id, supplier_id)
  • Liquid clustering nas tabelas Gold (tuning por padrão de query do Power BI)

Governança

  • Catálogo Unity Catalog completo para todos os datasets (Bronze + Silver + Gold)
  • Lineage em nível de coluna para datasets Restrito e Confidencial
  • Dashboard de qualidade de dados (dbt docs + alertas automáticos)
  • Processo LGPD testado ponta-a-ponta (soft-delete → hard-delete → rebuild Gold)
  • Nomeação formal de Data Stewards por domínio

Comunicações Microsoft 365

  • Teams → bronze/corp/teams (Graph API)
  • Outlook → bronze/corp/emails (Graph API)
  • Zoom gravações + transcrições → bronze/corp/zoom

Mapa de dependências críticas

DependênciaImpactoOwnerStatus
Sienge em operação (módulos FIN + SUP + ENG)Bloqueia Fase 1 SiengeRafael + GesconEm implantação (go-live estimado out/2026)
Credencial API Sienge confirmada (versão CTS)Bloqueia conector SiengeGabriel + Carlos (Gescon)Pendente
Smart Colliers: confirmar autenticação APIBloqueia Fase 1 Smart ColliersGabriel + RobsonPendente
AWS account aprovada (IAM, billing, limites de serviço)Bloqueia toda infraTI Colliers + AnoukPendente
Power BI migração (SQL Server → Lake)Fase 2Gabriel + BI ColliersPlanejado
Agentes Onda 1 (Atlas, Sentinel) — especificaçãoFase 3 feature storeEquipe CostalEm andamento

Riscos identificados

IDRiscoProbabilidadeImpactoMitigação
R-001Sienge implantação atrasa além de out/2026AltaAltoComeçar com Smart Colliers + SharePoint; Sienge entra depois
R-002Dados históricos SPS (~500 projetos) não acessíveisMédiaAltoCarga parcial por prioridade de projeto; não bloquear
R-003Smart Colliers não tem API de histórico (só atual)MédiaMédioExtrair snapshots diários desde o início
R-004PII em documentos não detectado pelo DLPBaixaAltoRevisão manual amostral + prompt de LLM classificador
R-005Laudos CIVAS 2020–2024 em outra biblioteca não mapeadaMédiaBaixoQ-018 precisa ser respondida antes de priorizar CIVAS
R-006BDI e margens vazam para Gold via feature storeBaixaAltoRevisão obrigatória de todos os campos da feature store

Estimativa de custo (referência)

Detalhamento completo em Orçamento de Infraestrutura Colliers. Três cenários entre US 5.200/mês (prd+hml) — AWS + Databricks. Recomendação: iniciar no Cenário 1, escalar conforme Sienge e agentes Costal entrarem em produção.