Visão Geral — Data Lakehouse Colliers
Arquitetura de referência
flowchart TB subgraph SOURCES["Fontes de Dados"] direction TB S1["ERP Sienge\nREST + BULK + Webhooks"] S2["Smart Colliers\n(LiveFacilities)\nREST API — 17 endpoints"] S3["SharePoint / OneDrive\nMicrosoft Graph API\n138K arq / 371 GB"] S4["Microsoft 365\nTeams · Outlook · Zoom\nGraph API"] S5["Planilhas Operacionais\nExcel / XLSM\nOrçamentação · Controle"] S6["Documentos Não-Estruturados\nPDF · DWG · JPG · MP4\nProjetos · Laudos · Fotos"] S7["Dados Externos\nSiiLa · Buildings\nINCC · CUB · GIS"] end subgraph INGESTION["Ingestão"] direction LR I1["Conectores REST\n(Databricks Autoloader\n+ AWS Lambda)"] I2["Webhook Receiver\n(AWS Lambda\nidempotente por x-sienge-id)"] I3["Graph API Connector\n(SharePoint · Teams · Mail)"] I4["Batch / File Drop\n(S3 Event trigger)"] end subgraph LAKE["Data Lakehouse — AWS + Databricks + Delta Lake"] direction TB BR["BRONZE — Raw\nDelta + Parquet\nImutável · Append-only\nRetencao 7 anos"] SI["SILVER — Curated\nDelta Lake (ACID)\nValidado · Deduplicado\nRetencao 3 anos"] GO["GOLD — Serving\nDelta Lake\nAgregado · Dimensional\nRetencao 1-2 anos rolling"] end subgraph CATALOG["Governança"] UC["Unity Catalog\nMetadados · Linhagem\nRBAC · Column Masking"] DQ["Data Quality\n(dbt tests + Great Expectations)"] end subgraph SERVING["Consumo"] PBI["Power BI\nDashboards executivos\nIM · REMS · SPS"] AG["Agentes IA Costal\n(Atlas · Sentinel · King\nVisor · Source...)"] API["APIs internas\n(FastAPI / AWS Lambda)"] DS["Data Scientists\nDatabricks Notebooks\nMLflow"] end S1 --> I1 S1 --> I2 S2 --> I1 S3 --> I3 S4 --> I3 S5 --> I4 S6 --> I4 S7 --> I4 I1 --> BR I2 --> BR I3 --> BR I4 --> BR BR --> SI SI --> GO UC -.->|governa| BR UC -.->|governa| SI UC -.->|governa| GO DQ -.->|valida| SI GO --> PBI GO --> AG GO --> API SI --> DS style SOURCES fill:#f5f0ff,stroke:#6b4e8d style INGESTION fill:#fff4e8,stroke:#c65911 style LAKE fill:#e8f5e8,stroke:#2e7d32 style CATALOG fill:#f0f0f0,stroke:#595959 style SERVING fill:#e8f4f8,stroke:#2e75b6
Domínios de dados identificados
Baseado no inventário de 138.477 arquivos e nas discovery sessions, a Colliers opera 5 domínios de dados principais:
| # | Domínio | Divisão | Fonte primária | Criticidade |
|---|---|---|---|---|
| D1 | Project Management (SPS) | CTS / SPS | SharePoint · Sienge · Planilhas | Alta |
| D2 | Inteligência de Mercado (IM) | Research | SharePoint · SiiLa · Buildings · GIS | Alta |
| D3 | Gestão Condominial (REMS) | CREMS | Smart Colliers (LiveFacilities) | Alta |
| D4 | Avaliação Imobiliária (CIVAS) | CIVAS | SharePoint · Planilhas XLSM | Média |
| D5 | Corporativo | Colliers HQ | SharePoint · Microsoft 365 | Média |
D1 — Project Management (SPS)
Maior volume em arquivos por projeto. Padrão NNN-AA-CLIENTE. Subdomínios:
- Orçamentação — planilhas Excel (CPUs, BDI, cotações de fornecedores). Sienge ainda não operacional para este subdomínio.
- Controle de obra — RDOs, medições, contratos de terceiros, cronograma
- Documentação técnica — DWGs, PDFs de projeto executivo, memoriais
- Fotos e registros — JPG de obra, vídeos, drones
D2 — Inteligência de Mercado (IM)
Pipeline analítico estruturado: Buildings/SiiLa → Excel → R → Power BI. Séries trimestrais 2018–2026. Subdomínios:
- Escritórios corporativos — série histórica SP, BH, BSB, POA
- Logística — pesquisa mercado logístico Brasil
- Capital Markets — indicadores macro históricos
- GIS — 1.640 MXD ArcGIS + shapefiles + KML
D3 — Gestão Condominial (REMS)
Sistema transacional: Smart Colliers (LiveFacilities). Acesso atual: SQL Server direto → Power BI (sem ETL). Subdomínios:
- Financeiro condomínio — boletos, DARFs, FGTS, prestação de contas, receitas/despesas
- Contratos e OS — ordens de serviço, mandatos, contratos de manutenção
- Relatórios operacionais — Sumex (132 docs/semana), ROP (64 docs/mês), Book Financeiro (75 docs/mês)
- Inadimplência — módulo de inadimplência com histórico
D4 — Avaliação Imobiliária (CIVAS)
Arquivo histórico 2016–2019 (2020–2024 ausente — gap). Workflow documentado via nomenclatura: proposta → aceite → entrega → laudo. Subdomínios:
- Laudos — PDFs + Excel XLSM com macros de cálculo
- Pipeline comercial — planilha Pipe YYYY (versão diária)
- GIS — KMZ/KML localização de imóveis avaliados
D5 — Corporativo
- Comunicações (Teams, Outlook, Zoom)
- Gestão documental geral
- RH / Compliance (dados pessoais — LGPD crítico)
Princípios de design adotados para V0
- Domínio como unidade de organização — pastas Bronze/Silver/Gold particionadas por domínio, não por fonte
- Fonte de verdade declarada por entidade — cada entidade tem um único
source_of_truthregistrado no Unity Catalog - Smart Colliers via API, não SQL direto — substituir acesso SQL Server por ingestão via REST API para manter governança
- Sienge como ERP de registro — dados Costal convergem para o Sienge; o Lake espelha e enriquece
- Chave composta
(tenant, entity_id)— suporte multi-tenant CTS × Costal desde o dia 1 - LGPD desde o Bronze — PII flagado na ingestão, mascarado no Silver, nunca exposto no Gold