Visão Geral — Data Lakehouse Colliers

Arquitetura de referência

flowchart TB
    subgraph SOURCES["Fontes de Dados"]
        direction TB
        S1["ERP Sienge\nREST + BULK + Webhooks"]
        S2["Smart Colliers\n(LiveFacilities)\nREST API — 17 endpoints"]
        S3["SharePoint / OneDrive\nMicrosoft Graph API\n138K arq / 371 GB"]
        S4["Microsoft 365\nTeams · Outlook · Zoom\nGraph API"]
        S5["Planilhas Operacionais\nExcel / XLSM\nOrçamentação · Controle"]
        S6["Documentos Não-Estruturados\nPDF · DWG · JPG · MP4\nProjetos · Laudos · Fotos"]
        S7["Dados Externos\nSiiLa · Buildings\nINCC · CUB · GIS"]
    end

    subgraph INGESTION["Ingestão"]
        direction LR
        I1["Conectores REST\n(Databricks Autoloader\n+ AWS Lambda)"]
        I2["Webhook Receiver\n(AWS Lambda\nidempotente por x-sienge-id)"]
        I3["Graph API Connector\n(SharePoint · Teams · Mail)"]
        I4["Batch / File Drop\n(S3 Event trigger)"]
    end

    subgraph LAKE["Data Lakehouse — AWS + Databricks + Delta Lake"]
        direction TB
        BR["BRONZE — Raw\nDelta + Parquet\nImutável · Append-only\nRetencao 7 anos"]
        SI["SILVER — Curated\nDelta Lake (ACID)\nValidado · Deduplicado\nRetencao 3 anos"]
        GO["GOLD — Serving\nDelta Lake\nAgregado · Dimensional\nRetencao 1-2 anos rolling"]
    end

    subgraph CATALOG["Governança"]
        UC["Unity Catalog\nMetadados · Linhagem\nRBAC · Column Masking"]
        DQ["Data Quality\n(dbt tests + Great Expectations)"]
    end

    subgraph SERVING["Consumo"]
        PBI["Power BI\nDashboards executivos\nIM · REMS · SPS"]
        AG["Agentes IA Costal\n(Atlas · Sentinel · King\nVisor · Source...)"]
        API["APIs internas\n(FastAPI / AWS Lambda)"]
        DS["Data Scientists\nDatabricks Notebooks\nMLflow"]
    end

    S1 --> I1
    S1 --> I2
    S2 --> I1
    S3 --> I3
    S4 --> I3
    S5 --> I4
    S6 --> I4
    S7 --> I4

    I1 --> BR
    I2 --> BR
    I3 --> BR
    I4 --> BR

    BR --> SI
    SI --> GO

    UC -.->|governa| BR
    UC -.->|governa| SI
    UC -.->|governa| GO
    DQ -.->|valida| SI

    GO --> PBI
    GO --> AG
    GO --> API
    SI --> DS

    style SOURCES fill:#f5f0ff,stroke:#6b4e8d
    style INGESTION fill:#fff4e8,stroke:#c65911
    style LAKE fill:#e8f5e8,stroke:#2e7d32
    style CATALOG fill:#f0f0f0,stroke:#595959
    style SERVING fill:#e8f4f8,stroke:#2e75b6

Domínios de dados identificados

Baseado no inventário de 138.477 arquivos e nas discovery sessions, a Colliers opera 5 domínios de dados principais:

#DomínioDivisãoFonte primáriaCriticidade
D1Project Management (SPS)CTS / SPSSharePoint · Sienge · PlanilhasAlta
D2Inteligência de Mercado (IM)ResearchSharePoint · SiiLa · Buildings · GISAlta
D3Gestão Condominial (REMS)CREMSSmart Colliers (LiveFacilities)Alta
D4Avaliação Imobiliária (CIVAS)CIVASSharePoint · Planilhas XLSMMédia
D5CorporativoColliers HQSharePoint · Microsoft 365Média

D1 — Project Management (SPS)

Maior volume em arquivos por projeto. Padrão NNN-AA-CLIENTE. Subdomínios:

  • Orçamentação — planilhas Excel (CPUs, BDI, cotações de fornecedores). Sienge ainda não operacional para este subdomínio.
  • Controle de obra — RDOs, medições, contratos de terceiros, cronograma
  • Documentação técnica — DWGs, PDFs de projeto executivo, memoriais
  • Fotos e registros — JPG de obra, vídeos, drones

D2 — Inteligência de Mercado (IM)

Pipeline analítico estruturado: Buildings/SiiLa → Excel → R → Power BI. Séries trimestrais 2018–2026. Subdomínios:

  • Escritórios corporativos — série histórica SP, BH, BSB, POA
  • Logística — pesquisa mercado logístico Brasil
  • Capital Markets — indicadores macro históricos
  • GIS — 1.640 MXD ArcGIS + shapefiles + KML

D3 — Gestão Condominial (REMS)

Sistema transacional: Smart Colliers (LiveFacilities). Acesso atual: SQL Server direto → Power BI (sem ETL). Subdomínios:

  • Financeiro condomínio — boletos, DARFs, FGTS, prestação de contas, receitas/despesas
  • Contratos e OS — ordens de serviço, mandatos, contratos de manutenção
  • Relatórios operacionais — Sumex (132 docs/semana), ROP (64 docs/mês), Book Financeiro (75 docs/mês)
  • Inadimplência — módulo de inadimplência com histórico

D4 — Avaliação Imobiliária (CIVAS)

Arquivo histórico 2016–2019 (2020–2024 ausente — gap). Workflow documentado via nomenclatura: proposta → aceite → entrega → laudo. Subdomínios:

  • Laudos — PDFs + Excel XLSM com macros de cálculo
  • Pipeline comercial — planilha Pipe YYYY (versão diária)
  • GIS — KMZ/KML localização de imóveis avaliados

D5 — Corporativo

  • Comunicações (Teams, Outlook, Zoom)
  • Gestão documental geral
  • RH / Compliance (dados pessoais — LGPD crítico)

Princípios de design adotados para V0

  1. Domínio como unidade de organização — pastas Bronze/Silver/Gold particionadas por domínio, não por fonte
  2. Fonte de verdade declarada por entidade — cada entidade tem um único source_of_truth registrado no Unity Catalog
  3. Smart Colliers via API, não SQL direto — substituir acesso SQL Server por ingestão via REST API para manter governança
  4. Sienge como ERP de registro — dados Costal convergem para o Sienge; o Lake espelha e enriquece
  5. Chave composta (tenant, entity_id) — suporte multi-tenant CTS × Costal desde o dia 1
  6. LGPD desde o Bronze — PII flagado na ingestão, mascarado no Silver, nunca exposto no Gold

Ver também