Orçamento de Infraestrutura | Data Lakehouse Colliers

Escopo: infraestrutura AWS + Databricks para o Data Lakehouse Colliers. Excluído: Microsoft 365, SharePoint e Power BI Pro (licenças Colliers existentes), Sienge ERP (SaaS Costal/Gescon), internet e redes corporativas. Base de volume: inventário de 138.477 arquivos / 371,5 GB realizado em 2026-05-08 (04-referencia/colliers/onedrive-inventario/). Metodologia de preço: mesma base do orçamento Costal (Lucas Andrade) — Databricks Premium, EC2 m5.xlarge spot+on-demand, região N. Virginia.


TL;DR — O que reservar no orçamento

CenárioFases do RoadmapUSD/mês (prd+hml)USD/ano (extrap.)
1 — FundaçãoFases 1–2 (sem. 1–14)~$ 780~$ 9.360
2 — ConsolidaçãoFases 2–3 (sem. 15–22)~$ 1.530~$ 18.360
3 — EscalaFase 4+ (sem. 23+)~$ 5.200~$ 62.400

Recomendação para orçamento 2026 (12 meses): reservar entre US 18.000 — assumindo 8 meses no Cenário 1 + 4 meses no Cenário 2, com folga de 20% para acomodar entrada antecipada do Sienge ou crescimento de uso.

**Por que tão mais barato que o orçamento Costal (US 15K para ~US$ 780/mês.


1. Premissas gerais

PremissaValorJustificativa
Cloud providerAWSMesma plataforma do Data Lake Costal; consistência operacional
Região AWSus-east-1 (N. Virginia)Mais barata; latência aceitável para batch + BI corporativo
Plano DatabricksPremiumNecessário: Unity Catalog, column masking (LGPD), RBAC, audit logs
Ambientesprd + hml/devPadrão de governança; hml com uso reduzido
Compute Jobsm5.xlarge (4 vCPU, 16 GB) — driver on-demand + workers SpotMesmo tipo do orçamento Costal; Spot reduz custo em ~70%
Preço JobsUS$ 0,1125/hora/nó (DBU + EC2 Spot, Databricks Premium)Referência: Lucas Andrade / orçamento Costal
SQL WarehouseSmall (C1–C2) → Medium (C3) com auto-stop 10 minDimensionamento por concorrência real esperada
Preço SQL SmallUS$ 2,64/horaMetade do Medium (referência: orçamento Costal)
Preço SQL MediumUS$ 5,28/horaReferência exata do orçamento Costal (Lucas Andrade)
Power BI modeImport no C1–C2; Direct Query parcial no C3Import elimina necessidade de SQL Warehouse contínuo
dbtdbt Core dentro do Databricks WorkflowsZero custo adicional

2. Volume de dados — base do inventário

2.1 Dados existentes (carga inicial SharePoint)

BibliotecaDivisãoArquivosVolumeTipo dominanteSync
Cloud Colliers BrasilSPS27.716145,7 GBPDF, JPG, DWG, XLSXDiário (delta)
ResearchIM57.793117,0 GBPDF, XLSX, MXD, GISDiário (delta)
Anos AnterioresCIVAS52.968108,8 GBJPG, PDF, XLSMÚnico + mensal
Total SharePoint138.477371,5 GB

2.2 Dados transacionais (APIs)

FonteEndpoints / MódulosVolume/mêsFrequência
Smart Colliers (LiveFacilities)17 endpoints REST~50 MB estruturadoDiário
Sienge (CTS + Costal)13 entidades — REST + BULK + Webhook~200 MB estruturadoEvent-driven + Diário
Externos (INCC, CUB, IBGE, OpenMeteo)6 fontes públicas~5 MBMensal/Diário

2.3 Documentos gerados periodicamente (processamento LLM)

TipoDocs/mêsFrequênciaPipeline destino
Sumex (Sumário Executivo)528Semanalsilver/rems/sumex_weekly
ROP (Relatório Operacional)64Mensalsilver/rems/rop_monthly
Book Financeiro75Mensalsilver/rems/book_financeiro_monthly
Laudos CIVAS~50Sob demandasilver/civas/appraisals

2.4 Projeção de volume no lake (S3)

CamadaC1C2C3
Bronze — blobs originais (PDF, DWG, JPG)420 GB550 GB750 GB
Bronze — estruturado Parquet (APIs)150 GB300 GB550 GB
Silver — Delta Lake100 GB250 GB500 GB
Gold — Delta Lake30 GB100 GB200 GB
Total~700 GB~1,2 TB~2 TB

3. Detalhamento por componente

3.1 AWS S3 — Armazenamento

Estratégia de tiering via S3 Lifecycle Policy:

  • Standard: Gold + Silver (acesso frequente pelo SQL Warehouse)
  • Standard-IA: Bronze estruturado com > 30 dias (acesso infrequente)
  • Glacier Instant Retrieval: Bronze blobs (PDFs, JPGs, DWGs) com > 90 dias
  • Glacier Deep Archive: Bronze com > 2 anos (retenção regulatória de 7 anos a custo mínimo)
ItemTaxaC1C2C3
S3 Standard (Gold + Silver ativo)US$ 0,023/GB$ 4$ 8$ 16
S3 Standard-IA (Bronze estruturado)US$ 0,0125/GB$ 2$ 4$ 7
S3 Glacier IR (Bronze blobs)US$ 0,004/GB$ 2$ 2$ 3
S3 Outbound (saída para internet)US$ 0,09/GB$ 9$ 18$ 36
Operações (PUT/GET/LIST)US$ 0,005/10K ops$ 9$ 16$ 22
Total S3$ 26$ 48$ 84

Armazenamento representa < 3% do custo total em todos os cenários. O tiering agressivo (Glacier para blobs antigos) reduz custo de longa retenção em ~85% vs Standard.


3.2 AWS Lambda + EventBridge — Ingestão serverless

Responsáveis por: webhook receiver Sienge (idempotente por x-sienge-id), schedulers para Graph API Microsoft (delta sync diário das 3 bibliotecas SharePoint), S3 Event notifications para triggers de pipeline.

ItemEstimativaC1C2C3
Execuções Lambda/mês< 1M (tier gratuito: 1M grátis)$ 3$ 6$ 8
EventBridge (S3 + scheduler)~100K events$ 1$ 2$ 2
Total Lambda + EventBridge$ 4$ 8$ 10

O tier gratuito do Lambda cobre o volume inteiro do C1. Custo real < US$ 5/mês até C2.


3.3 Databricks Lakeflow Jobs — Pipelines batch

Responsável por: ingestão REST/BULK das APIs, Graph API delta sync (SharePoint), Bronze → Silver (dbt on Databricks), Silver → Gold, OPTIMIZE/VACUUM/Z-ordering noturno.

Premissas de sizing (mesma metodologia Lucas Andrade):

  • Instância: m5.xlarge (4 vCPU, 16 GB RAM) — 1 DBU/hora
  • Plano: Databricks Premium, Lakeflow Jobs Classic
  • Preço all-in (DBU + EC2 Spot): US$ 0,1125/hora/nó
  • Driver: on-demand (nunca spot — garante estabilidade); Workers: Spot com auto-retry
ConfiguraçãoC1C2C3
Nós total (driver + workers)1 + 3 = 41 + 5 = 61 + 8 = 9
Horas/dia (janela batch)6h8h10h
Horas/mês (prd)180h240h300h
prd$ 81$ 162$ 304
hml/dev (50% horas, 66% nós)$ 27$ 54$ 101
GPU ocasional (Document AI LLM)$ 48
Total Lakeflow Jobs$ 108$ 216$ 453

Lakeflow Jobs representa 14–9% do custo total. Uso de Spot para workers é a principal alavanca — sem ela, o custo triplicaria.


3.4 Databricks SQL Warehouse — Serving layer

É o maior componente de custo — mesma dinâmica do orçamento Costal. Responde a todas as queries: Power BI dashboards, Costal agents (feature store), analistas internos.

Configurações disponíveis (AWS, Databricks Premium, Classic SQL Compute):

TamanhoConcorrência típicaUS$/hora
Small≤ 15 queries concorrentesUS$ 2,64
Medium≤ 40 queries concorrentesUS$ 5,28
LargeAlto volume / Costal full-scaleUS$ 10,56

Principal alavanca de custo: auto-stop + modo Power BI

O SQL Warehouse só fatura quando está ativo. Com auto-stop de 10 minutos idle e Power BI em Import mode (refresh agendado 2×/dia, cada refresh usa o warehouse por ~15 min), o warehouse fica ativo apenas ~150h/mês no C1 — em vez de 720h/mês (24/7).

Estratégia por cenário:

C1 — Fundação: Smart Colliers + SharePoint apenas. Power BI Import mode (2 dashboards). Costal agents básico (feature store inicial). Warehouse ativo ~150h/mês prd com auto-stop.

C2 — Consolidação: Sienge ativo. Costal Onda 1 consultando feature store. Power BI com 4–5 dashboards. 1 dashboard REMS em Direct Query (SLA mais exigente). Warehouse ~300h/mês prd.

C3 — Escala: Costal Onda 1–2 plenas, potencialmente requisitando feature store fora do horário comercial. Power BI Direct Query para dashboards críticos. Necessita 24/7 Medium.

ConfiguraçãoC1C2C3
SQL Warehouse prdSmall, 150h/mês: $ 396Small, 300h/mês: $ 792Medium, 720h/mês: $ 3.802
SQL Warehouse hmlSmall, 60h/mês: $ 158Small, 100h/mês: $ 264Small, 200h/mês: $ 528
Total SQL Warehouse$ 554$ 1.056$ 4.330

SQL Warehouse = 71–83% do custo total em todos os cenários. Exatamente o mesmo padrão do orçamento Costal: “qualquer otimização de custo passa por revisar o SQL Warehouse.”


3.5 LLM API — Extração de documentos não-estruturados

Sumex, ROP, Book Financeiro e Laudos CIVAS são processados via chamada a API externa de LLM (Claude Haiku ou equivalente). Não há custo adicional de GPU no Databricks — o pipeline invoca a API e persiste o resultado no Silver.

DocumentoDocs/mêsInput tokensCusto estimado
Sumex528~3.000 tokens/doc → 1,6M$ 1,50
ROP64~10.000 tokens/doc → 640K$ 0,60
Book Financeiro75~30.000 tokens/doc → 2,25M$ 2,00
Laudos CIVAS~50~10.000 tokens/doc → 500K$ 0,50

Preço referência: Claude Haiku ~US 4,00/M tokens output.

FaseDocumentos ativosC1C2C3
LLM API— / Sumex + ROP / Todos$ 0$ 8$ 15

Custo marginal. A alternativa de modelo local (GPU no Databricks EC2 P3/G4) custaria US$ 150–300/mês mas elimina dependência de API externa — avaliar se volume de Laudos CIVAS escalar muito.


3.6 Serviços auxiliares AWS

ServiçoFunçãoC1C2C3
AWS Secrets ManagerCredenciais API (Sienge, Smart Colliers, Graph API)$ 5$ 6$ 7
Amazon CloudWatchAlertas de pipeline, SLA freshness, dashboards de custo$ 10$ 15$ 20
AWS Macie (DLP, opcional)Scan automático de PII em S3 Bronze$ 0$ 10$ 10
Amazon API Gateway (opcional)Gateway REST para agentes Costal consultarem feature store$ 0$ 10$ 15
AWS KMSCriptografia S3 (CMK para dados PII Bronze)$ 5$ 5$ 5
Total auxiliares$ 20$ 46$ 57

4. Resumo consolidado por cenário

Cenário 1 — Fundação

Quando: meses 1–8 (Fases 1–2 do roadmap). Sienge ainda em implantação (go-live estimado out/2026). Fontes: Smart Colliers + SharePoint (3 bibliotecas, delta sync diário). Consumers: Power BI Import mode (2 dashboards), feature store básica para Costal agents.

ComponenteConfiguraçãoUSD/mês
AWS S3~700 GB (Standard + Standard-IA + Glacier)$ 26
AWS Lambda + EventBridgeWebhook Sienge + Graph API schedulers$ 4
Databricks Lakeflow Jobs4 nós, 6h/dia, prd+hml$ 108
Databricks SQL WarehouseSmall, auto-stop, 150h prd + 60h hml$ 554
LLM APINão ativo$ 0
Auxiliares (Secrets Mgr, CloudWatch, KMS)$ 20
TOTAL$ 712
Com buffer 10%≈ $ 780

Cenário 2 — Consolidação

Quando: meses 9–16 (Fases 2–3). Sienge ativo. Todos os domínios principais no Silver. Fontes: + Sienge (BULK + Webhook). Document AI: Sumex + ROP. Consumers: Power BI (4–5 dashboards, 1 em Direct Query), Costal Onda 1, analistas internos.

ComponenteConfiguraçãoUSD/mês
AWS S3~1,2 TB (tiering agressivo)$ 48
AWS Lambda + EventBridgeVolume maior (Sienge webhooks)$ 8
Databricks Lakeflow Jobs6 nós, 8h/dia, prd+hml$ 216
Databricks SQL WarehouseSmall, auto-stop, 300h prd + 100h hml$ 1.056
LLM APISumex + ROP (~3M tokens/mês)$ 8
Auxiliares (+ Macie + API Gateway)$ 46
TOTAL$ 1.382
Com buffer 10%≈ $ 1.520

Cenário 3 — Escala Completa

Quando: meses 17+ (Fase 4+). Todos os domínios ativos (SPS, REMS, IM, CIVAS, Corp, Ext). Fontes: + CIVAS histórico + comunicações M365 (Teams, Outlook, Zoom). Consumers: Power BI 6+ dashboards (Direct Query), Costal Onda 1–2, analistas, data scientists.

ComponenteConfiguraçãoUSD/mês
AWS S3~2 TB (tiering máximo com Glacier Deep Archive)$ 84
AWS Lambda + EventBridgeVolume completo de todas as fontes$ 10
Databricks Lakeflow Jobs9 nós, 10h/dia, prd+hml + GPU ocasional$ 453
Databricks SQL WarehouseMedium 24/7 prd + Small 200h hml$ 4.330
LLM APITodos os documentos (~8M tokens/mês)$ 15
Auxiliares (completo)$ 57
TOTAL$ 4.949
Com buffer 5%≈ $ 5.200

5. Projeção faseada 24 meses

PeríodoCenárioUSD/mêsAcumulado
Meses 1–8Fundação$ 780$ 6.240
Meses 9–16Consolidação$ 1.520$ 18.400
Meses 17–24Escala$ 5.200$ 59.000
Total 24 meses≈ $ 59.000

Recomendação orçamentária 2026 (12 meses): US 18.000 (8 meses × 1.520) = 6.080 = 15.000–$16.000)


6. Comparação com orçamento Costal (AWS — mesma plataforma)

DimensãoCostal (Lucas Andrade)Colliers
CloudAWS (N. Virginia)AWS (N. Virginia)
Plano DatabricksPremiumPremium
Instância Jobsm5.xlarge @ $0,1125/hm5.xlarge @ $0,1125/h
Preço SQL Medium$5,28/hora$5,28/hora
SQL WarehouseMedium × 2 inst. × 2 env, 24/7Small, auto-stop, prd apenas
Agentes IA26 agentes, alta concorrência3–5 agentes via feature store
Volume2–4 TB estimado0,7–2 TB inventariado
Cenário 1US$ 15.858/mêsUS$ 780/mês
Cenário 3US$ 33.121/mêsUS$ 5.200/mês

A mesma plataforma tecnológica (AWS + Databricks Premium) resulta em custos 20× menores no C1 porque o perfil de carga é completamente diferente. A Colliers não tem 26 agentes IA requisitando SQL 24/7 — o SQL Warehouse fica ativo ~20% do tempo vs 100% na Costal.


7. Alavancas de custo — onde mexer faz diferença

AlavancaImpactoDificuldade
Power BI: Direct Query → Import mode-40 a -60% no SQL WarehouseBaixa — configuração no conector Power BI
Auto-stop idle: 5 min vs 10 min (hml)-5 a -10% no SQL Warehouse hmlMuito Baixa
Desligar SQL Warehouse hml fora horário comercial-60 a -70% no custo hmlBaixa — script de start/stop no CloudWatch Events
Spot Workers no Lakeflow (já na premissa)-50 a -70% no Jobs ComputeBaixa — configurado no cluster policy + retry automático
S3 Lifecycle Policies agressivas (Glacier)-30 a -50% no storage Bronze antigoBaixa — configuração no bucket
Reserved Instances EC2 (1 ou 3 anos)-20 a -40% no SQL WarehouseMédio — requer compromisso de volume; só após 6+ meses de uso real
Mudar região para sa-east-1 (São Paulo)+25 a +30% no total— Evitar; só se compliance exigir residência de dados BR

Maior alavanca não-técnica: usar Power BI em Import mode pelo máximo de tempo possível. Migrar todos os dashboards para Direct Query quadruplica o custo do SQL Warehouse em C1–C2.


8. Gatilhos para mudança de cenário

Em vez de mudar por calendário, mudar por gatilho operacional:

C1 → C2:

  • Sienge entra em produção (go-live estimado out/2026)
  • SQL Warehouse com filas recorrentes (usuário espera > 30s para dashboard carregar)
  • Volume no lake ultrapassa 1 TB
  • Costal Onda 1 agents consultando feature store com frequência > 50 queries/dia

C2 → C3:

  • Costal Onda 2 agents ativas (precisam de feature store disponível fora horário comercial)
  • Power BI migra ≥ 3 dashboards para Direct Query
  • Volume no lake ultrapassa 1,5 TB
  • Jobs Lakeflow não fecham dentro da janela de 8h/dia

9. O que NÃO está incluído

ItemPor quê excluído
Microsoft 365, SharePoint, Power BI ProLicenças Colliers já contratadas
Sienge ERPSaaS Costal/Gescon; infraestrutura na mensalidade Softplan
Smart Colliers / LiveFacilitiesSaaS; custo separado
Redes, internet, VPNEscopo TI Colliers (Michael Sousa)
Estações de trabalho, notebooksEscopo TI Colliers
dbt Cloud (opcional)Recomendado dbt Core gratuito; se necessário: +US$ 100–200/mês
Carga inicial de dados (one-time)Dados no SharePoint → S3 via Graph API: custo de compute ~US$ 100 (único)
Treinamento de modelos ML própriosIncluir só se Colliers quiser modelos internos (Atlas paramétrico etc.); orçar à parte
SiiLa, Buildings, GIS (licenças de dados)Dados externos pagos separadamente pela Colliers Research

10. Premissas a revisar

  1. Sienge go-live: atraso além de out/2026 mantém C1 por mais tempo — benéfico para custo; adiantamento acelera migração para C2.
  2. Frequência de acesso dos agentes Costal: se Atlas/Sentinel consultarem a feature store de forma contínua 24/7 (não apenas durante o dia), o SQL Warehouse precisa migrar para 24/7 antes do C3 — antecipa custo.
  3. Direct Query Power BI: cada dashboard adicional em Direct Query mode aumenta as horas efetivas do SQL Warehouse. Monitorar com CloudWatch e revisar a cada quarter.
  4. Volume de Laudos CIVAS: se extrações LLM escalarem para > 300 docs/mês, avaliar modelo local (GPU EC2 G4dn) vs API externa.
  5. Residência de dados (compliance): se Colliers ou Costal exigirem dados em território brasileiro, migrar para sa-east-1 aumenta custos em ~25–30%. Decisão de arquitetura a confirmar com TI Colliers e jurídico.
  6. Reserved Instances: após 6 meses de uso real e padrão de consumo estabilizado, contratar Reserved EC2 para o SQL Warehouse pode economizar 20–40%. Não considerar antes.

Ver também


Histórico

DataMudança
2026-05-14v0.1 — criado com premissas Azure (ADLS Gen2)
2026-05-14v0.2 — migrado para AWS (S3 + Lambda + IAM + Macie); preços alinhados com metodologia Lucas Andrade (orçamento Costal)