Orçamento de Infraestrutura | Data Lakehouse Colliers
Escopo: infraestrutura AWS + Databricks para o Data Lakehouse Colliers. Excluído: Microsoft 365, SharePoint e Power BI Pro (licenças Colliers existentes), Sienge ERP (SaaS Costal/Gescon), internet e redes corporativas. Base de volume: inventário de 138.477 arquivos / 371,5 GB realizado em 2026-05-08 (
04-referencia/colliers/onedrive-inventario/). Metodologia de preço: mesma base do orçamento Costal (Lucas Andrade) — Databricks Premium, EC2 m5.xlarge spot+on-demand, região N. Virginia.
TL;DR — O que reservar no orçamento
| Cenário | Fases do Roadmap | USD/mês (prd+hml) | USD/ano (extrap.) |
|---|---|---|---|
| 1 — Fundação | Fases 1–2 (sem. 1–14) | ~$ 780 | ~$ 9.360 |
| 2 — Consolidação | Fases 2–3 (sem. 15–22) | ~$ 1.530 | ~$ 18.360 |
| 3 — Escala | Fase 4+ (sem. 23+) | ~$ 5.200 | ~$ 62.400 |
Recomendação para orçamento 2026 (12 meses): reservar entre US 18.000 — assumindo 8 meses no Cenário 1 + 4 meses no Cenário 2, com folga de 20% para acomodar entrada antecipada do Sienge ou crescimento de uso.
**Por que tão mais barato que o orçamento Costal (US 15K para ~US$ 780/mês.
1. Premissas gerais
| Premissa | Valor | Justificativa |
|---|---|---|
| Cloud provider | AWS | Mesma plataforma do Data Lake Costal; consistência operacional |
| Região AWS | us-east-1 (N. Virginia) | Mais barata; latência aceitável para batch + BI corporativo |
| Plano Databricks | Premium | Necessário: Unity Catalog, column masking (LGPD), RBAC, audit logs |
| Ambientes | prd + hml/dev | Padrão de governança; hml com uso reduzido |
| Compute Jobs | m5.xlarge (4 vCPU, 16 GB) — driver on-demand + workers Spot | Mesmo tipo do orçamento Costal; Spot reduz custo em ~70% |
| Preço Jobs | US$ 0,1125/hora/nó (DBU + EC2 Spot, Databricks Premium) | Referência: Lucas Andrade / orçamento Costal |
| SQL Warehouse | Small (C1–C2) → Medium (C3) com auto-stop 10 min | Dimensionamento por concorrência real esperada |
| Preço SQL Small | US$ 2,64/hora | Metade do Medium (referência: orçamento Costal) |
| Preço SQL Medium | US$ 5,28/hora | Referência exata do orçamento Costal (Lucas Andrade) |
| Power BI mode | Import no C1–C2; Direct Query parcial no C3 | Import elimina necessidade de SQL Warehouse contínuo |
| dbt | dbt Core dentro do Databricks Workflows | Zero custo adicional |
2. Volume de dados — base do inventário
2.1 Dados existentes (carga inicial SharePoint)
| Biblioteca | Divisão | Arquivos | Volume | Tipo dominante | Sync |
|---|---|---|---|---|---|
| Cloud Colliers Brasil | SPS | 27.716 | 145,7 GB | PDF, JPG, DWG, XLSX | Diário (delta) |
| Research | IM | 57.793 | 117,0 GB | PDF, XLSX, MXD, GIS | Diário (delta) |
| Anos Anteriores | CIVAS | 52.968 | 108,8 GB | JPG, PDF, XLSM | Único + mensal |
| Total SharePoint | — | 138.477 | 371,5 GB | — | — |
2.2 Dados transacionais (APIs)
| Fonte | Endpoints / Módulos | Volume/mês | Frequência |
|---|---|---|---|
| Smart Colliers (LiveFacilities) | 17 endpoints REST | ~50 MB estruturado | Diário |
| Sienge (CTS + Costal) | 13 entidades — REST + BULK + Webhook | ~200 MB estruturado | Event-driven + Diário |
| Externos (INCC, CUB, IBGE, OpenMeteo) | 6 fontes públicas | ~5 MB | Mensal/Diário |
2.3 Documentos gerados periodicamente (processamento LLM)
| Tipo | Docs/mês | Frequência | Pipeline destino |
|---|---|---|---|
| Sumex (Sumário Executivo) | 528 | Semanal | silver/rems/sumex_weekly |
| ROP (Relatório Operacional) | 64 | Mensal | silver/rems/rop_monthly |
| Book Financeiro | 75 | Mensal | silver/rems/book_financeiro_monthly |
| Laudos CIVAS | ~50 | Sob demanda | silver/civas/appraisals |
2.4 Projeção de volume no lake (S3)
| Camada | C1 | C2 | C3 |
|---|---|---|---|
| Bronze — blobs originais (PDF, DWG, JPG) | 420 GB | 550 GB | 750 GB |
| Bronze — estruturado Parquet (APIs) | 150 GB | 300 GB | 550 GB |
| Silver — Delta Lake | 100 GB | 250 GB | 500 GB |
| Gold — Delta Lake | 30 GB | 100 GB | 200 GB |
| Total | ~700 GB | ~1,2 TB | ~2 TB |
3. Detalhamento por componente
3.1 AWS S3 — Armazenamento
Estratégia de tiering via S3 Lifecycle Policy:
- Standard: Gold + Silver (acesso frequente pelo SQL Warehouse)
- Standard-IA: Bronze estruturado com > 30 dias (acesso infrequente)
- Glacier Instant Retrieval: Bronze blobs (PDFs, JPGs, DWGs) com > 90 dias
- Glacier Deep Archive: Bronze com > 2 anos (retenção regulatória de 7 anos a custo mínimo)
| Item | Taxa | C1 | C2 | C3 |
|---|---|---|---|---|
| S3 Standard (Gold + Silver ativo) | US$ 0,023/GB | $ 4 | $ 8 | $ 16 |
| S3 Standard-IA (Bronze estruturado) | US$ 0,0125/GB | $ 2 | $ 4 | $ 7 |
| S3 Glacier IR (Bronze blobs) | US$ 0,004/GB | $ 2 | $ 2 | $ 3 |
| S3 Outbound (saída para internet) | US$ 0,09/GB | $ 9 | $ 18 | $ 36 |
| Operações (PUT/GET/LIST) | US$ 0,005/10K ops | $ 9 | $ 16 | $ 22 |
| Total S3 | $ 26 | $ 48 | $ 84 |
Armazenamento representa < 3% do custo total em todos os cenários. O tiering agressivo (Glacier para blobs antigos) reduz custo de longa retenção em ~85% vs Standard.
3.2 AWS Lambda + EventBridge — Ingestão serverless
Responsáveis por: webhook receiver Sienge (idempotente por x-sienge-id), schedulers para Graph API Microsoft (delta sync diário das 3 bibliotecas SharePoint), S3 Event notifications para triggers de pipeline.
| Item | Estimativa | C1 | C2 | C3 |
|---|---|---|---|---|
| Execuções Lambda/mês | < 1M (tier gratuito: 1M grátis) | $ 3 | $ 6 | $ 8 |
| EventBridge (S3 + scheduler) | ~100K events | $ 1 | $ 2 | $ 2 |
| Total Lambda + EventBridge | $ 4 | $ 8 | $ 10 |
O tier gratuito do Lambda cobre o volume inteiro do C1. Custo real < US$ 5/mês até C2.
3.3 Databricks Lakeflow Jobs — Pipelines batch
Responsável por: ingestão REST/BULK das APIs, Graph API delta sync (SharePoint), Bronze → Silver (dbt on Databricks), Silver → Gold, OPTIMIZE/VACUUM/Z-ordering noturno.
Premissas de sizing (mesma metodologia Lucas Andrade):
- Instância: m5.xlarge (4 vCPU, 16 GB RAM) — 1 DBU/hora
- Plano: Databricks Premium, Lakeflow Jobs Classic
- Preço all-in (DBU + EC2 Spot): US$ 0,1125/hora/nó
- Driver: on-demand (nunca spot — garante estabilidade); Workers: Spot com auto-retry
| Configuração | C1 | C2 | C3 |
|---|---|---|---|
| Nós total (driver + workers) | 1 + 3 = 4 | 1 + 5 = 6 | 1 + 8 = 9 |
| Horas/dia (janela batch) | 6h | 8h | 10h |
| Horas/mês (prd) | 180h | 240h | 300h |
| prd | $ 81 | $ 162 | $ 304 |
| hml/dev (50% horas, 66% nós) | $ 27 | $ 54 | $ 101 |
| GPU ocasional (Document AI LLM) | — | — | $ 48 |
| Total Lakeflow Jobs | $ 108 | $ 216 | $ 453 |
Lakeflow Jobs representa 14–9% do custo total. Uso de Spot para workers é a principal alavanca — sem ela, o custo triplicaria.
3.4 Databricks SQL Warehouse — Serving layer
É o maior componente de custo — mesma dinâmica do orçamento Costal. Responde a todas as queries: Power BI dashboards, Costal agents (feature store), analistas internos.
Configurações disponíveis (AWS, Databricks Premium, Classic SQL Compute):
| Tamanho | Concorrência típica | US$/hora |
|---|---|---|
| Small | ≤ 15 queries concorrentes | US$ 2,64 |
| Medium | ≤ 40 queries concorrentes | US$ 5,28 |
| Large | Alto volume / Costal full-scale | US$ 10,56 |
Principal alavanca de custo: auto-stop + modo Power BI
O SQL Warehouse só fatura quando está ativo. Com auto-stop de 10 minutos idle e Power BI em Import mode (refresh agendado 2×/dia, cada refresh usa o warehouse por ~15 min), o warehouse fica ativo apenas ~150h/mês no C1 — em vez de 720h/mês (24/7).
Estratégia por cenário:
C1 — Fundação: Smart Colliers + SharePoint apenas. Power BI Import mode (2 dashboards). Costal agents básico (feature store inicial). Warehouse ativo ~150h/mês prd com auto-stop.
C2 — Consolidação: Sienge ativo. Costal Onda 1 consultando feature store. Power BI com 4–5 dashboards. 1 dashboard REMS em Direct Query (SLA mais exigente). Warehouse ~300h/mês prd.
C3 — Escala: Costal Onda 1–2 plenas, potencialmente requisitando feature store fora do horário comercial. Power BI Direct Query para dashboards críticos. Necessita 24/7 Medium.
| Configuração | C1 | C2 | C3 |
|---|---|---|---|
| SQL Warehouse prd | Small, 150h/mês: $ 396 | Small, 300h/mês: $ 792 | Medium, 720h/mês: $ 3.802 |
| SQL Warehouse hml | Small, 60h/mês: $ 158 | Small, 100h/mês: $ 264 | Small, 200h/mês: $ 528 |
| Total SQL Warehouse | $ 554 | $ 1.056 | $ 4.330 |
SQL Warehouse = 71–83% do custo total em todos os cenários. Exatamente o mesmo padrão do orçamento Costal: “qualquer otimização de custo passa por revisar o SQL Warehouse.”
3.5 LLM API — Extração de documentos não-estruturados
Sumex, ROP, Book Financeiro e Laudos CIVAS são processados via chamada a API externa de LLM (Claude Haiku ou equivalente). Não há custo adicional de GPU no Databricks — o pipeline invoca a API e persiste o resultado no Silver.
| Documento | Docs/mês | Input tokens | Custo estimado |
|---|---|---|---|
| Sumex | 528 | ~3.000 tokens/doc → 1,6M | $ 1,50 |
| ROP | 64 | ~10.000 tokens/doc → 640K | $ 0,60 |
| Book Financeiro | 75 | ~30.000 tokens/doc → 2,25M | $ 2,00 |
| Laudos CIVAS | ~50 | ~10.000 tokens/doc → 500K | $ 0,50 |
Preço referência: Claude Haiku ~US 4,00/M tokens output.
| Fase | Documentos ativos | C1 | C2 | C3 |
|---|---|---|---|---|
| LLM API | — / Sumex + ROP / Todos | $ 0 | $ 8 | $ 15 |
Custo marginal. A alternativa de modelo local (GPU no Databricks EC2 P3/G4) custaria US$ 150–300/mês mas elimina dependência de API externa — avaliar se volume de Laudos CIVAS escalar muito.
3.6 Serviços auxiliares AWS
| Serviço | Função | C1 | C2 | C3 |
|---|---|---|---|---|
| AWS Secrets Manager | Credenciais API (Sienge, Smart Colliers, Graph API) | $ 5 | $ 6 | $ 7 |
| Amazon CloudWatch | Alertas de pipeline, SLA freshness, dashboards de custo | $ 10 | $ 15 | $ 20 |
| AWS Macie (DLP, opcional) | Scan automático de PII em S3 Bronze | $ 0 | $ 10 | $ 10 |
| Amazon API Gateway (opcional) | Gateway REST para agentes Costal consultarem feature store | $ 0 | $ 10 | $ 15 |
| AWS KMS | Criptografia S3 (CMK para dados PII Bronze) | $ 5 | $ 5 | $ 5 |
| Total auxiliares | $ 20 | $ 46 | $ 57 |
4. Resumo consolidado por cenário
Cenário 1 — Fundação
Quando: meses 1–8 (Fases 1–2 do roadmap). Sienge ainda em implantação (go-live estimado out/2026). Fontes: Smart Colliers + SharePoint (3 bibliotecas, delta sync diário). Consumers: Power BI Import mode (2 dashboards), feature store básica para Costal agents.
| Componente | Configuração | USD/mês |
|---|---|---|
| AWS S3 | ~700 GB (Standard + Standard-IA + Glacier) | $ 26 |
| AWS Lambda + EventBridge | Webhook Sienge + Graph API schedulers | $ 4 |
| Databricks Lakeflow Jobs | 4 nós, 6h/dia, prd+hml | $ 108 |
| Databricks SQL Warehouse | Small, auto-stop, 150h prd + 60h hml | $ 554 |
| LLM API | Não ativo | $ 0 |
| Auxiliares (Secrets Mgr, CloudWatch, KMS) | — | $ 20 |
| TOTAL | $ 712 | |
| Com buffer 10% | ≈ $ 780 |
Cenário 2 — Consolidação
Quando: meses 9–16 (Fases 2–3). Sienge ativo. Todos os domínios principais no Silver. Fontes: + Sienge (BULK + Webhook). Document AI: Sumex + ROP. Consumers: Power BI (4–5 dashboards, 1 em Direct Query), Costal Onda 1, analistas internos.
| Componente | Configuração | USD/mês |
|---|---|---|
| AWS S3 | ~1,2 TB (tiering agressivo) | $ 48 |
| AWS Lambda + EventBridge | Volume maior (Sienge webhooks) | $ 8 |
| Databricks Lakeflow Jobs | 6 nós, 8h/dia, prd+hml | $ 216 |
| Databricks SQL Warehouse | Small, auto-stop, 300h prd + 100h hml | $ 1.056 |
| LLM API | Sumex + ROP (~3M tokens/mês) | $ 8 |
| Auxiliares (+ Macie + API Gateway) | — | $ 46 |
| TOTAL | $ 1.382 | |
| Com buffer 10% | ≈ $ 1.520 |
Cenário 3 — Escala Completa
Quando: meses 17+ (Fase 4+). Todos os domínios ativos (SPS, REMS, IM, CIVAS, Corp, Ext). Fontes: + CIVAS histórico + comunicações M365 (Teams, Outlook, Zoom). Consumers: Power BI 6+ dashboards (Direct Query), Costal Onda 1–2, analistas, data scientists.
| Componente | Configuração | USD/mês |
|---|---|---|
| AWS S3 | ~2 TB (tiering máximo com Glacier Deep Archive) | $ 84 |
| AWS Lambda + EventBridge | Volume completo de todas as fontes | $ 10 |
| Databricks Lakeflow Jobs | 9 nós, 10h/dia, prd+hml + GPU ocasional | $ 453 |
| Databricks SQL Warehouse | Medium 24/7 prd + Small 200h hml | $ 4.330 |
| LLM API | Todos os documentos (~8M tokens/mês) | $ 15 |
| Auxiliares (completo) | — | $ 57 |
| TOTAL | $ 4.949 | |
| Com buffer 5% | ≈ $ 5.200 |
5. Projeção faseada 24 meses
| Período | Cenário | USD/mês | Acumulado |
|---|---|---|---|
| Meses 1–8 | Fundação | $ 780 | $ 6.240 |
| Meses 9–16 | Consolidação | $ 1.520 | $ 18.400 |
| Meses 17–24 | Escala | $ 5.200 | $ 59.000 |
| Total 24 meses | ≈ $ 59.000 |
Recomendação orçamentária 2026 (12 meses): US 18.000 (8 meses × 1.520) = 6.080 = 15.000–$16.000)
6. Comparação com orçamento Costal (AWS — mesma plataforma)
| Dimensão | Costal (Lucas Andrade) | Colliers |
|---|---|---|
| Cloud | AWS (N. Virginia) | AWS (N. Virginia) |
| Plano Databricks | Premium | Premium |
| Instância Jobs | m5.xlarge @ $0,1125/h | m5.xlarge @ $0,1125/h |
| Preço SQL Medium | $5,28/hora | $5,28/hora |
| SQL Warehouse | Medium × 2 inst. × 2 env, 24/7 | Small, auto-stop, prd apenas |
| Agentes IA | 26 agentes, alta concorrência | 3–5 agentes via feature store |
| Volume | 2–4 TB estimado | 0,7–2 TB inventariado |
| Cenário 1 | US$ 15.858/mês | US$ 780/mês |
| Cenário 3 | US$ 33.121/mês | US$ 5.200/mês |
A mesma plataforma tecnológica (AWS + Databricks Premium) resulta em custos 20× menores no C1 porque o perfil de carga é completamente diferente. A Colliers não tem 26 agentes IA requisitando SQL 24/7 — o SQL Warehouse fica ativo ~20% do tempo vs 100% na Costal.
7. Alavancas de custo — onde mexer faz diferença
| Alavanca | Impacto | Dificuldade |
|---|---|---|
| Power BI: Direct Query → Import mode | -40 a -60% no SQL Warehouse | Baixa — configuração no conector Power BI |
| Auto-stop idle: 5 min vs 10 min (hml) | -5 a -10% no SQL Warehouse hml | Muito Baixa |
| Desligar SQL Warehouse hml fora horário comercial | -60 a -70% no custo hml | Baixa — script de start/stop no CloudWatch Events |
| Spot Workers no Lakeflow (já na premissa) | -50 a -70% no Jobs Compute | Baixa — configurado no cluster policy + retry automático |
| S3 Lifecycle Policies agressivas (Glacier) | -30 a -50% no storage Bronze antigo | Baixa — configuração no bucket |
| Reserved Instances EC2 (1 ou 3 anos) | -20 a -40% no SQL Warehouse | Médio — requer compromisso de volume; só após 6+ meses de uso real |
| Mudar região para sa-east-1 (São Paulo) | +25 a +30% no total | — Evitar; só se compliance exigir residência de dados BR |
Maior alavanca não-técnica: usar Power BI em Import mode pelo máximo de tempo possível. Migrar todos os dashboards para Direct Query quadruplica o custo do SQL Warehouse em C1–C2.
8. Gatilhos para mudança de cenário
Em vez de mudar por calendário, mudar por gatilho operacional:
C1 → C2:
- Sienge entra em produção (go-live estimado out/2026)
- SQL Warehouse com filas recorrentes (usuário espera > 30s para dashboard carregar)
- Volume no lake ultrapassa 1 TB
- Costal Onda 1 agents consultando feature store com frequência > 50 queries/dia
C2 → C3:
- Costal Onda 2 agents ativas (precisam de feature store disponível fora horário comercial)
- Power BI migra ≥ 3 dashboards para Direct Query
- Volume no lake ultrapassa 1,5 TB
- Jobs Lakeflow não fecham dentro da janela de 8h/dia
9. O que NÃO está incluído
| Item | Por quê excluído |
|---|---|
| Microsoft 365, SharePoint, Power BI Pro | Licenças Colliers já contratadas |
| Sienge ERP | SaaS Costal/Gescon; infraestrutura na mensalidade Softplan |
| Smart Colliers / LiveFacilities | SaaS; custo separado |
| Redes, internet, VPN | Escopo TI Colliers (Michael Sousa) |
| Estações de trabalho, notebooks | Escopo TI Colliers |
| dbt Cloud (opcional) | Recomendado dbt Core gratuito; se necessário: +US$ 100–200/mês |
| Carga inicial de dados (one-time) | Dados no SharePoint → S3 via Graph API: custo de compute ~US$ 100 (único) |
| Treinamento de modelos ML próprios | Incluir só se Colliers quiser modelos internos (Atlas paramétrico etc.); orçar à parte |
| SiiLa, Buildings, GIS (licenças de dados) | Dados externos pagos separadamente pela Colliers Research |
10. Premissas a revisar
- Sienge go-live: atraso além de out/2026 mantém C1 por mais tempo — benéfico para custo; adiantamento acelera migração para C2.
- Frequência de acesso dos agentes Costal: se Atlas/Sentinel consultarem a feature store de forma contínua 24/7 (não apenas durante o dia), o SQL Warehouse precisa migrar para 24/7 antes do C3 — antecipa custo.
- Direct Query Power BI: cada dashboard adicional em Direct Query mode aumenta as horas efetivas do SQL Warehouse. Monitorar com CloudWatch e revisar a cada quarter.
- Volume de Laudos CIVAS: se extrações LLM escalarem para > 300 docs/mês, avaliar modelo local (GPU EC2 G4dn) vs API externa.
- Residência de dados (compliance): se Colliers ou Costal exigirem dados em território brasileiro, migrar para
sa-east-1aumenta custos em ~25–30%. Decisão de arquitetura a confirmar com TI Colliers e jurídico. - Reserved Instances: após 6 meses de uso real e padrão de consumo estabilizado, contratar Reserved EC2 para o SQL Warehouse pode economizar 20–40%. Não considerar antes.
Ver também
- Visão Geral e Arquitetura — mapa de fontes e camadas
- Storage Schema — S3, particionamento, nomenclatura
- Roadmap de Implementação — fases e critérios de saída
- Orçamento de Infraestrutura Costal (AWS) — base metodológica de preços
- 371,5 GB
Histórico
| Data | Mudança |
|---|---|
| 2026-05-14 | v0.1 — criado com premissas Azure (ADLS Gen2) |
| 2026-05-14 | v0.2 — migrado para AWS (S3 + Lambda + IAM + Macie); preços alinhados com metodologia Lucas Andrade (orçamento Costal) |