Dicionário de Dados | Inteligência de Mercado Colliers (AS-IS)

colliers inteligencia-mercado dicionario spec

Dicionário de dados extraído da planilha modelo enviada por Leandro Braga em 24/04/2026, recebida em 25/04 e analisada nesta data. Fonte: colliers_inteligencia_mercado_modelo_dados.xlsx. A planilha veio sem dados sensíveis — apenas estrutura e amostras anonimizadas (ocupantes “A”, “B”, “C”, “D”; proprietários “D”, “E”). Esta versão é as-is (foto fiel do que existe). A versão to-be está em inteligencia-mercado-asis-vs-tobe.


Visão geral

A planilha tem 8 abas, organizadas em 2 segmentos × 4 entidades:

SegmentoBASE (temporal)FICHA (estática)VENDA (transações)CONTROLE (pesquisa)
Office (escritórios corporativos)BASE OFFICEFICHA TÉCNICA OFFICEVENDA OFFICECONTROLE OFFICE
Logística (condomínios industriais)BASE LOGÍSTICAFICHA TÉCNICA LOGÍSTICAVENDA LOGÍSTICACONTROLE LOGÍSTICA

Granularidade da BASE:

  • Office: imóvel × andar × conjunto × trimestre
  • Logística: imóvel × galpão × módulo × trimestre

Identificadores observados (inconsistentes — ver dores):

AbaNome do campo de IDFaixa observada
BASE OFFICEID500048 (escritórios começam em 5xxxxx)
FICHA TÉCNICA OFFICEID500048
VENDA OFFICEID68149 (faixa diferente!)
CONTROLE OFFICEID
BASE LOGÍSTICAID_Novo600186 (logística começa em 6xxxxx)
FICHA TÉCNICA LOGÍSTICAID_Colliers600186
VENDA LOGÍSTICA(nenhum)match por nome do imóvel — texto livre
CONTROLE LOGÍSTICAID_Novo

Integrações externas já presentes:

  • SiiLaID_SiiLa, Nome_Empreendimento_SiiLa em FICHA TÉCNICA (Office + Logística).
  • BuildingsID_Buildings, Nome_Empreendimento_Buildings em FICHA TÉCNICA (Office + Logística).
  • Fundos imobiliários (CVM)Ticker fundo + Saída prevista em CONTROLE OFFICE (não está em CONTROLE LOGÍSTICA).

Segmento 1 — Office (escritórios corporativos)

1.1 BASE OFFICE — BASE OFFICE

Granularidade: uma linha = um conjunto (ou andar inteiro) de um empreendimento, em um trimestre específico. Cardinalidade observada na amostra: 7 linhas (1 imóvel × 7 conjuntos × 1 trimestre).

#ColunaTipo inferidoExemplo amostraComentárioCrítica
AIDint (PK do imóvel)500048Liga a FICHA TÉCNICA OFFICE.ID e CONTROLE OFFICE.IDOK
BTipoenum”Escritório”Provável valor único na aba; redundante com nome da abaDenormalizado
CMercadoenum”São Paulo”Cidade ou região metropolitanaOK
DNome_Empreendimentostring”Rochaverá Corporate Towers - Torre A (Ebony Tower)“Repetido em cada linha do imóvelDenormalizado
ERegiãoenum”Chucri Zaidan”Bairro ou sub-mercado dentro da cidadeOK
FClasseenum”A+“Categorias: A+, A, B, C (provável)OK (validar enum)
GData_de_Entregadatetime2008-08-01Data de inauguração do imóvelDenormalizado (deveria estar só em FICHA)
HSTATUSenum”Concluído”Provavelmente: Concluído, Em construção, ProjetoDenormalizado
IANDARstring”2”, “3”, “4”, “5”Pode ser número ou texto (“Térreo”?)OK
JCONJUNTOstring”Andar inteiro”, “54”, “51”Tipo misto: número (sala) ou texto (“Andar inteiro”)Tipo misto frágil
KArea_Conjuntofloat (m²)1420.28Área privativa do conjuntoOK
LTrimestrestring”2016 1T”Formato YYYY NT — não-ordenável lexicalmente sem parsingFormato frágil
MOcupantestring (anonimizado)“A”, “B”, “C”Identificador da empresa ocupante; vazio = vagoOK
NSegmentoenum(vazio na amostra)Setor da empresa ocupante (TI, financeiro, etc.)OK quando preenchido
OAbsorçãoint (0/1)(vazio na amostra)1 = nova ocupação no trimestreDerivável de Ocupante vs Ocupante_Devolução
PDevoluçãoint (0/1)(vazio na amostra)1 = devolução no trimestreDerivável
QPreçofloat (R$/m²)(vazio)Preço de locação por m²OK
RCondomíniofloat (R$/m²)28.2Condomínio por m²OK
SIPTUfloat (R$/m²)7.6IPTU por m²OK
TProprietário_Grupostring (anonimizado)“D”Grupo proprietário (não fundo individual)OK
UOcupante_Devoluçãostring (anonimizado)“A”, “B”, “C”Ocupante anterior (espelho do trimestre passado)OK; chave para derivar absorção/devolução
VAdministraçãostring(vazio)Empresa que administra o imóvelConceito separado de proprietário
WComercializaçãostring(vazio)Empresa exclusivista de comercializaçãoPode ser Colliers, JLL, CBRE etc.
XEmpresa_Locacaostring(vazio)Empresa que efetivou a locaçãoConceito misturado com Comercialização?

Dores específicas desta aba:

  • D1: Cada linha replica 7 campos do imóvel (B, C, D, E, F, G, H) — viola normalização. Mudança de nome do empreendimento exige update em N linhas.
  • D2: CONJUNTO mistura tipos (número e texto “Andar inteiro”).
  • D3: Trimestre em formato "YYYY NT" não permite ordenação lexicográfica natural.
  • D4: 4 colunas de “papel comercial” (Proprietário_Grupo, Administração, Comercialização, Empresa_Locacao) sobrepostas — papéis confusos e nem sempre exclusivos.
  • D5: Absorção e Devolução são deriváveis (não deveriam ser inputs manuais).

1.2 FICHA TÉCNICA OFFICE — FICHA TÉCNICA OFFICE

Granularidade: uma linha = um imóvel.

#ColunaTipo inferidoExemplo amostraComentário
AIDint (PK)500048Chave primária do imóvel
BTipoenum”Escritório”Redundante com a aba
CMercadoenum”São Paulo”Mesmo campo que BASE
DNome_Empreendimentostring”Rochaverá Corporate Towers - Torre A (Ebony Tower)“Nome canônico
ERegiãoenum”Chucri Zaidan”Bairro/sub-mercado
FClasseenum”A+“Categoria do imóvel
GSTATUSenum”Concluído”Status atual
HArea_Totalfloat (m²)25394.59Área total do imóvel
IEndereçostring”Av. das Nações Unidas, 14171”Endereço textual
JLatfloat-23.622785Latitude (decimal)
Klongfloat-46.700789Longitude (decimal) — atenção: nome com caixa baixa
LPe_Direitofloat (m)(vazio)Pé direito útil
MPisostring(vazio)Tipo de piso/carga
NCEPstring”04794-000”CEP — string para preservar zeros à esquerda
OData_de_Entregadatetime2008-08-01Inauguração
PIncorporadorastring”Tishman Speyer”Quem desenvolveu
QVagasint805Número de vagas
RTipo_de_Estacionamentoenum”Coberto”Coberto / Descoberto / Misto
SÁrea_do_Terrenofloat (m²)(vazio)Área do terreno
TAr_Condicionadoenum(vazio)Sim/Não/Tipo
UDistância_SPenum(vazio)Faixa de distância (categórica)
VCidadestring(vazio na amostra)Cidade — diferente de Mercado
WObservaçãostring(vazio)Notas livres
XSituação_do_Imóvelenum”Ativo”Ativo/Inativo/Demolido
YID_SiiLaint500048ID externo na SiiLa (mesmo que ID Colliers nesta amostra)
ZNome_Empreendimento_SiiLastring”Rochaverá Corporate Towers - Torre A (Ebony Tower)“Para reconciliação
AAID_Buildingsint52ID externo na Buildings
ABNome_Empreendimento_Buildingsstring”Rochaverá Corporate Towers - Torre A (Ebony Tower)“Para reconciliação

Observações:

  • Já existem chaves de integração com SiiLa e Buildings — duas fontes externas que enriquecem o mercado de Office.
  • Em ~5% dos casos (segundo Leandro), o nome diverge entre fontes — daí a necessidade de manter Nome_Empreendimento_<fonte> como campo separado para auditoria.
  • Cidade e Mercado podem ser conceitos diferentes (Mercado é praça comercial; Cidade é entidade geográfica) — relação a confirmar.
  • Campo long em caixa baixa contraria convenção do Lat.

1.3 VENDA OFFICE — VENDA OFFICE

Granularidade: uma linha = uma transação de venda observada no mercado.

#ColunaTipoExemploComentário
AIDint68149Atenção: faixa diferente de BASE/FICHA (que usam 5xxxxx). Provável ID interno de transação.
BImóvelstring”General Polidoro 99”Nome do imóvel — não usa nome canônico de FICHA
CEndereçostring”Rua General Polidoro, 99”Redundante com FICHA (se fizer match)
DCidadestring”Rio de Janeiro”
EEstadostring”Rio de Janeiro”
FRegiãostring”Orla”Sub-mercado
GClasseenum”B”Classe do imóvel transacionado
HData da Transaçãodatetime2016-01-04Data de fechamento
IPreҫofloat (R$)160228476Atenção: campo “Preҫo” com cedilha cirílica (Ҫ) em vez de Ç latino — typo no header
JCompradorstring (anonimizado)“C”Comprador
KVendedorstring (anonimizado)“D”Vendedor
LÁrea Privativa Transacionadafloat (m²)10660Área da transação
MPreço (R$/m²)float15030.81Calculado: I/L
NCap Ratefloat (decimal)0.0926Taxa de capitalização

Dores específicas:

  • D6: ID em faixa diferente (68149 vs. 500048) — não há chave estrangeira para FICHA TÉCNICA OFFICE; match precisaria ser por endereço/nome.
  • D7: Header “Preҫo” com caractere Ҫ (Cyrilic Es with descender, U+04AA) em vez de Ç latino — quebra de busca/filtro/scripting.
  • D8: Cidade e Estado ambos com “Rio de Janeiro” — provável confusão (Estado RJ + Capital RJ vs. coincidência).
  • D9: Preço (R$/m²) é calculado mas armazenado como dado (deveria ser fórmula/derivado).

1.4 CONTROLE OFFICE — CONTROLE OFFICE

Granularidade: uma linha = um imóvel + lista de contatos para pesquisa. Amostra: apenas headers (1 linha).

#ColunaTipo inferidoComentário
AIDintLiga a FICHA TÉCNICA OFFICE.ID
BNome_EmpreendimentostringCópia do nome canônico
CRegiãostringSub-mercado
DEmpresastringEmpresa que fornece a informação (proprietário/administrador/fundo)
EContatostringNome da pessoa-fonte
FTelefonestringTelefone de contato
GE-mailstringE-mail de contato
HNome_BuildingsstringReconciliação manual com Buildings
INome_SiiLastringReconciliação manual com SiiLa
JStatusstringStatus genérico (a categorizar)
KCONTATO EFETIVOstring/boolIndicador de contato confirmado
LStatus atualizaçãostringStatus do ciclo de pesquisa
MObservaçãostringNotas livres
NData de atualizaçãodatetimeÚltima atualização
OTicker fundostringLiga a CVM/B3 — ticker do fundo imobiliário (ex: KNRI11)
PSaída prevista (vide observação)datetime/stringData prevista de saída do contrato (informação valiosa para prospecção)

Dores específicas:

  • D10: Aba mistura CRM mini (E, F, G — pessoas) com status de pesquisa operacional (J, K, L). São conceitos distintos.
  • D11: Nome_Empreendimento, Região, Nome_Buildings, Nome_SiiLa são redundantes com FICHA TÉCNICA — se a ficha mudar, controle fica desatualizado.
  • D12: Saída prevista (informação ouro para prospecção comercial) está como observação livre — não é estrutural.

Segmento 2 — Logística (condomínios industriais)

2.1 BASE LOGÍSTICA — BASE LOGÍSTICA

Granularidade: uma linha = um galpão (ou módulo dentro de galpão) de um empreendimento, em um trimestre. Cardinalidade observada na amostra: 8 linhas (1 empreendimento × 8 galpões/módulos × 1 trimestre).

#ColunaTipoExemploComentárioCrítica
AID_Novoint600186Nome diferente do Office (ID lá vs. ID_Novo aqui)Inconsistência de PK
BTipoenum”Industrial”RedundanteDenormalizado
CMercadoenum”São Paulo”PraçaOK
DNome_Empreendimentostring”GLP Guarulhos”Nome canônicoDenormalizado
ERegiãoenum”Guarulhos”Sub-mercadoOK
FClasseenum”A+“ClasseOK
GData_de_Entregadatetime2015-11-01InauguraçãoDenormalizado
HSTATUSenum”Concluído”StatusDenormalizado
IGalpãostring”G.10”, “G.6”, “G.5”, “G.1”, “G.2”, “G.T2”Identificador do galpão dentro do complexoOK
JMódulostring”All”, “M.01”, “M.02”, “M.03""All” = galpão inteiro; M.NN = módulo. Tipo misto (semântica diferente)Frágil
KÁrea_Bruta_Locávelfloat (m²)10911ABL do móduloOK
LArmazenagemfloat (m²)(vazio)Área de armazenagemOK
MMezaninofloat (m²)(vazio)Área de mezaninoOK
NApoio / Comumfloat (m²)(vazio)Áreas de apoioOK
OMarquisefloat (m²)(vazio)MarquiseOK
PTrimestrestring”2016 1T”Mesmo formato que OfficeOK (frágil)
QOcupantestring”A”, “B”, “C”, “D”Empresa ocupanteOK
RSegmentoenum”Industrial”, “Transporte e Logística”, “Varejo”Setor do ocupanteOK
SAbsorçãoint (0/1)(vazio)DerivávelIgual Office
TDevoluçãoint (0/1)(vazio)DerivávelIgual Office
UPreçofloat (R$/m²)(vazio)Locação por m²OK
VCondomíniofloat (R$/m²)2.75CondomínioOK
WIPTUfloat (R$/m²)1.07IPTUOK
XProprietário_Grupostring”E”Grupo proprietárioOK
YOcupante_Devoluçãostring”A”, “B”, “C”, “D”Ocupante anteriorOK
ZAdministraçãostring(vazio)AdministradoraOK
AAComercializaçãostring(vazio)ComercializadoraOK
ABRegião_Geográficaenum”Sudeste”Macro-região (Brasil)OK
ACPreço Ponderadofloat0Hardcoded como 0 — provável cálculo derivado feito no Power BI; aqui aparece como dadoDerivado armazenado como dado
ADEmpresa_Locacaostring(vazio)Empresa que firmou a locaçãoOK

Dores específicas:

  • D13: PK chamada ID_Novo aqui e ID no Office — inconsistência cross-segmento.
  • D14: Módulo mistura “All” (galpão inteiro) com códigos de módulo (M.01) — semântica frágil; deveria haver coluna separada Tipo_Subdivisao (galpão_inteiro / modulo).
  • D15: Preço Ponderado = 0 em todos os registros — aparenta ser derivada calculada em Power BI, mas armazenada como coluna de dado (zero é defaulted), causando confusão.
  • D16: Presença de Região e Região_Geográfica lado a lado — duas hierarquias geográficas; relação e regra de preenchimento não está documentada.

2.2 FICHA TÉCNICA LOGÍSTICA — FICHA TÉCNICA LOGÍSTICA

#ColunaTipoExemploComentário
AID_Colliersint600186Terceiro nome de PK no mesmo modelo (Office BASE = ID, Logística BASE = ID_Novo, Logística FICHA = ID_Colliers)
BMercadoenum”São Paulo”
CNome_Empreendimento_Colliersstring”GLP Guarulhos”Nome canônico Colliers
DRegiãoenum”Guarulhos”Sub-mercado
EClasseenum”A+“
FEndereçostring”Av. Landri Sales, 1070”
GLatitudefloat-23.429828Diferente do Office (Lat)
HLongitudefloat-46.380927Diferente do Office (long)
IPe_Direitofloat (m)12Pé direito útil
JPisostring(vazio)Tipo de piso (tons/m²)
KDocasint331Número de docas
LSprinklersenum”Sim”Sim/Não
MCEPstring”07250-000”
NIncorporadorastring”Global Logistics Properties”
OÁrea_do_Terrenofloat (m²)1220782.61
PDistância_Capitalenum”Até 30 km”Faixa categórica
QCidadestring”Guarulhos”
REficiência_Logísticafloat (decimal)0.78Métrica derivada (ABL/Área Total?) já armazenada
SID_SiiLaint600186Reconciliação SiiLa
TNome_Empreendimento_SiiLastring”GLP Guarulhos”
UID_Buildingsint33Reconciliação Buildings
VNome_Empreendimento_Buildingsstring”GLP Guarulhos”
WSituacao_do_Imovelenum(vazio)Ativo/Inativo

Dores específicas:

  • D17: Office usa Lat/long; Logística usa Latitude/Longitude. Nome da PK é ID/ID_Novo/ID_Colliers. Sem padrão.
  • D18: Office tem Tipo, Data_de_Entrega, Vagas, Ar_Condicionado, Tipo_de_Estacionamento, Distância_SP, Observação — Logística NÃO tem. Logística tem Docas, Sprinklers, Distância_Capital, Eficiência_Logística — Office NÃO tem. Schemas divergentes entre segmentos (parcialmente justificável pela natureza do produto, mas há campos comuns que poderiam ser unificados).

2.3 VENDA LOGÍSTICA — VENDA LOGÍSTICA

#ColunaTipoExemploComentário
AImóvelstring”Galpão Isolado - Avenida das Indústrias”NÃO HÁ ID — match por texto livre
BEndereçostring”Avenida das Indústrias, s/n”
CCidadestring”Vinhedo”
DEstadostring”São Paulo”
ERegiãostring”Jundiaí”Sub-mercado
FClasseenum”C”
GÁrea Total do Imóvel (m²)float132353
HEficiência do Imóvelfloat (%)90Proporção (não decimal)
IPé-direito (m)float10
JCarga de Piso (T/m²)float5
KData da Transaçãodatetime2015-11-25
LPreҫofloat (R$)267492379Mesmo typo Ҫ (cirílico) que VENDA OFFICE
MCompradorstring”A”
NVendedorstring”B”
OÁrea Transacionada (m²)float132353
PPreҫo/m²float2021.05Typo cirílico de novo + nome diferente de Office (Preço (R$/m²) lá)
QCap Ratefloat11.73Em VENDA OFFICE veio como decimal (0.0926); aqui parece percentual (11.73). Inconsistência de unidade.

Dores específicas:

  • D19: CRÍTICO — sem chave estrangeira para FICHA TÉCNICA LOGÍSTICA. Match só é possível por texto livre (nome do imóvel + endereço). Quebra silenciosamente quando há renomeação.
  • D20: Cap Rate em formato diferente entre Office (decimal 0.0926 = 9.26%) e Logística (11.73, ambíguo: 11,73% ou 11,73× ?). Sem normalização de unidade.
  • D21: Office VENDA tem Preço (R$/m²); Logística VENDA tem Preҫo/m² — typo cirílico recorrente + nomenclatura diferente.
  • D22: Office VENDA tem Eficiência do Imóvel ausente; Logística VENDA tem. Indicadores físicos do imóvel duplicados entre VENDA e FICHA.

2.4 CONTROLE LOGÍSTICA — CONTROLE LOGÍSTICA

#ColunaTipoComentário
AID_NovointLiga a FICHA TÉCNICA LOGÍSTICA.ID_Colliers (mas com nome diferente!)
BNome_EmpreendimentostringNome canônico
CPesquisa_TelefonestringTelefone do contato
DPesquisa_ResponsávelstringNome da pessoa-fonte
EPesquisa_EmpresastringEmpresa fornecedora
FPesquisa_EmailstringE-mail
GPeríodostringPeríodo da pesquisa
HRegião|CidadestringCaractere | (pipe) no nome do header — quebra exportações
IMercadoenumPraça
JNome BuildingsstringReconciliação Buildings (espaço em vez de _)
KNome SiiLastringReconciliação SiiLa
LConsideraçãostringNotas livres
MData de AtualizaçãodatetimeÚltima atualização
NStatus OcupantesstringStatus do levantamento de ocupantes
OMelhor forma de contatostringCanal preferido (note espaço final no header)

Dores específicas:

  • D23: PK chamada ID_Novo aqui, ID_Colliers em FICHA — inconsistência interna.
  • D24: Headers diferem de CONTROLE OFFICE (Telefone vs. Pesquisa_Telefone, E-mail vs. Pesquisa_Email, Contato vs. Pesquisa_Responsável, Nome_Buildings vs. Nome Buildings). Sem schema unificado entre segmentos.
  • D25: Região\|Cidade com pipe no nome — sintaxe ruim.
  • D26: Melhor forma de contato (com espaço final) — quebra silenciosa em filtros/joins.
  • D27: NÃO HÁ os campos Ticker fundo e Saída prevista que existem em CONTROLE OFFICE — perda de informação valiosa de prospecção.

Inconsistências cross-segmento (síntese)

AspectoOfficeLogísticaComentário
Nome da PK do imóvelIDID_Novo (BASE/CONTROLE) ou ID_Colliers (FICHA)3 nomes para mesma chave
Latitude / LongitudeLat / longLatitude / LongitudeConvenção quebrada
Granularidade comercialAndar + ConjuntoGalpão + MóduloAceitável (semântica diferente)
Métrica de áreaArea_ConjuntoÁrea_Bruta_Locável + Armazenagem + Mezanino + Apoio / Comum + MarquiseLogística mais granular
Header “Preço” em VENDAPreҫo (cirílico)Preҫo (cirílico)Typo presente em ambas — corrigir antes de qualquer ETL
Cap Rate (unidade)decimal (0.0926)percentual (11.73)Normalizar
Distância da capitalDistância_SP (Office)Distância_Capital (Logística)Mesma semântica, nomes diferentes
Integração CVM (fundos)Ticker fundo em CONTROLEausenteAsimetria; potencial perda de info em logística

Volume e cardinalidade reais (estimado)

  • Histórico desde 2016 — 10 anos × 4 trimestres = ~40 períodos.
  • Universo Office: ~estimado em 200–500 empreendimentos × média 30 conjuntos/imóvel × 40 trimestres ≈ 240k–600k linhas apenas em BASE OFFICE.
  • Universo Logística: ~estimado em 150–300 empreendimentos × média 8 galpões/módulos × 40 trimestres ≈ 48k–96k linhas em BASE LOGÍSTICA.
  • Total aproximado base temporal: 290k–700k linhas — bate com o “+600k” mencionado pelo Leandro.
  • VENDA: alguns milhares de transações ao longo dos 10 anos.
  • FICHA: algumas centenas de imóveis por segmento.

Resumo das 27 dores observadas

Numeradas como D1..D27 ao longo do dicionário. Categorizadas em análise as-is vs. to-be.

CategoriaCountSeveridade média
DenormalizaçãoD1, D11Alta
Inconsistência de schema cross-segmentoD13, D17, D18, D24Alta
Tipos misturados / formatos frágeisD2, D3, D14, D20Média
Falta de chave estrangeiraD6, D19Crítica
Derivados armazenados como dadosD5, D9, D15Média
Conceitos sobrepostos / mal modeladosD4, D10, D16Alta
Erros tipográficos em headersD7, D21, D25, D26Baixa (mas insidiosa)
Perda de informação cross-segmentoD27Média
Sem schema validation(geral)Alta

Ver também


Dicionário consolidado por Pedro Villa em 2026-04-25 a partir de análise direta da planilha modelo. Validação cruzada com Leandro Braga prevista para 2026-04-30 17:00.