Onde mora o mercado PME-serviços (Brasil, 2026-03)

Análise de econometria espacial sobre estabelecimentos RFB ativos de CNAEs-alvo Contabilizei (serviços profissionais, TI, saúde pequena, varejo pequeno). Moran's I, LISA e Getis-Ord Gi* em grade H3.

Pipeline quarterly_spatial.py rodado em 2026-05-15T13:55:37. Modelos: Moran's I global, LISA (Moran Local), Getis-Ord Gi*. Grade H3 res-7 (≈ 5 km² por hexágono).

Sumário executivo

  • 7.779.736 estabelecimentos ativos da família de CNAEs-alvo (serviços profissionais, TI, saúde pequena, varejo pequeno) em Brasil, 2026-03.
  • Moran's I global = 0.302 (p = 0.001). Autocorrelação espacial moderada (0,2–0,5).
  • 554 hexágonos cluster Alto-Alto (HH) — agrupamentos quentes de PME-serviços; 573 hexágonos LL (vazios espacialmente coerentes).
  • Pico de concentração local (Gi* z-score): 4.35.
  • _Análise feita 100% sobre dados públicos (RFB + IBGE). Quando integrarmos a base interna Contabilizei, a variável dependente passa a ser penetração real e os clusters HH viram targets comerciais._

Hotspots de PME-serviços — LISA (res-7)

Cluster HH (vermelho) = hexágono com muitas PMEs cercado por outros muitos. LL (azul navy) = hexágono vazio em região igualmente vazia. HL/LH = anomalias (alto cercado de baixo e vice-versa). Cinza claro = não significativo (p > 0,05).

Top 20 hexágonos HH por densidade de CNPJ-alvo

#H3latlonnº CNPJ-alvoGi* z
187a81000affffff-23.655-46.653830.4184.35
287a8a0759ffffff-22.928-43.455287.9163.66
387a88cd86ffffff-19.902-43.961154.0603.26
487a8d186effffff-15.785-47.785150.1763.10
587a831365ffffff-25.478-49.277143.1653.29
68780104e3ffffff-3.782-38.517107.3953.01
7878116a2affffff-12.871-38.523103.7632.77
887a8c0cc1ffffff-16.644-49.26495.9802.85
987a9012b3ffffff-30.093-51.15487.0103.17
1087a813b31ffffff-22.893-47.03764.6592.95
11878183981ffffff-8.050-34.92662.6533.01
1287a810635ffffff-23.395-46.45352.6632.81
1387a91b473ffffff-27.576-48.51546.4172.49
1487a81a8ebffffff-21.205-47.81845.4592.40
1587804449effffff-1.230-48.46142.7642.43
1687a8f57aeffffff-19.030-48.32539.8382.14
17878183758ffffff-7.167-34.87738.1132.17
1887a8101acffffff-23.821-46.55136.9892.89
1987a811c28ffffff-23.455-47.43936.5792.41
2087a81019affffff-23.729-46.44136.5082.88

Concentração local — Getis-Ord Gi* (res-7)

Mapa divergente do z-score Gi: vermelho = hot spot (|z|>2,58 ⇒ p<0,01); azul = cold spot. Gi mede a magnitude da soma local relativa ao esperado sob distribuição aleatória — complementar ao LISA, que mede correlação local.

Densidade absoluta (gradiente)

Distribuição bruta de CNPJ-alvo. Útil pra calibrar a leitura dos mapas LISA/Gi*.

Sensibilidade MAUP (resoluções H3)

MAUP (Modifiable Areal Unit Problem) avisa que resultados espaciais podem depender da granularidade da grade. Aqui rodamos a Fase 1 em duas resoluções e comparamos a estrutura de clusters.

categoriares-Ares-B
HH554479
LL573538
HL210201
LH11682
NS40994253
total hexes5.5525.553

Correlação Spearman de Gi* z-scores agregados em bins 1°×1° lat/lon (n = 4873 células): ρ = 0.996. Quanto mais próximo de 1, mais robusta a leitura espacial à mudança de resolução.

Anexo — mapas equivalentes em resolução H3 res-8 (~0,7 km² por hexágono) LISA res-8: Gi* res-8: Densidade res-8:

Sinal Contabilizei

Concentração é o fato dominante. Os 554 hexágonos cluster Alto-Alto representam 10% dos 5.552 hexes do país, mas concentram 55,9% de todos os CNPJ-alvo (~4,35 milhões dos 7,78 milhões). Só o Sudeste-Sul tem 277 desses HH, com 2,47 milhões de empresas — quase um terço do mercado nacional num arco que vai de Campinas a Florianópolis passando por SP, RJ, BH e Curitiba. A pergunta para o time comercial não é "onde existe mercado", e sim "onde a Contabilizei tem share menor do que a densidade de empresas justifica". Sem a base interna não dá pra responder isso ainda, mas o mapa LISA já delimita exatamente os hexágonos onde essa pergunta tem que ser feita.

As anomalias HL contam outra história — a dos polos isolados. Hexes Alto-Baixo são municípios com volume significativo de PMEs cercados por região de baixa densidade. Os dez maiores casos batem com cidades-âncora regionais: Juiz de Fora (MG, 23 mil empresas), Passo Fundo e Santa Maria (RS), Araguaína (TO), Catalão (GO), Chapecó (SC), Garanhuns (PE). Cada um desses pontos é um mercado de captura quase 1-para-1: não há cidade vizinha competindo pelo mesmo prospect contábil, então custo de aquisição via mídia geo-segmentada ou parceria com contadores locais tende a ser mais barato e mais defensável que tentar penetrar um cluster denso já saturado de oferta.

Os 573 hexes LL não são oportunidade — são deserto. Juntos têm 62 mil empresas (0,8% do mercado nacional). Não vale alocação comercial primária, mas vale como contrafactual: quando alguém propuser campanha em "cidades médias" do interior do Brasil, esse mapa mostra a maioria dessas cidades é exatamente o tipo de lugar onde o mercado-alvo simplesmente não está. A intuição mineira/nordestina/amazônica de "tem MEI em todo canto" é estatisticamente fraca — 99% das PMEs-alvo Contabilizei moram em 25% do território.

_Nota_: análise feita sobre RFB+IBGE 100% públicos. Quando integrarmos a base interna Contabilizei, a variável dependente passa a ser penetração (clientes / CNPJ-alvo) e os mesmos clusters HH viram targets comerciais com prioridade definida pelo gap entre share Contabilizei e densidade de mercado.

Nota metodológica

  • Universo: estabelecimentos com situação cadastral ativa (02) e CNAE principal em uma das categorias de lib/cnae_alvo.py (serviços profissionais, TI, saúde pequena, varejo pequeno).
  • Geocodificação: centroide do município (IBGE7) — todas as empresas de um município ficam no mesmo centroide. Para granularidade intra-urbana, ver upgrade futuro CEP→coord.
  • Vizinhança: KNN k=6 sobre centroides municipais, matriz row-standardized. Queen seria a escolha natural sobre polígonos H3, mas como cada município gera um hex isolado (geocoding municipal), 99,9% dos hexes ficam sem vizinho — KNN resolve. Voltar para Queen quando subirmos a granularidade para CEP→coord.
  • Variável-alvo dos estimadores: log(n_cnpj_alvo + 1). A distribuição bruta tem outlier extremo (SP-capital 830 mil empresas vs mediana de 244), que afunda o Moran's I global para próximo de zero apesar de a autocorrelação ser real. Log estabiliza a variância e revela o clustering.
  • LISA: Moran Local com 499 permutações; significância em p ≤ 0,05.
  • Gi: Getis-Ord local com versão star* — diagonal da matriz W explicitamente preenchida via libpysal.weights.fill_diagonal (em vez de assumir self-weight implícito).
  • Visualização: scattermapbox com tamanho de marker proporcional a √(n_cnpj_alvo). Hexes res-7 (~5 km²) são invisíveis em zoom nacional como polígonos — círculos sized funcionam. Dropdown UF muda center+zoom do mapbox; dropdown categoria (no mapa de densidade) alterna entre as 4 famílias CNAE-alvo.