Onde mora o mercado PME-serviços (Brasil, 2026-03)
Análise de econometria espacial sobre estabelecimentos RFB ativos de CNAEs-alvo Contabilizei (serviços profissionais, TI, saúde pequena, varejo pequeno). Moran's I, LISA e Getis-Ord Gi* em grade H3.
Pipelinequarterly_spatial.pyrodado em2026-05-15T13:55:37. Modelos: Moran's I global, LISA (Moran Local), Getis-Ord Gi*. Grade H3 res-7 (≈ 5 km² por hexágono).
Sumário executivo
- 7.779.736 estabelecimentos ativos da família de CNAEs-alvo (serviços profissionais, TI, saúde pequena, varejo pequeno) em Brasil, 2026-03.
- Moran's I global = 0.302 (p = 0.001). Autocorrelação espacial moderada (0,2–0,5).
- 554 hexágonos cluster Alto-Alto (HH) — agrupamentos quentes de PME-serviços; 573 hexágonos LL (vazios espacialmente coerentes).
- Pico de concentração local (Gi* z-score): 4.35.
- _Análise feita 100% sobre dados públicos (RFB + IBGE). Quando integrarmos a base interna Contabilizei, a variável dependente passa a ser penetração real e os clusters HH viram targets comerciais._
Hotspots de PME-serviços — LISA (res-7)
Cluster HH (vermelho) = hexágono com muitas PMEs cercado por outros muitos. LL (azul navy) = hexágono vazio em região igualmente vazia. HL/LH = anomalias (alto cercado de baixo e vice-versa). Cinza claro = não significativo (p > 0,05).
Top 20 hexágonos HH por densidade de CNPJ-alvo
| # | H3 | lat | lon | nº CNPJ-alvo | Gi* z |
|---|---|---|---|---|---|
| 1 | 87a81000affffff | -23.655 | -46.653 | 830.418 | 4.35 |
| 2 | 87a8a0759ffffff | -22.928 | -43.455 | 287.916 | 3.66 |
| 3 | 87a88cd86ffffff | -19.902 | -43.961 | 154.060 | 3.26 |
| 4 | 87a8d186effffff | -15.785 | -47.785 | 150.176 | 3.10 |
| 5 | 87a831365ffffff | -25.478 | -49.277 | 143.165 | 3.29 |
| 6 | 8780104e3ffffff | -3.782 | -38.517 | 107.395 | 3.01 |
| 7 | 878116a2affffff | -12.871 | -38.523 | 103.763 | 2.77 |
| 8 | 87a8c0cc1ffffff | -16.644 | -49.264 | 95.980 | 2.85 |
| 9 | 87a9012b3ffffff | -30.093 | -51.154 | 87.010 | 3.17 |
| 10 | 87a813b31ffffff | -22.893 | -47.037 | 64.659 | 2.95 |
| 11 | 878183981ffffff | -8.050 | -34.926 | 62.653 | 3.01 |
| 12 | 87a810635ffffff | -23.395 | -46.453 | 52.663 | 2.81 |
| 13 | 87a91b473ffffff | -27.576 | -48.515 | 46.417 | 2.49 |
| 14 | 87a81a8ebffffff | -21.205 | -47.818 | 45.459 | 2.40 |
| 15 | 87804449effffff | -1.230 | -48.461 | 42.764 | 2.43 |
| 16 | 87a8f57aeffffff | -19.030 | -48.325 | 39.838 | 2.14 |
| 17 | 878183758ffffff | -7.167 | -34.877 | 38.113 | 2.17 |
| 18 | 87a8101acffffff | -23.821 | -46.551 | 36.989 | 2.89 |
| 19 | 87a811c28ffffff | -23.455 | -47.439 | 36.579 | 2.41 |
| 20 | 87a81019affffff | -23.729 | -46.441 | 36.508 | 2.88 |
Concentração local — Getis-Ord Gi* (res-7)
Mapa divergente do z-score Gi: vermelho = hot spot (|z|>2,58 ⇒ p<0,01); azul = cold spot. Gi mede a magnitude da soma local relativa ao esperado sob distribuição aleatória — complementar ao LISA, que mede correlação local.
Densidade absoluta (gradiente)
Distribuição bruta de CNPJ-alvo. Útil pra calibrar a leitura dos mapas LISA/Gi*.
Sensibilidade MAUP (resoluções H3)
MAUP (Modifiable Areal Unit Problem) avisa que resultados espaciais podem depender da granularidade da grade. Aqui rodamos a Fase 1 em duas resoluções e comparamos a estrutura de clusters.
| categoria | res-A | res-B |
|---|---|---|
| HH | 554 | 479 |
| LL | 573 | 538 |
| HL | 210 | 201 |
| LH | 116 | 82 |
| NS | 4099 | 4253 |
| total hexes | 5.552 | 5.553 |
Correlação Spearman de Gi* z-scores agregados em bins 1°×1° lat/lon (n = 4873 células): ρ = 0.996. Quanto mais próximo de 1, mais robusta a leitura espacial à mudança de resolução.
Anexo — mapas equivalentes em resolução H3 res-8 (~0,7 km² por hexágono)
LISA res-8: Gi* res-8: Densidade res-8:Sinal Contabilizei
Concentração é o fato dominante. Os 554 hexágonos cluster Alto-Alto representam 10% dos 5.552 hexes do país, mas concentram 55,9% de todos os CNPJ-alvo (~4,35 milhões dos 7,78 milhões). Só o Sudeste-Sul tem 277 desses HH, com 2,47 milhões de empresas — quase um terço do mercado nacional num arco que vai de Campinas a Florianópolis passando por SP, RJ, BH e Curitiba. A pergunta para o time comercial não é "onde existe mercado", e sim "onde a Contabilizei tem share menor do que a densidade de empresas justifica". Sem a base interna não dá pra responder isso ainda, mas o mapa LISA já delimita exatamente os hexágonos onde essa pergunta tem que ser feita.
As anomalias HL contam outra história — a dos polos isolados. Hexes Alto-Baixo são municípios com volume significativo de PMEs cercados por região de baixa densidade. Os dez maiores casos batem com cidades-âncora regionais: Juiz de Fora (MG, 23 mil empresas), Passo Fundo e Santa Maria (RS), Araguaína (TO), Catalão (GO), Chapecó (SC), Garanhuns (PE). Cada um desses pontos é um mercado de captura quase 1-para-1: não há cidade vizinha competindo pelo mesmo prospect contábil, então custo de aquisição via mídia geo-segmentada ou parceria com contadores locais tende a ser mais barato e mais defensável que tentar penetrar um cluster denso já saturado de oferta.
Os 573 hexes LL não são oportunidade — são deserto. Juntos têm 62 mil empresas (0,8% do mercado nacional). Não vale alocação comercial primária, mas vale como contrafactual: quando alguém propuser campanha em "cidades médias" do interior do Brasil, esse mapa mostra a maioria dessas cidades é exatamente o tipo de lugar onde o mercado-alvo simplesmente não está. A intuição mineira/nordestina/amazônica de "tem MEI em todo canto" é estatisticamente fraca — 99% das PMEs-alvo Contabilizei moram em 25% do território.
_Nota_: análise feita sobre RFB+IBGE 100% públicos. Quando integrarmos a base interna Contabilizei, a variável dependente passa a ser penetração (clientes / CNPJ-alvo) e os mesmos clusters HH viram targets comerciais com prioridade definida pelo gap entre share Contabilizei e densidade de mercado.
Nota metodológica
- Universo: estabelecimentos com situação cadastral ativa (
02) e CNAE principal em uma das categorias delib/cnae_alvo.py(serviços profissionais, TI, saúde pequena, varejo pequeno). - Geocodificação: centroide do município (IBGE7) — todas as empresas de um município ficam no mesmo centroide. Para granularidade intra-urbana, ver upgrade futuro CEP→coord.
- Vizinhança: KNN k=6 sobre centroides municipais, matriz row-standardized. Queen seria a escolha natural sobre polígonos H3, mas como cada município gera um hex isolado (geocoding municipal), 99,9% dos hexes ficam sem vizinho — KNN resolve. Voltar para Queen quando subirmos a granularidade para CEP→coord.
- Variável-alvo dos estimadores: log(n_cnpj_alvo + 1). A distribuição bruta tem outlier extremo (SP-capital 830 mil empresas vs mediana de 244), que afunda o Moran's I global para próximo de zero apesar de a autocorrelação ser real. Log estabiliza a variância e revela o clustering.
- LISA: Moran Local com 499 permutações; significância em p ≤ 0,05.
- Gi: Getis-Ord local com versão star* — diagonal da matriz W explicitamente preenchida via
libpysal.weights.fill_diagonal(em vez de assumir self-weight implícito). - Visualização: scattermapbox com tamanho de marker proporcional a √(n_cnpj_alvo). Hexes res-7 (~5 km²) são invisíveis em zoom nacional como polígonos — círculos sized funcionam. Dropdown UF muda center+zoom do mapbox; dropdown categoria (no mapa de densidade) alterna entre as 4 famílias CNAE-alvo.