Mapa competitivo da contabilidade — baseline estrutural por UF (CEMPRE/IBGE 2022)

Tecido empresarial brasileiro por UF (CEMPRE/IBGE 2022): 6,32 mi empresas formais, Sudeste com 50% e HHI estadual em 0,13 — baseline do mapa competitivo.

Pipeline cont_lab_20_mapa_competitivo rodado em 2026-05-26. Esta primeira iteração consolida o baseline estrutural do mercado-alvo: 6.321.759 empresas formais e 55.296.012 pessoas ocupadas em 27 UFs, segundo o CEMPRE/IBGE (referência 2022, publicado em 2024). Resultado bruto em outputs/resultado.parquet (27 linhas × 13 colunas). As camadas que dependem do snapshot RFB 2026-04 — contadores ativos (CNAE 6920), PMEs-alvo, HHI municipal, sobrevivência Kaplan-Meier — ficam pendentes para a próxima iteração; ver §6.

Sumário executivo

  • Universo formal mapeado: 6,32 milhões de empresas e 55,3 milhões de pessoas ocupadas — o denominador estrutural sobre o qual o eixo competitivo da contabilidade vai operar.
  • Concentração regional brutal: o Sudeste responde por 50,4% das empresas formais; Sul + Sudeste somam 72,8%; o Norte tem 3,8%. SP sozinha concentra 30,7% do tecido empresarial nacional.
  • HHI estadual = 0,1338 — exatamente no limite superior entre "mercado não concentrado" (< 0,15) e "moderadamente concentrado". O Brasil empresarial é fortemente desbalanceado, mas não monopolizado por um único estado.
  • Tamanho médio invertido geograficamente: as UFs com maior pessoal ocupado por empresa são as do Norte (AM = 16,3, AP = 15,1, RR = 14,6, AC = 13,8, PA = 13,6), refletindo presença de grandes empregadores (Zona Franca de Manaus, mineração, administração pública) num tecido empresarial rarefeito. No Sul, predomina o oposto: RS = 7,0 e PR = 7,2, com tecido pulverizado de PMEs.
  • Gap oferta vs demanda a confirmar: top 5 (SP, MG, PR, RS, RJ) concentra 64,6% das empresas mas menos de 50% dos escritórios CNAE 6920 segundo o snapshot RFB 2026-03 anterior. Medir esse gap é o objetivo principal da próxima rodada.

1. Visão nacional — o tecido empresarial formal

A tabela abaixo agrega o CEMPRE 2022 (publicação 2024) por UF — base utilizada como denominador estrutural para todos os indicadores subsequentes do eixo competitivo. Critério: empresas formais ativas com pelo menos um vínculo de trabalho declarado.

UFEmpresas formaisPessoal ocupadoPessoal/empresaShare BR
SP1.939.18715.798.6518,1530,67%
MG664.2745.818.8028,7610,51%
PR527.6343.792.4457,198,35%
RS500.3093.479.7626,967,91%
RJ453.2914.442.8429,807,17%
SC392.5782.945.6687,506,21%
BA268.6842.601.8429,684,25%
GO216.2821.737.7358,033,42%
CE157.5041.717.12410,902,49%
PE153.8111.822.94111,852,43%
ES127.8871.068.1478,352,02%
MT122.973977.1687,951,95%
DF111.9801.399.75812,501,77%
PA95.1531.295.38613,611,51%
MS84.681734.9248,681,34%
MA78.926895.21411,341,25%
PB71.051751.90910,581,12%
RN68.422691.08110,101,08%
PI57.443517.7719,010,91%
AL45.844566.58712,360,73%
AM42.665697.04616,340,67%
RO40.422383.6259,490,64%
SE37.901434.56211,470,60%
TO35.240325.0609,220,56%
AC10.565146.28513,850,17%
AP8.842133.53015,100,14%
RR8.210120.14714,630,13%
BR6.321.75955.296.0128,75100%

O choropleth da Figura 1 mostra n_empresas_cempre em escala log por UF — o tradicional eixo SP–MG–RJ–PR–RS satura a barra de cor; o miolo Centro-Oeste aparece com tonalidade intermediária; o Norte fica praticamente apagado.

![](/posts/figs/mapa-competitivo_01.png)

2. Concentração estadual — HHI nacional

Para medir a dispersão do tecido empresarial entre os 27 estados, calculamos o Herfindahl–Hirschman Index (HHI) com base nos shares de empresas formais:

`` HHI = Σ s_uf², onde s_uf = empresas_uf / empresas_BR ``

O resultado é HHI = 0,1338 — exatamente na fronteira entre "não concentrado" (< 0,15) e "moderadamente concentrado". A leitura prática:

FaixaThresholdStatus BR
Não concentradoHHI < 0,15✓ (por pouco)
Moderada0,15 ≤ HHI < 0,25
AltaHHI ≥ 0,25

A contribuição é dominada por SP — o quadrado do share paulista (0,3067² = 0,094) explica sozinho 70% do HHI nacional. Sem SP o HHI cai para 0,0399; sem o top-5, cai para 0,0091. Tradução competitiva: qualquer estratégia nacional precisa ter resposta dedicada para São Paulo.

Shares cumulativos: top-3 (SP, MG, PR) = 49,5%; top-5 = 64,6%; top-10 = 83,4%. As 17 UFs restantes somam menos de 17%.

![](/posts/figs/mapa-competitivo_03.png)

3. Composição regional — onde está a PME formal

Reagregando por região, o desequilíbrio fica explícito:

RegiãoEmpresasSharePessoalPess./empresa
Sudeste3.184.63950,38%27.128.4428,52
Sul1.420.52122,47%10.217.8757,19
Nordeste939.58614,86%9.999.03110,64
Centro-Oeste535.9168,48%4.849.5859,05
Norte241.0973,81%3.101.07912,86

Dois pontos para o eixo competitivo:

  1. Sul com tamanho médio 7,19 vs Sudeste 8,52 e Norte 12,86 — sinal limpo de pulverização de PMEs, perfil que melhor casa com produto de contabilidade digital padronizada.
  2. Norte com tamanho médio 12,86, puxado por Zona Franca de Manaus, mineração e setor público — mercado de Big4 e médias regionais, não de contabilidade digital de PME.

![](/posts/figs/mapa-competitivo_02.png)

4. Tamanho de empresa por UF — escala vs pulverização

A relação entre n_empresas e pessoal_ocupado por UF (Figura 4) revela duas Brasis paralelos: estados pequenos em volume têm empresas grandes em média (Norte); estados grandes em volume têm empresas pequenas em média (Sul). Outliers altos: AM (Zona Franca), DF (administração pública), RJ (matrizes federais e óleo&gás). Outliers baixos: RS, PR, SC — tecido fragmentado de pequenos negócios industriais e de serviços.

![](/posts/figs/mapa-competitivo_04.png)

Esse padrão importa para o produto contábil porque o ticket e o ciclo de venda mudam entre as pontas: empresa de 15 colaboradores tem financeiro próprio e exige contabilidade consultiva; empresa de 7 absorve bem terceirização digital padronizada.

5. Implicações para a próxima iteração

Este baseline define onde está o denominador (empresas formais por UF). A próxima rodada, com o snapshot RFB 2026-04 já reprocessado, vai sobrepor:

  • n_contadores_ativos (CNAE 6920) por UF → ratio PME/contador;
  • lq_contadores (location quotient) → onde a oferta contábil está sobre/subdimensionada vs base empresarial;
  • hhi_uf calculado sobre municípios dentro de cada UF (concentração intra-estadual);
  • saldo_liquido_12m de aberturas/baixadas CNAE 6920 → dinamismo competitivo;
  • curva Kaplan-Meier de sobrevivência de escritórios contábeis estratificada por porte/Simples;
  • score composto de oportunidade municipal.

A leitura preliminar — combinando o CEMPRE acima com o snapshot RFB 2026-03 já carregado em outras análises do lab — sugere que Sul e Centro-Oeste terão lq_contadores < 1 apesar do tecido pulverizado, abrindo a tese de subprovisão estrutural em estados como MT, GO e MS.

6. Limitações desta rodada

  • Dados RFB 2026-04 não baixados — o cluster n_contadores_ativos, n_pmes_alvo, aberturas_12m, baixadas_12m, hhi_uf, pct_simples_pme e score aparecem zerados ou nulos no outputs/resultado.parquet. Correção depende do sync pipelines/lib/cnpj_rfb.py::sync_base_cnpj("2026-04", …), agendado para a próxima rodada.
  • CEMPRE 2022 é a referência mais recente do IBGE (publicada em 2024). Para captar pós-pandemia tardio (2023–2025), o próximo refresh combinará CEMPRE 2023 (esperado 4T 2026) com cruzamento RFB.
  • Sem desagregação setorial por UF — a tabela 6450 SIDRA usada aqui pegou só allxp (total). Próxima rodada faz pull por seção CNAE (319) para isolar serviços profissionais e contabilidade.
  • Contabilidade informal não capturada — CEMPRE registra apenas formais com vínculo. PJ unipessoal sem empregado (boa parte da PME-alvo do Simples) fica de fora; correção vem pelo CNPJ-RFB.

Fontes primárias

  • IBGE CEMPRE — tabela 6450 SIDRA, variável allxp (total de empresas e pessoal ocupado), classificação 319 (seções CNAE), nível n3 (UF), período 2022 (referência mais recente, publicada em 2024). Endpoint: apisidra.ibge.gov.br/values/t/6450/v/allxp/p/2023/c319/116542/n3/all.
  • IBGE — malhas territoriais — feições estaduais via geobr::read_state(2020) (27 UFs, WGS-84), usadas no choropleth.
  • RFB CNPJ (próxima rodada) — base pública, snapshot 2026-04, ZIPs Estabelecimentos{0..9}, Empresas{0..9}, Simples, layout RFB v2024, WebDAV arquivos.receitafederal.gov.br.
  • BCB — séries SGS de crédito PJ por modalidade, usadas como contexto cruzado com o eixo macroeconomia-pme.

Reprodutibilidade

Código em lab/labs/cont_lab_20_mapa_competitivo/. Pipeline:

`` uv run python code/collect.py # sync CEMPRE SIDRA + (pendente) RFB 2026-04 + CAGED uv run python code/clean.py # filtros CNAE-alvo + cruzamento Simples uv run python code/model.py # HHI nacional/UF + ratio PME/contador + LQ + Score + KM uv run python code/figures.py # fig 1..4 (choropleths + ranking + scatter) ``

Artefatos persistidos: outputs/resultado.parquet (27 × 13) e outputs/metrics.json. Plano original e schemas em notes/plano_execucao.md; log de coleta em notes/collect_log.md.