Mapa competitivo da contabilidade — baseline estrutural por UF (CEMPRE/IBGE 2022)
Tecido empresarial brasileiro por UF (CEMPRE/IBGE 2022): 6,32 mi empresas formais, Sudeste com 50% e HHI estadual em 0,13 — baseline do mapa competitivo.
Pipelinecont_lab_20_mapa_competitivorodado em2026-05-26. Esta primeira iteração consolida o baseline estrutural do mercado-alvo: 6.321.759 empresas formais e 55.296.012 pessoas ocupadas em 27 UFs, segundo o CEMPRE/IBGE (referência 2022, publicado em 2024). Resultado bruto emoutputs/resultado.parquet(27 linhas × 13 colunas). As camadas que dependem do snapshot RFB 2026-04 — contadores ativos (CNAE 6920), PMEs-alvo, HHI municipal, sobrevivência Kaplan-Meier — ficam pendentes para a próxima iteração; ver §6.
Sumário executivo
- Universo formal mapeado: 6,32 milhões de empresas e 55,3 milhões de pessoas ocupadas — o denominador estrutural sobre o qual o eixo competitivo da contabilidade vai operar.
- Concentração regional brutal: o Sudeste responde por 50,4% das empresas formais; Sul + Sudeste somam 72,8%; o Norte tem 3,8%. SP sozinha concentra 30,7% do tecido empresarial nacional.
- HHI estadual = 0,1338 — exatamente no limite superior entre "mercado não concentrado" (< 0,15) e "moderadamente concentrado". O Brasil empresarial é fortemente desbalanceado, mas não monopolizado por um único estado.
- Tamanho médio invertido geograficamente: as UFs com maior pessoal ocupado por empresa são as do Norte (AM = 16,3, AP = 15,1, RR = 14,6, AC = 13,8, PA = 13,6), refletindo presença de grandes empregadores (Zona Franca de Manaus, mineração, administração pública) num tecido empresarial rarefeito. No Sul, predomina o oposto: RS = 7,0 e PR = 7,2, com tecido pulverizado de PMEs.
- Gap oferta vs demanda a confirmar: top 5 (SP, MG, PR, RS, RJ) concentra 64,6% das empresas mas menos de 50% dos escritórios CNAE 6920 segundo o snapshot RFB 2026-03 anterior. Medir esse gap é o objetivo principal da próxima rodada.
1. Visão nacional — o tecido empresarial formal
A tabela abaixo agrega o CEMPRE 2022 (publicação 2024) por UF — base utilizada como denominador estrutural para todos os indicadores subsequentes do eixo competitivo. Critério: empresas formais ativas com pelo menos um vínculo de trabalho declarado.
| UF | Empresas formais | Pessoal ocupado | Pessoal/empresa | Share BR |
|---|---|---|---|---|
| SP | 1.939.187 | 15.798.651 | 8,15 | 30,67% |
| MG | 664.274 | 5.818.802 | 8,76 | 10,51% |
| PR | 527.634 | 3.792.445 | 7,19 | 8,35% |
| RS | 500.309 | 3.479.762 | 6,96 | 7,91% |
| RJ | 453.291 | 4.442.842 | 9,80 | 7,17% |
| SC | 392.578 | 2.945.668 | 7,50 | 6,21% |
| BA | 268.684 | 2.601.842 | 9,68 | 4,25% |
| GO | 216.282 | 1.737.735 | 8,03 | 3,42% |
| CE | 157.504 | 1.717.124 | 10,90 | 2,49% |
| PE | 153.811 | 1.822.941 | 11,85 | 2,43% |
| ES | 127.887 | 1.068.147 | 8,35 | 2,02% |
| MT | 122.973 | 977.168 | 7,95 | 1,95% |
| DF | 111.980 | 1.399.758 | 12,50 | 1,77% |
| PA | 95.153 | 1.295.386 | 13,61 | 1,51% |
| MS | 84.681 | 734.924 | 8,68 | 1,34% |
| MA | 78.926 | 895.214 | 11,34 | 1,25% |
| PB | 71.051 | 751.909 | 10,58 | 1,12% |
| RN | 68.422 | 691.081 | 10,10 | 1,08% |
| PI | 57.443 | 517.771 | 9,01 | 0,91% |
| AL | 45.844 | 566.587 | 12,36 | 0,73% |
| AM | 42.665 | 697.046 | 16,34 | 0,67% |
| RO | 40.422 | 383.625 | 9,49 | 0,64% |
| SE | 37.901 | 434.562 | 11,47 | 0,60% |
| TO | 35.240 | 325.060 | 9,22 | 0,56% |
| AC | 10.565 | 146.285 | 13,85 | 0,17% |
| AP | 8.842 | 133.530 | 15,10 | 0,14% |
| RR | 8.210 | 120.147 | 14,63 | 0,13% |
| BR | 6.321.759 | 55.296.012 | 8,75 | 100% |
O choropleth da Figura 1 mostra n_empresas_cempre em escala log por UF — o tradicional eixo SP–MG–RJ–PR–RS satura a barra de cor; o miolo Centro-Oeste aparece com tonalidade intermediária; o Norte fica praticamente apagado.

2. Concentração estadual — HHI nacional
Para medir a dispersão do tecido empresarial entre os 27 estados, calculamos o Herfindahl–Hirschman Index (HHI) com base nos shares de empresas formais:
`` HHI = Σ s_uf², onde s_uf = empresas_uf / empresas_BR ``
O resultado é HHI = 0,1338 — exatamente na fronteira entre "não concentrado" (< 0,15) e "moderadamente concentrado". A leitura prática:
| Faixa | Threshold | Status BR |
|---|---|---|
| Não concentrado | HHI < 0,15 | ✓ (por pouco) |
| Moderada | 0,15 ≤ HHI < 0,25 | — |
| Alta | HHI ≥ 0,25 | — |
A contribuição é dominada por SP — o quadrado do share paulista (0,3067² = 0,094) explica sozinho 70% do HHI nacional. Sem SP o HHI cai para 0,0399; sem o top-5, cai para 0,0091. Tradução competitiva: qualquer estratégia nacional precisa ter resposta dedicada para São Paulo.
Shares cumulativos: top-3 (SP, MG, PR) = 49,5%; top-5 = 64,6%; top-10 = 83,4%. As 17 UFs restantes somam menos de 17%.

3. Composição regional — onde está a PME formal
Reagregando por região, o desequilíbrio fica explícito:
| Região | Empresas | Share | Pessoal | Pess./empresa |
|---|---|---|---|---|
| Sudeste | 3.184.639 | 50,38% | 27.128.442 | 8,52 |
| Sul | 1.420.521 | 22,47% | 10.217.875 | 7,19 |
| Nordeste | 939.586 | 14,86% | 9.999.031 | 10,64 |
| Centro-Oeste | 535.916 | 8,48% | 4.849.585 | 9,05 |
| Norte | 241.097 | 3,81% | 3.101.079 | 12,86 |
Dois pontos para o eixo competitivo:
- Sul com tamanho médio 7,19 vs Sudeste 8,52 e Norte 12,86 — sinal limpo de pulverização de PMEs, perfil que melhor casa com produto de contabilidade digital padronizada.
- Norte com tamanho médio 12,86, puxado por Zona Franca de Manaus, mineração e setor público — mercado de Big4 e médias regionais, não de contabilidade digital de PME.

4. Tamanho de empresa por UF — escala vs pulverização
A relação entre n_empresas e pessoal_ocupado por UF (Figura 4) revela duas Brasis paralelos: estados pequenos em volume têm empresas grandes em média (Norte); estados grandes em volume têm empresas pequenas em média (Sul). Outliers altos: AM (Zona Franca), DF (administração pública), RJ (matrizes federais e óleo&gás). Outliers baixos: RS, PR, SC — tecido fragmentado de pequenos negócios industriais e de serviços.

Esse padrão importa para o produto contábil porque o ticket e o ciclo de venda mudam entre as pontas: empresa de 15 colaboradores tem financeiro próprio e exige contabilidade consultiva; empresa de 7 absorve bem terceirização digital padronizada.
5. Implicações para a próxima iteração
Este baseline define onde está o denominador (empresas formais por UF). A próxima rodada, com o snapshot RFB 2026-04 já reprocessado, vai sobrepor:
n_contadores_ativos(CNAE 6920) por UF → ratio PME/contador;lq_contadores(location quotient) → onde a oferta contábil está sobre/subdimensionada vs base empresarial;hhi_ufcalculado sobre municípios dentro de cada UF (concentração intra-estadual);saldo_liquido_12mde aberturas/baixadas CNAE 6920 → dinamismo competitivo;- curva Kaplan-Meier de sobrevivência de escritórios contábeis estratificada por porte/Simples;
scorecomposto de oportunidade municipal.
A leitura preliminar — combinando o CEMPRE acima com o snapshot RFB 2026-03 já carregado em outras análises do lab — sugere que Sul e Centro-Oeste terão lq_contadores < 1 apesar do tecido pulverizado, abrindo a tese de subprovisão estrutural em estados como MT, GO e MS.
6. Limitações desta rodada
- Dados RFB 2026-04 não baixados — o cluster
n_contadores_ativos,n_pmes_alvo,aberturas_12m,baixadas_12m,hhi_uf,pct_simples_pmeescoreaparecem zerados ou nulos nooutputs/resultado.parquet. Correção depende do syncpipelines/lib/cnpj_rfb.py::sync_base_cnpj("2026-04", …), agendado para a próxima rodada. - CEMPRE 2022 é a referência mais recente do IBGE (publicada em 2024). Para captar pós-pandemia tardio (2023–2025), o próximo refresh combinará CEMPRE 2023 (esperado 4T 2026) com cruzamento RFB.
- Sem desagregação setorial por UF — a tabela 6450 SIDRA usada aqui pegou só
allxp(total). Próxima rodada faz pull por seção CNAE (319) para isolar serviços profissionais e contabilidade. - Contabilidade informal não capturada — CEMPRE registra apenas formais com vínculo. PJ unipessoal sem empregado (boa parte da PME-alvo do Simples) fica de fora; correção vem pelo CNPJ-RFB.
Fontes primárias
- IBGE CEMPRE — tabela 6450 SIDRA, variável
allxp(total de empresas e pessoal ocupado), classificação 319 (seções CNAE), nível n3 (UF), período 2022 (referência mais recente, publicada em 2024). Endpoint:apisidra.ibge.gov.br/values/t/6450/v/allxp/p/2023/c319/116542/n3/all. - IBGE — malhas territoriais — feições estaduais via
geobr::read_state(2020)(27 UFs, WGS-84), usadas no choropleth. - RFB CNPJ (próxima rodada) — base pública, snapshot 2026-04, ZIPs
Estabelecimentos{0..9},Empresas{0..9},Simples, layout RFB v2024, WebDAVarquivos.receitafederal.gov.br. - BCB — séries SGS de crédito PJ por modalidade, usadas como contexto cruzado com o eixo
macroeconomia-pme.
Reprodutibilidade
Código em lab/labs/cont_lab_20_mapa_competitivo/. Pipeline:
`` uv run python code/collect.py # sync CEMPRE SIDRA + (pendente) RFB 2026-04 + CAGED uv run python code/clean.py # filtros CNAE-alvo + cruzamento Simples uv run python code/model.py # HHI nacional/UF + ratio PME/contador + LQ + Score + KM uv run python code/figures.py # fig 1..4 (choropleths + ranking + scatter) ``
Artefatos persistidos: outputs/resultado.parquet (27 × 13) e outputs/metrics.json. Plano original e schemas em notes/plano_execucao.md; log de coleta em notes/collect_log.md.