Detecção de Objetos do Zero: Parte 4 - Lendo Métricas Como Engenheiro

Métricas sem interpretação são apenas numerologia cara.

O valor deste projeto é justamente mostrar que os números fazem sentido quando lidos à luz da geometria das classes e do pipeline inteiro.

Precision e Recall

As duas perguntas centrais são simples:

quando o detector prevê uma região, com que frequência ele está certo?
quando a região existe de fato, com que frequência ele a encontra?

Essas respostas moldam diretamente a confiança do produto.

O trade-off entre precision e recall fica mais facil de entender quando se enxerga a tensao entre falsos positivos, falsos negativos e pontos de operacao uteis.

Em outras palavras: precision fala sobre o custo dos falsos positivos. Recall fala sobre o custo dos falsos negativos. Um produto bom precisa entender os dois, não apenas celebrar o maior número disponível.

mAP50 vs mAP50-95

mAP50 responde a pergunta: o modelo encontrou aproximadamente a região certa?

mAP50-95 endurece o critério: ele exige caixas muito mais bem localizadas e consistentes ao longo de thresholds mais rígidos.

O desnível entre essas métricas é especialmente revelador em projetos como este. Se mAP50 é forte, mas mAP50-95 cai bem, o detector provavelmente está enxergando o lugar certo, mas ainda falha na precisão fina da caixa.

Thresholds de IoU nao sao trivia estatistica. Eles mudam se uma caixa conta como aproximadamente certa ou suficientemente precisa para producao.

Classes Pequenas Sofrem Mais

Nem todo erro de pixel custa a mesma coisa.

Em art, um pequeno deslocamento quase não altera o IoU de forma dramática. Em mana-cost ou power, o mesmo erro muda muito o resultado. É por isso que classes pequenas quase sempre sofrem mais sob métricas estritas.

Esse ponto é importante porque evita uma leitura simplista de "o modelo é ruim em objetos pequenos". Às vezes o que existe é uma combinação de:

labels ligeiramente inconsistentes
regiões visualmente difíceis
penalização maior do IoU em caixas pequenas

A matriz de confusao bruta mostra quais classes o detector realmente mistura e onde os misses se acumulam em termos absolutos.

A versao normalizada facilita a comparacao entre classes porque transforma os mesmos padroes de confusao em percentuais.

Métrica Só Faz Sentido Com Produto

O que interessa mesmo é o efeito no resto da cadeia:

title alimenta OCR
art alimenta DINOv2
uma caixa ruim pode degradar tudo o que vem depois

Por isso, ler métricas direito é perguntar: em quais regiões o sistema precisa ser excelente para continuar útil?

Curvas Que Viram Decisão

As curvas são mais úteis quando ajudam a tomar decisões concretas.

A curva PR mostra se o detector consegue permanecer preciso enquanto o recall sobe, e e por isso que a forma da curva vale mais do que um threshold isolado.

A curva PR ajuda a responder a pergunta maior primeiro: o detector continua útil quando tentamos recuperar mais regiões reais?

A curva F1 ajuda a localizar o threshold de confianca em que precision e recall ficam mais equilibrados para o projeto real.

A curva F1 é ótima para escolher um ponto de operação sem chute. Ela mostra onde o equilíbrio entre precision e recall fica mais saudável para o caso real.

Precision sobe quando o threshold fica mais rigido, o que e util quando o produto prefere suprimir deteccoes fracas a alucinar regioes.

Recall cai quando o threshold sobe, e é por isso que ajuste de confiança sempre é um trade-off de produto, não apenas acadêmico.

As curvas de precision e recall tornam a mesma decisão legível por lados opostos: uma mostra como falsos positivos caem; a outra mostra o preço pago em detecções perdidas.

Uma Boa Leitura de Métricas Gera Próximos Passos

Quando leio os resultados deste projeto, as decisões que surgem são claras:

manter a baseline atual porque ela já é forte nas regiões que mais importam
melhorar labels se o objetivo for elevar a qualidade de localização estrita
evitar a suposição automática de que modelos maiores são o próximo passo certo
pensar no pipeline inteiro, e não apenas no número final do benchmark

É isso que métricas boas deveriam produzir: direção de engenharia.

Conclusão

As métricas deste detector são valiosas não porque são altas, mas porque são interpretáveis. Elas permitem inferir onde o modelo é robusto, onde a localização ainda é frágil e onde provavelmente está o teto de melhoria.

É isso que transforma benchmark em engenharia.

Na próxima parte, seguimos a saída do detector até o pipeline de identificação, onde detecção vira OCR, lookup e matching visual.

Leituras adicionais

Guia de métricas: docs/metrics-guide.md
Solução completa: docs/solution.md