sexta-feira, 11 de novembro de 2016

Margem de erro em pesquisas: as estatísticas podem realmente falhar?

Imagem: http://www.thecollegianur.com/

Intervalos de confiança

Quando colhemos uma amostra da população, nem sempre os dados daquela amostra irão retornar valores confiáveis sobre o todo. Dentro desse contexto de incerteza que paira sobre os dados,  os estatísticos usam uma ferramenta conhecida como intervalo de confiança para garantir a utilização segura dos resultados obtidos da amostra. Mas o que seria isso?

Um intervalo de confiança de 95%, por exemplo, nos informa o seguinte: se um grande número de amostras for coletado e um intervalo com esse nível de confiança for calculado para cada amostra, 95% deles conterão o verdadeiro parâmetro populacional que estamos interessados em conhecer.

Em pesquisas eleitorais, por exemplo, estamos interessados na proporção de pessoas que votariam em determinado candidato. A pesquisa de intenção de votos é o que pode ser chamada pelos estatísticos de "inferência sobre a proporção de uma população". Geralmente, com base na proporção dos entrevistados nas pesquisas, são construídos intervalos de confiança. 

A margem de erro

A margem de erro está associada ao comprimento do intervalo de confiança. Ao se construir um intervalo, chamamos de amplitude a diferença entre os limites desse intervalo. No caso da pesquisa de intenção de votos, a margem de erro corresponde à metade da amplitude e nos mostra o quanto a porcentagem encontrada na pesquisa pode variar para mais ou para menos. Em outras palavras, nos fala o quanto a pesquisa pode errar (um erro que é aceitável, digamos).

O cálculo do erro para um intervalo de confiança de 95% (o padrão em pesquisas eleitorais) pode ser feito com base na seguinte fórmula: 


onde p é a proporção que se deseja analisar o erro, encontrada na amostra de tamanho n.

O exemplo das eleições americanas

Nas polêmicas eleições americanas que aconteceram recentemente, numa pesquisa realizada pelo New York Times/CBS com prováveis eleitores, considerando os quatro principais candidatos, Hillary e Trump ficaram empatados com 42% dos votos. A pesquisa ouviu por telefone 1433 eleitores em todo o país.

Repare que, pela fórmula acima, em ambos os casos, a margem de erro (o quanto os limites do intervalo se afastam da proporção de observações na amostra) é a mesma: aproximadamente 3 pontos percentuais para mais ou para menos.

Os intervalos de confiança de 95% para a proporção de eleitores com intenção de voto em Hillary e em Trump são os mesmos:

[42% - 3% ; 42% + 3%] = [39% ; 45%]

Como o intervalo é de 95% de confiança, se a pesquisa fosse realizada um grande número de vezes nos mesmos padrões, 95% delas exibiriam intervalos que conteriam a verdadeira proporção de votos nas eleições. 

Agora na prática, quando obtemos uma amostra e calculamos um intervalo de confiança, esse poderá conter ou não a verdadeira proporção de votos do candidato. Não sabemos se a informação é verdadeira para a amostra específica, mas o método utilizado para montar o intervalo resulta em afirmações corretas, no caso, 95% das vezes.

Como você já deve saber, o sistema eleitoral americano funciona de forma diferente do nosso e, apesar de Hillary ter perdido as eleições, ela segue com a maioria do número de votos populares, com 47,7%. Donald Trump aparece um pouco atrás, com 47,4%. Conforme podemos ver, ambas as porcentagens estão fora do intervalo exibido acima.

Ao que tudo indica, uma parcela dos indecisos, que não tinham sequer intenção de voto, acabou mudando todo o cenário das eleições. Respondendo a pergunta feita no título deste artigo: as estatísticas em si não falharam, uma vez que não há 100% de garantia de que o verdadeiro parâmetro populacional cairá dentro do intervalo. Talvez as pesquisas tenham se equivocado ao desconsiderar os possíveis eleitores indecisos ou aqueles que não tinham intenção de voto.

Fontes:

MONTGOMERY, D. C.; RUNGER, G. C. Estatística Aplicada e Probabilidade para Engenheiros. 5. ed. Rio de Janeiro: LTC, 2015.


Um comentário: