A magia do primeiro algarismo

Da Thinkfn

<metadesc content="A lei de Benford estabelece que a distribuição dos primeiros algarismos numa série de números do «mundo real» tem sempre a mesma distribuição logarítmica log(1+1/n). Existe evidência empírica esmagadora no sentido de que, com probabilidade 1, a lei de Benford representa uma lei universal para a distribuição do primeiro algarismo. Esta lei pode ser usada para testar modelos matemáticos de evolução de cotações, para auditoria financeira e para detectar eventuais fraudes fiscais." /> <keywords content="Lei de Benford, Teorema de Hill, Simon Newcomb, Frank Benford, Theodore Hill, primeiro algarismo, sucessão do primeiro algarismo, frequência do primeiro algarismo, fraude fiscal, auditoria financeira, fiscalização de impostos, invariância de escala, invariância de base, análise fundamental" />

LOGO NOVO GRADIVA 07.JPG
Este artigo é uma citação na íntegra do capítulo 3 - A magia do primeiro algarismo, do livro Da falsificação de Euros aos Pequenos Mundos de Jorge Buescu, editado pela Gradiva — Publicações Lda em 2003, gentilmente autorizada pela editora e pelo autor. Todos os direitos inerentes à obra para a língua portuguesa são reservados pela editora e mantêm-se absolutamente inalterados no Think Finance.


3


A magia do primeiro algarismo


Pensemos na sucessão das potências de 2: 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024... Agora, consideremos, não esta sucessão, mas a sucessão do primeiro algarismo significativo (diferente de zero) de cada um dos termos. Esta nova sucessão começa obviamente por 2, 4, 8, 1, 3, 6, 1, 2, 5, 1... Esta sucessão de primeiro algarismo toma, obviamente, apenas 9 valores: os inteiros 1 a 9. O que sugere imediatamente a pergunta: qual é a frequência assimptótica com que surge nesta sucessão cada um dos inteiros?

Intuitivamente, a resposta deveria ser que todos os inteiros surgem com igual frequência, ou seja, 1/9, ou aproximadamente 11,1%. Não há razão óbvia a priori para que o primeiro algarismo de uma potência de 2 tenha preferência por tomar algum valor particular. O número 6 parece tão legítimo como 9 ou 1.

No entanto, eis a primeira surpresa. A distribuição está muito longe de uniforme: pelo contrário, aproxima-se muito bem de uma distribuição logarítmica, em que

P(n)=log_{10} \left (1+{1 \over n} \right), \qquad \qquad \qquad(1)
Gráfico 1 — Comparação dos valores de log10(1+1/n), n = 1, ..., 9, com a frequência relativa (em percentagem) de ocorrência de n como primeiro algarismo das potências de 2 e 7
Tabela 1 — Frequências relativas (em percentagem) da ocorrência de n como primeiro algarismo para cada tipo de dados

onde P(n) é a probabilidade de ocorrência do algarismo n. Esta distribuição apresenta-se na linha 1 da tabela 1.

O leitor pode achar isto uma pequena e insignificante curiosidade. Talvez a formação das potências de 2 introduza um mecanismo oculto de desvio da distribuição, e é tudo. No entanto, isso não é verdade: se em lugar de potências de 2 considerar potências de 3, 4, ... 9, 11, ... obterá a mesma distribuição logarítmica. No gráfico 1 comparam-se os valores de log10(1+1/n) com a frequência relativa da ocorrência do algarismo n para as primeiras 1000 potências de 2 e de 7. Estranho!

Muito mais estranho é o que se passa com a tabela 1. Nela apresentam-se as frequências do primeiro algarismo de números recolhidos do «mundo real»: cotações de acções na bolsa portuguesa no dia 16 de Outubro de 2002 (apenas 58, o que dá uma amostra estatística pequena); número de porta de 307 pessoas ao acaso (obtidas abrindo a lista telefónica de Lisboa ao acaso); pesos moleculares de 1800 compostos; áreas (em milhas quadradas) de centenas de rios americanos; população de 3500 cidades americanas; números que aparecem numa edição ao acaso das Selecções do Reader's Digest. Agora já parece magia.

Os resultados são difíceis de acreditar. O leitor provavelmente esperaria encontrar uma distribuição uniforme nas frequências dos primeiros algarismos; uma vez que estes números não estão correlaccionados entre si, todos os algarismos deveriam ser igualmente prováveis.

Pois bem, isso é falso: a distribuição de qualquer destas frequências é logarítmica, descrita por (1). Segunda surpresa: a distribuição dos primeiros algarismos parece ser sempre a mesma distribuição logarítmica, independentemente da natureza dos números.

Antes de tudo, convém notar o seguinte. No caso das potências de 2, é possível demonstrar de forma matematicamente rigorosa (e mesmo sem grande dificuldade) que a distribuição dos primeiros algarismos segue de facto a distribuição (1). Isso é consequência do facto de log10(2) ser irracional e de um teorema clássico de Weyl sobre equidistribuição. O mesmo argumento mostra, mais geralmente, que a utilização de base 10 como sistema de numeração é irrelevante: em qualquer base inteira b, a distribuição das potências an de um inteiro a seguem a distribuição logarítmica análoga a (1) (desde, evidentemente, que a não seja ele próprio uma potência de b; por exemplo, o primeiro algarismo das potências de 10 em base 10 é, obviamente, sempre 1).

Mas o que se passa com o mundo real? Enlouqueceu? Porque é que as distribuições do primeiro algarismo seguem esta mesma lei? Afinal, o que têm que ver as potências de 2 com as acções da Bolsa de Lisboa, com os pesos moleculares ou com os rios americanos? Nada!

No entanto, se o leitor está céptico, sugiro uma experiência reveladora. Pegue no seu jornal desportivo favorito, ou no Almanaque Borda d'Água, ou no relatório e contas de uma empresa, e recolha o primeiro algarismo de todos os números que lá aparecerem. Com uma amostra significativa (digamos, 300 dados), as suas dúvidas dissipar-se-ão: com probabilidade 1, verá aparecer, como por magia, a lei logarítmica (1).

Como em todos os factos científicos, a magia não existe. Esta história começa em 1881 com o astrónomo Simon Newcomb. Num pequeno artigo no American Journal of Mathematics, Newcomb observa que os livros de tabelas de logaritmos davam sinais de muito maior uso nas primeiras páginas do que nas últimas — o que era estranho, porque uma tabela de logaritmos não é exactamente como um romance que se deixa ao fim de algumas páginas se não agradar. Isto parecia indicar que as mantissas dos números com que os cientistas lidavam se distribuíam de forma assimétrica: mantissas mais baixas ocorriam muito mais frequentemente do que elevadas. Newcomb propôs mesmo, sem grande justificação, a lei logarítmica acima referida.

O artigo de Newcomb passou completamente despercebido e foi esquecido. Em 1938, o físico Frank Benford, da General Electric, fez exactamente a mesma observação, exactamente pelos mesmos motivos (desgaste dos livros de tabelas de lagaritmos), e propôs exactamente a mesma lei logarítmica.

Benford compilou uma tabela de distribuição do primeiro algarismo para amostras significativas de 20 tipos de números diferentes (na verdade, os dados da tabela 1 sobre pesos moleculares, áreas de rios e população de cidades são os apresentados por Benford), chegando à conclusão de que independentemente da natureza dos dados a distribuição era sempre a mesma. Mais ainda: se somasse todos os dados independentemente da sua natureza, ficava com um conjunto de 20 229 dados que seguia a lei quase perfeitamente — muito melhor do que qualquer um dos 20 conjuntos isoladamente.

O artigo de Benford não passou despercebido, e hoje a lei fenomenológica (1) é conhecida como Lei de Benford. É claro que é falso que todas as tabelas numéricas sigam a lei de Benford. Basta consultar uma lista telefónica para verificar este facto: todos os números de telefone fixo em Portugal começam com 2. Mesmo ignorando prefixos, as listas telefónicas regionais partilham muitos números iniciais. E mesmo dados «neutros» como tabelas de raízes quadradas são mal aproximados pela lei de Benford.

No entanto, existe evidência empírica esmagadora no sentido de que, com probabilidade 1, a lei de Benford representa uma lei universal para a distribuição do primeiro algarismo. A lei de Benford é probabilística: e afirmar que uma lei se cumpre com probabilidade 1 não é afirmar que se cumpre sempre. Para não ir mais longe, escolher um número real «ao acaso» dará, com probabilidade 1, um irracional mas isso não é equivalente a dizer que não existem racionais. Os números racionais existem!

Nos 60 anos que se seguiram à publicação do artigo de Benford, foram realizadas por matemáticos, físicos, estatísticos e até amadores muitas tentativas de demonstração da lei de Benford. No entanto, estas tentativas nunca tiveram sucesso completo.

Matematicamente, as dificuldades eram várias. Por exemplo, uma hipótese muito utilizada foi a de que, se existe uma lei universal como a de Benford, ela deve ser invariante de escala. Isto significa por exemplo o seguinte: nos dados que dependem de unidades — cotações de acções, áreas de rios, pesos moleculares — o facto de se verificar a lei de Benford tem de ser característico dos dados, e não das unidades escolhidas para os representar. Se a lei de Benford se verificasse numas unidades e não noutras, significaria que se estava a observar um artefacto das unidades escolhidas, e não uma propriedade dos dados.

Para dar um exemplo concreto: na Bolsa de Lisboa, a lei de Benford deve verificar-se quer os preços das acções sejam expressos em euros, em (inexistentes) escudos ou em dólares. Se assim não for, não estamos a observar propriedades da distribuição dos valores das acções, mas apenas do facto de eles se encontrarem expressos em euros. E a lei de Benford não seria universal (com probabilidade 1).

A invariância de escala traz contudo problemas graves, que não podem ser ultrapassados. O maior é que não pode existir nenhuma distribuição de probabilidade invariante de escala (em termos matemáticos, esta condição é incompatível com a condição de sigma-aditividade que uma medida deve satisfazer)!

Muitas tentativas foram feitas para contornar este problema, sem grande sucesso. Em 1996 o matemático Theodore Hill, do Georgia Institute of Technology, conseguiu finalmente resolver o problema de uma forma muito elegante e verdadeiramente matemática: substituiu o problema original por outro aparentemente mais difícil. Observou que uma lei universal para a distribuição do primeiro algarismo deveria ser invariante de base: isto é, deveria ser válida em qualquer base inteira, e não apenas na base 10.

Analisando esta hipótese de invariância de base, Hill descobriu que ao considerar conjuntos de diferentes tipos de números, e não os próprios números, os problemas matemáticos desapareciam. Hill conseguiu assim demonstrar formalmente que a lei de Benford é a única distribuição de probabilidade invariante de base. A lei de Benford é, portanto, um teorema. Não há magia no fenómeno do primeiro algarismo.

Uma outra demonstração de Hill considera a mistura de muitas distribuições de dados de natureza diferente em simultâneo. O que se mostra é que, mesmo que cada distribuição não siga individualmente a lei de Benford, o conjunto de todas as distribuições (uma espécie de «amostras aleatórias de distribuições aleatórias») o faz. Assim, a própria demosntração esclarece a observação algo misteriosa de Benford: a de que a união dos seus dados fenomenológicos satisfazia muito melhor a sua lei do que qualquer dos conjuntos de dados isoladamente. Da mesma forma, a mistura dos valores das cotações das acções em Bolsa, combinadas com as moradas e com os rios americanos verifica mais precisamente a lei de Benford do que qualquer dos dados separadamente!

Podemos tentar dar uma explicação mais ou menos intuitiva (e que corresponde ao que de facto se passa com as potências de 2) da lei de Benford. Imagine o leitor que faz um depósito de 1000€ a longo prazo, e o banco lhe dá uma taxa de juro constante, livre de impostos, de 20% ao ano[1]. Com esta taxa, demorará quase quatro anos para o capital crescer 100%, ou seja, até aos 2000€; ao longo deste tempo o primeiro algarismo do capital é 1. No entanto, agora o tempo durante o qual o primeiro algarismo do capital é 2 é menor, uma vez que o crescimento do capital de 2000€ para 3000€ é apenas de 50%. Na verdade, isso acontecerá ao fim de pouco mais de dois anos. Suponha agora que já atingiu os 5000€ de capital (o que acontecerá no final do oitavo ano). O acréscimo até chegar aos 6000€ é apenas de 20%; assim, o tempo durante o qual o primeiro algarismo é 5 é apenas um ano. Quando o capital chegar aos 9000€, basta um crescimento de apenas 11% para atingir os 10 000€, o que sucede em sete meses. Ao atingir este valor, o primeiro algarismo voltou a ser 1, e o ciclo recomeça: o primeiro algarismo estacionará em 1 durante cerca de quatro anos, e assim sucessivamente. É fácil verificar que a proporção de tempo que o primeiro algarismo passa em cada valor segue a lei de Benford.

Aquilo que este argumento mostra é que, se uma grandeza tem taxa de crescimento constante no tempo, seguirá a lei de Benford (o leitor pode convercer-se de que isso ocorre mesmo que a taxa seja negativa). O que já não é óbvio é que, se tivermos um conjunto suficientemente grande de quantidades que variam de forma descorrelacionada, a sua mistura segue a lei de Benford. É precisamente este o conteúdo matemático do trabalho de Hill.

A lei de Benford (ou teorema de Hill) possui, precisamente pela sua generalidade, aplicações inimagináveis. Em primeiro lugar, no teste de modelos matemáticos: se construírmos um modelo, por exemplo, para prever evoluções de cotações de Bolsa ou dados demográficos e o conjunto de números que obtemos não satisfaz a lei de Benford, essa é uma boa indicação de que os dados obtidos não são fiáveis — e de que o modelo não é realista.

Outro exemplo é a concepção de computadores. Se os números que os computadores tratam não se distribuem uniformemente (e há generalizações da lei de Benford para um número de algarismos superior ao primeiro), podemos tirar partido desse facto ao desenhar um processador aritmético. Em suma: podemos tirar partido de o algarismo 9 aparecer muito menos frequentemente do que o 1!

O exemplo mais espectacular é sem dúvida a aplicação da lei de Benford à fiscalização de impostos e à auditoria financeira. A observação essencial é a seguinte: dados contabilísticos reais constantes das declarações fiscais satisfazem com probabilidade 1 a lei de Benford. Ora o que se verifica é que as pessoas são, do ponto de vista da lei de Benford, «más» a inventar dados. Dados fictícios fabricados pela mão humana raramente satisfazem a lei de Benford — talvez por razões psicológicas: pela intuição, falsa, de que a distribuição do primeiro algarismo é uniforme.

Tabela 2 — A lei de Benford no combate à fraude fiscal. Os dados verídicos provêm do arquivo do IRS americano. Os dados fraudulentos provêm da investigação de sete empresas do distrito de Brooklin

Há assim a possibilidade de utilizar a lei de Benford para detectar eventuais fraudes fiscais, como observou Mark Nigrini na sua tese de doutoramento (orientada por Hill) em 1992. Se uma declaração de IRS ou IRC possui, nos números que apresenta, desvios estatisticamente significativos à lei de Benford, é provável que os dados sejam fictícios no todo ou em parte. Ou seja, existe uma probabilidade acima do nível de acaso de se tratar de fraude fiscal. Ou seja, a administração fiscal deve investigar esse contribuinte.

O sistema proposto por Nigrini não é uma hipótese académica: está já em vigor nos EUA desde 1998. É que a lei de Benford já não é uma observação empírica plausível: tem agora a dignidade de um teorema matemático. Os resultados são significativos: na tabela 2 mostram-se dados reais de declarações americanas de IRS fraudulentas detectadas por este processo, comparadas com os dados de 91 022 declarações verídicas[2].

Nigrini publicou nos Estados Unidos, em 2002, o livro Digital Analysis Using Benford's Law, em que propõe a aplicação deste método a auditorias financeiras. Baseado nestes resultados, Nigrini é hoje consultor de administrações fiscais de vários países, entre os quais a Holanda, procurando introduzir este sistema. Não sabemos se Portugal se encontra entre esses países; em todo o caso, essa possibilidade seria uma forma estatisticamente muito relevante de combate à evasão fiscal, a custo económico e político virtualmente zero.

PS — O autor ficou bastante aliviado ao verificar que a sua declaração de IRS é compatível com a lei de Benford!

Notas

  1. Se o leitor encontrar um banco que faça estas condições, o autor pede encarecidamente que o contacte!
  2. Adaptado de T. Hill, The first-digit phenomenon, American Scientist ISBN 86 (1996) 358-363; disponível em Theodore (Ted) P. Hill

Referências

  • R. Raimi, The Peculiar Distribution of First Digits, Scientific American 221, Dezembro de 1969, pp. 109-119.
  • R. Raimi, The First-Digit Problem, American Mathematical Monthly 83, 1976, pp. 521-538.
  • R. Raimi, On the Distribution of the First Significant Digits, American Mathematical Monthly 76, 1969, pp. 342-348.
  • D. Knuth, The Art of Computer Programming, vol. 2, Seminumerical Algorithms, 3.ª ed., Reading, MA, Addison-Wesley, 1998. A parte relevante é The Fraction Parts, §4.2.4B, pp. 254-262.
  • T. Hill, The Significant-Digit Phenomenon, American Mathematical Monthly 102, 1995, pp. 322-327.
  • T. Hill, The First-Digit Phenomenon, American Scientist 86, 1996, pp. 358-363.
Os dois últimos e outros textos de divulgação de elevada qualidade podem ser encontrados na página Web de Hill em http://www.math.gatech.edu/~hill/. Também aí se podem encontrar os seus principais resultados matemáticos (em artigos científicos não recomendados ao leigo).
__________


Links relevantes