Máxima entropia

O desenvolvimento do método da máxima entropia (ME) ocorreu através de duas linhas de pesquisa: inferência estatística (Bernoulli, Bayes, Laplace, Jeffreys, Cox) e modelagem estatística de problemas em mecânica, física e de informação (Maxwell, Boltzmann, Gibbs, Shannon).

O objetivo da primeira linha de investigação é a de formular uma teoria/metodologia que permite a compreensão das características gerais (distribuição) de um sistema de informação parcial e incompleto. Na segunda linha de investigação, este mesmo objectivo é expresso na forma de determinar como atribuir valores numéricos (iniciais) das probabilidades quando apenas algumas quantidades globais limitadas (teoricamente) do sistema investigados são conhecidas. O reconhecimento dos objetivos básicos comuns destas duas linhas de pesquisa auxiliou Jaynes (1957)[1][2] no desenvolvimento do seu trabalho clássico, de formalização da máxima entropia. Isto é, a formalização da ME foi baseada na filosofia da primeira linha de investigação e na matemática da segunda linha de investigação.

Jaynes mostrou que maximizar estatisticamente a entropia (mecânica) com a finalidade de revelar o modo como as moléculas de gás estavam distribuídas seria equivalente à simples maximização da entropia (de informação) de Shannon com informação mecânica estatisticamente. O método foi correto para atribuir probabilidades independentemente das especificidades da informação. Esta ideia conduziu a máxima entropia ou à utilização do método da máxima entropia para atribuir probabilidades. Este método tem evoluído para um método mais geral, o método de máxima entropia relativa (MEr), que tem a vantagem de não só atribuir probabilidades, mas atualizá-las quando nova informação é dada sob a forma de restrições sobre os probabilidades.

A ME pode ser aplicada para análise de uma grande variedade de problemas na maioria das disciplinas da ciência. por exemplo, trabalhos sobre a reconstrução de imagem e análise espectral em medicina, física, química, biologia, topografia, engenharia, comunicação e informação, investigação de operações, ciência política e economia (tomografia, imagens de satélite, motores de busca, matriz insumo-produto, métodos tipo GMM, modelagem de dados em econometria); a investigação em estimação e inferência estatística (métodos bayesianos e não bayesianos); e inovações em curso no processamento de informação e de TI.

Definição

Em Física, a entropia de um sistema é uma medida de sua ‘desordem’. O físico austríaco Ludwig Boltzmann definiu a entropia de um sistema através da seguinte expressão:

S = k ln θ {\displaystyle S=k\ln \theta }

em que k {\displaystyle k} é uma constante (positiva) de ajuste dimensional e θ {\displaystyle \theta } é número de estados do sistema. A ‘desordem’ (denotada por D {\displaystyle D} ) está diretamente relacionada ao número de estados. Então,

S = k ln D {\displaystyle S=k\ln D}

Portanto, se S {\displaystyle S} mede a desordem, S {\displaystyle -S} (uma entropia negativa) mede a ordem do sistema. Uma das mais importantes variantes da equação anterior é a entropia de Shannon, também conhecida como entropia de informação, definida como:[3]

S ( X ) = k i = 1 n P i ln P i {\displaystyle S(X)=-k\sum _{i=1}^{n}{P_{i}\ln P_{i}}\,}

onde S ( X ) {\displaystyle S(X)} é a entropia da variável aleatória X, que denota a probabilidade de que X esteja no estado i, k é uma constante de ajuste dimensional, n é o número total de categorias ou estados, e P i {\displaystyle P_{i}} representa sua respectiva probabilidade. Os valores de P i {\displaystyle P_{i}} que maximizam S ( X ) {\displaystyle S(X)} são submetidos às condições da informação disponível.

O princípio da máxima entropia é útil explicitamente apenas quando aplicado a informações testáveis. Uma informação é testável se for possível determinar se uma dada distribuição é coerente com ela. Por exemplo, as declarações

O valor esperado da variável X é 2,87

e

P 2 + P 3 > 0 , 6 {\displaystyle P_{2}+P_{3}>0{,}6}

são declarações de informações testáveis.

Dada uma informação testável, o procedimento de máxima entropia consiste em procurar a distribuição de probabilidade de que maximiza a entropia da informação, sujeita às restrições da informação. Este problema de otimização restrita normalmente é resolvido utilizando o método de multiplicadores de Lagrange.

O problema pode ser enunciado como segue: Maximizar

S ( X ) = i = 1 n P i ln P i {\displaystyle S(X)=-\sum _{i=1}^{n}{P_{i}\ln P_{i}}\,}

com o conjunto de restrições (r):

[ Q r ] = i = 1 n P i Q r ( i ) {\displaystyle [Q_{r}]=\sum _{i=1}^{n}{P_{i}Q_{r}(i)}\,} = Q r m {\displaystyle Q_{r}^{m}} onde r = 0 , 1 , 2... {\displaystyle r=0,1,2...}

que significa que o valor médio de Q r {\displaystyle Q_{r}} é igual a Q r m {\displaystyle Q_{r}^{m}} . Para r = 0, temos a condição de normalização, que assegura que i = 1 n P i = 1 {\displaystyle \sum _{i=1}^{n}{P_{i}}=1\,} . Para r ≥ 1, Q r m {\displaystyle Q_{r}^{m}} é obtido da informação parcial que se tem do sistema.

Utilizando multiplicadores de Lagrange, λ r {\displaystyle \lambda _{r}} , o problema é maximizar

i = 1 n P i ln P i {\displaystyle -\sum _{i=1}^{n}{P_{i}\ln P_{i}}\,} r λ r Q r ( i ) {\displaystyle -\sum _{r}{\lambda _{r}Q_{r}(i)}\,}

A solução geral é

P i = e r λ r Q r ( i ) {\displaystyle P_{i}=e^{-\sum _{r}{\lambda _{r}Q_{r}(i)}\,}}

Propriedades

  • S ( X ) = 0 {\displaystyle S(X)=0} se e somente se todos os P i {\displaystyle P_{i}} são zero, com exceção de um que tem valor unitário. Intuitivamente, essa é a situação de maior certeza. De outra maneira, S ( X ) {\displaystyle S(X)} é positivo.
  • Para um dado n {\displaystyle n} , S ( X ) = 0 {\displaystyle S(X)=0} e igual a ln ( n ) {\displaystyle \ln(n)} quando todos os P i {\displaystyle P_{i}} são iguais (i.é., 1 / n {\displaystyle 1/n} ). Contrariamente à situação anterior, esse é o caso de maior incerteza.
  • Se existem dois eventos, X {\displaystyle X} e Y {\displaystyle Y} , com m {\displaystyle m} possibilidades para o primeiro e n {\displaystyle n} para o segundo e P ( i , j ) {\displaystyle P(i,j)} é a probabilidade de ocorrência conjunta de i {\displaystyle i} para o primeiro e j {\displaystyle j} para o segundo, a entropia do evento conjunto é:
S ( X , Y ) = i , j P ( i , j ) ln P ( i , j ) {\displaystyle S(X,Y)=-\sum _{i,j}{P(i,j)\ln P(i,j)}\,}
com
S ( X ) = i , j P ( i , j ) j ln P ( i , j ) {\displaystyle S(X)=-\sum _{i,j}{P(i,j)\sum _{j}{\ln P(i,j)}\,}\,} e
S ( Y ) = i , j P ( i , j ) i ln P ( i , j ) {\displaystyle S(Y)=-\sum _{i,j}{P(i,j)\sum _{i}{\ln P(i,j)}\,}\,}
Destas definições segue que:
S ( X , Y ) S ( X ) + S ( Y ) {\displaystyle S(X,Y)\leq S(X)+S(Y)}
  • Por definição, a entropia condicional de Y {\displaystyle Y} é dada por:
S x ( Y ) = i , j P ( i , j ) ln P i ( j ) {\displaystyle S_{x}(Y)=-\sum _{i,j}{P(i,j)\ln P_{i}(j)}\,}
De onde resultam
S ( X , Y ) = S ( X ) + S x ( Y ) {\displaystyle S(X,Y)=S(X)+S_{x}(Y)}
e
S ( Y ) H x ( Y ) {\displaystyle S(Y)\geq H_{x}(Y)}

Referências

  1. E. T. Jaynes Information theory and statistical mechanics, Physical Review 106:620, 1957
  2. E. T. Jaynes Information theory and statistical mechanics II, Physical Review 108:171, 1957
  3. Shannon, C. E. "A Mathematical Theory of Communication". Bell System Technical Journal, v. 27, p. 379–423, 1948.
  • Golan, Amos; Judge, George G.; Miller, Douglas. Maximum Entropy Econometrics: Robust Estimation with Limited Data. 1996.
  • Cassetari, Ailton. "O Princípio da Máxima Entropia e a Moderna Teoria das Carteiras". Revista Brasileira de Finanças, v. 1, n. 2, p. 271-300, 2003.
  • Portal de probabilidade e estatística