Generalização ótima em perceptrons

Nenhuma Miniatura disponível
Data
2015-04-08
Título da Revista
ISSN da Revista
Título de Volume
Editor
Resumo

O perceptron tem sido estudado no contexto da física estatística desde o trabalho seminal de Gardner e Derrida sobre o espaço de aclopamentos desta rede neural simples. Recentemente, Opper e Haussler calcularam via método de réplicas, o desempenho ótimo teórico do perceptron na aprendizagem de uma regra a partir de exemplos (generalização). Neste trabalho encontramos a curva de desempenho ótimo após a primeira apresentação dos exemplos (primeiro passo da dinâmica de aprendizagem). No limite de grande número de exemplos encontramos que o erro de generalização é apenas duas vezes maior que o erro encontrado por Opper e Haussler. Calculamos também o desempenho ótimo para o primeiro passo da dinâmica de aprendizagem com seleção de exemplos. Mostramos que a seleção ótima ocorre quando o novo exemplo é escolhido ortogonal ao vetor de acoplamentos do perceptron. O erro de generalização neste caso decai exponencialmente com o número de exemplos. Propomos também uma nova classe de algoritmos de aprendizagem que aproxima muito bem as curvas de desempenho ótimo. Estudamos analiticamente o primeiro passo da dinâmica de aprendizagem e numericamente seu comportamento para tempos longos. Mostramos que vários algoritmos conhecidos (Hebb, Perceptron, Adaline, Relaxação) podem ser interpretados como aproximações, de maior ou menor qualidade, de nosso algoritmo


The perceptron has been studied in the contexto f statistical physics since the seminal work of Gardner and Derrida on the coupling space of this simple neural network. Recently, Opper and Haussler calculated, with the replica method, the theoretical optimal performance of the perceptron for learning a rule (generalization). In this work we found the optimal performance curve after the first presentation of the examples (first step of learning dynamics). In the limit of large number of examples the generalization error is only two times the error found by Opper and Haussler. We also calculated the optimal performance for the first step in the learning situation with selection of examples. We show that optimal selection occurs when the new example is choosen orthogonal to the perceptron coupling vector. The generalization error in this case decay exponentially with the number of examples. We also propose a new class of learning algorithms which aproximates very well the optimal performance curves. We study analytically the first step of the learning dynamics and numerically its behaviour for long times. We show that several known learning algorithms (Hebb, Perceptron, Adaline, Relaxation) can be seen as more or less reliable aproximations o four algorithm

Descrição
Palavras-chave
Não disponível, Not available
Citação