Facultés d'apprentissage

Une des différences les plus remarquables entre les joueurs humains et électroniques est que l'humain peut apprendre à partir de ses erreurs. Supposons qu'un débutant perde une pièce dans une combinaison qu'il n'avait jamais vue auparavant, par exemple une simple fourchette de pions. Dans le cas idéal, par la connaissance de ce motif, il ne tombera plus dans ce panneau et, grâce à l'expérience, évitera la perte de la pièce.

Cela a longtemps été différent pour les programmes d'échecs qui commettaient la même erreur avec opiniâtreté. Ce défaut pouvait être observé dans les matchs entre ordinateurs où certaines parties perdantes étaient reproduisibles dans la même forme. Pour les utilisateurs, c'était assez frustrant après un premier triomphe de battre son programme par la même astuce ou la même suite de coups. Il devint donc nécessaire d'implanter dans le programme d'échecs un algorithme mettant fin à ce comportement peu intelligent afin que le programme devienne un adversaire plus difficilement prévisible.

Les premiers essais au niveau commercial furent réalisés par les Américains Kathe et Dan Spracklen pour les ordinateurs d'échecs Elite-Avantgarde de la firme Fidelity. Pour les ordinateurs de cette série, un coup ne fut plus joué si pour le coup suivant l'évaluation baissait de façon sensible. Alternativement, le deuxième meilleur coup fut joué. Il est clair que cette méthode n'était efficiente que sur le plan tactique car, pour l'ordinateur, des aspects positionnels difficilement reconnaissables qui mènent à de mauvaises positions à long terme, n'étaient absolument pas pris en compte.

Le programme dispose de fonctions d'apprentissage très pointues. La fonction d'apprentissage poursuit les objectifs suivants :

· Répétition des parties gagnantes et absence de répétition des parties perdantes.

· Meilleure efficacité dans les parties et analyses.

· Reconnaissance des combinaisons.

· Amélioration et modification de la bibliothèque d'ouvertures.

La plupart des programmes d'échecs actuels réalisent ces exigences par les Hashtables. Les positions critiques, y compris leur évaluation, sont enregistrées dans un fichier d'apprentissage. Lors du démarrage d'une partie, le fichier d'apprentissage est chargé en mémoire centrale et le programme y cherche constamment si la position en cours y est répertoriée. En pratique cela signifie que chaque fois que le calcul aboutit à un changement dans l'évaluation de la position, celle-ci est enregistrée de façon permanente avec son évaluation. Si une position apprise doit être recalculée, le programme peut accéder aux informations enregistrées et jouer éventuellement un meilleur coup. Cette technique présente un certain progrès, mais n'est pas de loin optimale. La méthode n'est utilisée que lorsque l'évaluation a baissé de façon dramatique. Les structures positionnelles à l'origine de la position critique ne sont pas prises en compte par cette méthode. Un point faible supplémentaire dans ce processus est de ne prendre en compte que les positions identiques à celles contenues dans le fichier d'apprentissage. Un vrai progrès, dans le domaine de l'intelligence artificielle, serait que la fonction d'apprentissage puisse intervenir aussi dans les situations où un motif semblable apparaît. Pour un humain, cela ne présente pas de problème car il peut transférer l'expérience acquise dans des situations qui ne correspondent pas à 100% à la situation expérimentale.

Le programme effectue de lui-même des modifications dans la bibliothèque d'ouvertures. Les suites non favorables sont simplement réduites dans la préférence de jeu ou désactivées, alors que les variantes d'ouverture avec des résultats nettement positifs sont affectées d'une haute préférence par le programme d'échecs. Cette méthode a le grand avantage d'optimiser indépendamment à long terme le jeu du programme dans la phase d'ouverture. Ainsi le programme est capable de trier les mauvaises variantes d'ouverture et/ou d'essayer d'obtenir des variantes favorables, une fois qu'elles ont été jouées.