В настоящее время я пытаюсь внедрить MCTS для своего проекта, но я не уверен, правильно ли понимаю идею выбора узла. В начале игры, после случайного выбора одного хода, раскручивания всего дерева до точки конца игры, а затем выполнения обратного распространения, этот узел, очевидно, выглядит лучше всех остальных, поскольку он равен 1/1 (если мы получили победу) против их 0/0. Как MCTS избежать этой ловушки и не застрять на одном случайно выбранном узле?
Я имею в виду, что если мы используем, скажем, UCB для поиска лучшего узла для расширения, он всегда будет выбирать узел, который мы выбрали первым (учитывая, что он привел к выигрышу), полностью игнорируя все остальные, поскольку он будет единственным. ненулевое значение. Что мне здесь не хватает, поскольку это явно не так?