AppFabric Cache кажется нестабильным

Мы пытаемся использовать распределенный кеш AppFabric. После долгих разговоров с серверами, не относящимися к домену, мы наконец поместили их в домен, и установка / настройка стала немного проще. Мы запустили его и запустили после того, как преодолели массу ошибок, большинство из которых кажется тривиальным, если включить в AppFabric какое-нибудь тестовое или более описательное сообщение об ошибке. «Временная ошибка» многого не объясняет ...

Но все еще есть проблемы.

Настроили 3 сервера, один из которых «свинцовый». Наконец-то мы получили кеш в рабочем состоянии и подтвердили это, указав Network Load Balancer на один сервер за раз, подтверждая, что мы можем установить кеш на одном сервере и получить его на другом.

Затем я перезапустил службу кэширования AppFabric на всех серверах, и внезапно она перестала работать. Get-CacheHost сообщает, что они работают, но мы получаем исключения вроде:

ErrorCode<ERRCA0018>:SubStatus<ES0001>:The request timed out
ErrorCode<ERRCA0017>:SubStatus<ES0001>:There is a temporary failure. Please retry later.

Почему возникает эта ошибка при простом перезапуске служб?
Действительно ли AppFabric Cache готов к производственному использованию?
Что произойдет, если сервер отключится? Долгие таймауты?
Мы зависим от "ведущего" сервера?

Я подозреваю, что он вернется через 5-10 минут R&R. Иногда кажется, что оно возвращается само собой.

Обновление: оно появилось через несколько минут. Теперь мы протестировали, удалив один сервер из кластера, и это привело к длительному таймауту и, наконец, к исключению.


person Tedd Hansen    schedule 20.01.2011    source источник
comment
ПОЧЕМУ, черт возьми, нужно так много времени, чтобы снова подняться? на одном сервере. по какой-то технической причине я уверен, что это заставляет меня скептически относиться к доверию всей платформе   -  person Simon_Weaver    schedule 23.02.2013


Ответы (1)


Мы отлаживали это в течение некоторого времени, и я делюсь тем, что мы нашли на данный момент.

  • UAC в Windows 2008 фактически блокирует доступ к локальному компьютеру, поэтому команды на локальный компьютер не будут выполнены. Запустите PowerShell от имени администратора или полностью отключите UAC для обхода.
  • Просто изменить файл конфигурации вручную не получится. Вам нужно использовать команды экспорта и импорта.
  • Брандмауэры представляют собой серьезную проблему, поскольку установщик открывает диапазон портов 222 *, но инструменты PowerShell используют другие службы Windows. Отключение брандмауэра на всех серверах (не рекомендуется) решило проблему.
  • Если сервер удален из кластера, будет начальный тайм-аут, прежде чем кластер снова сможет работать.
  • После перезапуска кластеру потребуется 2-5 минут для восстановления работы.
  • Если при перезапуске один сервер недоступен, время запуска увеличивается.
  • Если сервер, на котором находится общий файловый ресурс для конфигурации, недоступен, службы не запустятся. Мы попытались решить эту проблему, предоставив каждому серверу частный ресурс.
person Tedd Hansen    schedule 27.01.2011
comment
Если я правильно понимаю, использование поставщика конфигурации SQL приведет к тому, что управление кластером будет выполняться SQL Server, а не «ведущим хостом», и, таким образом, это может уменьшить количество проблем, с которыми вы сталкиваетесь? [msdn.microsoft.com/en-us/library/ee790934.aspx # sectionSection1]. IIRC, это должно позволить вам иметь возможность связываться с любым узлом кеша для доступа к кластеру кеша. - person jamiebarrow; 17.08.2011
comment
Вы когда-нибудь приходили к каким-либо выводам по этому поводу? Я столкнулся с теми же проблемами. - person Pedro; 03.05.2012
comment
@Tedd Hansen, у вас получилось заставить это работать? Если сервер, на котором находится общий файловый ресурс для конфигурации, недоступен, службы не запустятся. Мы попытались решить эту проблему, предоставив каждому серверу частный ресурс. Стандартная процедура - иметь общий файловый ресурс. Приходилось прибегать к каким-то способам взлома? Пожалуйста, поделитесь своим опытом - person Mandeep Janjua; 09.07.2013