У меня есть два входа данных DC1 и DC2. Оба общаются по частной ссылке. Вчера у нас была проблема с приватной ссылкой на 10 минут. С момента решения проблемы узлы в обоих дата-центрах не могут обмениваться данными друг с другом. Когда я делаю статус nodetool на узле в DC1, узлы в DC2 указываются как отключенные. При попытке в DC2 узлы в DC1 отображаются как отключенные.
Но в логах cassandra мы ясно видим, что рукопожатие прерывается каждые 5 секунд для связи между центрами обработки данных. На уровне TCP слишком много fin_wait1 сгенерировано cassandra, что все еще остается загадкой. Closed_wait топовых переходов из-за этого очень высокий. Из-за такой проблемы с падением TCP-прослушивания мы перешли с версии 2.0.1 на версию 2.0.3. В версии 2.0.1 он находился в самом центре обработки данных. Но здесь между дата-центрами. Если это как-то связано с конфигурацией снитча, я использую GossipingPropertyFileSnitch.
Это явно начало происходить после сбоя приватной ссылки. Есть идеи по этому поводу?
Используемая версия Cassandra 2.0.3.