Atualização: Problemas Recentes no Servidor e Lições Aprendidas - eviltoast

Tivemos um problema sério recentemente, e parte dele foi por conta de um erro meu. Depois daquele ataque que sofremos alguns meses atrás, baixei a guarda com o tempo e removi algumas proteções ao trocar de servidor. Ficamos cerca de 15 dias tranquilos, até que na madrugada de quinta pra sexta fui surpreendido com uma enxurrada de alertas no e-mail. Eles voltaram.

Demorei um pouco para acreditar que era um ataque DoS. Reativei as defesas que havia retirado (mas poque retirou? porque impactam na responsividade do site), mas o novo servidor não estava conseguindo lidar com a fila acumulada de atividades. Servidor esse que estava dimensionado sob medida para nossa demanda normal.

Tive que recorrer a outro servidor meu, mais potente, que uso para trabalho. Como estou sem projetos no momento, ele estava com espaço livre. Coloquei o banco de dados e o servidor Lemmy nele, deixando o servidor original apenas para o banco de imagens. Depois de uns 30 minutos assim, o serviço voltou ao normal.

Foi uma tarefa árdua, especialmente porque o servidor só mostrava logs de requisições POST na inbox e dava timeout, o que dificultou bastante entender o que estava acontecendo. O time de desenvolvedores também não estava disponível naquele dia, mas, felizmente, um admin do Lemmy.world foi extremamente prestativo e trouxe várias ideias que ajudaram a resolver o problema.

Foi muito estressante. Eu já estava exausto e sem muitas opções, mas, no final, conseguimos contornar a situação.

Sei que muitos usuários ficaram frustrados também. Sei que a expectativa é que o serviço esteja sempre disponível, e me sinto mal por isso.