Como fazer a manutenção do storage e evitar problemas futuros
Storages são equipamentos que armazenam nossas vidas digitais, sempre executando processos complexos e disponibilizando informações.
Porém, quando alguns desses storages falham, temos a interrupção na produção que pode ocasionar danos catastróficos ou mesmo colapso nas operações, causando grandes prejuízos aos negócios.
Assim como servidores, os storages também requerem monitoramento e manutenção constante para garantir que não falhem.
A manutenção preventiva desses sistemas garantem que problemas relativamente pequenos não se transformem em falhas catastróficas futuras.
Muitas vezes, a falha de um storage é o resultado de situações que seriam facilmente evitáveis, porém saíram do controle devido à falta de correções preventivas.
Pensando nisso, elaboramos um checklist com boas práticas que pode ajudar a manter seus storages sempre em operação e entregando o melhor desempenho possível.
1. Verificação do backup
Storages equipados com arranjos de discos também precisam manter seu sistema de backup atualizado.
É comum usuários menos atentos confiarem em arranjos de discos e não terem os backups de seus sistemas de armazenamento atualizados.
Essa é a primeira e mais importante tarefa de qualquer lista de manutenção para sistemas de armazenamento.
De nada vale planos elaborados para recuperação de desastres se os dados gravados pelos sistemas de backup não permitirem restauração ou estiverem corrompidos.
Mesmo storages de alta disponibilidade precisam manter suas respectivas cópias de segurança atualizadas, sob pena da interrupção dos serviços em caso de desastres.
Dependendo do volume de dados gerados diariamente pela organização, os backups devem ser testados diariamente ou semanalmente.
Para aplicações de missão crítica, testes de rotina do sistema de backup não devem se limitar apenas a verificação dos arquivos de log.
Simulações de recuperação no ambiente de produção podem mostrar falhas que tomariam tempo para serem solucionadas em caso de desastre.
Caso você esteja fazendo backup apenas de parte de seu sistema, verifique se todos os aplicativos recém-introduzidos foram classificados como de risco e, se necessário, incluídos na rotina de backup.
2. Monitore o espaço de disco disponível
Caso o espaço ocupado em disco do storage se aproxime ou exceda os 90% da capacidade total é necessário adicionar expansões ou limpar o sistema dos arquivos supérfluos.
Storages sempre precisam de área livre para operações internas, por isso manter pouco espaço livre para o armazenamento sobrecarrega os hard disks, diminui gradualmente o desempenho do sistema e aumenta a probabilidade de corrupção de dados.
Uma boa prática é transferir arquivos inúteis como e-mails antigos, logs, arquivos de instalação e softwares que não são de uso diário para áreas de cold storage, mais baratas porém ainda acessíveis.
Quanto mais dados e maior a redundância dos seus servidores e storages, maior o risco de manter seu acervo de dados copiado várias vezes.
A redução e melhor organização dos dados de produção também significa backups mais rápidos e recuperação mais veloz em caso de falha.
3. Fazer monitoramento dos arranjos RAID
Os servidores e storages de produção sempre devem usar arranjos RAID porque esses agrupamentos de discos raramente falham.
Apesar de serem boas notícias, geralmente os administradores de sistemas se acostumam a essa confiabilidade e acabam se contentando com o monitoramento irregular do hardware.
Esse é um dos motivos pelos quais todos controladores RAID são programados para gerar mensagens de aviso e emitir alarmes quando qualquer problema é detectado.
Os administradores de TI devem sempre atentos às mensagens de status e alarmes gerados pelo sistema sobre o funcionamento dos arranjos RAID.
Numa matriz RAID qualquer disco rígido pode falhar e permanecer despercebido, mesmo se os alarmes gerados pelo sistema sejam ignorados.
Na maioria desses casos os sistemas de produção continuarão funcionando sem problemas, pois os demais discos do arranjo ainda estarão funcionando.
O problema começa quando os administradores negligenciam essas configurações de envio de mensagens ou não verificam diariamente os avisos recebidos.
4. Atualizar sempre o sistema operacional
Hackers examinam rotineiramente sistemas de armazenamento corporativos em busca de falhas para identificar quais estão vulneráveis.
As versões mais recentes do sistema operacional e suas respectivas atualizações (patches) podem corrigir a maioria dessas falhas.
Assim, manter um sistema automatizado de atualizações e correções dos softwares utilizados nos servidores e storages nos poupam de um bocado de dor de cabeça.
Além disso, sistemas automatizados para esse fim controlam as atualizações, informam quando novos patches estarão disponíveis e permitem especificar quais atualizações poderão automáticas.
Caso não seja possível automatizar esse processo, desenvolva uma programação manual de verificação.
Para maior segurança é fortemente recomendado verificar e atualizar semanalmente a versão do sistema operacional e dos softwares mais utilizados.
5. Também atualize os aplicativos Web
Além do sistema operacional, os aplicativos Web têm sido a porta de entrada para a maioria das violações de segurança em larga escala dentro de organizações.
Por serem voltados para a Internet, sites e aplicativos Web sempre são mais propensos a sofrer ataques cibernéticos.
Os hackers identificarão e explorarão vulnerabilidades para ganhar uma posição na rede e, caso isso aconteça, poderão instalar malwares para algum benefício ilícito.
Esse é o motivo que também devemos priorizar as atualizações de aplicativos web. Assim como as correções dos sistemas operacionais, todas atualizações e patches desses aplicativos são de alta prioridade.
6. Procure erros de hardware
Revise os logs de auditoria e eventos para identificar problemas emergentes de hardware. Falhas na rede, erros de leitura do disco e avisos de superaquecimento são indicadores de uma falha de hardware iminente.
O risco de falha de hardware também aumenta com quando a capacidade do sistema é excedida. Idealmente, os aumentos na utilização do sistema devem ser relativamente graduais e previsíveis, o que permitirá planejar a expansão com antecedência.
Certas mudanças organizacionais, incluindo crescimento imprevisto dos negócios podem exaurir os recursos do sistema mais rapidamente do que planejado.
Revise a utilização do storage, da rede, memória RAM do servidor, da CPU e do disco. Se o sistema estiver quase chegando ou excedendo seus limites operacionais ideais, será necessário fazer um upgrade de capacidade ou fazer a substituição completa do equipamento.
É possível acompanhar a utilização do sistema utilizando as diversas ferramentas disponíveis para servidores Linux e/ou Windows.
7. Inspecione fisicamente o equipamento
Alguns administradores de TI ficam tão envolvidos no monitoramento de seus sistemas por meio de aplicativos que esquecem os conceitos básicos de manutenção de equipamentos.
Nem todos os problemas de um sistema se originam propriamente de falhas. Talvez um dos cabos de rede esteja se soltando ou a sala do servidor esteja subdimensionada, causando superaquecimento nos servidores e storages.
A inspeção da infraestrutura crítica deve fazer parte da rotina da manhã do administrador.
Uma visita à sala dos servidores (datacenter) pode solucionar problemas que não são identificados quando se está sentado atrás de uma tela de computador.
Assim, sempre que possível verifique seus servidores, storages, roteadores, impressoras, no-breaks e elementos da infraestrutura como os cabos de rede.
A falta de controle de umidade e da temperatura ambiente também afetam o desempenho do servidor, storages e da rede.
No curto prazo, diminui o desempenho. A longo prazo, reduz a vida útil do equipamento. Por exemplo, manter seus equipamentos em temperaturas acima do especificado pode causar interrupções e corrupção de dados.
Da mesma forma, caso a sala do servidor esteja com um nível de umidade acima do ideal, a condensação resultante pode causar um curto-circuito ou corrosão dos equipamentos.
8. Use sempre antivírus
O objetivo principal dos softwares antivírus é prevenir o contágio por malwares que possam causar danos ao sistema, como uma das muitas versões do Ransonware.
Com eles, usuários serão notificados sempre que tentarem abrir ou inserir um arquivo infectado com ameaças ao sistema.
Mesmo assim, alguns arquivos contendo novas ameaças nem sempre são detectados imediatamente após serem introduzidos.
Nesses casos, varreduras com as novas atualizações podem identificar esses arquivos maliciosos, introduzidos anteriormente e que não foram sinalizados como infectados.
Com realizar a verificação através de antivírus para detectar e remover malwares pode prejudicar a performance do sistema, agendar essa varredura para horários de menor atividade é sempre uma boa prática.
9. Mantenha as contas de usuário sempre atualizadas
Cancelamentos de clientes, alterações de equipe, descadastramento de fornecedores e quaisquer outras alterações que exijam "desativação definitiva da conta de usuário" devem ser excluídas do sistema imediatamente.
Contas de usuário antigas são vulnerabilidades que colocam em risco os dados, a reputação e a própria organização.
Pessoas que não fazem parte da organização mas ainda têm acesso ao sistema são um canal potencial para espionagem corporativa.
Funcionários demitidos e insatisfeitos podem sabotar maliciosamente os servidores como vingança. A constante revisão das contas de usuário em sistemas de missão crítica devem ser feitas sempre que necessário.
Apenas algumas horas de qualquer acesso não autorizado pode causar estragos devastadores em qualquer organização.
10. Altere suas senhas
Os administradores de sistema, banco de dados e rede sabem quais são as contas de usuário mais importantes dentro da organização.
Em mãos erradas, senhas de contas como essa podem ser usadas para facilitar ações criminosas, com consequências negativas de longo alcance.
Num ambiente bancário por exemplo, qualquer indivíduo que obtém ilegalmente uma senha de administrador do sistema pode criar contas de usuário não autorizadas, que posteriormente poderão ser usadas para cometer fraudes múltiplas.
Como prática recomendada, todas as senhas devem ser alteradas pelo menos a cada seis meses.
Verifique a segurança do sistema
Sempre avalie o estado da segurança do servidor, banco de dados e rede usando ferramentas de auditoria remota.
Alguns departamentos de TI confiam excessivamente em auditores internos, sob a (falsa) premissa de que a identificação de todas as vulnerabilidades é função dos auditores de TI.
Isso não é verdade: Os administradores devem revisar a segurança do sistema mensalmente ou trimestralmente, dependendo da classificação de risco atribuída a cada sistema.
Apesar dos avanços significativos em recursos como alta redundância, escalabilidade e no desempenho dos servidores e storages, esses benefícios sempre causam um excesso de confiança nos administradores de TI, afetando negativamente o uso da tecnologia.
Não existe sistemas à prova de falhas, porém quanto mais robusto for o regime de manutenção do sistema, menor o tempo de inatividade e melhor será o uso da infraestrutura de tecnologia existente.
Armazenamento de dados
Tudo o que você precisa saber sobre soluções de Armazenamento de dados.
O que é data writing per day (DWPD)?
O que é data writing per day (DWPD)? Saiba porque essa métrica é importante vai te ajudar a escolher o tipo correto de SSD para cada aplicação.
NAS Storage barato? Cuidados ao Comprar um NAS
NAS Storage barato? Comprar NAS pelo Menor Preço é perigoso. Conheça as Principais Armadilhas e os 3 servidores NAS mais confiáveis p/ uso doméstico.
Preço de Synology NAS? Saiba mais antes de comprar
Preço de NAS Synology? Confira algumas dicas p/ escolher corretamente seu novo sistema de armazenamento. Somos distribuidor Autorizado Synology Brasil