Como fazer a manutenção do storage e evitar problemas futuros

Manutenção de Storages, Qnap NAS TS-832X com personagens ao lado vestidos de mecânicos para simbolizar a manutenção do storage

Storages são equipamentos que armazenam nossas vidas digitais, sempre executando processos complexos e disponibilizando informações.

Porém, quando alguns desses storages falham, temos a interrupção na produção que pode ocasionar danos catastróficos ou mesmo colapso nas operações, causando grandes prejuízos aos negócios.

Assim como servidores, os storages também requerem monitoramento e manutenção constante para garantir que não falhem.

A manutenção preventiva desses sistemas garantem que problemas relativamente pequenos não se transformem em falhas catastróficas futuras.

Muitas vezes, a falha de um storage é o resultado de situações que seriam facilmente evitáveis, porém saíram do controle devido à falta de correções preventivas.

Pensando nisso, elaboramos um checklist com boas práticas que pode ajudar a manter seus storages sempre em operação e entregando o melhor desempenho possível.

Conheça a linha de storages enterprise Infortrend

1. Verificação do backup

Storages equipados com arranjos de discos também precisam manter seu sistema de backup atualizado.

É comum usuários menos atentos confiarem em arranjos de discos e não terem os backups de seus sistemas de armazenamento atualizados.

Essa é a primeira e mais importante tarefa de qualquer lista de manutenção para sistemas de armazenamento.

De nada vale planos elaborados para recuperação de desastres se os dados gravados pelos sistemas de backup não permitirem restauração ou estiverem corrompidos.

Mesmo storages de alta disponibilidade precisam manter suas respectivas cópias de segurança atualizadas, sob pena da interrupção dos serviços em caso de desastres.

Dependendo do volume de dados gerados diariamente pela organização, os backups devem ser testados diariamente ou semanalmente.

Para aplicações de missão crítica, testes de rotina do sistema de backup não devem se limitar apenas a verificação dos arquivos de log.

Simulações de recuperação no ambiente de produção podem mostrar falhas que tomariam tempo para serem solucionadas em caso de desastre.

Caso você esteja fazendo backup apenas de parte de seu sistema, verifique se todos os aplicativos recém-introduzidos foram classificados como de risco e, se necessário, incluídos na rotina de backup.

2. Monitore o espaço de disco disponível

Espaço de disco disponível, HDDs Seagate da linha Ironwolf NAS ideais para storages com uma barra de espaço ao lado quase cheia, para indicar o espaço de armazenamento disponível

Caso o espaço ocupado em disco do storage se aproxime ou exceda os 90% da capacidade total é necessário adicionar expansões ou limpar o sistema dos arquivos supérfluos.

Storages sempre precisam de área livre para operações internas, por isso manter pouco espaço livre para o armazenamento sobrecarrega os hard disks, diminui gradualmente o desempenho do sistema e aumenta a probabilidade de corrupção de dados.

Uma boa prática é transferir arquivos inúteis como e-mails antigos, logs, arquivos de instalação e softwares que não são de uso diário para áreas de cold storage, mais baratas porém ainda acessíveis.

Quanto mais dados e maior a redundância dos seus servidores e storages, maior o risco de manter seu acervo de dados copiado várias vezes.

A redução e melhor organização dos dados de produção também significa backups mais rápidos e recuperação mais veloz em caso de falha.

3. Fazer monitoramento dos arranjos RAID

Os servidores e storages de produção sempre devem usar arranjos RAID porque esses agrupamentos de discos raramente falham.

Apesar de serem boas notícias, geralmente os administradores de sistemas se acostumam a essa confiabilidade e acabam se contentando com o monitoramento irregular do hardware.

Esse é um dos motivos pelos quais todos controladores RAID são programados para gerar mensagens de aviso e emitir alarmes quando qualquer problema é detectado.

Monitoramento dos arranjos RAID, Qnap TS-431 com 4 discos em RAID 6 demonstrando que até 2 discos podem apresentar falhas

Os administradores de TI devem sempre atentos às mensagens de status e alarmes gerados pelo sistema sobre o funcionamento dos arranjos RAID.

Numa matriz RAID qualquer disco rígido pode falhar e permanecer despercebido, mesmo se os alarmes gerados pelo sistema sejam ignorados.

Na maioria desses casos os sistemas de produção continuarão funcionando sem problemas, pois os demais discos do arranjo ainda estarão funcionando.

O problema começa quando os administradores negligenciam essas configurações de envio de mensagens ou não verificam diariamente os avisos recebidos.

4. Atualizar sempre o sistema operacional

Atualização do sistema operacional, modelo TS-673 Qnap como demonstração

Hackers examinam rotineiramente sistemas de armazenamento corporativos em busca de falhas para identificar quais estão vulneráveis.

As versões mais recentes do sistema operacional e suas respectivas atualizações (patches) podem corrigir a maioria dessas falhas.

Assim, manter um sistema automatizado de atualizações e correções dos softwares utilizados nos servidores e storages nos poupam de um bocado de dor de cabeça.

Além disso, sistemas automatizados para esse fim controlam as atualizações, informam quando novos patches estarão disponíveis e permitem especificar quais atualizações poderão automáticas.

Caso não seja possível automatizar esse processo, desenvolva uma programação manual de verificação.

Para maior segurança é fortemente recomendado verificar e atualizar semanalmente a versão do sistema operacional e dos softwares mais utilizados.

5. Também atualize os aplicativos Web

Além do sistema operacional, os aplicativos Web têm sido a porta de entrada para a maioria das violações de segurança em larga escala dentro de organizações.

Por serem voltados para a Internet, sites e aplicativos Web sempre são mais propensos a sofrer ataques cibernéticos.

Os hackers identificarão e explorarão vulnerabilidades para ganhar uma posição na rede e, caso isso aconteça, poderão instalar malwares para algum benefício ilícito.

Esse é o motivo que também devemos priorizar as atualizações de aplicativos web. Assim como as correções dos sistemas operacionais, todas atualizações e patches desses aplicativos são de alta prioridade.

App Center, atualização de aplicativos

6. Procure erros de hardware

Revise os logs de auditoria e eventos para identificar problemas emergentes de hardware. Falhas na rede, erros de leitura do disco e avisos de superaquecimento são indicadores de uma falha de hardware iminente.

O risco de falha de hardware também aumenta com quando a capacidade do sistema é excedida. Idealmente, os aumentos na utilização do sistema devem ser relativamente graduais e previsíveis, o que permitirá planejar a expansão com antecedência.

Certas mudanças organizacionais, incluindo crescimento imprevisto dos negócios podem exaurir os recursos do sistema mais rapidamente do que planejado.

Revise a utilização do storage, da rede, memória RAM do servidor, da CPU e do disco. Se o sistema estiver quase chegando ou excedendo seus limites operacionais ideais, será necessário fazer um upgrade de capacidade ou fazer a substituição completa do equipamento.

É possível acompanhar a utilização do sistema utilizando as diversas ferramentas disponíveis para servidores Linux e/ou Windows.

7. Inspecione fisicamente o equipamento

Alguns administradores de TI ficam tão envolvidos no monitoramento de seus sistemas por meio de aplicativos que esquecem os conceitos básicos de manutenção de equipamentos.

Nem todos os problemas de um sistema se originam propriamente de falhas. Talvez um dos cabos de rede esteja se soltando ou a sala do servidor esteja subdimensionada, causando superaquecimento nos servidores e storages.

A inspeção da infraestrutura crítica deve fazer parte da rotina da manhã do administrador.

Uma visita à sala dos servidores (datacenter) pode solucionar problemas que não são identificados quando se está sentado atrás de uma tela de computador.

Assim, sempre que possível verifique seus servidores, storages, roteadores, impressoras, no-breaks e elementos da infraestrutura como os cabos de rede.

Inspecione fisicamente o equipamento

A falta de controle de umidade e da temperatura ambiente também afetam o desempenho do servidor, storages e da rede.

No curto prazo, diminui o desempenho. A longo prazo, reduz a vida útil do equipamento. Por exemplo, manter seus equipamentos em temperaturas acima do especificado pode causar interrupções e corrupção de dados.

Da mesma forma, caso a sala do servidor esteja com um nível de umidade acima do ideal, a condensação resultante pode causar um curto-circuito ou corrosão dos equipamentos.

8. Use sempre antivírus

O objetivo principal dos softwares antivírus é prevenir o contágio por malwares que possam causar danos ao sistema, como uma das muitas versões do Ransonware.

Com eles, usuários serão notificados sempre que tentarem abrir ou inserir um arquivo infectado com ameaças ao sistema.

Mesmo assim, alguns arquivos contendo novas ameaças nem sempre são detectados imediatamente após serem introduzidos.

Nesses casos, varreduras com as novas atualizações podem identificar esses arquivos maliciosos, introduzidos anteriormente e que não foram sinalizados como infectados.

Com realizar a verificação através de antivírus para detectar e remover malwares pode prejudicar a performance do sistema, agendar essa varredura para horários de menor atividade é sempre uma boa prática.

9. Mantenha as contas de usuário sempre atualizadas

Cancelamentos de clientes, alterações de equipe, descadastramento de fornecedores e quaisquer outras alterações que exijam "desativação definitiva da conta de usuário" devem ser excluídas do sistema imediatamente.

Contas de usuário antigas são vulnerabilidades que colocam em risco os dados, a reputação e a própria organização.

Pessoas que não fazem parte da organização mas ainda têm acesso ao sistema são um canal potencial para espionagem corporativa.

Funcionários demitidos e insatisfeitos podem sabotar maliciosamente os servidores como vingança. A constante revisão das contas de usuário em sistemas de missão crítica devem ser feitas sempre que necessário.

Apenas algumas horas de qualquer acesso não autorizado pode causar estragos devastadores em qualquer organização.

10. Altere suas senhas

Os administradores de sistema, banco de dados e rede sabem quais são as contas de usuário mais importantes dentro da organização.

Em mãos erradas, senhas de contas como essa podem ser usadas para facilitar ações criminosas, com consequências negativas de longo alcance.

Altere suas senhas de acesso

Num ambiente bancário por exemplo, qualquer indivíduo que obtém ilegalmente uma senha de administrador do sistema pode criar contas de usuário não autorizadas, que posteriormente poderão ser usadas para cometer fraudes múltiplas.

Como prática recomendada, todas as senhas devem ser alteradas pelo menos a cada seis meses.

Verifique a segurança do sistema

Sempre avalie o estado da segurança do servidor, banco de dados e rede usando ferramentas de auditoria remota.

Alguns departamentos de TI confiam excessivamente em auditores internos, sob a (falsa) premissa de que a identificação de todas as vulnerabilidades é função dos auditores de TI.

Isso não é verdade: Os administradores devem revisar a segurança do sistema mensalmente ou trimestralmente, dependendo da classificação de risco atribuída a cada sistema.

Apesar dos avanços significativos em recursos como alta redundância, escalabilidade e no desempenho dos servidores e storages, esses benefícios sempre causam um excesso de confiança nos administradores de TI, afetando negativamente o uso da tecnologia.

Não existe sistemas à prova de falhas, porém quanto mais robusto for o regime de manutenção do sistema, menor o tempo de inatividade e melhor será o uso da infraestrutura de tecnologia existente.

Produtos recomendados:

TS-h973AX

TS-h886

TS-932PX

TVS-672XT

TS-664

TVS-h674T

TBS-h574TX

TS-932X 90TB

TVS-h674

TVS-675

TS-855X

TVS-682

TS-673A

TS-877XU

Produtos relacionados:

TS-1635

TVS-h674T

TS-h973AX

TVS-682

TVS-972XU

TVS-675

TS-1685

TS-EC1080 PRO

TS-h3087XU-RP

TS-664

TS-h987XU-RP

HS-453DX

TS-1655

TVS-672XT

TS-932PX

TVS-1582TU

TS-977XU

REXP-1220U-RP

TVS-1282T

TES-3085U

TS-932X 90TB

TVS-1282T3

TES-1885U

TDS-16489U

TS-983XU

TS-983XU-RP

TS-h2287XU-RP

TVS-h1688X

TVS-h674

TS-h977XU-RP

TS-977XU-RP

TS-673A

TS-1677X

TS-855X

TS-1635AX

TVS-972XU-RP

TS-h886

Armazenamento de dados

Tudo o que você precisa saber sobre soluções de Armazenamento de dados.

Mattermost, um software de colaboração seguro e de código aberto

Mattermost? Saiba mais sobre esse software para colaboração em projetos e porque vale a pena usar a infraestrutura local nesse tipo de aplicação.

NAS ou storage iSCSI em redes SAN

Por que usar um NAS ou storage iSCSI para implementar uma SAN?

Preço de Synology NAS? Saiba mais antes de comprar

Preço de NAS Synology? Confira algumas dicas p/ escolher corretamente seu novo sistema de armazenamento. Somos distribuidor Autorizado Synology Brasil