Em recente postagem no site G1, Altieres Rohr, editor da Linha Defensiva, demonstrou a fragilidade na qual as informações pessoais são disponibilizadas na Web. Trata-se de práticas inadequadas de armazenamento de informações sensíveis no próprio servidor de hospedagem por meio de arquivos, e muitos não sabem que estas informações podem, principalmente, ser obtidas devido aos serviços de indexação de sites de busca.
O serviço de indexação permite com que as páginas da web possam ser encontradas através de um site busca utilizando determinadas expressões, como as palavras-chaves. Como exemplo, imagine uma busca no Google pelo termo “Linha Defensiva”. Os resultados obtidos pela busca só foi possível porque aquelas páginas foram indexadas anteriormente, facilitando a busca através das palavras-chaves encontradas no site e indexada no Google. Tal indexação funciona através de “robôs”, que visitam diversas páginas da web indexando o seu conteúdo.
Existem formas de controlar esses robôs, como o uso de meta tags (palavras-chaves colocadas em uma página da Web) e o arquivo robots.txt (arquivo inserido no servidor que indica o comportamento dos robôs). Mas o uso desses recursos deve ser feito com cautela, ou é possível dar pistas para os criminosos a respeito de onde informações sigilosas estão armazenadas.
Mas, como esses recursos raramente são utilizados de forma adequada, a maior parte das informações inseridas na Web pode ser encontrada através de mecanismos de buscas, bem como o conteúdo de arquivos texto e planilhas, que também são acessados e indexados por sites de pesquisa. Na verdade todas as páginas da web são arquivos, então um robô nada mais faz do que “abrir” este arquivo e verificar o seu conteúdo para indexação.
O não conhecimento da indexação nos dá a falsa sensação de que um arquivo dentro de um servidor está oculto, invisível para aqueles que não sabem o endereço do arquivo.
Em recente análise, baseada na que Altieres Rohr realizou para o G1, descobrimos informações sensíveis capturadas através de keylogging e pharming. Utilizando termos específicos para a busca podemos chegar a senhas bancárias, autenticações de sites, senhas de e-mails como do Gmail (muito utilizado no site de relacionamentos Orkut) e do Hotmail (popular no programa Windows Live Messenger).
Uma das técnicas utilizadas por Bankers é a do armazenamento das informações obtidas do computador do usuário em um arquivo, posteriormente sendo enviado para o servidor do atacante. Estando estas informações em um servidor de hospedagem, é possível que o serviço de indexação leia o arquivo com as informações roubadas e acabe indexando nos resultados da busca. Atualmente tal técnica não é mais comum, observando as análises realizadas pela equipe ARIS do site Linha Defensiva e a presente análise, já que a maioria das informações estava armazenada desde 2009.

Informação bancária obtida através do mecanismo de busca
No caso da matéria do G1, caso na qual a inadequação do armazenamento de informações foi realizada pelo próprio administrador do site ou quem dele faça parte, uma forma de evitar a exposição de dados é colocá-las em um Banco de Dados (já que é o local mais adequado para isto) ou utilização adequada do robots.txt. No caso deste tópico, não existe uma técnica específica para combatê-la, já que estas informações foram utilizadas por pessoas com intuito malicioso, não estando no conhecimento daqueles na qual as informações façam parte. Continua sendo a melhor prática a ser adotada a da prevenção e da correção com softwares antivírus ou utilitários, como o BankerFix.
*Todos os sites encontrados na análise foram denunciados antes desta postagem, para evitar que pessoas utilizem tais informações de forma maliciosa.