O projeto sobre crimes de internet do senador Eduardo Azeredo (PSDB-MG) tem causado muita polêmica. Até o momento, nada foi publicado sobre ele na Linha Defensiva. No dia 9, ele foi aprovado pelo Senado, ainda restando a aprovação pela Câmara.

A Folha Online publicou, dois dias após a aprovação do projeto no Senado, uma matéria que expõe vários pontos de vista, um deles o da Abranet, que afirma que o projeto custará R$15 milhões somente em armazenamento de dados aos provedores.

Colocando esse número em perspectiva: já em 2007, o Brasil tinha 6,5 milhões de usuários de banda larga. Isso significa que, para cobrir um custo de R$15 milhões, cada assinante de banda larga teria que pagar R$2,30 a mais por ano ou 20 centavos por mês.

Mas, não vamos nos deter aqui ao custo de R$15 milhões, que, vimos, é relativamente baixo. Vamos ver o que há de verdadeiro nestes R$15 milhões.

Quanto custa para armazenar os dados solicitados pelo projeto

O artigo que exige que provedores armazenem dados é o 22. Seu inciso I possui o seguinte texto:

Art. 22. O responsável pelo provimento de acesso a rede de computadores mundial, comercial ou do setor público é obrigado a:

I – manter em ambiente controlado e de segurança, pelo prazo de três anos, com o objetivo de provimento de investigação pública formalizada, os dados de endereçamento eletrônico da origem, hora, data e a referência GMT da conexão efetuada por meio de rede de computadores e fornecê-los exclusivamente à autoridade investigatória mediante prévia requisição judicial;

Enquanto alguns gritavam pela eliminação deste artigo, ficou perdida na discussão a ambigüidade em relação ao que é uma conexão. Falarei disso mais adiante. As explicações dadas pelo Senado dizem que esse trecho exige apenas as informações relativas ao início e ao fim da conexão: “[Provedores devem] guardar por três anos os chamados “logs de acesso” que nada mais são do que a identificação da hora de conexão e desconexão à Internet.”

Um relatório de conexão, com os dados exigidos, fica mais ou menos dessa forma (para um usuário que conectou no dia primeiro de janeiro de 2008 exatamente à meia-noite em horário brasileiro e desconectou-se 10 minutos depois com o IP 254.254.254.254):

[01/Jan/2008:00:00:00 -0300] – 254.254.254.254 – nome-de-usuario – inicio-de-conexao
[01/Jan/2008:00:10:00 -0300] – 254.254.254.254 – nome-de-usuario – fim-da-conexao

Isto dá 168 bytes, mas vamos arrendondar os números (para cima, sempre) e deixar 170 bytes. (Cada caractere em um arquivo de texto ASCII ocupa 1 byte e o fim da linha em arquivos de texto Unix, que é o sistema mais usado pelos provedores, ocupa mais um byte). Note que os softwares provavelmente irão gerar logs diferentes e com outras informações, porém estas linhas possuem todas as informações exigidas pelo projeto.

Não consegui encontrar dados muito bons a respeito do número de assinantes que o Brasil tem e a freqüência com que conectam na rede. Mas vamos utilizar o número de 40 milhões, que é o número de usuários brasileiros na rede e, por isso, provavelmente maior do que o de assinantes únicos, já que muitas pessoas acessam a rede no trabalho ou por Lanhouses/cibercafés. Vamos supor também que todos estes 40 milhões conectem e desconectem todo dia da Internet, gerando 170 bytes de arquivos de registro.

Esta quantidade de usuários gera 6,8GB de relatórios de conexão diariamente (170 * 40 000 000).[1. Embora o número seja na verdade 6,3GB, discos rígidos usam base 10 para calcular sua capacidade, então, em um disco, isto seria o equivalente a 6,8GB.]

Vamos armazenar estes dados em um disco rígido de alta performance como um Seagate Cheetah SCSI de 15 000 RPM, que custa R$879 e possui apenas 73GB de espaço. Com este preço, temos um custo de R$12 por GB só no HD. Lembrando que os provedores provavelmente não precisam de um disco de 15 000 RPM para esta tarefa e poderiam utilizar algo mais barato.

Para armazenar os 6,8GBs diários, teremos um custo de R$81,6 por dia. mas vamos arredondar para R$82. Em um ano, isto tem um custo de R$29 930 reais para armazenar ~2,4 Terabytes. Mas vamos arredondar para R$30 mil por ano (lembrando que um HD de 1TB pode custar R$700 ou menos, o que reduziria o custo de 2,4TB para apenas R$1680).

Vamos multiplicar este número por 3, uma vez para os discos duplos em RAID e outra para o backup. Como os provedores podem ser multados se não respeitarem esta ordem, faz sentido manter os discos em RAID espelhado (dois discos armazenando os mesmos dados). Mas reparem que o preço do backup está bem acima aqui; fitas de backup podem ter um custo de até 70 centavos por GB.

Isso nos deixa com R$90 mil. Vamos colocar 100% em cima disso para cobrir mão-de-obra e eventuais HDs quebrados. Existem também custos de energia e espaço físico. Porém, não vale somar isto, porque já estamos colocando 100% aqui (um exagero) e não adicionamos o fator da compressão de dados nessa conta, que reduziria drasticamente o espaço necessário para o armazenamento, mesmo considerando-se a segurança necessária em sua manutenção, exigida pelo projeto (obtido em parte com criptografia, o que aumenta o espaço necessário). Mesmo um ZIP reduz muito o tamanho de arquivos simples como relatórios.[2. Mesmo se provedores quiserem manter os dados em algo mais refinado com um banco de dados, é possível exportar os dados para formatos mais fáceis de compactar para fins de arquivamento.]

Isso nos deixa com R$180 mil. Vamos arredondar para R$200 mil. Isso dá uma diferença de R$13,8 milhões em relação ao menor número estimado pela Abranet (R$14 milhões).

Vamos ignorar essa conta e usar outra, o Amazon S3. O S3 cobra 18 centavos de dólar por GB por mês para armazenar dados na Europa (15 se for nos EUA). Vamos imaginar que o dólar está a R$2 e transformar os 40 centavos em 50, para adicionar um “custo brasil”.

Eles ainda cobram 10 centavos (de dólar) por GB transferido para eles, nos deixando com um custo de 70 centavos de real por GB por mês. Em 3 anos, isto é um custo de R$25,20 reais por GB. Mas vamos aumentar para R$26.

O total de dados necessário em 3 anos (o prazo exigido pelo projeto), com base nos cálculos acima, é de aproximadamente 7,5 TB ou 7 500GB. A R$26 por GB, temos um custo R$195 000 no Amazon S3, sem considerar a compressão dos dados.

O preço não está totalmente fora dos padrões brasileiros: o plano Premium da Locaweb tem 250GB de espaço e custa R$179, dando um custo de R$25,77 por GB em 3 anos.

Fica a pergunta: que tipo de dados e custos a Abranet levou em consideração para chegar nos R$15 milhões?

A Abranet foi consultada uma semana antes da publicação desta matéria, mas a Linha Defensiva não recebeu nenhum comunicado. Se a Abranet se pronunciar, o texto será editado com as explicações fornecidas.

Problemas com este cálculo

O cálculo feito acima não é para ser uma estimativa correta. Uma estimativa correta teria que considerar o preço do espaço físico seguro e eletricidade, incluindo do equipamento para resfriamento, além de colocar um valor fundamentado nos custos de mão-de-obra e substituição de hardware defeituoso. É preciso ressaltar que a maioria dos provedores já possui um ambiente seguro deste gênero ou, se não possui, aluga em um dos vários datacenters brasileiros.

Certos aspectos do cálculo foram exagerados. Usar o mesmo preço do disco para o backup é errado, como é usar um disco de 15 000 RPM para uma tarefa pouco intensiva como a gravação de logs simples. Por outro lado, outros custos foram desconsiderados, como por exemplo o preço de gabinetes/servidores de armazenamento. Mesmo assim, o preço destes é inicial (caso o provedor ainda não possua).

E mesmo considerando isso, é difícil ver como chegaríamos em R$15 milhões. Usando o cálculo de 7 500GB durante os 3 anos, que é definitivamente exagerado por não considerar a compressão de dados, com R$45 milhões (15 milhões por ano, 3 anos) o custo por GB seria de R$6000 — impossível considerando-se a baixa necessidade de performance desta tarefa.

O objetivo do cálculo feito aqui era para demonstrar o exagero. Não existe a pretensão de oferecer uma estimativa 100% precisa. Mesmo com uma margem de erro de R$2 milhões para mais, a diferença ainda é enorme.

É claro que existe também o custo extra, que é a interceptação de dados caso isto seja requisitado por uma ordem judicial. Estes dados são mais caros, pois o uso de disco é contínuo (por armazenar todo o tráfego de rede). Há também um custo de processamento e memória, pois utilizar sniffers (que gravam os dados que passam pela rede) consome recursos intensamente.

Embora seja possível, muito provavelmente, colocar um custo por GB nessa tarefa, não é possível saber quantas ordens judiciais deste tipo serão realizadas, nem quanto tempo durarão, muito menos qual será o movimento de tráfego do cidadão investigado. Estas variáveis serão definitivas na hora de calcular estes custos.

Não fica claro se o cálculo da Abranet já levou em conta estes custos e, se o fez, como fez.

Próxima página: O que é uma conexão? E quem precisa guardar os dados?

Escrito por Altieres Rohr

Editor da Linha Defensiva.

9 comentários

  1. O grande problema deste projeto, além de chegar justamente na hora em que as conexões e o acesso dos comuns à Internet começa a aumentar e ele com certeza vai frear isso, afinal que sempre paga o pato é quem vota, é o fato dele estar muito comfuso e genérico, o que vai dar margem para que muita gente interpretá-lo da forma que mais lhe convir.

    Teremos uma nova cetegoria de especialistas, parecida com a dos advogados de porta de cadeia, preparada para tentar tirar dinheiro de qualquer um que não siga as regras dos mais fortes. Tudo com base na lei, que é ambigua e vaga.

    Curtir

    Responder

  2. André Ataíde

    Toda regulamentação freia o desenvolvimento em algum nível, mas não adianta você ter um desenvolvimento enorme se o crime e outros problemas o acompanham. Frear parcialmente o desenvolvimento não é um argumento para deter um projeto de lei (é um agravante, dependendo do nível).

    Muitas leis brasileiras são ambíguas e vagas — já vi até juiz e desembargador reclamando disso na TV, não é conhecimento de poucos.

    O problema é quando você tem um trecho como o inciso I do artigo 22, que, diz o Senado, afirma uma coisa, porém usa uma linguagem que seria entendida por qualquer técnico como outra.

    Mas isso é só o problema de linguagem. O problema principal são as limitações no registro que pretende-se impor, como no caso do acesso sem fio, tanto público como privado.

    Curtir

    Responder

  3. Igor Estevam 02/08/2008 às 01:54

    Sua opinião está clara Altiere, mas esse projecto é uma revolução se tratando de Brasil!

    Curtir

    Responder

  4. Tô eu aqui tentando achar um erro na sua matematica mais é impossivel, e o que menos importa.

    É o tipo de coisa feito “nas coxas” como um bom brasileiro diria. Até acredito que a intenção é boa, mais totalmente inviável. Provavelmente muitos inocentes serão crucificados até conseguirem provar sua inocência.

    Curtir

    Responder

  5. é aqueles que crackeiam wireless? vão incriminar inocentes, e se uma criancinha baixar o cd da xuxa? ou se um gurizinho baixar os episodios do naruto?

    Curtir

    Responder

  6. vai ter muito inocente se ferando, isso não vai dar certo
    tem aqueles usam wireless crakiada

    Curtir

    Responder

  7. Na sua conta voce esqueceu completamente de incluir um detalhe muito importante. Ainda não foi definido a forma de armazenamento, e isto pode ter um impacto muito grande, e tambem não levou em conta a figura do auditor que o projeto quer criar de forma que se este projeto passar, pode inviabilzar pequenos centros de inclusão digital, e pequenos provedores. E posso garantir que este custo que voce esqueceu de incluir na conta pode superar a previsão da ABRANET.

    Curtir

    Responder

  8. João Carlos Caribé

    Como você vai colocar uma cifra em algo que não está definido? E por que a previsão da Abranet não iria considerar isso?

    O projeto diz que “os dados” e “as condições de segurança de sua guarda” serão definidos no regulamento. Mas as “condições de segurança” provavelmente serão iguais ou inferiores às praticadas em datacenters, porque estes já possuem um alto nível de segurança (restrição de acesso físico, câmeras e etc).

    Certificar uma condição mínima de segurança é importante para a proteção dos dados, pois estes só podem ser utilizados mediante ordem judicial e não por funcionários do provedor ou outras pessoas.

    E mesmo que o custo acabe sendo o dobro do estimado, R$30 milhões, isso aumentaria sua conta mensal de internet em 40 centavos. Para o mercado brasileiro, de preços altíssimos de conexão, ainda não é um custo alto.

    Pode ser que surjam serviços para terceirização de armazenamento destes dados, se houver demanda de provedores e instituições pequenas que precisam de auxílio, como hoje existe co-locations e aluguel de servidores para quem não tem condições de comprar um espaço em um datacenter.

    Já sobre os “centros de inclusão digital” foi a questão que falei na segunda página do artigo: “responsável pelo provimento de acesso a rede de computadores mundial” é vago. Pode ser que na jurisprudência os centros não sejam considerados “responsáveis” porque não mantém uma infra-estrutura própria de conexão nem se dizem “provedores de acesso”. Mas pode ser que sejam incluídos sim, e isso é um problema que reconheci na matéria.

    Curtir

    Responder

  9. pedro camilo 17/10/2008 às 12:17

    Em qualquer país sério do mundo, qualquer previsão vem de acompanhado de dados que as justifique.
    Mas como aqui tudo é feito de qualquer forma, o consumidor sempre pagará a conta.

    Qualquer valor que se fale agora é mera especulação.
    Qualquer engenheiro que já trabalhou em projetos – de grande vulto ou não – sabe que a previsão é baseada em dados de background e números, coisa que nossas leis “pulhas” não fazem, sempre deixando para posteriori estas definições – a corrupção impera!

    Curtir

    Responder

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.