Queira o Sr. Perito detalhar como calcular o nível de semelhança entre documentos eletrônicos

Quando temos que comparar arquivos eletrônicos nos deparamos com um grande problema, pois em linhas gerais a forma “mais simples” de se fazer isso é abrindo cada arquivo manualmente e comparando seu conteúdo a olho nu. Contudo, esse processo é muito trabalhoso, pouco científico e pode consumir dias de trabalho árduo.

Para ajudar nessa tarefa existe uma ferramenta chamada ssdeep. O ssdeep utiliza códigos hash para comparar arquivos e nos mostrar o grau de semelhança entre eles.

Sabendo o grau de semelhança entre dois ou mais arquivos não é mais necessário abrir todos eles aleatoriamente. Ao invés disso é possível priorizar os arquivos que foram indicados com maior porcentagem de semelhança.

Para melhor entendimento da ferramenta ssdeep, vamos ao seguinte estudo de caso:

Uma denúncia anônima afirma que um ex-funcionário da empresa X levou consigo documentos importantes sobre a metodologia criada por essa empresa e os está utilizando em seu novo local de trabalho.

O departamento jurídico da empresa optou por iniciar uma ação cautelar de produção antecipada de provas por meio da qual, após deferimento, foi realizada busca e apreensão na nova empresa onde o ex-funcionário trabalha atualmente. Durante a busca e apreensão foi coletado para exames periciais o computador que o funcionário utilizava.

O perito designado para fazer os exames se deparou com o seguinte quesito da Autora (empresa X):

 “Queira Senhor Perito procurar no computador utilizado pelo requerido qualquer documento que indique cópia dos arquivos de metodologia da empresa X, os quais foram disponibilizados ao Perito no CD juntado aos autos. Queira, ainda, comparar todos os arquivos que constam no CD com os arquivos que estão armazenados no computador e indicar qualquer indício de semelhança”.

Notem que o objetivo dessa perícia não é apenas encontrar os arquivos supostamente desviados da empresa X, mas estende-se a verificação de eventual utilização indevida desses documentos como base para produção de “novos documentos”. Dessa forma, a análise do conteúdo dos arquivos armazenados no computador apreendido é fundamental.

Nesse sentido, a ferramenta ssdeep auxilia o perito na verificação de semelhanças de arquivos, identificando, inclusive, arquivos muito semelhantes, mas que tenham códigos hash diferentes devido à pequenas alterações ou derivações de seu conteúdo.

Sobre o ssdeep

A ferramenta ssdeep trabalha com o conceito CTPH (context triggered piecewise hashes), também chamado de Fuzzy Hashes. Em termos gerais trata-se do cálculo e comparação de códigos hash de pequenas sequências de bits de um elemento. Isso significa que ao invés de comparar o conteúdo completo de dois documentos de uma única vez, a comparação é realizada  sobre pequenas partes desses arquivos.

O conceito Fuzzy Hashes permite a identificação de arquivos semelhantes ainda que alguns elementos tenham sido alterados. A parte mais interessante desse processo é que o programa apresenta o grau de semelhança entre os arquivos comparados.

É muito importante destacar que o ssdeep é uma ferramenta automática geralmente utilizada para comparar documentos em formato texto e apresentar seu índice de semelhança. Contudo, sempre será necessária a complementação do exame pericial com base na expertise do perito, pois se compararmos códigos fonte de programas diferentes, mas que têm a mesma finalidade e que foram codificados com a mesma linguagem de programação e paradigma, certamente o ssdeep indicará alto nível de semelhança quando em verdade os arquivos comparados não são cópia um do outro ou não foram derivados um do outro. Isso acontece devido a existência de estruturas padrões, notória reutilização de trechos de códigos públicos, devido aos padrões de nomenclatura de variáveis, métodos e funções definidos pelas melhores práticas de desenvolvimento de sistemas e devido, também, as inúmeras palavras reservadas de linguagem de programação utilizadas em um código fonte. Assim, o ssdeep deve ser utilizado com cautela e apenas para apoiar os exames periciais de comparação de documentos, mas nunca como método absoluto.

Veja mais sobre o conceito CTPH em: http://www.fbi.h-da.de/fileadmin/personal/h.baier/Lectures-summer-11/SS-11-Seminar-T/introduction-ctph-110331.pdf

Para obter a ferramenta ssdeep basta acessar o link: http://ssdeep.sourceforge.net. Para obter em um terminal Linux (Debian) pode-se baixar o ssdeep utilizando o comando “apt-get install ssdeep”.

O ssdeep é executado em terminal de comando. Com ele você pode utilizar os seguintes parâmetros:

Parte 01 – Geração de hashes de comparação

Primeiramente é necessário definir quais documentos originais serão comparados. Em seguida, deve-se abrir o terminal de comandos (aqui vamos utilizar o terminal Linux) e acessar a pasta onde estão os documentos.

Para iniciar o procedimento deve-se digitar o comando “ssdeep * > hashs.txt” que irá calcular o código hash de todos os arquivos originais contidos no diretório e irá armazená-los em um arquivo do tipo “txt”. Os arquivos originais são aqueles que a empresa X acredita estarem sendo utilizados indevidamente pelo seu ex-funcionário:

Parte 02 – Confrontando os hashes

Após o processo de geração de hash é necessário utilizar o arquivo “hash.txt” para realizar as pesquisas em busca de documentos semelhantes no disco apreendido ou em alguma pasta específica desse disco.

No nosso exemplo utilizaremos uma pasta específica. Para facilitar o processo, os arquivos suspeitos presentes no computador apreendido foram exportados para uma pasta criada no computador do examinador e o arquivo hash.txt foi copiado para esse mesmo diretório.

Na sequência deve-se acessar a pasta onde estão os arquivos suspeitos e o arquivos de hash, então utilizaremos o comando “ssdeep –m hash.txt *” para verificar eventuais semelhanças entre os documentos originais (de propriedade da empresa X) e os arquivos suspeitos (localizados no computador apreendido):

Observe que após ser executado o ssdeep apresentará quais arquivos indicam ter semelhança e qual o percentual de semelhança entre eles. A transcrição do resultado consta na tabela a seguir:

Documento encontrado

Documento original

Porcentagem de semelhança

Doc-Empresa_Nova (1).doc Metodologia (4).doc

97%

Doc-Empresa_Nova (1).xls Metodologia (1).xls

75%

Doc-Empresa_Nova (2).doc Metodologia (1).doc

49%

Doc-Empresa_Nova (3).doc Metodologia (3).doc

44%

Doc-Empresa_Nova (4).doc Metodologia (1).doc

46%

Parte 03 – Abrindo os arquivos semelhantes

A seguir são apresentados os 2 documentos que indicam 97% de semelhança. Observe que eles são de fato muito semelhantes. Existem diferenças apenas nas suas capas.

Documento “Metodologia (4).doc”

Documento “Doc-Empresa_Nova (1).doc”

Podemos concluir, portanto, que a ferramenta ssdeep  pode ser de grande ajuda em uma análise para comparação de arquivos e verificação de semelhanças, pois com o seu resultado pode-se definir prioridades e evitar a verificação de documentos que não apresentam quaisquer semelhanças.

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s