Queira o Sr. Perito detalhar as etapas de extração, processamento e o ECA no E-Discovery

No nosso último post sobre E-Discovery, tratamos das etapas de identificação, coleta e preservação de dados. Lembrando que o e-discovery segundo o modelo EDRM é composto, além dessas partes, pelas etapas de processamento, revisão e produção.[1]

Hoje trataremos das etapas de extração e processamento, que são fundamentais quanto lidamos com grandes volumes de dados, principalmente duplicados.

Ao se iniciar o tratamento dos dados que irão ser analisados, é fundamental ter algumas respostas para as seguintes perguntas:

  • O que queremos analisar?
  • Quais as possíveis fontes de dados do que queremos analisar?
  • Quantos custodiantes serão analisados e qual a ordem de prioridade?
  • Qual o período foco da análise?
  • Quais tipos de documentos são fundamentais para a análise?
  • Será necessário recuperar arquivos apagados ou nosso foco é em arquivos ativos?
  • Qual o prazo que temos para a análise?

Outras perguntas podem surgir, mas em linhas gerais, é importante definir muito bem o escopo do projeto. Muitas empresas utilizam questionários com seus clientes, para terem documentado, todos os critérios que os clientes desejam em termos de tipos de arquivos e tarefas a serem executadas. Nos EUA, os advogados que trabalham com e-discovery já estão bem acostumados com os termos técnicos e extensões de arquivos. Por aqui, já tivemos muita evolução, mas ainda com um grande espaço a ser explorado.

Muitas vezes um caso envolve diferentes fontes como discos rígidos, celulares, backups, dados de rede, logs, etc., portanto é fundamental termos as respostas às perguntas citadas acima e acima de tudo, que essa etapa seja realizada por alguém com bastante conhecimento sobre os objetivos do caso/investigação.

De posse das respostas, a próxima etapa consiste na seleção de dados; ou seja, escolher o conjunto de dados contendo todas as possíveis variáveis (também chamadas de características ou atributos) e registros (também chamados de casos ou observações) que farão parte da análise. Nessa etapa serão definidos os locais das possíveis fontes de informação. Para um caso de investigação sobre pagamento de propina, não precisaremos analisar os arquivos de instalação do Windows por exemplo. Nessa hora é fundamental, além de entender bem o caso e ter os conhecimentos técnicos adequados, utilizar-se de uma técnica chamada “Early Case Assessment” ou “ECA”.[2]

Essa técnica consiste em utilizar filtros e parâmetros combinados com ferramentas visuais para diminuir a “massa de dados”. Isso pode ser feito através de critérios específicos como datas, ou palavras-chaves. É fundamental analisar os riscos envolvidos com a redução e aplicação desses filtros, além de ter um histórico de todas as atividades realizadas, palavras-chaves utilizadas, etc.

A seguir um exemplo dessa utilização ilustrando a redução da “massa de dados”:

Com os arquivos indexados, é possível utilizar filtros por assuntos, períodos, enviados pelos fornecedores X e Y, entre outros. É importante (e existem diversas ferramentas visuais para isso) realizar esse filtro inicial, para sermos mais efetivos e ganharmos tempo na revisão.

Na sequência, iremos realizar o tratamento propriamente dito. Uma das principais etapas e preocupações dos clientes consiste na eliminação de dados duplicados, técnica conhecida como “deduplicação”. A maioria das ferramentas cobra por GB disponibilizado, portanto é fundamental reduzir o volume de dados, mas ao mesmo tempo atentar para não deixar nada relevante, fora da plataforma de revisão.

Para se realizar a deduplicação de dados normalmente se utilizam ferramentas que calculam o hash de um arquivo e dão a opção de remover da sua base 2 arquivos iguais. O primeiro tipo de deduplicação é bem simples, baseado em arquivos repetidos. Após a indexação, o aplicativo procura arquivos duplicados e quando os encontra, mantém apenas um. Os arquivos apagados são substituídos por um arquivo-ponteiro, que como o nome indica aponta para o arquivo que permaneceu. O segundo tipo é conhecido como “custom de-dedup” ou “data culling” e consiste em utilizar um algoritmo para não só procurar arquivos com o mesmo hash, mas também arquivos que tenham certa porcentagem de semelhança (opção customizável). Por exemplo, se um arquivo teve seu metadado alterado (imagine um e-mail salvo na sua pasta de arquivos e em um arquivo.zip. Apesar de ser o mesmo arquivo, possui diferentes hashes). Essa técnica pode ainda comparar, por exemplo, um arquivo de texto em modo draft com a versão final. Você pode escolher manter só o final para fins da investigação, por exemplo.

Devemos ter especial atenção com a deduplicação de e-mails, pois alguns algoritmos não lidam bem com e-mails iguais que contém novas respostas (novos “replies”). Deve-se atentar também para os casos em que processamos mais de um custodiante, pois, por vezes o fato de um e-mail estar no custodiante A e também no B, é relevante para a análise, e deverá ser mantido.

Após deduplicarmos, é fundamental otimizar a base que será processada. Importante citar os modelos de gestão do conhecimento e otimização de bases de dados que podemos aproveitar no E-discovery. Um dos principais é o “Knowledge Discovery in Databases[1]”. Uma boa definição é dada pelos seus criadores: FAYYAD et al. (1996)[2]:

(…) processo, não trivial, de extração de informações implícitas, previamente desconhecidas e potencialmente úteis, a partir dos dados armazenados em um banco de dados.

Essa abordagem compreende a aplicação de várias técnicas para captação, organização, tratamento e a preparação dos dados. É uma etapa que possui fundamental relevância no processo de extração do E-discovery. Afinal nosso principal objetivo é reduzir a grande massa de dados disponível, sem perder possíveis dados relevantes. Com essa abordagem, podemos realizar desde a correção de dados errados até o ajuste da formatação dos dados para serem analisados por algoritmos de mineração de dados, por exemplo.

Voltando ao foco da nossa análise, ao se deparar com uma imagem forense, algumas outras atividades de pré-processamento que podemos realizar incluem:

  • Conversão de arquivos de e-mails NFS para PST
  • Verificação por criptografia
  • Separação de e-mails dos anexos
  • Geração de Hash e Hash Lists (MD5) para todos os arquivos
  • Criação relação entidade pai-filho (fundamental na etapa de revisão que abordaremos no próximo post)
  • Separação por extensões de arquivos e assinaturas:
  • Análise das “Embedded image”
  • Tipos de arquivos, metadados
  • Recuperação de passwords
  • Controle de Qualidade
  • Criar logs de todas as atividades / Documentação de todas as etapas
  • Criação de relatórios

Após essas etapas, os arquivos são carregados e enviados para a plataforma de processamento. Uma vez que os dados estejam prontos para processamento devemos escolher a plataforma que será utilizada. Atualmente as mais comuns são o NUIX[3], e-Capture[4] e LexisNexis Law[5]. É fundamental termos uma boa capacidade de processamento e armazenamento, com servidores e storage potentes. Algumas atividades nessa etapa incluem:

  • Extração de textos
  • Identificação por tipos de arquivos
  • Optical Character Recognition (OCR)
  • Descriptografia
  • Filtros de SPAM, Malware, etc
  • Cargas de dados
  • Indexação

Definidos os critérios, é feito o processamento. Essa etapa é a que mais consome tempo e é importante termos a documentação de todas as etapas realizadas, pois o projeto pode ser longo ou ser requerido pela corte no futuro. Cada conjunto lógico de documentos processados é chamado de “Dataset”. Às vezes, em uma fase posterior são adicionadas informações extras, sempre a um novo conjunto de dados (dataset) como, por exemplo, quando temos novas evidências adicionadas ao caso. Estamos agora, prontos para a revisão, tema que abordaremos no nosso próximo post da série. Até a próxima!

 


[1] http://www.insidecounsel.com/2012/08/31/e-discovery-the-dying-art-of-early-case-assessment
[2] http://www.edrm.net/
[3] http://aaaipress.org/ojs/index.php/aimagazine/article/viewFile/1011/929
[4] Fayyad, Usama; Piatetski-Shapiro, Gregory; Smyth, Padhraic (1996) The KDD Process for Extracting Useful Knowledge from Volumes of Data. In: Communications of the ACM, pp.27-34, Nov.1996
[5] http://www.nuix.com/ediscovery
[6] https://iprotech.com/products/enterprise/ecapture/
[7] http://www.lexisnexis.com/en-us/litigation/products/law-prediscovery.page?category=E-DiscoveryProducts3

 

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s