A próxima fronteira de armazenamento de dados:DNA. Crédito:ymgerman / Shutterstock.com
A humanidade está produzindo dados a uma taxa inimaginável, a ponto de as tecnologias de armazenamento não conseguirem acompanhar. A cada cinco anos, a quantidade de dados que produzimos aumenta 10 vezes, incluindo fotos e vídeos. Nem tudo precisa ser armazenado, mas os fabricantes de armazenamento de dados não estão fazendo discos rígidos e chips flash rápidos o suficiente para conter o que queremos manter. Já que não vamos parar de tirar fotos e gravar filmes, precisamos desenvolver novas maneiras de salvá-los.
Ao longo de milênios, a natureza desenvolveu um incrível meio de armazenamento de informações - o DNA. Ele evoluiu para armazenar informações genéticas, projetos para a construção de proteínas, mas o DNA pode ser usado para muitos outros propósitos do que apenas isso. O DNA também é muito mais denso do que a mídia de armazenamento moderna:os dados em centenas de milhares de DVDs podem caber dentro de um pacote de DNA do tamanho de uma caixa de fósforos. O DNA também é muito mais durável - durando milhares de anos - do que os discos rígidos de hoje, que pode durar anos ou décadas. E embora formatos de disco rígido e padrões de conexão se tornem obsoletos, DNA nunca vai, pelo menos enquanto houver vida.
A ideia de armazenar dados digitais no DNA tem várias décadas, mas um trabalho recente de Harvard e do Instituto Europeu de Bioinformática mostrou que o progresso nos métodos modernos de manipulação de DNA poderia torná-lo possível e prático hoje. Muitos grupos de pesquisa, inclusive na ETH Zurique, a Universidade de Illinois em Urbana-Champaign e a Universidade de Columbia estão trabalhando nesse problema. Nosso próprio grupo na Universidade de Washington e na Microsoft detém o recorde mundial de quantidade de dados armazenados e recuperados com sucesso do DNA - 200 megabytes.
Preparando bits para se tornarem átomos
Mídia tradicional, como discos rígidos, pen drives ou DVDs armazenam dados digitais alterando o magnético, propriedades elétricas ou ópticas de um material para armazenar 0s e 1s.
Para armazenar dados no DNA, o conceito é o mesmo, mas o processo é diferente. As moléculas de DNA são longas sequências de moléculas menores, chamados nucleotídeos - adenina, citosina, timina e guanina, geralmente designado como A, C, T e G. Em vez de criar sequências de 0s e 1s, como na mídia eletrônica, O armazenamento de DNA usa sequências de nucleotídeos.
Existem várias maneiras de fazer isso, mas a ideia geral é atribuir padrões de dados digitais aos nucleotídeos de DNA. Por exemplo, 00 pode ser equivalente a A, 01 a C, 10 para T e 11 para G. Para armazenar uma imagem, por exemplo, começamos com sua codificação como um arquivo digital, como um JPEG. Esse arquivo é, em essência, uma longa sequência de 0s e 1s. Digamos que os primeiros oito bits do arquivo sejam 01111000; nós os dividimos em pares - 01 11 10 00 - que correspondem a C-G-T-A. Essa é a ordem em que juntamos os nucleotídeos para formar uma fita de DNA.
Os arquivos de computador digital podem ser muito grandes - até mesmo terabytes de tamanho para bancos de dados grandes. Mas as fitas individuais de DNA precisam ser muito mais curtas - contendo apenas cerca de 20 bytes cada. Isso porque quanto mais longa uma fita de DNA, mais difícil é construir quimicamente.
Portanto, precisamos quebrar os dados em pedaços menores, e adicione a cada um um indicador de onde ele cai na sequência. Quando chegar a hora de ler as informações armazenadas no DNA, esse indicador garantirá que todos os blocos de dados fiquem em sua ordem adequada.
Agora temos um plano de como armazenar os dados. Em seguida, temos que realmente fazer isso.
Armazenando os dados
Depois de determinar em que ordem as cartas devem ser colocadas, as sequências de DNA são fabricadas letra por letra com reações químicas. Essas reações são impulsionadas por equipamentos que recebem garrafas de A's, C's, G's e T's e os mistura em uma solução líquida com outros produtos químicos para controlar as reações que especificam a ordem das fitas físicas do DNA.
Esse processo nos traz outro benefício do armazenamento de DNA:cópias de backup. Em vez de fazer um fio de cada vez, as reações químicas fazem muitas fitas idênticas de uma vez, antes de fazer muitas cópias da próxima vertente da série.
Uma vez que as fitas de DNA são criadas, precisamos protegê-los contra danos de umidade e luz. Então, nós os secamos e os colocamos em um recipiente que os mantém frios e bloqueia a água e a luz.
Mas os dados armazenados são úteis apenas se pudermos recuperá-los mais tarde.
Lendo os dados de volta
Para ler os dados do armazenamento, usamos uma máquina de sequenciamento exatamente como as usadas para análise de DNA genômico em células. Isso identifica as moléculas, gerar uma sequência de letras por molécula, que então decodificamos em uma sequência binária de 0s e 1s em ordem. Esse processo pode destruir o DNA à medida que ele é lido - mas é aí que as cópias de backup entram em ação:há muitas cópias de cada sequência.
E se as cópias de backup se esgotarem, é fácil fazer cópias duplicadas para reabastecer o armazenamento - assim como a natureza copia o DNA o tempo todo.
No momento, a maioria dos sistemas de recuperação de DNA exige a leitura de todas as informações armazenadas em um determinado recipiente, mesmo se quisermos apenas uma pequena quantidade dele. É como ler as informações de um disco rígido inteiro apenas para encontrar uma mensagem de e-mail. Desenvolvemos técnicas - baseadas em métodos bioquímicos bem estudados - que nos permitem identificar e ler apenas as informações específicas que um usuário precisa recuperar do armazenamento de DNA.
Desafios restantes
Atualmente, O armazenamento de DNA é experimental. Antes que se torne comum, precisa ser totalmente automatizado, e os processos de construção e leitura do DNA devem ser melhorados. Ambos estão sujeitos a erros e são relativamente lentos. Por exemplo, a síntese de DNA atual nos permite escrever algumas centenas de bytes por segundo; um disco rígido moderno pode gravar centenas de milhões de bytes por segundo. Uma foto média de iPhone levaria várias horas para armazenar no DNA, embora demore menos de um segundo para salvar no telefone ou transferir para um computador.
Esses são desafios significativos, mas estamos otimistas porque todas as tecnologias relevantes estão melhorando rapidamente. Avançar, O armazenamento de dados de DNA não precisa da precisão perfeita que a biologia exige, portanto, os pesquisadores provavelmente encontrarão maneiras ainda mais baratas e rápidas de armazenar informações no sistema de armazenamento de dados mais antigo da natureza.
Este artigo foi publicado originalmente em The Conversation. Leia o artigo original.