• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • Acelerando as descobertas das ciências da vida e saúde:transformando dados em insights

    O Paradigm4 permite que os usuários integrem dados de fontes como sequenciamento genômico, medidas biométricas, Fatores Ambientais, e mais em suas investigações para permitir novas descobertas em uma variedade de campos das ciências da vida. Crédito:Massachusetts Institute of Technology

    Como tecnologias como o sequenciamento genômico de uma única célula, imagem biomédica aprimorada, e dispositivos médicos da "internet das coisas" proliferam, As principais descobertas sobre a saúde humana são cada vez mais encontradas em um vasto acervo de complexos dados de ciências da vida e saúde.

    Mas tirar conclusões significativas desses dados é um problema difícil que pode envolver a junção de diferentes tipos de dados e a manipulação de enormes conjuntos de dados em resposta a várias pesquisas científicas. O problema diz respeito tanto à ciência da computação quanto a outras áreas da ciência. É aí que entra o Paradigm4.

    A empresa, fundada por Marilyn Matz SM '80 e vencedor do Prêmio Turing e Professor do MIT Michael Stonebraker, ajuda empresas farmacêuticas, institutos de pesquisa, e as empresas de biotecnologia transformam dados em percepções.

    Ele consegue isso com um sistema de gerenciamento de banco de dados computacional que é construído desde o início para hospedar os diversos, dados multifacetados nas fronteiras da pesquisa em ciências da vida. Isso inclui dados de fontes como biobancos nacionais, testes clínicos, a internet médica das coisas, atlas de células humanas, imagens médicas, Fatores Ambientais, e multi-omics, um campo que inclui o estudo de genomas, microbiomas, metabolomas, e mais.

    Além da arquitetura única do sistema, a empresa também construiu a preparação de dados, gerenciamento de metadados, e ferramentas analíticas para ajudar os usuários a encontrar os padrões e correlações importantes ocultos em todos esses números.

    Em muitos casos, os clientes estão explorando conjuntos de dados que os fundadores dizem que são muito grandes e complexos para serem representados de forma eficaz por sistemas tradicionais de gerenciamento de banco de dados.

    "Estamos ansiosos para permitir que cientistas e cientistas de dados façam coisas que não podiam fazer antes, tornando mais fácil para eles lidar com computação em grande escala e aprendizado de máquina em dados diversos, "Matz diz." Estamos ajudando cientistas e bioinformaticistas com colaboração, pesquisa reproduzível para fazer e responder perguntas difíceis com mais rapidez. "

    Um novo paradigma

    Stonebraker foi um pioneiro no campo de sistemas de gerenciamento de banco de dados por décadas. Ele fundou nove empresas, e suas inovações estabeleceram padrões para a maneira como os sistemas modernos permitem que as pessoas organizem e acessem grandes conjuntos de dados.

    Grande parte da carreira de Stonebraker se concentrou em bancos de dados relacionais, que organizam os dados em colunas e linhas. Mas em meados de 2000, Stonebraker percebeu que muitos dados sendo gerados seriam melhor armazenados não em linhas ou colunas, mas em matrizes multidimensionais.

    Por exemplo, satélites quebram a superfície da Terra em grandes quadrados, e os sistemas GPS rastreiam o movimento de uma pessoa através desses quadrados ao longo do tempo. Essa operação envolve vertical, horizontal, e medidas de tempo que não são facilmente agrupadas ou de outra forma manipuladas para análise em sistemas de banco de dados relacionais.

    Stonebraker lembra de seus colegas científicos reclamando que os sistemas de gerenciamento de banco de dados disponíveis eram lentos demais para trabalhar com conjuntos de dados científicos complexos em campos como a genômica, onde os pesquisadores estudam as relações entre dados multiômicos em escala populacional, dados fenotípicos, e registros médicos.

    "[Sistemas de banco de dados relacionais] varrem horizontal ou verticalmente, mas não ambos, "Stonebraker explica." Então você precisa de um sistema que faça as duas coisas, e isso requer um gerenciador de armazenamento na parte inferior do sistema, que seja capaz de se mover tanto horizontal quanto verticalmente através de uma matriz muito grande. É isso que o Paradigm4 faz. "

    Em 2008, Stonebraker começou a desenvolver um sistema de gerenciamento de banco de dados no MIT que armazenava dados em matrizes multidimensionais. Ele confirmou que a abordagem ofereceu grandes vantagens de eficiência, permitindo ferramentas analíticas baseadas em álgebra linear, incluindo muitas formas de aprendizado de máquina e processamento de dados estatísticos, para ser aplicado a enormes conjuntos de dados de novas maneiras.

    Stonebraker decidiu transformar o projeto em uma empresa em 2010, quando ele fez parceria com Matz, um empresário de sucesso que foi cofundador da Cognex Corporation, uma grande empresa de visão de máquina industrial que abriu o capital em 1989. Os fundadores e sua equipe começaram a trabalhar na construção dos principais recursos do sistema, incluindo sua arquitetura distribuída que permite que o sistema funcione em servidores de baixo custo, e sua capacidade de limpar e organizar dados automaticamente de maneiras úteis para os usuários.

    Os fundadores descrevem seu sistema de gerenciamento de banco de dados como um motor computacional para dados científicos, e eles o chamaram de SciDB. Além do SciDB, eles desenvolveram uma plataforma analítica, chamado de mecanismo de descoberta REVEAL, com base nas atividades e aspirações diárias de pesquisa dos usuários.

    "Se você é um cientista ou cientista de dados, Os produtos REVEAL e SciDB da Paradigm cuidam de toda a disputa de dados e do encanamento e cabeamento computacional, "para que você não precise se preocupar com o acesso aos dados, movendo dados, ou configurar computação distribuída paralela, "Matz diz." Seus dados estão prontos para a ciência. Basta fazer sua pergunta científica e a plataforma orquestra todo o gerenciamento de dados e computação para você. "

    SciDB foi projetado para ser usado por cientistas e desenvolvedores, para que os usuários possam interagir com o sistema por meio de interfaces gráficas ou aproveitando linguagens estatísticas e de programação como R e Python.

    “Tem sido muito importante vender soluções, não blocos de construção, "Matz diz." Uma grande parte de nosso sucesso nas ciências da vida com os melhores laboratórios farmacêuticos e biotecnológicos e institutos de pesquisa está trazendo a eles nosso conjunto REVEAL de soluções específicas de aplicação para problemas. Não estamos entregando a eles uma plataforma analítica que é um conjunto de blocos de LEGO; estamos dando a eles soluções que lidam com os dados com os quais lidam diariamente, and solutions that use their vocabulary and answer the questions they want to work on."

    Accelerating discovery

    Today Paradigm4's customers include some of the biggest pharmaceutical and biotech companies in the world as well as research labs at the National Institutes of Health, Universidade de Stanford, e em outros lugares.

    Customers can integrate genomic sequencing data, biometric measurements, data on environmental factors, and more into their inquiries to enable new discoveries across a range of life science fields.

    Matz says SciDB did 1 billion linear regressions in less than an hour in a recent benchmark, and that it can scale well beyond that, which could speed up discoveries and lower costs for researchers who have traditionally had to extract their data from files and then rely on less efficient cloud-computing-based methods to apply algorithms at scale.

    "If researchers can run complex analytics in minutes and that used to take days, that dramatically changes the number of hard questions you can ask and answer, " Matz says. "That is a force-multiplier that will transform research daily."

    Beyond life sciences, Paradigm4's system holds promise for any industry dealing with multifaceted data, including earth sciences, where Matz says a NASA climatologist is already using the system, and industrial IoT, where data scientists consider large amounts of diverse data to understand complex manufacturing systems. Matz says the company will focus more on those industries next year.

    In the life sciences, Contudo, the founders believe they already have a revolutionary product that's enabling a new world of discoveries. Abaixo da linha, they see SciDB and REVEAL contributing to national and worldwide health research that will allow doctors to provide the most informed, personalized care imaginable.

    "The query that every doctor wants to run is, when you come into his or her office and display a set of symptoms, the doctor asks, "Who in this national database has genetics that look like mine, symptoms that look like mine, lifestyle exposures that look like mine? And what was their diagnosis? What was their treatment? And what was their morbidity?" Stonebraker explains. "This is cross correlating you with everybody else to do very personalized medicine, and I think this is within our grasp."

    Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisas do MIT, inovação e ensino.




    © Ciência https://pt.scienceaq.com