Rede neural transforma modelos moleculares em fórmulas químicas textuais
Por Gustavo Minari • Editado por Douglas Ciriaco |

Pesquisadores do Instituto Skolkovo de Ciência e Tecnologia (Skoltech), na Rússia, desenvolveram um novo sistema de treinamento que permite que as redes neurais se tornem capazes de reconhecer fórmulas químicas automaticamente em trabalhos acadêmicos de pesquisa.
- Rede neural artificial inspirada no cérebro humano consegue "pensar" melhor
- Nova rede neural mostra que é possível ligar cérebro a computador sem usar fios
Para traduzir números e desenhos em fórmulas, os cientistas usaram o Transformer — uma rede neural originalmente proposta pelo Google para tradução automática de palavras. Em vez de traduzir texto entre idiomas, a equipe usou a ferramenta para converter a imagem de uma molécula ou um modelo molecular em sua representação textual.
“Mesmo que um determinado composto tenha sido originalmente sintetizado há 100 anos, informações sobre sua estrutura, propriedades e formas de síntese permanecem relevantes até hoje. O problema é que os químicos costumam usar anotações abreviadas para representar suas descobertas, dificultando a digitalização e o reconhecimento por sistemas de inteligência artificial”, explica o professor Sergey Sosnin, autor principal do estudo.
Rede neural
Segundo os cientistas, a rede neural provou ser capaz de aprender praticamente tudo, desde que o estilo de representação — fórmulas, textos e desenhos — seja inserido em forma de dados no sistema de treinamento para que o algoritmo consiga traduzi-los em uma linguagem acadêmica reconhecida globalmente.
Como o Transformer requer dezenas de milhões de exemplos para treinar a rede neural — impossibilitando a coleta manual de fórmulas químicas — a equipe criou um gerador de dados que produz modelos combinando fragmentos de moléculas selecionados aleatoriamente e estilos de representação variados.
“Nosso algoritmo combina moléculas, grupos funcionais, fontes, estilos e até defeitos de impressão, introduzindo pedaços de moléculas adicionais e fragmentos abstratos. Depois da digitalização, é difícil dizer se a molécula veio diretamente de um papel real ou do gerador”, acrescenta Sosnin.
Gerador de dados
Para os pesquisadores, a única maneira de obter um grande conjunto de dados é construir um modelo gerador capaz de simular uma variedade maior de desenhos em papel reais. A novidade dessa abordagem é o foco em esquemas de geração e a possibilidade de processar não apenas estruturas orgânicas, mas também modelos moleculares.
O sistema de treinamento avançado simula casos reais de renderização de moléculas, possibilitando a extração e análise de documentos químicos em bancos de dados complexos ou que foram carregados em plataformas com baixa resolução, resultando em falhas de identificação.
“Com esse método embrionário, atingimos um passo importante em direção a um sistema de inteligência artificial capaz de ler e entender trabalhos de pesquisa com a mesma eficiência que um químico qualificado faria, mas gastando a metade do tempo”, prevê o professor Sergey Sosnin.
Fonte: Skoltech