Table of Contents Table of Contents
Previous Page  86 / 118 Next Page
Information
Show Menu
Previous Page 86 / 118 Next Page
Page Background

S86

Ferramentas para mineração

e mapeamento de dados de patentes

Esta abordagem de abertura coloca exigências ao modo como

a sociedade perspetiva atualmente o financiamento científico e

o próprio ciclo da inovação. O potencial valor acrescentado do

mapeamento de grandes quantidades de dados (a chamada

big

data

) encerrados no conhecimento já alcançado e já codificado

para fins específicos é, em si mesmo, um fator não exatamente

quantificado no contexto dos sistemas nacionais de inovação.

A mineração de dados constitui, pois, um campo científico de

importância crescente no contexto interdisciplinar das ciên-

cias computacionais, no que a mineração de patentes, especifi-

camente, oferece um ramo suplementar à geração e valoriza-

ção do conhecimento, com potencialidades assinaláveis quer a

nível científico, quer a nível social.

Sérgio Matos, da Universidade deAveiro, apresentou os recen-

tes desenvolvimentos daquela instituição a nível dos aplicati-

vos informáticos já disponibilizados para mineração de paten-

tes na área biomédica, nomeadamente com vista à descoberta

de novo conhecimento sobre fármacos que pode emergir do

conhecimento patenteado.

No caso particular da área da saúde, a documentação que

pode ser “cruzada” com vista a variadas aplicações e, no limite,

submetida a mineração para fins de identificação de padrões

é imensa, desde literatura científica a informação clínica, a in-

formação de patentes na área farmacêutica, a documentação

explicativa sobre drogas e medicamentos, etc. Uma análise do

sítio da

internet

do

European Patent Office

(EPO Espacenet) per-

mite verificar que, até 2015, foram concedidas mais de 90 mi-

lhões de patentes na área da química.A mineração de patentes

neste caso permite encontrar vias e mecanismos terapêuticos,

novas classes farmacológicas e terapêuticas, novas utilizações

clínicas de químicos já existentes, novas formulações ou es-

truturas químicas ainda não identificadas, entre várias outras

possibilidades. Resultados a este nível podem, em consequên-

cia, fazer-se sentir a vários níveis, desviando potencialmente

segmentos de mercado das patentes ou coberturas territoriais

de foco, por exemplo, não sendo, pois, negligenciável o seu

interesse para a Indústria.

É, assim, de crucial importância que os sistemas de tratamen-

to da informação disponíveis apresentem um elevado nível de

precisão e sensibilidade por forma a garantir uma forte ca-

pacidade de associação/relação linguística em aspetos como

similaridades textuais, associações explícitas e implícitas, si-

milaridades do ponto de vista semântico, etc. Para tal, é crí-

tico que sejam apetrechados de um crescente enriquecimen-

to semântico, para além de um algoritmo estatístico que os

configure como fiáveis descodificadores de detalhes técnicos

de codificação textual, tais como abreviaturas e outros aspetos

característicos das diversas áreas temáticas.

A aplicação informática “Neji”, de utilização aberta, desenvol-

vido pela Universidade de Aveiro e orientado para a área da

bioinformática, oferece diversos módulos personalizáveis para

processamento de texto e reconhecimento de conceitos, sen-

do enriquecido a nível semântico pelos próprios utilizadores.

Apresenta resultados com diferentes níveis de fiabilidade, de-

pendendo das vertentes temáticas da literatura analisada.

As funcionalidades das aplicações em causa passam necessaria-

mente por uma categorização e “etiquetagem” dos termos téc-

nicos ao longo de cada texto analisado, conforme assegurado

pelo programa “Becas”, da Universidade de Aveiro, desenvol-

vido para identificação de conceitos.A plataforma colaborativa

“Egas”, aberta e baseada na

web

, orientada para textos da área

biomédica, foi também desenvolvida por um consórcio for-

mado pela Universidade de Aveiro e pela empresa BMD, para

permitir a curadoria colaborativa desses termos, criando ano-

tações manuais e automáticas de conceitos e de relações entre

os mesmos, por meio de uma interface de utilização simples.

As funcionalidades de visualizações gráficas sobre análises se-

mânticas, quer para ilustrar a proximidade de conceitos, quer

para estruturação semântica de termos com base na incidência

dos mesmos sobre textos associados a categorias específicas,

têm provado ser também de grande utilidade.

O consórcio acima mencionado criou ainda o sistema aberto

“COEUS” como estrutura simplificada de

back-end

para rápido

desenvolvimento de aplicações

web

a nível de semântica. Este

sistema é suficientemente flexível para integrar contributos e

recursos de utilizadores com diferentes aplicativos de origem

e recolher dados distribuídos de elevada heterogeneidade. O

COEUS permitiu já criar o portal científico Diseasecard para

exploração de semântica associada às doenças raras.

A ferramenta Patent-to-Net (P2N) foi desenvolvida por David

Reymond com vista à exploração e visualização de dados de

patentes registados na plataforma Espacenet. Trata-se de um

aplicativo de acesso aberto desenvolvido sob licença livre, que

permite a utilização de diferentes instrumentos disponíveis. O

processo de tratamento de dados P2N envolve três passos se-

quenciais – recolha de dados e informação de patentes; explo-

ração; e apresentação de resultados.A fase de exploração passa

pela construção de matrizes dinâmicas cruzadas, matrizes de

correlação e diagramas descritivos, cartografia de dados, clas-

sificação, quantificações associadas ao texto e mapeamento de

conceitos.A ferramenta P2N é flexível no formato de expor-

tação dos resultados de análise.

Tal como referido anteriormente, a análise textual permite

a classificação e a associação de termos e conceitos associa-

dos às invenções patenteadas. A frequência terminológica de

ocorrência nos textos é o critério mais direto, porém outros

critérios de proximidade e classificação temática são contem-

plados.

A análise e o tratamento dos metadados associados às patentes

– título, inventor, agente legal, processo de submissão, data de

submissão e de publicação da patente, classificação, citações,

referências, acesso e interesse gerado, etc. – são igualmente de

valiosa utilidade para tratamento estatístico, nomeadamente

para mapeamento de países de origem, mercados alvo, mer-

cados financeiros de interesse (através dos pedidos de acesso

Big Data

e ciência aberta