S86
Ferramentas para mineração
e mapeamento de dados de patentes
Esta abordagem de abertura coloca exigências ao modo como
a sociedade perspetiva atualmente o financiamento científico e
o próprio ciclo da inovação. O potencial valor acrescentado do
mapeamento de grandes quantidades de dados (a chamada
big
data
) encerrados no conhecimento já alcançado e já codificado
para fins específicos é, em si mesmo, um fator não exatamente
quantificado no contexto dos sistemas nacionais de inovação.
A mineração de dados constitui, pois, um campo científico de
importância crescente no contexto interdisciplinar das ciên-
cias computacionais, no que a mineração de patentes, especifi-
camente, oferece um ramo suplementar à geração e valoriza-
ção do conhecimento, com potencialidades assinaláveis quer a
nível científico, quer a nível social.
Sérgio Matos, da Universidade deAveiro, apresentou os recen-
tes desenvolvimentos daquela instituição a nível dos aplicati-
vos informáticos já disponibilizados para mineração de paten-
tes na área biomédica, nomeadamente com vista à descoberta
de novo conhecimento sobre fármacos que pode emergir do
conhecimento patenteado.
No caso particular da área da saúde, a documentação que
pode ser “cruzada” com vista a variadas aplicações e, no limite,
submetida a mineração para fins de identificação de padrões
é imensa, desde literatura científica a informação clínica, a in-
formação de patentes na área farmacêutica, a documentação
explicativa sobre drogas e medicamentos, etc. Uma análise do
sítio da
internet
do
European Patent Office
(EPO Espacenet) per-
mite verificar que, até 2015, foram concedidas mais de 90 mi-
lhões de patentes na área da química.A mineração de patentes
neste caso permite encontrar vias e mecanismos terapêuticos,
novas classes farmacológicas e terapêuticas, novas utilizações
clínicas de químicos já existentes, novas formulações ou es-
truturas químicas ainda não identificadas, entre várias outras
possibilidades. Resultados a este nível podem, em consequên-
cia, fazer-se sentir a vários níveis, desviando potencialmente
segmentos de mercado das patentes ou coberturas territoriais
de foco, por exemplo, não sendo, pois, negligenciável o seu
interesse para a Indústria.
É, assim, de crucial importância que os sistemas de tratamen-
to da informação disponíveis apresentem um elevado nível de
precisão e sensibilidade por forma a garantir uma forte ca-
pacidade de associação/relação linguística em aspetos como
similaridades textuais, associações explícitas e implícitas, si-
milaridades do ponto de vista semântico, etc. Para tal, é crí-
tico que sejam apetrechados de um crescente enriquecimen-
to semântico, para além de um algoritmo estatístico que os
configure como fiáveis descodificadores de detalhes técnicos
de codificação textual, tais como abreviaturas e outros aspetos
característicos das diversas áreas temáticas.
A aplicação informática “Neji”, de utilização aberta, desenvol-
vido pela Universidade de Aveiro e orientado para a área da
bioinformática, oferece diversos módulos personalizáveis para
processamento de texto e reconhecimento de conceitos, sen-
do enriquecido a nível semântico pelos próprios utilizadores.
Apresenta resultados com diferentes níveis de fiabilidade, de-
pendendo das vertentes temáticas da literatura analisada.
As funcionalidades das aplicações em causa passam necessaria-
mente por uma categorização e “etiquetagem” dos termos téc-
nicos ao longo de cada texto analisado, conforme assegurado
pelo programa “Becas”, da Universidade de Aveiro, desenvol-
vido para identificação de conceitos.A plataforma colaborativa
“Egas”, aberta e baseada na
web
, orientada para textos da área
biomédica, foi também desenvolvida por um consórcio for-
mado pela Universidade de Aveiro e pela empresa BMD, para
permitir a curadoria colaborativa desses termos, criando ano-
tações manuais e automáticas de conceitos e de relações entre
os mesmos, por meio de uma interface de utilização simples.
As funcionalidades de visualizações gráficas sobre análises se-
mânticas, quer para ilustrar a proximidade de conceitos, quer
para estruturação semântica de termos com base na incidência
dos mesmos sobre textos associados a categorias específicas,
têm provado ser também de grande utilidade.
O consórcio acima mencionado criou ainda o sistema aberto
“COEUS” como estrutura simplificada de
back-end
para rápido
desenvolvimento de aplicações
web
a nível de semântica. Este
sistema é suficientemente flexível para integrar contributos e
recursos de utilizadores com diferentes aplicativos de origem
e recolher dados distribuídos de elevada heterogeneidade. O
COEUS permitiu já criar o portal científico Diseasecard para
exploração de semântica associada às doenças raras.
A ferramenta Patent-to-Net (P2N) foi desenvolvida por David
Reymond com vista à exploração e visualização de dados de
patentes registados na plataforma Espacenet. Trata-se de um
aplicativo de acesso aberto desenvolvido sob licença livre, que
permite a utilização de diferentes instrumentos disponíveis. O
processo de tratamento de dados P2N envolve três passos se-
quenciais – recolha de dados e informação de patentes; explo-
ração; e apresentação de resultados.A fase de exploração passa
pela construção de matrizes dinâmicas cruzadas, matrizes de
correlação e diagramas descritivos, cartografia de dados, clas-
sificação, quantificações associadas ao texto e mapeamento de
conceitos.A ferramenta P2N é flexível no formato de expor-
tação dos resultados de análise.
Tal como referido anteriormente, a análise textual permite
a classificação e a associação de termos e conceitos associa-
dos às invenções patenteadas. A frequência terminológica de
ocorrência nos textos é o critério mais direto, porém outros
critérios de proximidade e classificação temática são contem-
plados.
A análise e o tratamento dos metadados associados às patentes
– título, inventor, agente legal, processo de submissão, data de
submissão e de publicação da patente, classificação, citações,
referências, acesso e interesse gerado, etc. – são igualmente de
valiosa utilidade para tratamento estatístico, nomeadamente
para mapeamento de países de origem, mercados alvo, mer-
cados financeiros de interesse (através dos pedidos de acesso
Big Data
e ciência aberta