Expanding the open Wordnets for english and portuguese to geology domain: inclusion of lythology and geological time concepts

Carregando...
Imagem de Miniatura
Data
2020-09-30

Orientador(res)

Rademaker, Alexandre

Métricas

Título da Revista

ISSN da Revista

Título de Volume

Resumo
O conhecimento humano tem sido armazenado, transferido e crescido através de meios escritos. A habilidade humana de acessar essa fonte de conhecimento é notadamente a principal razão pela qual conseguimos avançar o nosso entendimento coletivo ao longo de milênios. Há cerca de 25 anos as nossas tecnologias para coletar, armazenar e disseminar vastas quantidades de informação superaram as nossas tecnologias para agrupar e analisar tais dados. O Processamento de Linguagem Natural (NLP, na sigla em inglês) aborda esta questão. O dia a dia já é beneficiado pelo NLP, com aplicações que vão de filtros de spam a chatbots (ainda que limitados) e assistentes pessoais de inteligência artificial via comandos de voz. Todavia, no que tange à linguagem técnica, o NLP ainda possui deficiências. Isto é particularmente verdadeiro para o domínio de Óleo & Gás, no qual informação é o recurso mais precioso, base para decisões envolvendo bilhões de dólares. Ainda que existam inúmeros relatórios, artigos científicos, documentos e afins, tal conhecimento permanece inalcançável devido a limitações de NLP aplicado a domínio. É nossa hipótese que a expansão de um recurso léxico, a WordNet, terá efeito escalável particularmente em desambiguação de palavras (WSD, Word Sense Disambiguation) e para o NLP como um todo em documentos de Óleo e Gás. Para verificar esta hipótese, estendemos a WordNet com 377 novos conceitos (synsets), 558 novas formas lexicais (palavras) e 948 novas relações envolvendo tais synsets e palavras. Tal extensão foca em duas das referências mais comumente mencionadas em documentos de Óleo & Gás: Tempo Geológico e Litologia (ramo da geologia dedicado ao estudo de rochas). Nós fazemos tal extensão da WordNet tanto “verticalmente” a partir da Princeton WordNet original na Open WordNet for English (OWN-EN) como “horizontalmente” através da tradução e adaptação de tais esforços para a Open WordNet for Portuguese (OWN-PT). Por fim comparamos a saída do UKB (algoritimo de WSD) antes e depois de tal extensão. Ambas as WordNets (parta inglês e para português) estão disponíveis online como iniciativas open-source.

Descrição

Área do Conhecimento

Avaliação

Revisão

Suplementado Por

Referenciado Por