Loading...
Thumbnail Image
Publication

Towards a neural pre-processing architecture for principle-based Minimalist parsing

Citations
Altmetric:
Abstract
Modeling language in a symbolic, principle-based manner that accommodates both structural and lexical ambiguity remains a significant challenge for computational systems. Current probabilistic parsers struggle with ambiguity detection and grammaticality judgments, limiting their effectiveness in natural language processing tasks. This work presents the Hybrid-Architecture Symbolic Parser and Neural Lexicon (HASPNeL) encoder, a pre-processing pipeline designed to model the human lexicon through computational methods. The encoder incorporates named entity recognition (NER), smart tokenization, part-of-speech (POS) tagging with probability distributions, morphological analysis, and lemmatization to prepare an utterance for processing through a symbolic principle-based parser. These components work together to identify all possible interpretations of lexical items in context, particularly in ambiguous utterances. The system was trained on a synthetic corpus of 1,920 sentences containing various types of ambiguity and evaluated on a holdout and a homograph dataset. Results demonstrate 98% accuracy on holdout data, while exhibiting limitations in homograph disambiguation (92% accuracy), showing systematic biases toward certain POS tags and sensitivity to sentence-final punctuation. This implementation provides a foundation for future computational linguistics research that better reflects human language comprehension capabilities.
Modelar el lenguaje de manera simbólica y principiada que a su vez considere tanto ambigüedad estructural como léxica permanece un reto para sistemas computacionales. Los analizadores sintácticos probabilísticos actuales presentan dificultades con la detección de ambigüedad y juicios de gramaticalidad, limitando su efectividad en tareas de procesamiento de lenguaje natural. Este trabajo presenta un codificador ("encoder") para el "Hybrid-Architecture Symbolic Parser and Neural Lexicon (HASPNeL)," un sistema de preprocesamiento diseñado para modelar el lexicón humano a través de métodos computacionales. El codificador incorpora reconocimiento de entidades nombradas, tokenización inteligente, etiquetaje de categorías gramaticales sumado a sus distribuciones probabilísticas, análisis morfológico, y lematización en preparación para el procesamiento de un enunciado a través de un analizador simbólico principiado. Estos componentes trabajan en conjunto para identificar todas las posibles interpretaciones de los elementos léxicos de un enunciado a base de su contexto, particularmente en enunciados ambiguos. El sistema fue entrenado con un corpus sintético de 1,920 oraciones con diferentes tipos de ambigüedad y evaluado con conjuntos de datos tanto de reserva como de homógrafos. Los resultados demuestran un 98% de precisión en los datos de reserva, mientras que exhibe limitaciones en la desambiguación de homógrafos (92% de precisión), mostrando sesgos sistemáticos hacia ciertas etiquetas de categorías gramaticales y sensibilidad a puntuación al final de un enunciado. Esta implementación proporciona una base para futuras investigaciones en lingüística computacional que reflejen mejor las capacidades de comprensión del lenguaje humano.
Description
Date
2025-07-10
Journal Title
Journal ISSN
Volume Title
Publisher
Research Projects
Organizational Units
Journal Issue
Keywords
Natural language processing, Linguistics, Computational linguistics
Citation
Embedded videos