Loading...
Towards a neural pre-processing architecture for principle-based Minimalist parsing
Citations
Altmetric:
Abstract
Modeling language in a symbolic, principle-based manner that accommodates both structural and lexical ambiguity remains a significant challenge for computational systems.
Current probabilistic parsers struggle with ambiguity detection and grammaticality judgments, limiting their effectiveness in natural language processing tasks. This work presents the Hybrid-Architecture Symbolic Parser and Neural Lexicon (HASPNeL) encoder, a pre-processing pipeline designed to model the human lexicon through computational methods. The encoder incorporates named entity recognition (NER), smart tokenization, part-of-speech (POS) tagging with probability distributions, morphological analysis, and lemmatization to prepare an utterance for processing through a symbolic principle-based parser. These components work together to identify all possible interpretations of lexical items in context, particularly in ambiguous utterances. The system was trained on a synthetic corpus of 1,920 sentences containing various types of ambiguity and evaluated on a holdout and a homograph dataset. Results demonstrate 98% accuracy on holdout data, while exhibiting limitations in homograph disambiguation (92% accuracy), showing systematic biases toward certain POS tags and sensitivity to sentence-final punctuation. This implementation provides a foundation for future computational linguistics research that better reflects human language comprehension capabilities.
Modelar el lenguaje de manera simbólica y principiada que a su vez considere tanto ambigüedad estructural como léxica permanece un reto para sistemas computacionales. Los analizadores sintácticos probabilísticos actuales presentan dificultades con la detección de ambigüedad y juicios de gramaticalidad, limitando su efectividad en tareas de procesamiento de lenguaje natural. Este trabajo presenta un codificador ("encoder") para el "Hybrid-Architecture Symbolic Parser and Neural Lexicon (HASPNeL)," un sistema de preprocesamiento diseñado para modelar el lexicón humano a través de métodos computacionales. El codificador incorpora reconocimiento de entidades nombradas, tokenización inteligente, etiquetaje de categorías gramaticales sumado a sus distribuciones probabilísticas, análisis morfológico, y lematización en preparación para el procesamiento de un enunciado a través de un analizador simbólico principiado. Estos componentes trabajan en conjunto para identificar todas las posibles interpretaciones de los elementos léxicos de un enunciado a base de su contexto, particularmente en enunciados ambiguos. El sistema fue entrenado con un corpus sintético de 1,920 oraciones con diferentes tipos de ambigüedad y evaluado con conjuntos de datos tanto de reserva como de homógrafos. Los resultados demuestran un 98% de precisión en los datos de reserva, mientras que exhibe limitaciones en la desambiguación de homógrafos (92% de precisión), mostrando sesgos sistemáticos hacia ciertas etiquetas de categorías gramaticales y sensibilidad a puntuación al final de un enunciado. Esta implementación proporciona una base para futuras investigaciones en lingüística computacional que reflejen mejor las capacidades de comprensión del lenguaje humano.
Modelar el lenguaje de manera simbólica y principiada que a su vez considere tanto ambigüedad estructural como léxica permanece un reto para sistemas computacionales. Los analizadores sintácticos probabilísticos actuales presentan dificultades con la detección de ambigüedad y juicios de gramaticalidad, limitando su efectividad en tareas de procesamiento de lenguaje natural. Este trabajo presenta un codificador ("encoder") para el "Hybrid-Architecture Symbolic Parser and Neural Lexicon (HASPNeL)," un sistema de preprocesamiento diseñado para modelar el lexicón humano a través de métodos computacionales. El codificador incorpora reconocimiento de entidades nombradas, tokenización inteligente, etiquetaje de categorías gramaticales sumado a sus distribuciones probabilísticas, análisis morfológico, y lematización en preparación para el procesamiento de un enunciado a través de un analizador simbólico principiado. Estos componentes trabajan en conjunto para identificar todas las posibles interpretaciones de los elementos léxicos de un enunciado a base de su contexto, particularmente en enunciados ambiguos. El sistema fue entrenado con un corpus sintético de 1,920 oraciones con diferentes tipos de ambigüedad y evaluado con conjuntos de datos tanto de reserva como de homógrafos. Los resultados demuestran un 98% de precisión en los datos de reserva, mientras que exhibe limitaciones en la desambiguación de homógrafos (92% de precisión), mostrando sesgos sistemáticos hacia ciertas etiquetas de categorías gramaticales y sensibilidad a puntuación al final de un enunciado. Esta implementación proporciona una base para futuras investigaciones en lingüística computacional que reflejen mejor las capacidades de comprensión del lenguaje humano.
Description
Date
2025-07-10
Journal Title
Journal ISSN
Volume Title
Publisher
Collections
Keywords
Natural language processing, Linguistics, Computational linguistics
