Créditos ECTS Créditos ECTS: 5
Horas ECTS Criterios/Memorias Horas de Tutorías: 5 Clase Expositiva: 15 Clase Interactiva: 20 Total: 40
Lenguas de uso Alemán, Inglés
Tipo: Materia Ordinaria Máster RD 1393/2007 - 822/2021
Departamentos: Departamento externo vinculado a las titulaciones
Áreas: Área externa M.U Erasmus Mundus en Lexicografía (2ªed)
Centro Facultad de Filología
Convocatoria: Primer semestre
Docencia: Con docencia
Matrícula: Matriculable
- Capacitar al alumnado para trabajar con instrumentos informáticos en el tratamiento de datos lingüísticos.
- Proveer al alumnado de habilidades para diseñar e implementar herramientas básicos de extracción automática de información lexicográfica a partir de texto.
Este curso presentará una introducción a métodos básicos de programación en lenguajes de scripting (por ej. R, Python, etc.), con el objetivo de extraer información de textos para crear recursos lexicográficos, concretamente el curso se centra en la búsqueda automática de colocaciones y relaciones léxicas.
1. Introducción al procesamiento del lenguaje natural con R
1.1. Tareas básicas: tokenizacion y separación de oraciones
1.2. Identificación de lemas y análisis de categorías sintácticas
1.3. Reconocimiento de entidades a partir de un texto
2. Métodos cuantitativo-empíricos en lexicografía
2.1. Introducción: Métodos de investigación empíricos
2.2. Metodologías: Ventajas e Inconvenientes
3. Visualización de datos y análisis
3.1. Introducción a la visualización en R
3.2. Estadística descriptiva e inferencial
3.3. Visualización de datos
4. Lexicografía colaborativa
4.1. Principios básicos del trabajo colaborativo
4.2. Lexicografía colaborativa mediante crowdsourcing: el proyecto del Wikidiccionario
4.3. Herramientas para la lexicografía colaborativa
Abel, Andrea & Meyer, Christian M. (2013). “The dynamics outside the paper: user contributions to online dictionaries”, en Iztok Kosem / Jelena Kallas / Polona Gantar / Simon Krek / Margit Langemets / Maria Tuulik, coords., Electronic lexicography in the 21st century: thinking outside the paper: proceedings of the eLex 2013 conference, 17–19 October 2013, Tallinn, Estonia. Liublliana / Tallin: Institute for Applied Slovene Studies / Institute of the Estonian Language, pp. 179–194. Available at: <http://eki.ee/elex2013/ proceedings/eLex2013_13_Abel+Meyer.pdf>
Arnold, T., & Tilton, L. (2015). Humanities Data in R: Exploring Networks, Geospatial Data, Images, and Text (1st ed.). Springer International Publishing AG.
Evert, Stefan (2008). “Corpora and collocations”. In A. Lüdeling and M. Kytö (eds.), Corpus Linguistics. An International Handbook, article 58, pages 1212-1248. Mouton de Gruyter, Berlin.
Grefenstette, Gregory (1994). Explorations in Automatic Thesaurus Discovery. Kluwer Academic Publishers, Norwell, MA, USA.
Thalken, Rosamond & Jockers, Matthew L. (2020). Text analysis with R: for students of literature, Cham: Springer.
Mel’chuk, Igor (1998). “Collocations and Lexical Functions”. In A.P. Cowie (ed.): Phraseology. Theory, Analysis, and Applications, Oxford: Clarendon Press, 23-53.
Meyer, Christian M. / Gurevych, Iryna (2012a): “Wiktionary: a new rival for expert-build lexicons? Exploring the possibilities of collaborative lexicography”, in Sylviane Granger / Magali Paquot, eds., Electronic Lexicography. Oxford: Oxford University Press, pp. 259–595.
Müller-Spitzer, Carolin / Wolfer, Sasha / Koplenig, Alexander (2015): “Observing online dictionary users: studies using Wiktionary log files”, International Journal of Lexicography, 28/1, pp. 1–26.
Padó, Sebastian & Lapata, Mirella (2007). “Dependency-based construction of semantic space models”. Computational Linguistics. 33 (2): 161–199.
Sahlgren, Magnus (2008). “The Distributional Hypothesis”. Rivista dei Linguistica. 20(1): 33–53.
Sweigart, Ao (2015). Automate the Boring Stuff with Python: Practical Programming for Total Beginners, Non Starch Press.
Wolfer, Sasha / Müller-Spitzer, Carolin (2016). “How Many People Constitute a Crowd and What Do They Do? Quantitative Analyses of Revisions in the English and German Wiktionary Editions”. Lexikos. 26: 347-371.
Wu, Winston, / Yarowsky, David (2020). “Wiktionary normalization of translations and morphological information”. In Donia Sot / Nuria Bel / Chengqing Zong, eds., Proceedings of the 28th International Conference on Computational Linguistics , Barcelona: International Committee on Computational Linguistics, pp. 4683-4692.
(Se indicarán otras referencias bibliográficas durante el curso)
Conocimiento o contenidos: Con03, Con05, Con06
Habilidades o destrezas: H/D05, H/D06, H/D07, H/D09
Competencias: Comp02, Comp03, Comp08
- Sesiones magistrales de transmisión del conocimiento a los estudiantes y abiertas a la discusión.
- Sesiones prácticas con el ordenador siguiendo una metodología colaborativa.
- Tareas propuestas previamente como trabajo individual fuera del aula serán tema de análisis y discusión en el aula.
1. Primera oportunidad: Realización y entrega de las tareas en el plazo convenido y activa participación: 100%.
2. Segunda oportunidad: Se aplicarán los mismos criterios que en la primera convocatoria.
Los alumnos con dispensa de asistencia tendrán que hacer un trabajo académico final, que representará el 100% de la nota.
Para los casos de realización fraudulenta (por ej: plagio) de ejercicios o pruebas será de aplicación lo recogido en la Normativa de evaluación del rendimiento académico de los estudiantes y de revisión de calificaciones de la Universidad de Santiago de Compostela.
Las horas presenciales son 35, a lo que cabe sumar el trabajo individual del alumnado.
- Se recomienda tomar en cuenta los conocimientos y habilidades adquiridos en la materia del primer semestre: Introducción a la informática y al procesamiento del lenguaje natural.
- Se espera del alumnado preparación – previa y posterior – de las horas de clase.
En esta materia se van a aplicar metodologías estudiadas en Recursos y herramientas con aplicación lexicográfica: uso y diseño I.