Créditos ECTS Créditos ECTS: 5
Horas ECTS Criterios/Memorias Horas de Titorías: 5 Clase Expositiva: 15 Clase Interactiva: 20 Total: 40
Linguas de uso Alemán, Inglés
Tipo: Materia Ordinaria Máster RD 1393/2007 - 822/2021
Departamentos: Departamento externo vinculado ás titulacións
Áreas: Área externa M.U Erasmus Mundus en Lexicografía (2ªed)
Centro Facultade de Filoloxía
Convocatoria: Primeiro semestre
Docencia: Con docencia
Matrícula: Matriculable
- Capacitar ao alumnado para traballar con instrumentos informáticos no tratamento de datos lingüísticos.
- Fornecer ao alumnado de habilidades para deseñar e implementar ferramentas básicas de extracción automática de información lexicográfica a partir de texto.
Programación en linguaxes de scripting (por ex. R, Python, etc) para crear recursos lexicográficos. Máis especificamente, este curso céntrase na busca de extracción automática de colocacións e relacións léxicas.
1. Introdución ao procesamento da linguaxe natural con R
1.1. Tarefas básicas: tokenizacion e separación de oracións
1.2. Identificación de lemas e análise de categorías sintácticas
1.3. Recoñecemento de entidades a partir dun texto
2. Métodos cuantitativo-empíricos en lexicografía
2.1. Introdución: Métodos de investigación empíricos
2.2. Metodoloxías: Vantaxes e Inconvenientes
3. Visualización de datos e análise
3.1. Introdución á visualización en R
3.2. Estatística Descritiva e Inferencial
3.3. Visualización de datos
4. Lexicografía colaborativa
4.1. Principios básicos da tarefa colaborativa
4.2. Lexicografía colaborativa con crowdsourcing: o proxecto do Wiktonary
4.3. Ferramentas par a lexicografía colaborativa
Abel, Andrea & Meyer, Christian M. (2013). “The dynamics outside the paper: user contributions to online dictionaries”, en Iztok Kosem / Jelena Kallas / Polona Gantar / Simon Krek / Margit Langemets / Maria Tuulik, coords., Electronic lexicography in the 21st century: thinking outside the paper: proceedings of the eLex 2013 conference, 17–19 October 2013, Tallinn, Estonia. Liublliana / Tallin: Institute for Applied Slovene Studies / Institute of the Estonian Language, pp. 179–194. Available at: <http://eki.ee/elex2013/ proceedings/eLex2013_13_Abel+Meyer.pdf>
Arnold, T., & Tilton, L. (2015). Humanities Data in R: Exploring Networks, Geospatial Data, Images, and Text (1st ed.). Springer International Publishing AG.
Evert, Stefan (2008). “Corpora and collocations”. In A. Lüdeling and M. Kytö (eds.), Corpus Linguistics. An International Handbook, article 58, pages 1212-1248. Mouton de Gruyter, Berlin.
Grefenstette, Gregory (1994). Explorations in Automatic Thesaurus Discovery. Kluwer Academic Publishers, Norwell, MA, USA.
Thalken, Rosamond & Jockers, Matthew L. (2020). Text analysis with R: for students of literature, Cham: Springer.
Mel’chuk, Igor (1998). “Collocations and Lexical Functions”. In A.P. Cowie (ed.): Phraseology. Theory, Analysis, and Applications, Oxford: Clarendon Press, 23-53.
Meyer, Christian M. / Gurevych, Iryna (2012a): “Wiktionary: a new rival for expert-build lexicons? Exploring the possibilities of collaborative lexicography”, in Sylviane Granger / Magali Paquot, eds., Electronic Lexicography. Oxford: Oxford University Press, pp. 259–595.
Müller-Spitzer, Carolin / Wolfer, Sasha / Koplenig, Alexander (2015): “Observing online dictionary users: studies using Wiktionary log files”, International Journal of Lexicography, 28/1, pp. 1–26.
Padó, Sebastian & Lapata, Mirella (2007). “Dependency-based construction of semantic space models”. Computational Linguistics. 33 (2): 161–199.
Sahlgren, Magnus (2008). “The Distributional Hypothesis”. Rivista dei Linguistica. 20(1): 33–53.
Sweigart, Ao (2015). Automate the Boring Stuff with Python: Practical Programming for Total Beginners, Non Starch Press.
Wolfer, Sasha / Müller-Spitzer, Carolin (2016). “How Many People Constitute a Crowd and What Do They Do? Quantitative Analyses of Revisions in the English and German Wiktionary Editions”. Lexikos. 26: 347-371.
Wu, Winston, / Yarowsky, David (2020). “Wiktionary normalization of translations and morphological information”. In Donia Sot / Nuria Bel / Chengqing Zong, eds., Proceedings of the 28th International Conference on Computational Linguistics , Barcelona: International Committee on Computational Linguistics, pp. 4683-4692.
(Poderán indicarse outras referencias bibliográficas durante o curso)
Coñecemento ou contidos: Con03, Con05, Con06
Habilidades ou destrezas: H/D05, H/D06, H/D07, H/D09
Competencias: Comp02, Comp03, Comp08
- Sesións maxistrais de transmisión de coñecemento aos/ás estudantes e abertas á discusión.
- Sesións prácticas co computador seguindo unha metodoloxía colaborativa.
- As tarefas propostas previamente como traballo individual fóra da aula serán tema de análise e discusión na aula.
1. Primeira oportunidade: Realización e entrega das tarefas no prazo convido e participación activa: 100%.
2. Segunda oportunidade: Aplicaranse os mesmos criterios que na primeira convocatoria.
Los alumnos con dispensa de asistencia terán que facer un traballo académico final, que representará o 100% de la nota.
Para os casos de realización fraudulenta (por ex: plaxio) de exercicios ou probas será de aplicación o recollido na “Normativa de avaliación do rendemento académico dos estudantes e de revisión de cualificacións” da Universidade de Santiago de Compostela.
As horas presenciais son 35, ao que cabe sumar o traballo individual do alumnado.
- Recoméndase ter en conta os coñecementos e habilidades adquiridos na materia do primeiro semestre: Introdución á informática e ao procesamento da linguaxe natural.
- Espérase do alumnado preparación – previa e posterior – das horas de clase
Nesta materia vanse aplicar metodoloxías estudadas en "Recursos e ferramentas con aplicación lexicográfica: uso e deseño I".