Disseny d'un sistema informàtic per a la lematització i digitalització de corpora de varietats funcionals de la llengua catalana

Nom del tutor
Eloi Puertas, Núria Alturo

Temàtica del projecte
Serveis web, Bases de dades, Processament del Llenguatge Natural

Estudiant assignat

Descripció del projecte

Objectius del projecte:

Crear una base de dades dels corpora de varietats funcionals de la llengua catalana contemporània, oral i escrita, confegits pel grup GrEPAD.
La base de dades ha d’incloure un sistema de cerca que localitzi i mostri el context de la forma lingüística que s’hagi cercat.

Les dades es lematitzaran (per exemple, s’indicarà que les formes “cantava, cantaria, canto” corresponen al lema “cantar”) i etiquetaran (per exemple, s’indicarà que la forma “amenaça” en un context particular és un verb, i en un altre un nom).

Per a l’etiquetatge caldrà col·laborar amb un lingüista (membre o col·laborador contractat del GrEPAD; es valorarà la possibilitat que sigui un TFG de Filologia Catalana).
La base de dades haurà d’estar disponible en línia.

Corpora del Corpus de Català Contemporani de la Universitat de Barcelona, CCCUB, que inclouria el projecte:

1. Corpus Oral de Català Col·loquial (COC): transcripció discursiva i àudio
2. Corpus Oral de Registres (COR): transcripció discursiva i àudio

Els corpus COC i COR són accessibles en línia (pdf i mp3). S’hi pot accedir a través del web del GrEPAD: http://www.ub.edu/grepad/corpus/.

Observacions

Unless otherwise stated, the content of this page is licensed under Creative Commons Attribution-ShareAlike 3.0 License