Corpus de l’LSC

corpus

L’any 2007, l’IEC, la Federació de Persones Sordes de Catalunya, la Universitat Pompeu Fabra, la Fundació Barcelona Media i Linguamón van prendre la iniciativa de col·laborar de cara a crear un corpus de referència de l’LSC. En aquell moment, però, la falta de finançament no va permetre dur endavant el projecte. L’any 2012 l’Institut d’Estudis Catalans va oferir la possibilitat d’iniciar un primer projecte de constitució de corpus amb una fase preparatòria i una prova pilot, que va ser possible gràcies al suport del Departament de Política Lingüística de la Generalitat de Catalunya i a una subvenció de l’Obra Social “La Caixa”. Un any després d’iniciar el projecte pilot es va veure que el projecte corpus de l’LSC era possible, per la qual cosa, el projecte pilot va convertir-se en el projecte de corpus de l’LSC. Des d’aleshores, i gràcies a la continuació del suport del Departament de Política Lingüística de la Generalitat de Catalunya i a la subvenció de l’Obra Social “La Caixa”, hem pogut enregistrar, i seguim enregistrant signants d’arreu del territori del domini lingüístic de l’LSC.

Els objectius principals d’aquest projecte de constitució de corpus són els següents. En primer lloc, documentar l’estat actual de la LSC mitjançant una mostra àmplia i representativa de diferents tipus de discurs signat. En segon lloc, fer una anotació bàsica i descriptiva i posar en línia part del corpus com a material accessible que pot ser utilitzat amb finalitats de recerca, educatives o de consulta per part d’usuaris. En tercer lloc, oferir una eina útil per a la recerca tant teòrica, ja que es comptarà amb un conjunt de dades anotades que permetran fer descripcions i anàlisis per conèixer millor la gramàtica i el lèxic de la LSC, com aplicada, ja que servirà com a punt de referència en la creació de diccionaris i bases de dades o en els programaris de traducció automàtica. Aquest corpus serà una contribució important que aportarà les bases per a l’estandardització de la llengua de signes, tant des d’un punt de vista lingüístic, com de cara a l’establiment d’uns criteris metodològics compartits, tot fixant unes convencions d’anotació.

Durant l’etapa preparatòria, es van preparar els materials d’elicitació necessaris, es van especificar els perfils lingüístics de signants que cal enregistrar per tal que el corpus sigui representatiu, tot tenint en compte aspectes com ara l’edat, el sexe, la distribució geogràfica, l’escolarització, etc., i es va fer un treball de camp per determinar els punts de recollida de dades, a través d’associacions i contactes personals dins la Comunitat Sorda. També es van determinar els criteris d’anotació i els requisits tècnics per a la constitució del corpus, com per exemple el servidor, el programari de codificació, la interfície web, etc. A més es va elaborar un pla de difusió i informació del projecte de corpus durant l’execució. Finalment, es va elaborar un protocol ètic de cara a la recollida, el processament, l’emmagatzematge i la distribució de les dades enregistrades.

El procés d’execució es divideix en tres fases. En la primera, per a la recollida de les dades es determina la ciutat o poble de Catalunya on s’han de fer els enregistraments. Se seleccionen els sis signants nadius i l’entrevistador sord, que utilitza materials d’elicitació i guia els temes de conversa. La segona fase consisteix en l’anotació del discurs signat en català oral, mitjançant el programa ELAN. La tercera fase consisteix en la revisió de l’anotació i en la publicació de l’enregistrament, conjuntament amb l’anotació de la gravació.