Wprowadzenie
Korpus Dyskursu Parlamentarnego jest zbiorem anotowanych lingwistycznie
tekstów z posiedzeń plenarnych Sejmu i Senatu RP, interpelacji i zapytań
poselskich oraz posiedzeń komisji od roku 1919 do chwili obecnej (są stale
uzupełniane materiałami z kolejnych posiedzeń). Teksty opisane metadanymi oraz
przetworzone automatycznie narzędziami lingwistycznymi (do segmentacji,
analizy morfoskładniowej, rozpoznawania grup składniowych i nazw własnych) są
dostępne do przeszukiwania oraz pobrania.
Źródło tekstów i licencja na ich wykorzystanie
Wszystkie teksty pochodzą z serwisów Sejmu i Senatu RP i zostały udostępnione
dzięki uprzejmości Kancelarii Sejmu RP, Kancelarii Senatu RP oraz Biblioteki
Sejmowej. Teksty stanowią informację publiczną i jako takie są dostępne w
domenie publicznej. Anotacje lingwistyczne są dostępne na licencji CC-BY.
Autorzy
Korpus powstał w Zespole Inżynierii Lingwistycznej Instytutu Podstaw Informatyki PAN w ramach dwóch projektów:
- CESAR/META-NET, realizowanym w latach 2011–13 i dofinansowanym ze środków Komisji Europejskiej oraz Ministerstwa Nauki i Szkolnictwa Wyższego,
- CLARIN-PL, realizowanym w latach 2016–18 i finansowanym ze środków MNiSW.
W pracach nad korpusem udział wzięli:
- Maciej Ogrodniczuk (pomysłodawca i koordynator prac korpusowych),
- Zbigniew Gawłowicz (implementacja wyszukiwarki korpusowej).
- Daniel Janus (pobieranie danych, ich konwersja do formatu TEI i przetworzenie narzędziami analizy lingwistycznej),
- Michał Lenart (pobieranie danych, ich konwersja do formatu TEI i przetworzenie narzędziami analizy lingwistycznej),
- Bartłomiej Nitoń (przetworzenie danych narzędziami analizy lingwistycznej),
- Michał Rudolf (konwersja danych do formatu TEI),
- Beata Wójtowicz (zarządzanie korektą danych),
- zespół korektorów odpowiedzialnych za skanowanie, OCR i weryfikację tekstów historycznych dostępnych jedynie w formie papierowej.
Publikacje
- Maciej Ogrodniczuk. Polish Parliamentary Corpus [w:] Darja Fišer, Maria Eskevich, Franciska de Jong (red.) Proceedings of the LREC 2018 Workshop ParlaCLARIN: Creating and Using Parliamentary Corpora, s. 15–19, Paryż, European Language Resources Association (ELRA).
- Maciej Ogrodniczuk. The Polish Sejm Corpus [w:] Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC 2012), s. 2219–2223, Stambuł, ELRA.
Więcej informacji zawiera strona z
danymi do pobrania.
Informacje kontaktowe
Prosimy o kontakt pod adresem:
Maciej Ogrodniczuk
Instytut Podstaw Informatyki PAN
ul. Jana Kazimierza 5
01-248 Warszawa
tel. (+48 22) 38 00 563
e-mail: maciej.ogrodniczuk@ipipan.waw.pl