The MultiplEYE Text Corpus: Towards a Diverse and Ever-Expanding Multilingual Text Corpus

100%

Overview

This document presents the MultiplEYE Text Corpus, a large-scale multilingual resource to aid research in reading and language processing across different languages and scripts. The corpus emphasizes diversity in language origin, text types, and supports various experimental methodologies in psycholinguistics.

Key Points

1The corpus includes paragraph-aligned texts in thirty-nine languages spanning seven language families
2It aims to reduce English-centric bias by including texts originally written in non-English languages
3The resource supports various experimental methods, including eye-tracking and neurophysiological studies
4Texts are selected for linguistic richness and experimental feasibility
5The corpus aims to enable broad natural language processing and psycholinguistic research.

Details

Authors: Ramunė Kasperė, Anna Bondar, Sergiu Nisioi, Maja Stegenwallner-Schütz, Hanne B. Søndergaard Knudsen, Ana Matic, Eva Pavlinušić Vilus, Dorota Klimek-Jankowska, Chiara Tschirner, Not Battesta Soliva, Deborah N. Jakobi, Cui Ding, Dima Abu Romi, Cengiz Acarturk, Matilda Agdler, Anton Marius Alexandru, Mohd Faizan Ansari, Annalisa Arcidiacono, Elizabete Ausma Velta Barisa, Ana Bautista, Lisa Beinborn, Yevgeni Berzak, Nedeljka Bjelanović, Anna Isabelle Bothmann, Jan Brasser, Caterina Cacioli, Anila Çepani, Ilze Ceple, Adelina Çerpja, Dalí Chirino, Jan Chromy, Alessandro Corona Mendozza, Iria de-Dios-Flores, Nazik Dinçtopal Deniz, Ana Došen, Kristian Elersič, Inmaculada Fajardo, Zigmunds Freibergs, Angelina Ganebnaya, Shan Gao, Jessica Gomes, Annjo Klungervik Greenall, Alba Haveriku, Miao He, Anamaria Hodivoianu, Yu-Yin Hsu, Amanda Isaksen, Andreia Janeiro, Kristine Jensen de López, Aleksandar Jevremovic, Vojislav Jovanović, Hanna Kędzierska, Nik Kharlamov, Sara Košutar, Nelda Kote, Vanja Kovic, Izabela Krejtz, Thyra Krosness, Oleksandra Kuvshynova, Eilam Lavy, Ella Lion, Marta Łockiewicz, Kaidi Lõo, Paula Luegi, Mircea Mihai Marin, Clara Martin, Svitlana Matvieieva, Diane C. Mézière, Xavier Mínguez-López, Valeriia Modina, Jurgita Motiejūnienė, Marie-Luise Müller, Tolgonai Nasipbek kyzy, Jamal Abdul Nasir, Johanne S. K. Nedergaard, Ayşegül Özkan, Patrizia Paggio, Marijan Palmović, Maria Christina Panagiotopoulou, Alberto Parola, Helena Pérez, Klaudia Petersen, Anja Podlesek, Eva Pospíšilová, Marta Prauliņa, Mikuláš Preininger, Loredana Punga, Diego Rossini, Špela Rot, Habib Sani Yahaya, Irina A. Sekerina, Anne Gabija Skadina, Jordi Sole-Casals, Lonneke van der Plas, Saara M. Varjopuro, Spyridoula Varlokosta, João Veríssimo, Oskari Juhapekka Virtanen, Nemanja Vračar, Mila Vulchanova, Ahmad Mustapha Wali, Peizheng Wu, Nilgün Yücel
Category: Social Sciences

The MultiplEYE Text Corpus: Towards a Diverse and Ever-Expanding Multilingual Text Corpus

One. Introduction

Two. Related Work

Three. Text Corpus

Three point two. Description of Included Texts

Three point three. Paragraph Alignment

Four. Language Selection

Five. Balancing Consistency and Diversity

Six. Translation

Six point two. Translational Variation

Seven. Corpus Statistics

Eight. Accessing Data and Metadata

Nine. Conclusion

Ten. Contribute

Eleven. Acknowledgments

Introduction to Applied Social Sciences

Impact Evaluation in Practice SECOND EDITION

RELIGIOUS COMMUNITY AND PRACTICES: A COMPARATIVE STUDY OF FUNERAL CEREMONIES AT THE KOCATEPE MOSQUE AND THE HACIBAYRAM MOSQUE

The Kula: An Economic Phenomenon in the South Sea Islands

The Kula: An Ethnographic Study of the Trading System in the South Sea Islands