Puede usar volcados de datos de Wikipedia . El volcado de datos XML para la Wikipedia en inglés que incluye las revisiones actuales solo es de aproximadamente 31 GB, así que Digo que sería un buen comienzo para tu investigación. El volcado de datos es bastante grande, por lo que debería considerar extraer los textos de XML con un analizador SAX. WikiXMLJ es una API de Java práctica y optimizada para Wikipedia.
Y, por supuesto, siempre está el volcado de datos de Stack Exchange . La la más reciente incluye todos los sitios y amperios de Stack Stack no públicos. ; Meta sitios correspondientes hasta septiembre de 2011. Pero, naturalmente, las publicaciones de Stack Exchange se concentran en el alcance de cada sitio, por lo que probablemente no estén tan generalizadas como desearía. Las publicaciones meta son un poco más generales, así que puedes considerarlas además de Wikipedia.
No creo que encuentres nada mejor, especialmente en texto plano. Hay varios conjuntos de datos abiertos disponibles a través de Data Hub , pero creo que el volcado de datos de la Wikipedia en inglés está muy cerca de lo que está buscando.