¿Dónde puedo obtener un conjunto diverso de texto de muestra? [cerrado]

14

Estoy intentando recopilar estadísticas sobre caracteres o secuencias de palabras utilizadas en el idioma inglés para usar en un proyecto de software.

¿Dónde puedo obtener una gran cantidad de texto sin formato en inglés (varios GB sería bueno) que cubra un conjunto diverso de temas?

    
pregunta JSideris 01.02.2012 - 02:29

4 respuestas

19

Puede usar volcados de datos de Wikipedia . El volcado de datos XML para la Wikipedia en inglés que incluye las revisiones actuales solo es de aproximadamente 31 GB, así que Digo que sería un buen comienzo para tu investigación. El volcado de datos es bastante grande, por lo que debería considerar extraer los textos de XML con un analizador SAX. WikiXMLJ es una API de Java práctica y optimizada para Wikipedia.

Y, por supuesto, siempre está el volcado de datos de Stack Exchange . La la más reciente incluye todos los sitios y amperios de Stack Stack no públicos. ; Meta sitios correspondientes hasta septiembre de 2011. Pero, naturalmente, las publicaciones de Stack Exchange se concentran en el alcance de cada sitio, por lo que probablemente no estén tan generalizadas como desearía. Las publicaciones meta son un poco más generales, así que puedes considerarlas además de Wikipedia.

No creo que encuentres nada mejor, especialmente en texto plano. Hay varios conjuntos de datos abiertos disponibles a través de Data Hub , pero creo que el volcado de datos de la Wikipedia en inglés está muy cerca de lo que está buscando.

    
respondido por el yannis 01.02.2012 - 02:36
5

Google tiene una colección de conjuntos de datos que utilizan para determinar las probabilidades de n-gram. El examen de sus conjuntos de datos de bigram (2 gramos) debería darle una buena imagen. Hay muchos otros corpi por ahí para los cuales ya se han realizado estos análisis.

    
respondido por el jonsca 01.02.2012 - 02:42
4

Project Gutenberg tiene un gran corpus de textos en inglés, ya en forma de texto.

  

El Proyecto Gutenberg ofrece más de 42,000 libros electrónicos gratuitos: elige entre libros gratuitos, libros gratuitos, descárgalos o léelos en línea.

     

Tenemos libros electrónicos de alta calidad: todos nuestros libros electrónicos fueron publicados anteriormente por editores bona fide. Los digitalizamos y revisamos diligentemente con la ayuda de miles de voluntarios ...

    
respondido por el Michael Kohne 01.02.2012 - 02:52
1

Para las estadísticas, probablemente estés viendo "Frecuencia de Bigram en el idioma inglés". Echa un vistazo a: Estadísticas de Wiki-Bigram

en cuanto a encontrar un texto grande, tenga en cuenta que la frecuencia estaría sesgada al tipo de texto. Por ejemplo, si analiza las direcciones, obtendrá resultados diferentes al analizar las historias de los periódicos. Si solo desea realizar una prueba, puede usar el archivo PDF de cualquier libro (mejor no ser un libro de matemáticas o de programación o médico) y convertirlo en texto y luego realizar las pruebas. También puedes convertir páginas web de periódicos en texto y trabajar en ellas.

    
respondido por el NoChance 01.02.2012 - 02:41

Lea otras preguntas en las etiquetas