Los 20 mejores conjuntos de datos de aprendizaje automático para practicar el aprendizaje automático aplicado

Todos sabemos que para crear un , necesitamos un conjunto de datos. Generalmente, estos conjuntos de datos de aprendizaje automático se utilizan con fines de investigación. Un conjunto de datos es la recopilación de datos homogéneos. El conjunto de datos se utiliza para entrenar y evaluar el modelo de aprendizaje automático. Desempeña un papel vital para construir un sistema eficiente y confiable. Si su conjunto de datos está libre de ruido y es estándar, entonces su sistema brindará una mayor precisión. Sin embargo, en la actualidad, estamos enriquecidos con numerosos conjuntos de datos. Pueden ser datos relacionados con el negocio o pueden ser datos médicos y muchos más. Sin embargo, el problema real es encontrar los relevantes de acuerdo con los requisitos del sistema.

20 mejores conjuntos de datos de aprendizaje automático

Para desarrollar un proyecto de ciencia de datos y aprendizaje automático, es importante recopilar datos relevantes y crear un conjunto de datos enriquecido con funciones y sin ruido. A continuación, narramos los 20 mejores conjuntos de datos de aprendizaje automático de manera que pueda descargar el conjunto de datos y desarrollar su proyecto de aprendizaje automático. Después de analizar la web horas después de las horas, hemos descrito esto para mejorar su .

1. ImageNet

ImageNetImageNet es uno de los mejores conjuntos de datos para el aprendizaje automático. Generalmente, se puede utilizar en el campo de la investigación de la visión por computadora. Este proyecto es un conjunto de datos de imágenes, que es consistente con la jerarquía de WordNet. En WordNet, cada concepto se describe mediante synset. Synset consta de varias palabras o frases de palabras. En WordNet hay disponibles aproximadamente 100,000+ synsets.

Características

  • En cada synset, ImageNet proporciona 1000 imágenes.
  • ImageNet solo proporciona las URL de las imágenes.
  • Es muy beneficioso para los investigadores académicos debido a su base de datos de imágenes a gran escala.
  • También puede descargar funciones de imagen .

Descargar

2. Conjunto de datos (diagnóstico) de Wisconsin sobre cáncer de mama

Detección de cáncer de mama

Otro conjunto de datos de aprendizaje automático que se puede mencionar para el problema de clasificación es el conjunto de datos de diagnóstico del cáncer de mama. Es un conjunto de datos bien conocido para el sistema de diagnóstico de cáncer de mama. Este conjunto de datos de diagnóstico de cáncer de mama está diseñado a partir de la imagen digitalizada de un aspirado con aguja fina de una masa mamaria. En esta imagen digitalizada, se describen las características de los núcleos celulares.

Características

  • Hay tres tipos de atributos disponibles, es decir, ID, diagnóstico, 30 características de entrada de valor real.
  • Para cada núcleo celular, se calculan diez características de valor real, es decir, radio, textura, perímetro, área, etc.
  • Hay dos tipos de archivos de predicción, es decir, benignos y malignos.
  • En esta base de datos, hay 569 casos que incluyen 357 benignos y 212 malignos.

Descargar

3. Conjunto de datos de análisis de opinión de Twitter

Sentimiento de Twitter

Todos sabemos que el análisis de sentimientos es una aplicación popular del procesamiento del lenguaje natural (NLP). ¿Está interesado en construir un modelo de analizador de sentimientos? Entonces, este conjunto de datos de análisis de sentimientos de Twitter es para usted, también es una tarea de procesamiento de texto. Además, si eres un principiante o más fresco en el mundo del aprendizaje automático, entonces puedes usar este interesante conjunto de datos de aprendizaje automático. Puede ayudarlo a mejorar su habilidad de aprendizaje automático.

Características

  • En este conjunto de datos, hay tres tipos o tonos de datos, es decir, neutros, positivos y negativos.
  • El formato de archivo es CSV.
  • Hay un archivo de datos de tren (train.csv) y de datos de prueba (test.csv) en este conjunto de datos. Tienes que construir el modelo usando los datos del tren. Para la evaluación, debe utilizar datos de prueba.
  • Hay dos campos de datos disponibles, es decir, ItemID (ID del tweet) y SentimentText (texto del tweet).

Descargar

4. Conjuntos de datos de BBC News

Conjunto de datos de BBC News

Uno de los problemas más conocidos de la clasificación de textos es la clasificación de noticias. Entonces, para desarrollar su clasificador de noticias, necesita un conjunto de datos estándar. Este conjunto de datos de noticias de la BBC es digno. Hay cinco clases predefinidas. En la clase ejecutiva, hay 510 documentos, en la clase de entretenimiento, 386 documentos, en una clase de política, 417 documentos, en la clase deportiva, 511 documentos y en la clase de tecnología, 401 documentos.

Características

  • Si lo desea, puede descargar solo conjuntos de datos preprocesados ​​o archivos de texto sin procesar de los datos de noticias de la BBC de acuerdo con la demanda del sistema.
  • Incluye 2225 documentos del sitio web oficial de noticias de la BBC.
  • Puede usar 50% de datos como un conjunto de datos de entrenamiento y descansar como un conjunto de datos de prueba o como requisito de su sistema.
  • Para utilizar este conjunto de datos, debe citar este documento.

Descargar

5. Conjunto de datos MNIST

MNIST

¿Quieres trabajar con dígitos escritos a mano? Entonces, este conjunto de datos MNIST puede ayudarlo a construir su modelo. Este conjunto de datos de aprendizaje automático es para el reconocimiento de imágenes. Es un conjunto de datos de aprendizaje automático bien conocido e interesante. El hecho sorprendente de este conjunto de datos es que ofrece 60000 instancias para entrenamiento y 10000 para pruebas.

Características

  • Este conjunto de datos lo ayuda a comprender y aprender a usar técnicas de AA y métodos de reconocimiento de patrones en datos del mundo real.
  • Hay cuatro tipos de archivos disponibles, es decir, train-images-idx3-ubyte.gz, train-labels-idx1-ubyte.gz, t10k-images-idx3-ubyte.gz y t10k-labels-idx1-ubyte.gz .
  • El conjunto de entrenamiento y el conjunto de pruebas están separados entre sí.
  • Obtenga imágenes binarias de dígitos escritos a mano utilizando la base de datos especial 3 y la base de datos especial 1 del NIST.

Descargar

6. Conjunto de datos de reseñas de Amazon

Todos sabemos que el procesamiento del lenguaje natural se trata de datos de texto. En la web, hay una enorme cantidad de datos no estructurados que están aquí y allá. Entonces, para resolver una aplicación del mundo real, necesita un conjunto de datos ML. Además, este conjunto de datos de reseñas de Amazon es uno de ellos. Contiene 35 millones de reseñas de Amazon que abarcan 18 años (hasta marzo de 2013).

Características

  • Consiste en reseñas de Amazon.
  • Se incluyen información sobre productos y usuarios, valoraciones y reseñas.
  • Tienes que citar este artículo: J. McAuley y J. Leskovec. Factores ocultos y temas ocultos: comprensión de las dimensiones de calificación con texto de revisión. RecSys, 2013.
  • En este conjunto de datos, se pueden encontrar datos duplicados.

Descargar

7. Conjunto de datos del clasificador de mensajes no deseados

conjunto de datos de spam

Entre tantas , la clasificación de spam o la detección de spam es una interesante. Además, es una tarea bien conocida para un proyecto académico o una investigación de aprendizaje automático. Sin embargo, si es un principiante en este campo, puede crear o desarrollar un clasificador de spam utilizando este conjunto de datos. Este conjunto de datos de SMS Spam puede ser un conjunto de mensajes etiquetados SMS que se recopilan para el análisis de SMS Spam.

Características

  • Este conjunto de datos contiene 5.574 mensajes, que están escritos en inglés.
  • Cada línea contiene un mensaje.
  • Cada línea tiene dos columnas: una columna contiene la etiqueta (jamón o spam) y la otra incluye el texto sin procesar.
  • El formato de archivo es CSV.

Descargar

8. Conjunto de datos de YouTube

conjunto de datos de you tube

¿Eres un experto en el área de investigación del aprendizaje automático o quieres hacer algo con la clasificación de videos? Entonces, este conjunto de datos para el proyecto de aprendizaje automático podría ayudarlo. Además, le alegrará saber que Google ha compartido un conjunto de datos etiquetado con 8 millones de videos clasificados de YouTube y sus ‘ID’.

Características

  • Este conjunto de datos es un conjunto de datos de etiquetas a gran escala con anotaciones generadas por máquina de alta calidad.
  • Los videos se muestrean de manera uniforme y cada video está asociado con al menos una entidad del vocabulario de destino.
  • Para filtrar las etiquetas de video, utilizan estrategias de curación tanto automáticas como manuales.
  • Puede descargar el archivo CSV de su vocabulario.

Descargar

9. El conjunto de datos Chars74K

Caracteres74k

El reconocimiento de caracteres es uno de los problemas de clasificación clásicos del reconocimiento de patrones. Las investigaciones están trabajando en este problema desde el comienzo de la visión por computadora. Este interesante conjunto de datos de aprendizaje automático consta de 64 clases (0-9, AZ, az), 7705 caracteres tomados de imágenes naturales, 3410 caracteres dibujados a mano y 62992 caracteres sintetizados de fuentes de computadora.

Características

  • Chars74k contiene un gran conjunto de datos etiquetado.
  • Este conjunto de datos contiene símbolos tanto en inglés como en kannada.
  •  En Kannada, hay casi 657 clases adicionales.

Descargar

10. Conjunto de datos de imágenes faciales

imagen facial

¿Necesita un conjunto de datos para su propósito de investigación de aprendizaje automático? Entonces, aquí tienes buenas noticias. Puede utilizar este interesante conjunto de datos de aprendizaje automático para su proyecto de visión por computadora. Este conjunto de datos es estándar y de uso gratuito. Además, contiene una variación de datos como variación de fondo y escala, y variación de expresiones. Este conjunto de datos estándar ayuda a evaluar un sistema con precisión.

Características

  • Obtienes los datos en cuatro directorios. Por lo tanto, puede descargar cualquier persona de acuerdo con los requisitos y la demanda de su sistema.
  • Para su comodidad, están disponibles las versiones comprimidas de todos los datos de cada directorio.
  • Hay 395 individuos y cada uno tiene 20 imágenes.
  • La resolución de la imagen es de 180 por 200 píxeles y se almacena en formato RGB de 24 bits y JPEG.

Descargar

11. Conjunto de datos sobre la calidad del vino

Si desea desarrollar un proyecto de aprendizaje automático simple pero bastante interesante, puede desarrollar un sistema utilizando este conjunto de datos de calidad del vino. Al utilizar este conjunto de datos, puede construir una máquina que pueda predecir la calidad del vino. Este conjunto de datos se forma en función de las propiedades fisicoquímicas de los vinos. Para construir un sistema de predicción de vinos, debe conocer el enfoque de clasificación y regresión. Entonces, si eres un principiante, esto es lo mejor para tu práctica.

Características

  • En este conjunto de datos, hay dos tipos de variables, es decir, variables de entrada y salida. Las variables de entrada son acidez fija, acidez volátil, ácido cítrico, azúcar residual, etc. La variable de salida es la calidad.
  • Hay 12 atributos y las características de los atributos son reales.
  • El número de instancias es 4898.
  • Se incluyen dos conjuntos de datos. Además, estos conjuntos de datos corresponden al vino tinto y blanco vinho Verde, que proviene del norte de Portugal.

Descargar

12. Conjunto de datos de flores de iris

clasificación de flores irlandesas

Si eres un principiante y quieres desarrollar un proyecto simple, entonces puedes usar este simple conjunto de datos de flores de iris. Es uno de los mejores conjuntos de datos de reconocimiento de patrones. Este conjunto de datos es pequeño y no se necesita procesamiento previo para aplicarlo en su proyecto de aprendizaje automático. El conjunto de datos de flores de Iris tiene atributos numéricos, por ejemplo, el largo y ancho del sépalo y pétalo.

Características

  • Hay cuatro atributos, es decir, longitud del sépalo en cm, ancho del sépalo en cm, longitud del pétalo en cm y ancho del pétalo en cm.
  • Este conjunto de datos contiene tres clases y cada clase tiene 50 instancias. Las clases son virginica, setosa y versicolor.
  • Las características del conjunto de datos son multivariadas.
  • Todos los atributos son reales.

Descargar

13. Labelme

Etiquetame

El procesamiento de imágenes es uno de los aspectos más sorprendentes del aprendizaje automático. Recientemente, los investigadores y desarrolladores están trabajando enormemente en este campo. Siempre intentan innovar nuevas funciones procesando una imagen. Si también está interesado en desarrollar un sistema de procesamiento de imágenes, puede usar este conjunto de datos de Labelme en su proyecto de aprendizaje automático. Este conjunto de datos es un conjunto de datos de gran volumen de imágenes anotadas.

Características

  • Hay dos opciones para descargar este conjunto de datos.
  • El primero es que puede descargar todas las imágenes usando la caja de herramientas LabelMe Matlab.
  • Y el segundo es que puede acceder a la base de datos en línea con la caja de herramientas LabelMe Matlab.
  • LabelMe proporciona una herramienta de anotación en línea para la investigación de la visión por computadora.

Descargar

14. HotpotQA

¿Quieres trabajar con el procesamiento del lenguaje natural? Todos sabemos que el procesamiento del lenguaje natural cubre un área muy amplia en el aprendizaje automático. Entonces, si va a desarrollar un sistema basado en el concepto de procesamiento del lenguaje natural (NLP), entonces puede construir un sistema usando este conjunto de datos de aprendizaje automático hotpotQA. Lo recopila un equipo de investigadores de PNL de la Universidad Carnegie Mellon, la Universidad de Stanford y la Universidad de Montreal.

Características

  • Es un conjunto de datos de respuesta a preguntas que contiene preguntas de varios saltos.
  • Puede utilizar este conjunto de datos para fines académicos o de investigación.
  • Para obtener más detalles, puede leer este documento .
  • Si usa este conjunto de datos, debe citar su artículo.

Descargar

15. xView

xView

Si es un experto en aprendizaje automático y puede manejar un problema o proyecto complicado, debo sugerirle que utilice este conjunto de datos en su proyecto o sistema. Este conjunto de datos es uno de los conjuntos de datos estándar para problemas de imágenes. Además, es uno de los conjuntos de datos públicos más extensos.

Características

  • Este conjunto de datos contiene imágenes aéreas y tiene 60 clases.
  • Las imágenes son escenarios complicados en todo el mundo.
  • Se incluyen 1 millón de instancias de objetos.
  • Es un conjunto de instancias pequeñas, excepcionales, detalladas y de varios tipos que se anotan mediante un cuadro delimitador.

Descargar

16. Conjunto de datos de datos del censo de EE . UU . (1990) 

Censo de EE. UU.Este conjunto de datos estándar, USCensus1990raw incluye una muestra de los registros de personas de Muestras de microdatos de uso público (PUMS). El conjunto de datos brutos recopilados del sitio web de la Oficina del Censo del Departamento de Comercio de EE. UU. Se aplica un sistema de extracción de datos para recopilar los datos. La característica del conjunto de datos es multivariante. Además, la característica del atributo es categórica.

Características

  • Se incluyen 68 atributos categóricos.
  • Tienes que conocer los algoritmos de agrupamiento.
  • En este conjunto de datos, el mapeo se realiza para formar nuevas variables a partir de las antiguas.
  • Los datos están disponibles en formato .txt.

Descargar

17. Conjunto de datos de precios de la vivienda en Boston

¿Quieres practicar el algoritmo de regresión? Entonces puede usar este conjunto de datos en su problema de aprendizaje automático. Este conjunto de datos se recopila en el área de Boston Mass.

Características

  • El conjunto de datos contiene 506 casos.
  • Hay 14 atributos en cada caso, es decir, CRIM, EDAD, IMPUESTO, etc.
  • El formato de archivo es CSV.
  • Debes conocer el algoritmo de regresión.

Descargar

18. Conjunto de datos de autenticación de billetes

billete de banco

Otro interesante conjunto de datos de aprendizaje automático es el conjunto de datos de autenticación de billetes. Este conjunto de datos se trata de verificar los billetes genuinos y falsificados. En este conjunto de datos, los datos se tomaron de las imágenes de billetes genuinos y falsificados. Además, las imágenes son de 400 por 400 píxeles. Para extraer las características de estas imágenes, se utilizó una herramienta de transformación Wavelet.

Características

  • Hay cinco atributos, es decir, la varianza de la imagen transformada Wavelet, la asimetría de la imagen transformada Wavelet, la curtosis de la imagen transformada Wavelet, la entropía de la imagen y la clase.
  • Es una tarea de clasificación.
  • El número de instancias es 1372.
  • No falta ningún valor.

Descargar

19. Conjunto de datos de diabéticos de los indios pima

Conjunto de datos de diabetes de la India Pima

Si desea aplicar , puede utilizar este conjunto de datos de diabéticos indios Pima en su sistema de atención médica. Todos sabemos que la diabetes es una de las enfermedades peligrosas más comunes. Puede utilizar este conjunto de datos en su sistema de detección de diabetes. Este conjunto de datos es del Instituto Nacional de Diabetes y Enfermedades Digestivas y Renales. El objetivo de este conjunto de datos es predecir si un paciente tiene diabetes basándose en una medición de diagnóstico específica.

Características

  • El formato de archivo de este conjunto de datos es CSV.
  • Todos los pacientes de este conjunto de datos son mujeres y tienen al menos 21 años.
  • El conjunto de datos consta de varias variables predictoras médicas, es decir, número de embarazos, IMC, nivel de insulina, edad y una variable objetivo.
  • Contiene 768 puntos de datos con nueve características cada uno.

Descargar

20. Conjunto de datos de BBCSport

La clasificación es uno de los problemas más simples y generalizados del . Si está buscando un conjunto de datos para su clasificador deportivo, ha venido al lugar correcto. Este conjunto de datos de BBCSport es solo para ti. Este conjunto de datos se recopila del sitio web oficial de BBC Sport relacionado con artículos de noticias deportivas en cinco áreas temáticas de 2004-2005.

Características

  • Puede descargar datos preprocesados ​​o datos de texto sin procesar.
  • Consta de 737 documentos.
  • Este conjunto de datos tiene cinco clases predefinidas, es decir, atletismo, cricket, fútbol, ​​rugby, tenis.
  • El paso del preprocesamiento de este conjunto de datos es el siguiente: derivación, eliminación de palabras vacías y filtrado de frecuencias de bajo plazo.

Descargar

Pensamientos finales

El conjunto de datos es una parte integral de las aplicaciones de aprendizaje automático. Puede estar disponible en diferentes formatos como .txt, .csv y muchos más. En el aprendizaje automático supervisado, se usa el conjunto de datos de entrenamiento etiquetado y, en el modo no supervisado, no se necesita ninguna etiqueta. Si es un principiante, le recomendamos que lea este artículo detenidamente.

Creemos firmemente que este artículo le ayuda a ahorrar su valioso tiempo y le ayuda a encontrar el conjunto de datos deseado sin esfuerzo. Incluso si no eres un novato, también te recomendamos que lo leas. Puede que te asombre. ¿Por qué? Si ya es un desarrollador de inteligencia artificial y aprendizaje automático, es posible que necesite estos conjuntos de datos en cualquier momento.

También puede leer nuestro artículo anterior sobre . Si tiene alguna sugerencia o consulta, deje un comentario en nuestra sección de comentarios. También puede compartir este artículo con sus amigos y familiares a través de las redes sociales.

Leave a Comment

Your email address will not be published.