Um conjunto de dados (em inglês dataset ou conjunto de dados ) é um conjunto de valores (ou dados) onde cada valor está associado a uma variável (ou atributo) e uma observação. Uma variável descreve o conjunto de valores que descreve o mesmo atributo e uma observação contém o conjunto de valores que descreve os atributos de uma unidade (ou indivíduo estatístico).
Um conjunto de dados pode ter uma estrutura tabular, por exemplo um arquivo CSV , uma estrutura em árvore, como em um arquivo JSON ou XML , ou mesmo uma estrutura de gráfico, como em RDF .
Quando os dados são tabulares, em princípio, cada linha corresponde a uma observação e cada coluna a uma variável.
Em estatística e econométrica , existem as séries temporais (ou séries temporais) em que uma unidade estatística observada em momentos diferentes, os dados seccionais por que várias unidades estatísticas observadas para um determinado período e os dados de painel para os quais observa várias unidades estatísticas em momentos diferentes .
No aprendizado de máquina , é feita uma distinção entre o conjunto de dados de treinamento , o conjunto de dados de validação e o conjunto de dados de teste .