Estatística e data mining (machine learning) apresentam objetivos comuns na descoberta de estruturas em dados. Algumas pessoas (principalmente estatísticos) consideram data mining como uma parte integrante da estatística, enquanto outros (principalmente os pesquisadores em machine learning) consideram a estatística como uma parte do data mining.
Entretanto, métodos como análise de regressão, clustering e discriminant analysis são encontradas em ambas as disciplinas. Porém existem significantes diferenças entre as áreas: análise estatística é usualmente orientada à hipótese - parte-se de uma hipótese inicial a validar (ou não); coleta-se dados; e finalmente realizam-se experimentos. Data mining e machine learning são disciplinas orientadas aos dados - inicia-se com uma base de dados pré-estabelecida e tenta-se encontrar algo interessante.
Diversos algorítimos de machine learning podem ser utilizados para análise exploratória de dados: decision trees, decision rules, neural networks, bayesian classifiers, support vector machine (SVM). Alguns desses métodos são baseados em princípios oriundos da área de inteligência artificial, outros desenvolvimentos e métodos nasceram da estatística.
Nenhum comentário:
Postar um comentário