Desenvolvido por | Waikato University |
---|---|
Última versão | 3.8.1 (23 de janeiro de 2017) |
Versão avançada | 3.9.1 (19 de dezembro de 2016) |
Depósito | svn.cms.waikato.ac.nz/svn/weka |
Escrito em | Java |
Sistema operacional | Microsoft Windows e plataforma cruzada |
Meio Ambiente | Plataforma Java |
Formatos de leitura | Formato de arquivo de relação de atributo ( d ) |
línguas | Multilíngue |
Modelo | Estrutura do software de aprendizado de máquina ( d ) |
Licença | GNU General Public License versão 3 |
Local na rede Internet | www.cs.waikato.ac.nz/ml/weka/ |
Weka ( acrônimo para ambiente Waikato para análise de conhecimento , em francês: " ambiente Waikato para análise de conhecimento ") é um pacote de software de aprendizado de máquina escrito em Java e desenvolvido na Universidade de Waikato na Nova Zelândia . Weka é um software livre disponível sob a GNU General Public License ( GPL ).
O espaço de trabalho Weka contém uma coleção de ferramentas de visualização e algoritmos para análise de dados e modelagem preditiva , combinados com uma interface gráfica para fácil acesso de sua funcionalidade. A versão do Weka original "não Java" era um front-end em Tcl / Tk para algoritmos de modelagem (principalmente terceiros) implementados em outras linguagens de programação, complementados por dados de pré-processador comercial em C e um sistema baseado em makefile para iniciar a máquina experiências de aprendizagem. Esta versão original foi concebida principalmente como uma ferramenta para análise de dados agrícolas, mas a versão mais recente inteiramente baseada em Java (Weka 3), cujo desenvolvimento começou em 1997, agora é usada em muitas áreas de aplicação diferentes, especialmente para educação e pesquisa . Os principais pontos fortes de Weka são que ele:
Weka suporta vários padrão de exploração de dados ferramentas , e em particular, dados de pré-processadores , de agrupamento de dados , classificadores estatísticos , analisadores de regressão , ferramentas de visualização e de análise discriminante ferramentas. . Todas as técnicas de Weka são baseadas na suposição de que os dados estão disponíveis em um único arquivo plano ou relação binária , onde cada tipo de dados é descrito por um número fixo de atributos (atributos comuns, numéricos ou simbólicos, mas alguns outros. tipos de atributos também são suportados). Weka fornece acesso a bancos de dados SQL usando Java Database Connectivity (JDBC) e pode processar o resultado de uma consulta SQL. Não é capaz de fazer mineração de dados multi-relacional, mas há software de terceiros disponível para converter uma coleção de tabelas de banco de dados vinculadas em uma única tabela adequada para processamento por Weka. Outra área importante que atualmente não é coberta pelos algoritmos incluídos na distribuição Weka é a modelagem de sequência.
A interface principal do Weka é o explorador , mas praticamente a mesma funcionalidade pode ser alcançada por meio da interface de "fluxo de conhecimento" de cada componente e da linha de comando . Há também o experimentador, que permite a comparação sistemática (taxonômica) do desempenho preditivo dos algoritmos de aprendizado de máquina de Weka em uma coleção de conjuntos de dados.
A interface do explorer possui várias guias que fornecem acesso aos principais componentes do espaço de trabalho. A guia pré-processador possui vários recursos para importar dados de bancos de dados , um arquivo CSV e pré-processar esses dados com um algoritmo chamado filtragem . Esses filtros podem ser usados para transformar dados (por exemplo, transformar atributos numéricos reais em atributos discretos) e possibilitar a exclusão de instâncias e atributos de acordo com critérios específicos. A guia de classificação permite que o usuário aplique classificações e algoritmos de regressão (alternadamente chamados de " classificadores " em Weka) ao conjunto de dados resultante, para estimar a precisão do modelo preditivo e para visualizar previsões erradas, curvas ROC , etc. ou o próprio modelo (se o modelo estiver sujeito à visualização, como uma Árvore de Decisão ). A guia Associate fornece acesso a aprendizagens por regras de associação que tentam identificar todos os relacionamentos importantes entre atributos nos dados. A guia Cluster dá acesso às técnicas de agrupamento de Weka, como o algoritmo k-means . Há também uma implementação do algoritmo de maximização de expectativa para treinar uma mistura de distribuições normais . A guia “ Selecionar atributos ” fornece algoritmos para identificar os atributos mais preditivos em um conjunto de dados. A aba final, " Visualizar " mostra uma matriz de nuvens de pontos , onde nuvens de pontos individuais podem ser selecionadas e ampliadas, e posteriormente analisadas usando vários operadores de seleção.