Herramientas de software abierto para minería de datos

No son necesariamente apoyadas por instituciones puesto que son el resultado del esfuerzo de contribuciones internacionales e informales de grupos desarrolladores.

En la última década, las herramientas de código abierto más usadas para propósitos de minería de datos han sido: RapidMiner, R, Weka, KNIME, Orange y scikit-learn.

Estas herramientas se posicionaron en los primeros puestos en los resultados de una encuesta publicada en el influential KDnuggets portal en 2013, basada en las opiniones sobre herramientas para DM más usadas en proyectos reales; un dato particularmente interesante es que todas las opciones más votadas fueron open source, a excepción de Excel.

[1]​ Para el año 2020 otras herramientas como SAS (Statistical Analysis System), Oracle BI, IBM SPSS, Teradata, Board, Dundas, Weka y Sisense han ganado popularidad, sin embargo herramientas como RapidMiner, R y Orange aún mantienen un destacable apoyo de la comunidad Lo modelos de inferencia y lenguaje automático (machine learning) que aparecieron de manera temprana en los años 80 utilizaban generalmente una consola de comandos para realizar las actividades relacionadas con los algoritmos.

Posteriormente, la introducción de algoritmos de clasificación como C4.5 y librerías orientadas a objetos como MLC++ permitieron el desarrollo de programas en los que se podía compartir información en distintos formatos y que ya proveían herramientas para la evaluación de los resultados.