Optimización e interacción de modelos de Minería de Datos

La Minería de Datos se está convirtiendo en una herramienta útil y popular para la toma de decisiones. Sin embargo, en algunos casos el proceso de obtención y/o aplicación de los modelos resulta especialmente complicado. Nos referimos a aplicaciones como la biomedicina o la minería web en los que una adecuada representación de los datos (usando lenguajes más expresivos que capturen la riqueza y complejidad de los datos) y/o del modelo (expresable de forma comprensible para el experto) puede ser crucial para obtener mejores resultados. Otras veces, se tienen que abordar problemas complejos que involucran varias decisiones que no son independientes entre sí. Las técnicas de Minería de Datos disponibles en el mercado únicamente pueden dar soluciones aproximadas en estas situaciones. En el primer caso, aplicando una transformación previa de los datos, por lo que a veces los modelos no se expresan en términos de los atributos originales de los datos restando comprensibilidad a los modelos; en el segundo caso, proporcionando modelos con soluciones posiblemente óptimas para cada problema pero que resultan no ser óptimas para el sistema global. Así, se hacen necesarios nuevas técnicas y algoritmos de Minería de Datos para dar una solución adecuada y satisfactoria a estos problemas. Los algoritmos que hemos desarrollado permiten usar lenguajes de representación de datos y modelos complejos, capaces de trabajar con todo tipo de datos estructurados (conjuntos, listas, grafos, documentos web o texto.. ) y no exclusivamente con tablas planas que incluyen sólo datos categóricos y numéricos. Asimismo, una nueva técnica basada en la simulación y teoría de agentes nos permite conectar entre sí diversos modelos de Minería de Datos, imponiendo restricciones estáticas y dinámicas a todo el sistema de forma que se pueda determinar la solución óptima al mismo.

Aplicaciones

  • Proyectos de Minería de Datos a partir de datos complejos.
  • Incorporación de restricciones en los modelos de Minería de Datos.
  • Simulación de sistemas complejos mediante la interconexión de modelos de Minería de Datos dependientes.

Ventajas técnicas

  • Posibilidad de aplicar la minería de datos cuando los datos son complejos (documentos web, moléculas, grafos web, secuencias, conjuntos, etc.). Combinación de modelos y optimización global, permitiendo no sólo obtener previsiones locales sino simulando el comportamiento global de un área de negocio en el futuro. Comprensibilidad de los modelos obtenidos manteniendo o mejorando los niveles de precisión de las técnicas estándar.

Beneficios que aporta

  • Nuevas áreas de aplicación de las técnicas de Minería de Datos.
  • Posibilidad de abordar problemas más complejos que los que suelen dar respuesta las herramientas clásicas de minería de datos que hay en el mercado.

Experiencia relevante

  • El grupo ELP, creado en 1989, está identificado en el registro de grupos de investigacion consolidados de la Generalitat Valenciana desde Octubre de 2000 (clave GR-00143). La actividad del grupo se ha relacionado principalmente con los lenguajes de programación multiparadigma y los métodos rigurosos para el desarrollo del software, focalizando en la programación basada en reglas y el uso de técnicas de interpretación abstracta y técnicas de transformación para la optimización de la ejecución de los programas. Los lenguajes basados en reglas han sido también la base para la programación inductiva y para la representación de modelos complejos, pero a su vez, comprensibles, resultantes de la extracción de conocimiento a partir de datos (minería de datos). El grupo ELP ha participado en más de 30 proyectos competitivos financiados con fondos europeos, nacionales y comunitarios. Su actividad investigadora se ha desarrollado a menudo en conexión con grupos afines radicados en universidades extranjeras, incluyendo Alemania (RWTH Aachen, U. de Kiel), Australia (Monash U.), Austria (Technische Universitat Wien), Estados Unidos (U. of Illinois at Urbana-Champaign, National Research Laboratory, Portland State U., Washington, Stanford), Francia (-'Ecole Polytechnique, U. Grenoble, U. Niza, U. de Paris Sud), Italia (U. di Pisa, U. di Siena, U. di Udine) y Reino Unido (U. Bristol). El grupo ha participado en diversos proyectos con empresas donde se ha transferido el conocimiento del grupo o se ha desarrollado tecnología específica. El abanico de sectores en los que el grupo ha trabajado incluye, lógicamente, empresas de informática y consultoría, pero también empresas que van desde del ámbito de la distribución a la gestión hospitalaria. // The group ELP, created in 1989, was recognized as a consolidated group of the Valencian Government in October 2000 (reference GR-00143). The group's activities have mainly focused on multi-paradigm programming languages and rigurous methods for software development, with particular focus on rule--based programming, and the use of abstract interpretation and program transformation techniques for the optimization of program execution. Rule-based languages have been also used for inductive programming and complex model representation that are also comprehensible as a result of knowledge discovering (data mining). The ELP group has participated in more than 30 competitive research projects funded by the EU, the Spanish Research Funding Agency, and other European foundations. The group keeps a good record of international collaborations. Including Germany (RWTH Aachen, U. Kiel), Australia (Monash U.), Austria (Technische Universit-"at Wien), USA (U. of Illinois at Urbana-Champaign, National Research Laboratory, Portland State U., Washington, Stanford), France (-'Ecole Polytechnique, U. Grenoble, U. Niza, U. Paris Sud), Italy (U. di Pisa, U. di Siena, U. di Udine) and UK (U. Bristol). The Group also keeps a good record of collaboration with industry, including IT companies as well as hospital management and distribution companies.