Reseña


La información reduce nuestra incertidumbre sobre algún aspecto de la realidad. Desde la antigüedad, la información se ha recopilado y organizado para asistir en la toma de decisiones, permitiendo de esta forma que dichas decisiones se encuentren más adecuadas para la resolución de un determinado problema. A finales del siglo XX, con la irrupción de Internet, la información, en formato digital, se diseminó en todos los ámbitos. En las últimas décadas, el almacenamiento, organización y recuperación de la información se ha automatizado gracias a los sistemas de bases de datos. Así, en la actualidad se dispone de un gran volumen y variedad de información que se encuentra en numerosas bases de datos digitales y en otras fuentes. En este último caso, se puede incluir el instrumental científico, los modelos teóricos y/o simulaciones computacionales. Cabe señalar que la información involucrada puede pertenecer a diferentes dominios y usualmente se encuentra en continuo crecimiento.

++++++++++++++++++

Distintas herramientas se han utilizado para el análisis de los datos. En particular, las herramientas de “procesamiento analítico en línea” (OLAP = On-Line Analytical Processing) soportan cierto análisis descriptivo y de síntesis que permiten transformar los datos originales en otros datos agregados o cruzados de manera sofisticada. Pero estas herramientas no generan reglas, patrones, pautas, es decir, conocimiento que pueda ser aplicado a otros datos. Por otra parte, la estadística ha sido la primera ciencia que considera los datos como su materia prima. Ella permite inferir patrones a partir de los datos, ya sea utilizando una modelización paramétrica o no paramétrica. No obstante, algunas metodologías estadísticas generalmente no funcionan de forma apropiada cuando se los aplica al volumen de datos actuales (cientos de tablas, millones de registros, varios gigabytes y/o una alta dimensionalidad). Además, se presentan dificultades con el manejo de algunos tipos especiales de datos, tales como, atributos nominales con muchos valores, datos textuales, multimedia, etc. Por otro lado, ciertos paquetes estadísticos no se integran bien con los sistemas de información actuales. Todos estos problemas y limitaciones de las aproximaciones tradicionales han hecho surgir la necesidad de una nueva generación de herramientas y técnicas aptas para soportar la extracción de conocimiento útil desde la información disponible.

++++++++++++++++++

De esta forma, la disciplina de la “ciencia de datos” no aparece por el desarrollo de tecnologías esencialmente diferentes a las preexistentes, sino que se crea, en realidad, por la aparición de las nuevas necesidades, en particular, las nuevas características de los datos, tanto sea en volumen como en su tipología. Así como también, el requerimiento de establecer procesos automatizados y herramientas de manejo sencillo para el tratamiento de grandes volúmenes de datos. Adicionalmente, otro de los desafíos de la ciencia de datos consiste en establecer técnicas de visualización adecuadas, para que tanto la información analizada como la descubierta sea más comprensible para el usuario. Por consiguiente, la ciencia de datos tiene como finalidad fundamental la extracción de conocimiento útil y comprensible, previamente desconocido, desde grandes cantidades de datos heterogéneos almacenados en distintos formatos. Más específicamente, se busca la extracción de patrones, describir tendencias y regularidades, y predecir comportamientos de los datos. Dicho proceso, automático o semiautomático, consta de varias fases: la recopilación de datos, mediante el uso de almacenes de datos o de manera directa; la preparación de datos, haciendo uso de la visualización, agregación, limpieza o transformación; la minería de datos, empleando técnicas descriptivas o predictivas; la evaluación y mejora de modelos, a través de la validación cruzada, combinación o análisis de costes, y finalmente; la difusión y uso del conocimiento extraído.