Curación de datos
La curación de datos o curaduría de datos, también comúnmente llamada por su término en inglés, data curation, es la organización e integración de datos recopilados de diversas fuentes. Implica la anotación, publicación y presentación de los datos de manera que su valor se mantenga a lo largo del tiempo y los datos permanezcan disponibles para su reutilización y conservación. La curación de datos incluye «todos los procesos necesarios para la creación, el mantenimiento y la gestión de datos controlados y basados en principios, junto con la capacidad de añadir valor a los datos».[1] En ciencia, la curación de datos puede indicar el proceso de extracción de información importante de textos científicos, como artículos de investigación de expertos, para convertirlos en un formato electrónico, como una entrada de una base de datos biológica.[2]
En la era moderna de los macrodatos (big data), la curación de datos se ha vuelto más prominente, particularmente en los programas informáticos que procesan sistemas de datos complejos y de gran volumen.[3] El término también se usa en ocasiones históricas y en el ámbito de las humanidades,[4] donde el aumento de los datos culturales y académicos procedentes de los proyectos de humanidades digitales requiere la experiencia y las prácticas analíticas de la curación de datos.[5] En términos generales, la curación significa una variedad de actividades y procesos realizados para crear, administrar, mantener y validar un componente.[6] Específicamente, la curación de datos es el intento de determinar qué información merece ser guardada y durante cuánto tiempo.[7]
Historia y práctica
editarEl usuario y no la propia base de datos, suele iniciar la curación de datos y mantener los metadatos.[8] Según la Facultad de Biblioteconomía y Ciencias de la Información de la Universidad de Illinois, "la curación de datos es la gestión activa y continua de los datos a lo largo de su ciclo de vida de interés y utilidad para la erudición, la ciencia y la educación; las actividades de curación permiten el descubrimiento y la recuperación de datos, mantiene la calidad, añaden valor y permiten la reutilización a lo largo del tiempo".[9] El flujo de trabajo de curación de los datos es distinto de la gestión de calidad de datos, la protección de datos, la gestión del ciclo de vida y el movimiento de datos.[8]
Los datos del censo han estado disponibles en forma de tarjeta perforada tabulada desde principios del siglo XX y han sido electrónicos desde la década de 1960.[10] El sitio web del Consorcio Interuniversitario para la Investigación Política y Social (ICPSR) señala a 1962 como la fecha de su primer archivo de datos de encuestas.[11]
En el contexto general de las bibliotecas de datos aparecieron en una edición de 1982 de la revista de Illinois, Library Trends.[12] Para conocer los antecedentes históricos del movimiento de archivos de datos, se puede consultar Social Scientific Information Needs for Numeric Data: The Evolution of the International Data Archive Infrastructure (Necesidades de información científica social para datos numéricos: la evolución de la infraestructura internacional de archivos de datos).[13] El proceso exacto de curación que se lleve a cabo en cualquier organización depende del volumen de datos, de la cantidad de ruido que contienen y de lo que significa el uso futuro previsto de los datos para su difusión.[3]
La crisis de los datos espaciales condujo a la creación en 1999 del modelo Open Archival Information System (OAIS),[14] administrado por el Comité Consultivo para Sistemas de Datos Espaciales (CCSDS), que se formó en 1982.[15]
El término curación de datos a veces se utiliza en el contexto de las bases de datos biológicas, donde la información biológica específica se obtiene primero de una serie de artículos de investigación y luego se almacena dentro de una categoría específica de la base de datos. Por ejemplo, la información sobre medicamentos antidepresivos se puede obtener de varias fuentes y después de verificar si están disponibles en una base de datos o no, se guardan en la categoría de antidepresivos de una base de datos de medicamentos. Las empresas también están utilizando la curación de datos dentro de sus procesos operativos y estratégicos para garantizar la calidad y precisión de los datos.
En el ámbito de las imágenes médicas, la curación de datos comúnmente se refiere a ajustes de datos de los píxeles de imágenes o de los metadatos de la imagen de los formatos de archivo de imágenes médicas como DICOM. La curación de datos también puede referirse a cualquier paso de procesamiento que sigue a la adquisición de datos de imágenes en un centro de salud u otro entorno clínico. En tales contextos, es un término general para una serie de actividades que incluyen la gestión de datos, la creación, la modificación, la verificación, la extracción, la integración, la normalización, la conversión, el mantenimiento, la garantía de calidad y la validación de datos, así como la integridad, la trazabilidad y las comprobaciones de reproducibilidad.[16]
Véase también
editarReferencias
editar- ↑ Miller, Renée J. “Big Data Curation” 20th International Conference on Management of Data (COMAD) 2014, Hyderabad, India, 17–19 de diciembre de 2014. En inglés. Consultado el 10 de abril de 2022.
- ↑ «*BioCreAtIvE glossary*». Biocreative (en inglés). Consultado el 11 de abril de 2022.
- ↑ a b Furht, Borko; Escalante, Armando (2011). Handbook of Data Intensive Computing (en inglés). Springer Science & Business Media. ISBN 978-1-4614-1415-5. Consultado el 11 de abril de 2022.
- ↑ Sabharwal, Arjun (2015). Digital Curation in the Digital Humanities: Preserving and Promoting Archival and Special Collections (en inglés). Chandos Publishing. p. 60. ISBN 9780081001783. Consultado el 10 de abril de 2022.
- ↑ Flanders, Julia; Muñoz, Trevor. «An Introduction to Humanities Data Curation». Digital Humanities Data Curation (en inglés estadounidense). Consultado el 11 de abril de 2022.
- ↑ «PILIN Glossary». PILIN (en inglés). Archivado desde el original el 21 de marzo de 2012.
- ↑ Borgman, Christine L. (2015). Big Data, Little Data, No Data: Scholarship in the Networked World (en inglés). MIT Press. p. 13. ISBN 978-0-262-02856-1. Consultado el 11 de abril de 2022.
- ↑ a b Chessell, Mandy; Nigel L Jones; Jay Limburn; David Radley; Kevin Shank (2015). Designing and Operating a Data Reservoir (en inglés). IBM Redbooks. pp. 111-113. ISBN 9780837440668. Consultado el 10 de abril de 2022.
- ↑ Cragin, Melissa; Heidorn, P. Bryan; Palmer, Carole L.; Smith, Linda C. (2007). «An Educational Program on Data Curation». ALA Science & Technology Section Conference (en inglés). Consultado el 10 de abril de 2022.
- ↑ Task Force on Archiving of Digital Information (1996). «Preserving Digital Information (PDI) report». Council on Library and Information Resources (en inglés). Consultado el 10 de abril de 2022. «The Commission on Preservation and Access and The Research Libraries Group».
- ↑ «History». ICPSR (en inglés). Consultado el 11 de abril de 2022.
- ↑ Heim, Kathleen M. (1982). Library Trends 30 (3) Winter 1982: Data Libraries for the Social Sciences (en inglés). ISSN 0024-2594. Consultado el 11 de abril de 2022.
- ↑ Kathleen M. Heim, "Social Scientific Information Needs for Numeric Data: The Evolution of the International Data Archive Infrastructure." En: Collection Management 9 (Spring 1987): 1-53. En inglés.
- ↑ «OAIS Reference Model (ISO 14721)». OAIS (en inglés estadounidense). Consultado el 11 de abril de 2022.
- ↑ «What is CCSDS?». Consultative Committee for Space Data Systems (en inglés). Consultado el 11 de abril de 2022.
- ↑ Diaz, Oliver; Kushibar, Kaisar; Osuala, Richard; Linardos, Akis; Garrucho, Lidia; Igual, Laura; Radeva, Petia; Prior, Fred et al. (1 de marzo de 2021). «Data preparation for artificial intelligence in medical imaging: A comprehensive guide to open-access platforms and tools». Physica Medica: European Journal of Medical Physics (en inglés) 83: 25-37. ISSN 1120-1797. PMID 33684723. doi:10.1016/j.ejmp.2021.02.007. Consultado el 11 de abril de 2022.
Enlaces externos
editar- Curaduría de datos ecológicos y ambientales: DataONE
- Herramientas y servicios de gestión de datos que abarcan múltiples disciplinas científicas: DataConservancy