Datos biológicos

término técnico

Los datos biológicos se refieren a un compuesto o información derivada de organismos vivos y sus productos. Un compuesto medicinal elaborado a partir de organismos vivos, como un suero o una vacuna, podría caracterizarse como dato biológico. Los datos biológicos son muy complejos en comparación con otras formas de datos. Existen muchas formas de datos biológicos, como texto, datos de secuencias, estructura de proteínas, datos genómicos y aminoácidos, y enlaces, entre otros.

Datos biológicos y bioinformática

editar
 
La ARN polimerasa (púrpura) es una enzima compleja en el corazón de la transcripción. Durante este proceso, la enzima desenrolla la doble hélice de ADN y utiliza una hebra (naranja más oscuro) como molde para crear el ARN mensajero monocatenario (verde), utilizado posteriormente por los ribosomas para la síntesis de proteínas.

Los datos biológicos colaboran estrechamente con la Bioinformática, que es una disciplina reciente centrada en abordar la necesidad de analizar e interpretar ingentes cantidades de datos genómicos.

En las últimas décadas, los saltos en la investigación genómica han dado lugar a cantidades ingentes de datos biológicos. Como resultado, la bioinformática se creó como la convergencia de la genómica, la biotecnología y la tecnología de la información, concentrándose en los datos biológicos.

También ha sido difícil definir los datos biológicos, ya que la bioinformática es un campo muy amplio. Además, la cuestión de qué constituye un organismo vivo ha sido polémica, ya que "vivo" representa un término nebuloso que abarca la evolución molecular, la modelización biológica, la biofísica y la biología de sistemas. A partir de la década pasada, la bioinformática y el análisis de datos biológicos han prosperado gracias a los saltos tecnológicos necesarios para gestionar e interpretar los datos. Actualmente es un campo floreciente, ya que la sociedad se ha concentrado más en la adquisición, transferencia y explotación de la bioinformática y los datos biológicos.

Tipos de datos biológicos

editar

Los datos biológicos pueden extraerse para su uso en los ámbitos de la ómica, la bioimagen y la imagen médica. Los científicos de la vida valoran los datos biológicos para obtener detalles moleculares de los organismos vivos. Las herramientas de secuenciación de ADN, expresión génica (GE), bioimagen, neuroimagen e interfaces cerebro-máquina son dominios que utilizan datos biológicos y modelan sistemas biológicos con alta dimensionalidad.[1]

Además, los datos de secuencias biológicas en bruto suelen referirse a ADN, ARN y aminoácidos.[1]

Los datos biológicos también pueden describirse como datos sobre entidades biológicas.[2]​ Por ejemplo, características como: secuencias, gráficos, información geométrica, campos escalares y vectoriales, patrones, restricciones, imágenes e información espacial pueden caracterizarse como datos biológicos, ya que describen características de seres biológicos. En muchos casos, los datos biológicos están asociados a varias de estas categorías. Por ejemplo, como se describe en el informe del Instituto Nacional de la Salud Catalyzing Inquiry at the Interface of Computing and Biology, la estructura de una proteína puede asociarse con una secuencia unidimensional, una imagen bidimensional, una estructura tridimensional, etc.[2]

Bases de datos biomédicas

editar
 
CATH - Base de datos de clasificación de estructuras proteicas

A menudo se ha hecho referencia a las bases de datos biomédicas como las bases de datos de historiales médicos electrónicos (HCE), los datos genómicos en sistemas de bases de datos federales descentralizados y los datos biológicos, incluidos los genómicos, recogidos en estudios clínicos a gran escala.[3][4]

Biohacking y amenazas a la privacidad

editar

Biohacking

editar

Los ataques de bioinformática se han vuelto más comunes, ya que estudios recientes han demostrado que herramientas comunes pueden permitir a un asaltante sintetizar información biológica que puede ser utilizada para secuestrar información de análisis de ADN.[5]​ La amenaza del biohacking se ha vuelto más evidente a medida que el análisis de ADN aumenta su frecuencia en campos como la ciencia forense, la investigación clínica y la genómica.

El biohacking puede llevarse a cabo sintetizando ADN malicioso e insertándolo en muestras biológicas. Los investigadores han establecido escenarios que demuestran la amenaza del biohacking, como por ejemplo que un hacker llegue a una muestra biológica ocultando ADN malicioso en superficies comunes, como batas de laboratorio, bancos o guantes de goma, lo que contaminaría los datos genéticos.[5]

Sin embargo, la amenaza del biohacking puede mitigarse utilizando técnicas similares a las que se emplean para prevenir los ataques de inyección convencionales. Los médicos e investigadores pueden mitigar un biohackeo extrayendo información genética de muestras biológicas, y comparando las muestras para identificar materiales desconocidos. Los estudios han demostrado que la comparación de la información genética con muestras biológicas, para identificar código de biohacking, ha sido hasta un 95% eficaz en la detección de inserciones maliciosas de ADN en ataques de biohacking.[5]

Las muestras genéticas como datos personales

editar

Las preocupaciones sobre la privacidad en la investigación genómica han surgido en torno a la noción de si las muestras genómicas contienen o no datos personales, o si deben considerarse materia física.[6]​ Además, surgen preocupaciones porque algunos países reconocen los datos genómicos como datos personales (y aplican normas de protección de datos), mientras que otros países consideran las muestras en términos de materia física y no aplican las mismas leyes de protección de datos a las muestras genómicas. El próximo Reglamento General de Protección de Datos (RGPD) se ha citado como un posible instrumento jurídico que puede aplicar mejor las normas de privacidad en los biobancos y la investigación genómica.[6]

Sin embargo, la ambigüedad que rodea a la definición de "datos personales" en el texto del RGPD, especialmente en lo que respecta a los datos biológicos, ha generado dudas sobre si la normativa se aplicará a las muestras genéticas. El artículo 4, apartado 1, establece que los datos personales se definen como "toda información sobre una persona física identificada o identificable ("interesado")".[7]

Aplicaciones del aprendizaje profundo a los datos biológicos

editar

Gracias a los rápidos avances en la ciencia de datos y la potencia computacional, los especialistas en ciencias de la vida han podido aplicar a los datos biológicos métodos de aprendizaje automático intensivos en datos, como el aprendizaje profundo (deep learning, DL), el aprendizaje por refuerzo (reinforcement learning, RL) y su combinación (deep RL). Estos métodos, junto con los aumentos en el almacenamiento de datos y la computación, han permitido a los científicos de la vida extraer datos biológicos y analizar conjuntos de datos que antes eran demasiado grandes o complejos. El aprendizaje profundo (deep learning, DL) y el aprendizaje por refuerzo (reinforcement learning, RL) se han utilizado en el campo de la investigación ómica[1]​ (que incluye la genómica, la proteómica o la metabolómica). Normalmente, se extraen datos de secuencias biológicas en bruto (como ADN, ARN y aminoácidos) y se utilizan para analizar características, funciones, estructuras y dinámicas moleculares de los datos biológicos. A partir de ese momento, se pueden realizar diferentes análisis, como la predicción de la unión de empalme del perfil GE y la evaluación de la interacción proteína-proteína.[1]

El aprendizaje por refuerzo, término procedente de la psicología conductista, es un método de resolución de problemas mediante el aprendizaje por ensayo y error. El aprendizaje por refuerzo puede aplicarse a datos biológicos, en el campo de las ómicas, utilizando el RL para predecir genomas bacterianos.[8]

Otros estudios han demostrado que el aprendizaje por refuerzo se puede utilizar para predecir con precisión la anotación de secuencias biológicas.[9]

Las arquitecturas de aprendizaje profundo (Deep Learning, DL) también son útiles en el entrenamiento de datos biológicos. Por ejemplo, las arquitecturas DL que se dirigen a niveles de píxeles de imágenes biológicas se han utilizado para identificar el proceso de mitosis en imágenes histológicas de la mama. También se han utilizado arquitecturas DL para identificar núcleos en imágenes de células de cáncer de mama.[10]

Retos de la minería de datos en la informática biomédica

editar

Complejidad

editar

El principal problema al que se enfrentan los modelos de datos biomédicos suele ser la complejidad, ya que los científicos que trabajan en entornos clínicos y en investigación biomédica se enfrentan a la posibilidad de una sobrecarga de información. Sin embargo, la sobrecarga de información ha sido a menudo un fenómeno debatido en los campos médicos.[11]​ Los avances computacionales han permitido la formación de comunidades separadas bajo filosofías diferentes. Por ejemplo, los investigadores de minería de datos y aprendizaje automático buscan patrones relevantes en los datos biológicos, y su arquitectura no depende de la intervención humana. Sin embargo, el modelado de artefactos entraña riesgos cuando disminuye la intervención humana, como la comprensión y el control por parte del usuario final.[12]

Los investigadores han señalado que, con el aumento de los costes sanitarios y la enorme cantidad de datos infrautilizados, las tecnologías de la información sanitaria pueden ser la clave para mejorar la eficiencia y la calidad de la atención sanitaria.[11]

Errores y abusos en las bases de datos

editar

Las historias clínicas electrónicas (HCE) pueden contener datos genómicos de millones de pacientes, y la creación de estas bases de datos ha suscitado tanto elogios como preocupaciones.[4]

Los juristas han señalado tres motivos principales de preocupación por el aumento de litigios relacionados con las bases de datos biomédicas. En primer lugar, los datos contenidos en las bases de datos biomédicas pueden ser incorrectos o incompletos. En segundo lugar, los sesgos sistémicos, que pueden surgir de los sesgos de los investigadores o de la naturaleza de los datos biológicos, pueden amenazar la validez de los resultados de la investigación. En tercer lugar, la presencia de minería de datos en las bases de datos biológicas puede facilitar que personas con objetivos políticos, sociales o económicos manipulen los resultados de la investigación para influir en la opinión pública.[4][13]

Un ejemplo de uso indebido de bases de datos se produjo en 2009, cuando el Journal of Psychiatric Research publicó un estudio que asociaba el aborto con trastornos psiquiátricos.[14]​ El propósito del estudio era analizar las asociaciones entre el historial de abortos y los trastornos psiquiátricos, como los trastornos de ansiedad (incluidos el trastorno de pánico, el TEPT y la agorafobia) junto con los trastornos por abuso de sustancias y los trastornos del estado de ánimo.

Sin embargo, el estudio quedó desacreditado en 2012, cuando los científicos analizaron la metodología del estudio y descubrieron que presentaba graves defectos.[15]​ Los investigadores habían utilizado "conjuntos de datos nacionales con variables de historial reproductivo y salud mental"[14]​ para elaborar sus conclusiones. Sin embargo, los investigadores no habían comparado a las mujeres (que habían tenido embarazos no planificados y habían abortado) con el grupo de mujeres que no habían abortado, sino que se habían centrado en los problemas psiquiátricos que se produjeron después de los embarazos interrumpidos. Como resultado, las conclusiones, que parecían dar credibilidad científica, dieron lugar a que varios estados promulgaran leyes[16]​ que obligaban a las mujeres a buscar asesoramiento antes de abortar, debido a las posibles consecuencias para la salud mental a largo plazo.

Otro artículo, publicado en el New York Times, demostró cómo los sistemas de historias clínicas electrónicas (HCE) podían ser manipulados por los médicos para exagerar la cantidad de atención que prestaban a efectos del reembolso de Medicare.[17][4]

Compartir datos biomédicos

editar
 
Un informe del Servicio de Investigación del Congreso sobre la seguridad de la información sanitaria en el marco de la HIPAA

Compartir datos biomédicos se ha promocionado como una forma eficaz de mejorar la reproducibilidad de la investigación y los descubrimientos científicos.[13][18]

Mientras que los investigadores se enfrentan a problemas tecnológicos a la hora de compartir datos, las cuestiones sociales también suponen una barrera a la hora de compartir datos biológicos. Por ejemplo, los médicos y los investigadores se enfrentan a retos únicos a la hora de compartir datos biológicos o sanitarios dentro de sus comunidades médicas, como las preocupaciones por la privacidad y las leyes de privacidad del paciente, como la HIPAA.[19]

Actitudes hacia el intercambio de datos

editar

Según un estudio de 2015[19]​ centrado en las actitudes de las prácticas de los médicos y el personal de investigación científica, la mayoría de los encuestados señalaron que compartir datos era importante para su trabajo, pero indicaron que sus conocimientos sobre el tema eran escasos. De los 190 encuestados, 135 se identificaron como científicos clínicos o de investigación básica, y la población de la encuesta incluía a científicos clínicos y de investigación básica del Programa de Investigación Intramuros del Instituto Nacional de Salud. El estudio también descubrió que, entre los encuestados, compartir datos directamente con otros clínicos era una práctica común, pero los sujetos del estudio tenían poca práctica en cargar datos en un repositorio.

En el ámbito de la investigación biomédica, se ha promovido el uso compartido de datos[20]​ como una forma importante de que los investigadores compartan y reutilicen datos para aprovechar plenamente los beneficios de la medicina personalizada y de precisión.[19]

Retos para la puesta en común de datos

editar

El intercambio de datos en la sanidad sigue siendo un reto por varias razones. A pesar de los avances de la investigación en este campo, muchas organizaciones sanitarias siguen siendo reacias o no están dispuestas a divulgar datos médicos debido a leyes de protección de la intimidad como la Ley de Portabilidad y Responsabilidad del Seguro Médico (HIPAA). Además, compartir datos biológicos entre instituciones exige proteger la confidencialidad de datos que pueden abarcar varias organizaciones. Lograr la sintaxis de los datos y la heterogeneidad semántica al tiempo que se cumplen diversos requisitos de privacidad son factores que plantean barreras a la hora de compartir datos.[21]

Referencias

editar
  1. a b c d Mahmud, Mufti; Kaiser, Mohammed Shamim; Hussain, Amir; Vassanelli, Stefano (June 2018). «Applications of Deep Learning and Reinforcement Learning to Biological Data». IEEE Transactions on Neural Networks and Learning Systems 29 (6): 2063-2079. ISSN 2162-237X. PMID 29771663. S2CID 9823884. doi:10.1109/tnnls.2018.2790388. hdl:1893/26814. 
  2. a b Wooley, John C.; Lin, Herbert S.; Biology, National Research Council (US) Committee on Frontiers at the Interface of Computing and (2005). On the Nature of Biological Data (en inglés). National Academies Press (US). 
  3. Nadkarni, P. M.; Brandt, C.; Frawley, S.; Sayward, F. G.; Einbinder, R.; Zelterman, D.; Schacter, L.; Miller, P. L. (1 de marzo de 1998). «Managing Attribute-Value Clinical Trials Data Using the ACT/DB Client-Server Database System». Journal of the American Medical Informatics Association (en inglés) 5 (2): 139-151. ISSN 1067-5027. PMC 61285. PMID 9524347. doi:10.1136/jamia.1998.0050139. 
  4. a b c d Hoffman, Sharona; Podgurski, Andy (2013). «The use and misuse of biomedical data: is bigger really better?». American Journal of Law & Medicine 39 (4): 497-538. ISSN 0098-8588. PMID 24494442. S2CID 35371353. doi:10.1177/009885881303900401. 
  5. a b c Islam, Mohd Siblee; Ivanov, S.; Robson, E.; Dooley-Cullinane, T.; Coffey, L.; Doolin, K.; Balasubramaniam, S. (2019). «Genetic similarity of biological samples to counter bio-hacking of DNA-sequencing functionality». Scientific Reports 9 (1): 8684. Bibcode:2019NatSR...9.8684I. PMC 6581904. PMID 31213619. S2CID 190652460. doi:10.1038/s41598-019-44995-6. 
  6. a b Hallinan, Dara; De Hert, Paul (2016), «Many Have It Wrong – Samples Do Contain Personal Data: The Data Protection Regulation as a Superior Framework to Protect Donor Interests in Biobanking and Genomic Research», en Mittelstadt, Brent Daniel; Floridi, Luciano, eds., The Ethics of Biomedical Big Data, Law, Governance and Technology Series (en inglés) (Cham: Springer International Publishing): 119-137, ISBN 978-3-319-33525-4, doi:10.1007/978-3-319-33525-4_6, consultado el 9 de diciembre de 2020 .
  7. «Statewatch.org». StateWatch.org. Consultado el 3 de julio de 2015. 
  8. Chuang, Li-Yeh; Tsai, Jui-Hung; Yang, Cheng-Hong (July 2010). «Binary particle swarm optimization for operon prediction». Nucleic Acids Research 38 (12): e128. ISSN 0305-1048. PMC 2896535. PMID 20385582. doi:10.1093/nar/gkq204. 
  9. Ralha, C. G.; Schneider, H. W.; Walter, M. E. M. T.; Bazzan, A. L. (October 2010). «Reinforcement Learning Method for BioAgents». 2010 Eleventh Brazilian Symposium on Neural Networks. pp. 109-114. ISBN 978-1-4244-8391-4. S2CID 14685651. doi:10.1109/SBRN.2010.27. 
  10. Xu, Jun; Xiang, Lei; Liu, Qingshan; Gilmore, Hannah; Wu, Jianzhong; Tang, Jinghai; Madabhushi, Anant (January 2016). «Stacked Sparse Autoencoder (SSAE) for Nuclei Detection on Breast Cancer Histopathology Images». IEEE Transactions on Medical Imaging 35 (1): 119-130. ISSN 0278-0062. PMC 4729702. PMID 26208307. doi:10.1109/TMI.2015.2458702. 
  11. a b Holzinger, Andreas; Jurisica, Igor (2014), «Knowledge Discovery and Data Mining in Biomedical Informatics: The Future Is in Integrative, Interactive Machine Learning Solutions», en Holzinger, Andreas; Jurisica, Igor, eds., Interactive Knowledge Discovery and Data Mining in Biomedical Informatics: State-of-the-Art and Future Challenges, Lecture Notes in Computer Science (en inglés) (Berlin, Heidelberg: Springer): 1-18, ISBN 978-3-662-43968-5, doi:10.1007/978-3-662-43968-5_1, consultado el 9 de diciembre de 2020 .
  12. Shneiderman, Ben (March 2002). «Inventing Discovery Tools: Combining Information Visualization with Data Mining». Information Visualization 1 (1): 5-12. ISSN 1473-8716. S2CID 208272047. doi:10.1057/palgrave.ivs.9500006. hdl:1903/6484. 
  13. a b Mittelstadt, Brent Daniel; Floridi, Luciano (April 2016). «The Ethics of Big Data: Current and Foreseeable Issues in Biomedical Contexts». Science and Engineering Ethics 22 (2): 303-341. ISSN 1471-5546. PMID 26002496. S2CID 23142795. doi:10.1007/s11948-015-9652-2. 
  14. a b Coleman, Priscilla K.; Coyle, Catherine T.; Shuping, Martha; Rue, Vincent M. (May 2009). «Induced abortion and anxiety, mood, and substance abuse disorders: isolating the effects of abortion in the national comorbidity survey». Journal of Psychiatric Research 43 (8): 770-776. ISSN 1879-1379. PMID 19046750. doi:10.1016/j.jpsychires.2008.10.009. 
  15. Kessler, Ronald C.; Schatzberg, Alan F. (March 2012). «Commentary on Abortion Studies of Steinberg and Finer (Social Science & Medicine 2011; 72:72–82) and Coleman (Journal of Psychiatric Research 2009;43:770–6 & Journal of Psychiatric Research 2011;45:1133–4)». Journal of Psychiatric Research (en inglés) 46 (3): 410-411. doi:10.1016/j.jpsychires.2012.01.021. 
  16. «Counseling and Waiting Periods for Abortion». Guttmacher Institute (en inglés). 14 de marzo de 2016. Consultado el 9 de diciembre de 2020. 
  17. «Counseling and Waiting Periods for Abortion». Guttmacher Institute (en inglés). 14 de marzo de 2016. Consultado el 9 de diciembre de 2020. 
  18. Kalkman, Shona; Mostert, Menno; Gerlinger, Christoph; van Delden, Johannes J. M.; van Thiel, Ghislaine J. M. W. (28 de marzo de 2019). «Responsible data sharing in international health research: a systematic review of principles and norms». BMC Medical Ethics 20 (1): 21. ISSN 1472-6939. PMC 6437875. PMID 30922290. doi:10.1186/s12910-019-0359-9. 
  19. a b c Federer, Lisa M.; Lu, Ya-Ling; Joubert, Douglas J.; Welsh, Judith; Brandys, Barbara (24 de junio de 2015). «Biomedical Data Sharing and Reuse: Attitudes and Practices of Clinical and Scientific Research Staff». En Kanungo, Jyotshna, ed. PLOS ONE (en inglés) 10 (6): e0129506. Bibcode:2015PLoSO..1029506F. ISSN 1932-6203. PMC 4481309. PMID 26107811. doi:10.1371/journal.pone.0129506. 
  20. Shneiderman, Ben (21 de julio de 2016). «Inventing Discovery Tools: Combining Information Visualization with Data Mining1». Information Visualization (en inglés) 1: 5-12. S2CID 208272047. doi:10.1057/palgrave.ivs.9500006. hdl:1903/6484. 
  21. Wimmer, Hayden; Yoon, Victoria Y.; Sugumaran, Vijayan (1 de agosto de 2016). «A multi-agent system to support evidence based medicine and clinical decision making via data sharing and data privacy». Decision Support Systems (en inglés) 88: 51-66. ISSN 0167-9236. doi:10.1016/j.dss.2016.05.008. 

Enlaces externos

editar