Primera parte

Minería de texto en bioinformatica

Guillermo Choque Aspiazu

En el artículo titulado “Bioinformática”, publicado por Moore el año 2007, se menciona que la bioinformática es un área de investigación interdisciplinaria que combina la informática y la bioestadística con las ciencias biológicas y biomédicas tales como la bioquímica, biología celular, la genética, la genómica, la fisiología, la inmunología y la biotecnología, entre otras. Forman y sus colegas, en el artículo publicado el año 2010 con el título “Bioinformática: Herramientas para acelerar la investigación en ciencias de la población y el control de enfermedades”, se menciona que la bioinformática estudia el flujo de información en todos los estadios del dogma central, como la organización y la regulación de los genes en la secuencia del acido desoxirribonucleico, la identificación de las zonas de transcripción del acido desoxirribonucleico, la predicción de la estructura de las proteínas a partir de su secuencia y el análisis de la función molecular de las biomoléculas, implicando la tecnología que utilizan las computadoras para el almacenamiento, recuperación, manipulación y distribución de información relacionada con macromoléculas. El énfasis se realiza sobre el uso de computadoras, porque la mayor parte de las tareas de análisis de datos de la bioinformática son bastante repetitivas o complejas en términos matemáticos.

Según Chou, en el artículo publicado el año 2004 con el título “Bioinformática estructural y su impacto en la ciencia biomédica”, la bioinformática puede clasificarse en dos ramas: Bioinformática secuencial y bioinformática estructural. La primera se encuentra centrada en las secuencias, con las principales aplicaciones de datos y análisis de los datos recogidos en los proyectos genoma, alineamiento de secuencias, redes metabólicas, morfometría y la evolución virtual, mientras que la segunda se interesa en estructuras, con las principales aplicaciones para la predicción de estructuras en tres dimensiones de proteínas y revelación de la relación entre estructura y función. Puesto que la estructura en tres dimensiones de una proteína es determinada por su secuencia, el análisis de la secuencia y la alineación se encuentran también bastante involucrados en la bioinformática estructural. La secuencia de aminoácidos de una proteína, estructura primaria, se puede determinar fácilmente a partir de la secuencia en el gen que lo codifica. Así, el número de secuencias de entrar en los bancos de datos ha aumentado rápidamente.

Por su parte en la tesis de maestría de Charles Pérez, escrita el año 2015 bajo el titulo “Uso de técnicas de minería de texto para la identificación de ensayos clínicos en nanomedicina”, se define la minería de texto como un proceso computarizado para la utilización de la gran cantidad de conocimiento existente en la literatura o en el texto a revisar, este proceso se refiere al análisis de información de alta calidad a partir del texto obtenido, información de alta calidad la cual se obtiene a través de la elaboración de patrones y tendencias a través de medios tales como el aprendizaje de patrones estadísticos, conocidos como algoritmos de aprendizaje automático, que son los clasificadores que pueden operar en cualquier área. Witten y Frank, en el libro publicado el año 200 con el título “Minería de datos: Herramientas de aprendizaje automático prácticas y técnicas con implementaciones Java”, se menciona que se debe tener en claro que la minería de texto no es lo mismo que la minería de datos, ya que la minería de datos puede describirse en términos generales como la búsqueda de patrones en los datos, y la minería de texto se encarga de la búsqueda de patrones en texto. Sin embargo, suenan como si se tratara de lo mismo, pero no lo son, es decir, la minería de datos puede ser más plenamente caracterizada como la extracción de implícita, previamente información desconocida, y potencialmente útil a partir de los datos. Con la minería de texto, sin embargo, la información que se extrae está clara y explícitamente indicada en el texto, no está oculta dentro de los datos. El problema, por supuesto, es que la información no se encuentra expresada en una forma que sea susceptible de procesamiento automático. La minería de texto se esfuerza por llevar de forma adecuada para que el texto vaya directamente a las computadoras, sin necesidad de un intermediario humano.

Gálvez, en el artículo escrito el año 2008 con el título “Minería de textos: La nueva generación de análisis de literatura científica en biología molecular y genómica”, menciona que debido a que la mayor parte de la información sobre funciones e interacciones de genes se encuentra en la literatura y en las bases de datos biomédicas, es necesaria la aplicación de nuevos y potentes métodos de procesamiento y acceso a la información. La minería de datos y la minería de texto surgen como tecnologías emergentes que sirven de soporte para el descubrimiento de conocimiento que poseen los datos almacenados. La minería de datos se define como el descubrimiento de conocimiento, a partir patrones observables de datos estructurados, en bases de datos relacionales, se le denomina comúnmente “Descubrimiento del conocimiento en bases de datos”. La minería de texto se orientada a la extracción de conocimiento a partir de datos no-estructurados en lenguaje natural almacenados en las bases de datos textuales, se identifica con el descubrimiento de conocimiento en los textos y se le denomina comúnmente “Descubrimiento de conocimiento en texto”. La minería de texto es una herramienta de análisis encargada del descubrimiento de conocimiento que no existía explícitamente en ningún texto de la colección, pero que surge de relacionar el contenido de varios de ellos. Según Hearst (1999) la minería de texto adopta un enfoque semiautomático, estableciendo un equilibrio entre el análisis humano y automático: Antes de la etapa de descubrimiento de conocimiento es necesario procesar de forma automática la información disponible en grandes colecciones documentales y transformarla en un formato que facilite su comprensión y análisis. El procesamiento de grandes volúmenes de texto libre no-estructurado para extraer conocimiento requiere la aplicación de una serie de técnicas de análisis ya utilizadas en la recuperación de información: Procesamiento del lenguaje natural y la extracción de información, tales como la identificación y extracción de patrones, análisis de clustering, clasificación, o visualización de datos.