Dissertartion proposals

  • Sistema de procesamiento y visualización de mapas auto-organizados

Los mapas auto-organizativos (SOM: Self-Organizing Map) son un tipo de red neuronal que se entrenan de forma no supervisada, para producir una representación de baja dimensión o mapa (usualmente bidimensional) del espacio de entradas. Si bien actualmente esta metodología se encuentra ampliamente difundida, las implementaciones de libre disponibilidad no son robustas a bases de datos de elevada dimensión. A su vez, estas carecen de una adecuada interfaz de usuario (usualmente a texto plano por consola) impactando en la inferencia que se pueda realizar sobre la red.
El objetivo de este proyecto es implementar de manera eficiente (paralela) diferentes variantes del algoritmo utilizando el lenguaje R, el cual se encuentra ampliamente aceptado en la comunidad estadísticas/computacional. Adicionalmente, se deberá incorporar diferentes variantes para la visualización de los datos [Fernández et al. 2007] desde R e implementar una interfaz amigable en Java para poder explorar gráficamente los resultados.

Fernández EA, Balzarini M. Improving cluster visualization in Self-Organizing Maps: Application in Gene Expression Data Analysis. Computers in Biology and Medicine. 37 (2007) 1677– 1689

  •  Visualización interactiva para datos de tecnologías de alto rendimiento

Una de los aspectos críticos que presenta la exploración de resultados provenientes de tecnologías de alto rendimiento, es la visualización interactiva de los resultados. En este contexto existen alternativas como el paquete “lattice” en R, que extiende las capacidades gráficas del sistema base. No obstante, ésta carece de interacción con el usuario, limitando la integración de meta-información sdfdscomplementaria al análisis.

El objetivo de este trabajo consiste en crear una librería en R que permita una interfaz de usuario, preferentemente con Tcl/Tk o Java, que supere a sus predecesores. Por ej: crear volcano plots en los cuales se pueda obtener información de cada gen haciendo click sobre el punto en la imagen, heatmaps con metadata, etc.

  •  Sistema integral de gestión de datos de tecnologías de alto rendimiento

En la actualidad existen diferentes alternativas libres y comerciales para gestionar el almacenamiento y documentación de experimentos biológicos provenientes de tecnologías de alto rendimiento (BASE http://base.thep.lu.se/, caArray http://caarray.nci.nih.gov/, etc.). No obstante, estos desarrollos presentan una elevada especificidad sobre una particular plataforma tecnológica, restringiendo el tipo de experimento que se puede manipular. Más aún, el grado de especificidad torna las interfaces de usuario poco intuitivas y amigables. Por otra parte, estos desarrollos no son estables en el sentido que una vez que los sistemas andan se deja de dar soporte y desarrollo. Esto implica que instalaciones en nuevos sistemas (usualmente linux) no sea compatible con nuevos paquetes (java, kernel, etc.) siendo necesario instalarlos en entornos específicos, a través de máquinas virtuales o similares, donde se puedan cumplir los requerimientos de sistema a la fecha del lanzamiento del mismo.

El objetivo de este trabajo consta de una revisión sobre los diferentes estándares de plataformas de alto rendimiento para generar un esquema de base de dato relacional (preferentemente en mySQL bajo linux) que permita: (i) por una parte cumplir con los estándares industriales de anotación mínima (MIAME para microarreglos, MIAPE para geles de electroforesis bidimensional, etc.); (ii) seguridad para asegurar la confiabilidad en el manejo de los datos; (iii) la capacidad de extender módulos con nuevas plataformas/anotación etc. A su vez, el sistema deberá contar con una interfaz web dinámica que permita: (a) el ingreso de datos; (b) visualización de controles de calidad generados automáticamente utilizando el lenguaje R como motor estadístico; (c) cargar los resultados de los análisis (datos normalizados, genes diferenciales, ontología, etc.).

  • Búsqueda de patrones y similitudes de secuencias biológicas utilizando lenguaje R

Si bien el primer borrador del genoma humano fue dado a conocer hace más de 10 años, aún se desconoce la función de muchos de los genes que lo integran. Una de las formas de descubrir esta función consiste en buscar genes homólogos, es decir genes de otras especies que sean similares en su secuencia. El fundamento detrás de esta metodología reside en que si dos genes tienen una secuencia similar, es probable que su función esté relacionada. La aplicación más popular para realizar este tipo de análisis es BLAST (Basic Local Alignment Search Tool http://blast.ncbi.nlm.nih.gov/Blast.cgi) que permite comparar una secuencia problema contra una gran cantidad de secuencias que se encuentren en una base de datos. También existen algoritmos probabilísticos como HMMER que utiliza Modelos ocultos de Markov. En caso de que no existan secuencias similares se puede utilizar un enfoque diferente consistente en buscar patrones o motivos en lugar de genes completos. Para ello existen herramientas como Prosite, MEME (Multiple EM for Motif Elicitation), eMOTIF y PMS, entre otros.

El Grupo de Minería de Datos en Biociencias trabaja con datos provenientes de tecnologías de alto rendimiento como microarreglos, secuenciación de última generación y eletroforésis bidimensional. En este tipo de plataformas la información biológica sobre las secuencias que se están analizando provienen de los fabricantes. Debido al incesante avance del conocimiento en el campo de la biología muchas veces esta información se encuentra desactualizada o en algunos casos ni siquiera existe. En estos casos la utilización de herramientas que permitan encontrar genes homólogos o patrones puede ser de ayuda para el investigador.
El objetivo de este trabajo es crear una librería en lenguaje R que permita la utilización de BLAST y de diferentes herramientas de búsqueda de patrones, de manera de  rescatar aquellos genes sin anotación en los paquetes del fabricante, a los efectos de incluirlos en el análisis.

  • Data warehouse sobre bases de datos biológicas

Una de las dificultades existentes en el meta análisis biológico, radica en la falta de integración de los diferentes repositorios de libre disposición. Si bien se puede realizar el análisis, este es de manera parcial al no contar con toda la información que está disponible pero en diferentes repositorios. En este sentido NCBI GeneConnect (https://cabig.nci.nih.gov/tools/GeneConnect) provee un esquema de base de datos relacional que trata de solventar esta problemática a partir de la integración de los repositorios tradicionales que ellos soportan (GenBank, Entrez Gene, etc.). No obstante, esta aplicación funciona sobre motores de base de datos con licencia y su último desarrollo estable es de 2007 (actualmente carece de soporte). Por otra parte, esta aplicación carece de una API adecuada para consumir desde otras aplicaciones/lenguajes como R para explotar la información disponible, funcionando únicamente como repositorio de información.

El objetivo de este trabajo busca en primera instancia realizar la instalación local de la herramienta, adaptación a motor mySQL, al igual que incluir nuevos esquemas de anotación de proteínas (PRIDE http://www.ebi.ac.uk/pride/, The Plasma Proteome Database http://www.plasmaproteomedatabase.org/, MassBank http://www.massbank.jp/?lang=en, etc). En segundo lugar, principalmente extender las funcionalidades existentes mediante una API que permita, realizar consultas desde R a los efectos de contar con mayor información a la hora del análisis. Justamente, de esta manera se podrán generar paquetes de anotación personalizados no existentes en Bioconductor (http://www.bioconductor.org/) que permitan encontrar patrones novedosos a partir de información sin precedentes.

  • Data warehouse sobre vías metabólicas

El análisis de vías metabólicas, como por ejemplo la cascada de coagulación, se ve principalmente afectado por la el alcance de los diferentes repositorios de libre disposición. En este sentido por ejemplo Reactome (www.reactome.org/) se centra en reacciones de dos o más sustratos mientras que otras (KEGG http://www.genome.jp/kegg/pathway.html, Biocarta www.biocarta.com, Panther www.pantherdb.org/pathway/) se centran en procesos completos como el ciclo de Krebbs (respiración celular) entre otros. Sin embargo, estas herramientas se encuentran muy limitadas a las hora de realizar consultas sobre ellas, dado que presentan solamente la información disponible y si alguna vía en particular se encuentra modificada por una lista de candidatos. No obstante, el NCBI Pathway Tools (https://cabig.nci.nih.gov/tools/Pathways_Tools) es un proyecto en el cual trata de solventar de forma parcial la adquisición de información a través de un complemento (cPath) de Cytoscape (http://www.cytoscape.org/) el cual ha sido discontinuado en 2006.

El objetivo de este trabajo consiste en realizar una instalación local de NCBI Pathway Tools y adaptar el complemento de Cytoscape a los efectos de que el mismo pueda consultar los nuevos repositorios de libre disposición; y desarrollar nuevos esquemas de visualización que incluyan meta información como niveles de expresión, información del diseño experimental, etc.

  • Consultas a sistema de gestión de datos clínicos

OpenClinica (https://www.openclinica.com/) es uno de los sistemas de gestión de historias clínicas de libre disponibilidad de mayor impacto en la comunidad farmacéutica. Si bien este sistema es muy versátil a la hora definir las historias clínicas para los diferentes ensayos/experimentos, la exportación de los datos es muy precaria. Esto no solo implica una etapa de preprocesamiento de las salidas del sistema previo al procesamiento propiamente dicho, si no que también limita realizar análisis estadísticos y controles de rutina sobre el sistema.

El objetivo del presente trabajo consiste en generar una librería en lenguaje R que permita la consulta trasparente de la base de datos a través de la API de OpenClinica y/o contra el motor PostgreSQL e implementar una serie de rutinas de control (con reglas del dominio) al igual que análisis estadísticos de rutina.

  • R en la nube: capacidades y limitaciones

El objetivo de este trabajo radica en realizar una prueba de rendimiento sobre la capacidad de R en la nube. Particularmente, se deberán implementar algoritmos que trabajen sobre datos de tecnologías de secuenciamiento de alto rendimiento, a los efectos de evaluar las capacidades y limitaciones existentes en este tipo de ámbito.

  • Cluster de testing para algoritmos de secuenciamiento de alto rendimiento

El Centro de Computación Biomédica de Córdoba (CCBC) brinda la posibilidad a que estudiantes avanzados en Ingeniería en Sistemas de la UCC, participen de la instalación y puesta a punto de cluster de testing de algoritmos de secuenciamiento de alto rendimiento (Next Generation Sequencing).

El objetivo de este trabajo consta en (i) relevar las diferentes arquitecturas de cluster dedicados a ensamble se secuencias provenientes de este tipo de tecnologías; (ii) implementación y puesta a punto de algoritmos clásicos de esamblado. Principalmente, se trabajará con datos provenientes de secuenciadores de lecturas largas como Roche 454 y lecturas cortas como IonTorrent. Cabe destacar, que las actividades se llevarán a cabo en colaboración con el Grupo de Minería de Datos en Biociencias de la UCC y CCBC brindará la posibilidad de continuar esta línea de desarrollo mediante la incorporación de hasta dos egresados al proyecto.

  • Predicciones de ventas (PPS/Tesina)

Una empresa local posee dificultades en la recaudación de las ventas, debido a reglas complejas en las transacciones de diferentes medios de pago. A su vez, sería deseable poder realizar predicciones de ventas futuras.