Please use this identifier to cite or link to this item: http://bibdigital.epn.edu.ec/handle/15000/20300
Title: Análisis comparativo del desempeño computacional entre dos gestores de bases de datos en consultas sobre la base de datos UniProt/Swiss-Prot
Authors: Vivanco Vásquez, Katherine Geomara
Keywords: BASES DE DATOS
INGENIERÍA DE SOFTWARE
UNIPROT/SWISS-PROT
Issue Date: 25-Jun-2019
Publisher: Quito, 2019.
Citation: Vivanco Vásquez, K. G. (2019). Análisis comparativo del desempeño computacional entre dos gestores de bases de datos en consultas sobre la base de datos UniProt/Swiss-Prot. 72 hojas. Quito : EPN.
Abstract: The large biological data sets to be generated in the immediate future as a result of the usage of new sequencing technologies requires high performance applications to manipulate databases. Although, the storage costs of the worldwide have decreased, the availability and computational cost required to process the data is still growing. Thus, it is necessary a higher optimization in the database manipulation. Being this way how bioinformatics solves the problem of the organization of information and manipulation of large data sets. This paper proposes to test which NoSQL database manager, Elasticsearch or Hadoop, provides a better computational performance in terms of execution time for CRUD operations in data of proteics database UniProt/Swiss-Prot. The criteria used to identify which database manager is the more efficient tool in computational cost related to time is the delay of execution of several queries individually evaluated. The CRUD (Create, Read, Update, Delete) operations will be sent from scripts as project benchmarks through web services to each database manager on UniProt/Swiss-Prot database. The comparative analysis will be executed in a cluster environment with three nodes for each manager tool. The comparative analysis has been realized in a cluster environment with three nodes for each management tool. These nodes will be virtual machines with similar characteristics like same memory ram, storage and operative system.
Description: La cantidad de datos biológicos a generarse en el futuro inmediato por el uso de nuevas tecnologías de secuenciación requerirá de aplicaciones de alto rendimiento para la manipulación de bases de datos generadas. Aunque los costos del almacenamiento a nivel mundial han ido disminuyendo, la disponibilidad y costo computacional que se requieren para el tratamiento de los datos serán cada vez más elevados; por esto, será necesario una mayor optimización en la manipulación de las bases de datos biológicas. El presente proyecto propone definir qué gestor de bases de datos NoSQL, sea Elasticsearch o Hadoop, proporciona un mejor desempeño computacional en términos del tiempo de ejecución, para las operaciones CRUD (Create, Read, Update, Delete) sobre los datos en la base de información proteica UniProt/Swiss-Prot. El criterio con el que se definirá cuál de las herramientas es más eficiente en costo computacional en relación con el tiempo será el rango de tiempo que demora la mayoría de las instrucciones en ejecutarse, evaluadas individualmente. Las operaciones serán enviadas desde scripts como benchmarks del presente proyecto mediante servicios web hacia cada gestor sobre la base de datos UniProt/Swiss-Prot. El análisis comparativo se realizará en un entorno de clúster con tres nodos para cada herramienta gestora, estos nodos se los representarán mediante máquinas virtuales de iguales características en cuanto a memoria ram, física y sistema operativo.
URI: http://bibdigital.epn.edu.ec/handle/15000/20300
Appears in Collections:Tesis Sistemas Informáticos y de Computación (ISIS)

Files in This Item:
File Description SizeFormat 
CD 9767.pdf2,48 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.