Por favor, use este identificador para citar o enlazar este ítem: http://bibdigital.epn.edu.ec/handle/15000/24913
Registro completo de metadatos
Campo DCValorLengua/Idioma
dc.contributor.authorGuanoluisa Herrera, Henry David-
dc.contributor.editorCarrera Izurieta, Iván Marcelo-
dc.date.accessioned2023-10-18T14:57:21Z-
dc.date.available2023-10-18T14:57:21Z-
dc.date.issued2023-10-02-
dc.identifier.citationGuanoluisa Herrera, H. D.(2023).Análisis de Similitud en Representación de la Información en líneas celulares : Árbol de distancia correspondiente a la representación de líneas celulares basada en minería de texto.39 páginas. Quito : EPN.es_ES
dc.identifier.otherT-IS/1791/CD 13621-
dc.identifier.urihttp://bibdigital.epn.edu.ec/handle/15000/24913-
dc.descriptionEn la presente investigación, la representación y comparación de líneas celulares tiene un papel sumamente importante en el entendimiento del comportamiento e interacciones. Este estudio implementa un enfoque innovador al representar líneas celulares utilizando técnicas de minería de texto, utilizando análisis de componentes principales (PCA) y Descripción de datos basado en vectores de soporte (SVDD). Los principales objetivos fueron la extracción y procesamiento de información textual de la literatura científica, para luego transformarla en representaciones numéricas y así desarrollar una metodología de agrupación jerárquica. Para lograr los objetivos del proyecto, se recopiló un conjunto de data de líneas celulares de fuentes como Cellosaurus y PubMed. Se utilizó Python, junto con librerías como pandas y scikit-learn, para el procesamiento, análisis y modelado de la data. La data de texto fue sometida a un preprocesamiento, que incluyó la reducción a raíz y la transformación TF-IDF, lo que arrojó como vectores de características numéricas. PCA se utilizó para la reducción dimensional de la data que al mismo tiempo preserva su variación. SVDD identificó aquellos valores no típicos y las distancias entre líneas celulares que se visualizaron mediante la construcción de un dendograma. Los resultados revelaron una forma novedosa de representar las líneas celulares, permitiendo la identificación de grupos y similitudes entre diferentes líneas. El dendograma representó visualmente relaciones jerárquicas, mostrando información sobre conjuntos celulares.es_ES
dc.description.abstractIn the current research, the representation and comparison of cell lines play a crucial role in understanding the behavior and interactions of cell lines. This study implements an innovative approach to representing cell lines using text mining techniques, employing Principal Component Analysis (PCA) and Support Vector Data Description (SVDD). The main objectives were the extraction and processing of textual information from scientific literature, followed by its transformation into numerical representations, thereby developing a hierarchical clustering methodology. To achieve this, a dataset of cell lines was collected from sources such as Cellosaurus and PubMed. Python, along with libraries like pandas and scikit-learn, was employed for data processing, analysis, and modeling. The textual data underwent preprocessing, which included stemming and TF-IDF transformation, resulting in numerical feature vectors. PCA was utilized for dimensional reduction of the data while preserving its variance. SVDD identified atypical values, and the distances between cell lines were visualized through the construction of a dendrogram. The results revealed an innovative way to represent cell lines, allowing for the identification of groups and similarities among different lines. The dendrogram visually represented hierarchical relationships, providing insights into cell line clusters.es_ES
dc.language.isospaes_ES
dc.publisherQuito : EPN, 2023.es_ES
dc.rightsopenAccesses_ES
dc.subjectCOMPUTACIÓNes_ES
dc.subjectORDENADORes_ES
dc.subjectLÍNEAS CELULARESes_ES
dc.subjectMINERÍA DE TEXTOes_ES
dc.subjectAGRUPACIÓN JERÁRQUICAes_ES
dc.titleAnálisis de Similitud en Representación de la Información en líneas celulares : Árbol de distancia correspondiente a la representación de líneas celulares basada en minería de texto.es_ES
dc.typeTrabajo de Integración Curriculares_ES
Aparece en las colecciones:TIC - Ingeniería en Ciencias de la Computación

Ficheros en este ítem:
Fichero Descripción TamañoFormato 
CD 13621.pdf965,83 kBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.