Por favor, use este identificador para citar o enlazar este ítem: http://bibdigital.epn.edu.ec/handle/15000/24913
Título: Análisis de Similitud en Representación de la Información en líneas celulares : Árbol de distancia correspondiente a la representación de líneas celulares basada en minería de texto.
Autor: Guanoluisa Herrera, Henry David
Director: Carrera Izurieta, Iván Marcelo
Palabras clave: COMPUTACIÓN
ORDENADOR
LÍNEAS CELULARES
MINERÍA DE TEXTO
AGRUPACIÓN JERÁRQUICA
Fecha de publicación: 2-oct-2023
Editorial: Quito : EPN, 2023.
Citación: Guanoluisa Herrera, H. D.(2023).Análisis de Similitud en Representación de la Información en líneas celulares : Árbol de distancia correspondiente a la representación de líneas celulares basada en minería de texto.39 páginas. Quito : EPN.
Resumen: In the current research, the representation and comparison of cell lines play a crucial role in understanding the behavior and interactions of cell lines. This study implements an innovative approach to representing cell lines using text mining techniques, employing Principal Component Analysis (PCA) and Support Vector Data Description (SVDD). The main objectives were the extraction and processing of textual information from scientific literature, followed by its transformation into numerical representations, thereby developing a hierarchical clustering methodology. To achieve this, a dataset of cell lines was collected from sources such as Cellosaurus and PubMed. Python, along with libraries like pandas and scikit-learn, was employed for data processing, analysis, and modeling. The textual data underwent preprocessing, which included stemming and TF-IDF transformation, resulting in numerical feature vectors. PCA was utilized for dimensional reduction of the data while preserving its variance. SVDD identified atypical values, and the distances between cell lines were visualized through the construction of a dendrogram. The results revealed an innovative way to represent cell lines, allowing for the identification of groups and similarities among different lines. The dendrogram visually represented hierarchical relationships, providing insights into cell line clusters.
Descripción: En la presente investigación, la representación y comparación de líneas celulares tiene un papel sumamente importante en el entendimiento del comportamiento e interacciones. Este estudio implementa un enfoque innovador al representar líneas celulares utilizando técnicas de minería de texto, utilizando análisis de componentes principales (PCA) y Descripción de datos basado en vectores de soporte (SVDD). Los principales objetivos fueron la extracción y procesamiento de información textual de la literatura científica, para luego transformarla en representaciones numéricas y así desarrollar una metodología de agrupación jerárquica. Para lograr los objetivos del proyecto, se recopiló un conjunto de data de líneas celulares de fuentes como Cellosaurus y PubMed. Se utilizó Python, junto con librerías como pandas y scikit-learn, para el procesamiento, análisis y modelado de la data. La data de texto fue sometida a un preprocesamiento, que incluyó la reducción a raíz y la transformación TF-IDF, lo que arrojó como vectores de características numéricas. PCA se utilizó para la reducción dimensional de la data que al mismo tiempo preserva su variación. SVDD identificó aquellos valores no típicos y las distancias entre líneas celulares que se visualizaron mediante la construcción de un dendograma. Los resultados revelaron una forma novedosa de representar las líneas celulares, permitiendo la identificación de grupos y similitudes entre diferentes líneas. El dendograma representó visualmente relaciones jerárquicas, mostrando información sobre conjuntos celulares.
URI: http://bibdigital.epn.edu.ec/handle/15000/24913
Tipo: Trabajo de Integración Curricular
Aparece en las colecciones:TIC - Ingeniería en Ciencias de la Computación

Ficheros en este ítem:
Fichero Descripción TamañoFormato 
CD 13621.pdf965,83 kBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.