Please use this identifier to cite or link to this item: http://bibdigital.epn.edu.ec/handle/15000/19998
Title: Implementación de técnicas para minería de texto usando modelos de tópicos.
Authors: Castillo Muñoz, Christian Eduardo
Keywords: MODELOS DE TÓPICOS
BOLSA DE PALABRAS
Issue Date: 4-Feb-2019
Publisher: Quito, 2019.
Citation: Castillo Muñoz, C.E. (2019). Implementación de técnicas para minería de texto usando modelos de tópicos
Abstract: Text mining allows the extraction of relevant information from large volumes of data. To carry out this process, text mining exploits techniques and methodologies in the areas of information retrieval, information extraction and corpus-based computational linguistics. The main input for text mining is semi-structured and unstructured documents. This input adds complications to the analysis process, since the rules of natural language must be considered. There are probabilistic methods of analysis for the extraction of relevant characteristics of text documents, which are not affected by the context in which the words are found, compared to the methods of topic analysis that are based on linguistic analysis. that these models are based on the criteria that documents are a "bag of words". One of the models of the mentioned type is LDA (Latent Dirichlet Allocation), which assumes that a document is a random mix of latent themes, where each theme is characterized by a distribution over words; This distribution of words is linked to random variables. LDA intends to find these variables to determine the existing topics in a set of documents.
Description: La minería de texto permite la extracción de información relevante de grandes volúmenes de datos. Para realizar este proceso, la minería de texto explota técnicas y metodologías de las áreas de recuperación de información, extracción de información y lingüística computacional basada en corpus. El principal insumo para la minería de texto son los documentos semi estructurados y no estructurados. Este insumo añade complicaciones al proceso de análisis, ya que se debe considerar las reglas del lenguaje natural. Existen métodos de análisis probabilísticos para la extracción de características relevantes de documentos de texto, que en comparación con los métodos de análisis de tópicos que se basan en el análisis lingüístico, no se ven afectados por el contexto en el cual se encuentren las palabras, ya que estos modelos se basan en el criterio que los documentos son una “bolsa de palabras”. Uno de los modelos del tipo mencionado es LDA(Latent Dirichlet Allocation), que asume que un documento es una mezcla aleatoria sobre temas latentes, donde cada tema se caracteriza por una distribución sobre las palabras; esta distribución de las palabras viene ligada a variables aleatorias. LDA pretende encontrar dichas variables para determinar los tópicos existentes en un conjunto de documentos.
URI: http://bibdigital.epn.edu.ec/handle/15000/19998
Type: bachelorThesis
Appears in Collections:Tesis Sistemas Informáticos y de Computación (ISIS)

Files in This Item:
File Description SizeFormat 
CD-9448.pdf4,11 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.