Por favor, use este identificador para citar o enlazar este ítem: http://bibdigital.epn.edu.ec/handle/15000/19998
Título: Implementación de técnicas para minería de texto usando modelos de tópicos.
Autor: Castillo Muñoz, Christian Eduardo
Palabras clave: MODELOS DE TÓPICOS
BOLSA DE PALABRAS
Fecha de publicación: 4-feb-2019
Editorial: Quito, 2019.
Citación: Castillo Muñoz, C.E. (2019). Implementación de técnicas para minería de texto usando modelos de tópicos
Resumen: Text mining allows the extraction of relevant information from large volumes of data. To carry out this process, text mining exploits techniques and methodologies in the areas of information retrieval, information extraction and corpus-based computational linguistics. The main input for text mining is semi-structured and unstructured documents. This input adds complications to the analysis process, since the rules of natural language must be considered. There are probabilistic methods of analysis for the extraction of relevant characteristics of text documents, which are not affected by the context in which the words are found, compared to the methods of topic analysis that are based on linguistic analysis. that these models are based on the criteria that documents are a "bag of words". One of the models of the mentioned type is LDA (Latent Dirichlet Allocation), which assumes that a document is a random mix of latent themes, where each theme is characterized by a distribution over words; This distribution of words is linked to random variables. LDA intends to find these variables to determine the existing topics in a set of documents.
Descripción: La minería de texto permite la extracción de información relevante de grandes volúmenes de datos. Para realizar este proceso, la minería de texto explota técnicas y metodologías de las áreas de recuperación de información, extracción de información y lingüística computacional basada en corpus. El principal insumo para la minería de texto son los documentos semi estructurados y no estructurados. Este insumo añade complicaciones al proceso de análisis, ya que se debe considerar las reglas del lenguaje natural. Existen métodos de análisis probabilísticos para la extracción de características relevantes de documentos de texto, que en comparación con los métodos de análisis de tópicos que se basan en el análisis lingüístico, no se ven afectados por el contexto en el cual se encuentren las palabras, ya que estos modelos se basan en el criterio que los documentos son una “bolsa de palabras”. Uno de los modelos del tipo mencionado es LDA(Latent Dirichlet Allocation), que asume que un documento es una mezcla aleatoria sobre temas latentes, donde cada tema se caracteriza por una distribución sobre las palabras; esta distribución de las palabras viene ligada a variables aleatorias. LDA pretende encontrar dichas variables para determinar los tópicos existentes en un conjunto de documentos.
URI: http://bibdigital.epn.edu.ec/handle/15000/19998
Tipo: bachelorThesis
Aparece en las colecciones:Tesis Sistemas Informáticos y de Computación (ISIS)

Ficheros en este ítem:
Fichero Descripción TamañoFormato 
CD-9448.pdf4,11 MBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.