Limpieza de datos para el procesamiento de lenguaje natural

Por: Coursera . en: , ,

  • Web Scraping para Procesamiento de Lenguaje Natural
    • Este módulo te permitirá obtener los conocimientos necesarios para la construcción de un programa de extracción de datos de páginas Web basadas en HTML.
  • HTML Parsing para Procesamiento de Lenguaje Natural
    • En este módulo se describen un conjunto de pasos necesarios para el pre procesar páginas HTML y extraer información de ellas. Además, se detallarán distintos tipos de aproximación al mismo.
  • Técnicas avanzadas de Scraping
    • En este módulo se presentarán las técnicas avanzadas de scraping para extracción de datos de páginas HTML que utilizan diversas librerías de JavaScript para su construcción
  • Técnicas de Manipulación de texto
    • Una vez estriado el texto de las paginas HTML que es una fuente habitual de extracción de información, se pueden sumar distintas fuentes de tipos de datos, como ser PDF, DOC, XLS e imágenes. En este módulo se verán diversas técnicas que pueden servir para recolectar la información de ellas y unificarlas en un mismo conjunto de documentos.

Plataforma