Ir al contenido

Beautiful Soup

De Wikipedia, la enciclopedia libre
Beautiful Soup
Información general
Tipo de programa web scraping
Autor Leonard Richardson
Licencia Python Software Foundation License (Inferior a la versión 4)
Licencia MIT (A partir de la versión 4)[1]
Información técnica
Programado en Python
Versiones
Última versión estable 4.12.317 de enero de 2024
Enlaces

Beautiful Soup es una biblioteca de Python para extraer datos de documentos HTML y XML (incluyendo los que tienen un marcado incorrecto). Esta biblioteca crea un árbol con todos los elementos del documento y puede ser utilizado para extraer información. Por lo tanto, esta biblioteca es útil para realizar web scraping — extraer información de sitios web.[2]

Beautiful Soup no es un analizador de documentos (parser), sino que crea las estructuras de datos necesarias para manejar de manera sencilla los datos extraídos por los analizadores, los cuales no forman parte del paquete, sobre los que trabaja.

Código de ejemplo

[editar]
# extracción de todos los enlaces de un documento html
from bs4 import BeautifulSoup

with open("./index.html") as f:
    soup = BeautifulSoup(f)
 
for anchor in soup.find_all('a'):
    print(anchor.get('href', '/'))

Referencias

[editar]
  1. «Beautiful Soup website». Consultado el 18 de abril de 2012. «Beautiful Soup is licensed under the same terms as Python itself». 
  2. «Beautiful Soup website». Consultado el 18 de abril de 2012.