Beautiful Soup
Apariencia
Beautiful Soup | ||
---|---|---|
Información general | ||
Tipo de programa | web scraping | |
Autor | Leonard Richardson | |
Licencia |
Python Software Foundation License (Inferior a la versión 4) Licencia MIT (A partir de la versión 4)[1] | |
Información técnica | ||
Programado en | Python | |
Versiones | ||
Última versión estable | 4.12.317 de enero de 2024 | |
Enlaces | ||
Beautiful Soup es una biblioteca de Python para extraer datos de documentos HTML y XML (incluyendo los que tienen un marcado incorrecto). Esta biblioteca crea un árbol con todos los elementos del documento y puede ser utilizado para extraer información. Por lo tanto, esta biblioteca es útil para realizar web scraping — extraer información de sitios web.[2]
Beautiful Soup no es un analizador de documentos (parser), sino que crea las estructuras de datos necesarias para manejar de manera sencilla los datos extraídos por los analizadores, los cuales no forman parte del paquete, sobre los que trabaja.
Código de ejemplo
[editar]# extracción de todos los enlaces de un documento html
from bs4 import BeautifulSoup
with open("./index.html") as f:
soup = BeautifulSoup(f)
for anchor in soup.find_all('a'):
print(anchor.get('href', '/'))
Referencias
[editar]- ↑ «Beautiful Soup website». Consultado el 18 de abril de 2012. «Beautiful Soup is licensed under the same terms as Python itself».
- ↑ «Beautiful Soup website». Consultado el 18 de abril de 2012.