Я хочу наскрести информацию о продукте с этого веб-сайта: http://megabuy.vn/Default.aspx .
Мое решение состоит в том, чтобы очистить сайт в соответствии со структурой сайта. Поэтому сначала я должен соскрести все ссылки об общей категории, прежде чем перейти к подкатегории, а затем к каждому конкретному продукту.
У меня есть проблемы соскоб все ссылки общие категории, как:
- тиет Би Ван Фонг
- may hut am
- do da dung nha bep
так далее…
Я думаю, что проблема в том, что эти ссылки находятся под тегом Java script.
Вот мой код:
from bs4 import BeautifulSoup
import requests
import re
def web_scrape(url):
web_connect = requests.get(url)
text = web_connect.text
soup = BeautifulSoup(text,"html.parser")
return soup
homepage = web_scrape("http://megabuy.vn/Default.aspx")
listgianhang = homepage.findAll("a", class_=re.compile("ContentPlaceholder"))
len(listgianhang)
Я получил результат: 0
из:
Причина, по которой вы не можете получить тег по классу, заключается в том, что класс тега генерируется JavaScript, необработанный html-код выглядит следующим образом:
Реальный код не содержит атрибут class.