پروژه‌های عملی در پایتون (بخش دوم)

ایجاد شده توسط دکتر مصطفی جلیلی در آموزش برنامه نویسی پایتون 27 مارس 2025

ساخت یک وب اسکرپر با BeautifulSoup در پایتون

وب اسکرپینگ (Web Scraping) یعنی استخراج اطلاعات از صفحات وب به صورت خودکار با استفاده از کد. یکی از پرکاربردترین کتابخانه‌ها برای این کار در پایتون، BeautifulSoup هست که در کنار requests استفاده می‌شه.

1. نصب کتابخانه‌ها

قبل از شروع، ابتدا باید کتابخانه‌های موردنیاز رو نصب کنیم:

pip install requests
pip install beautifulsoup4

2. وارد کردن کتابخانه‌ها

import requests
from bs4 import BeautifulSoup

3. ارسال درخواست به یک صفحه وب

فرض کن می‌خوای اطلاعات از یک صفحه ساده‌ی وب بگیریم. اول باید محتوای HTML اون صفحه رو دریافت کنیم:

url = "https://example.com"
response = requests.get(url)
# بررسی وضعیت پاسخ

if response.status_code == 200:
 html_content = response.text
else:
 print("خطا در دریافت صفحه:", response.status_code)

4. تجزیه (parse) کردن HTML

soup = BeautifulSoup(html_content, "html.parser")

حالا متغیر soup مثل یک درخت HTML عمل می‌کنه و می‌تونی باهاش عناصر صفحه رو پیدا کنی.

5. استخراج اطلاعات

5.1 پیدا کردن یک تگ خاص

title_tag = soup.find("title")
print("عنوان صفحه:", title_tag.text)

5.2 پیدا کردن همه‌ی تگ‌ها از یک نوع (مثلاً لینک‌ها)

all_links = soup.find_all("a")

for link in all_links:

 href = link.get("href")

 text = link.text.strip()

 print("متن لینک:", text)

 print("آدرس لینک:", href)

5.3 فیلتر کردن بر اساس کلاس یا ID

element = soup.find("div", class_="article-body")
print(element.text)

یا مثلاً:

header = soup.find("h1", id="main-title")
print(header.text)

6. نکات مهم امنیتی و اخلاقی

همیشه robots.txt سایت هدف رو بررسی کن. بعضی از سایت‌ها اجازه‌ی اسکرپینگ نمی‌دن.

تعداد درخواست‌ها رو کنترل کن (مثلاً با time.sleep(1) بین هر درخواست) تا سرور رو تحت فشار نذاری.

از headers مناسب استفاده کن:

headers = {
 "User-Agent": "Mozilla/5.0 (compatible; MyScraper/1.0)"
}
response = requests.get(url, headers=headers)

7. ذخیره اطلاعات استخراج‌شده (اختیاری)

with open("data.txt", "w", encoding="utf-8") as f:
 for link in all_links:
 href = link.get("href")
 text = link.text.strip()
 f.write(f"{text} - {href}\n")

نظرات (0)

دکتر مصطفی جلیلی

Instructor role

پست‌های نویسنده

دسته بندی ها

راهنما آموزشی اخبار مقالات آموزش لینوکس آموزش برنامه نویسی پایتون آموزش برنامه نویسی گولنگ آموزش برنامه نویسی هوش مصنوعی آموزش برنامه نویسی سالیدیتی آموزش برنامه نویسی Rust آموزش برنامه نویسی React برنامه نویسی ربات تلگرام

پست‌های اخیر

آموزش لینوکس - جلسه ...

23 اکتبر 2024

آموزش لینوکس - جلسه ...

23 اکتبر 2024

آموزش لینوکس - جلسه ...

23 اکتبر 2024

آموزش لینوکس - جلسه ...

23 اکتبر 2024

آموزش لینوکس - جلسه ...

15 اکتبر 2024

مشاهده همه پست‌ها

پروژه‌های عملی در پایتون (بخش دوم)

ساخت یک وب اسکرپر با BeautifulSoup در پایتون

5.1 پیدا کردن یک تگ خاص

5.2 پیدا کردن همه‌ی تگ‌ها از یک نوع (مثلاً لینک‌ها)

5.3 فیلتر کردن بر اساس کلاس یا ID

7. ذخیره اطلاعات استخراج‌شده (اختیاری)

نظرات (0)

دکتر مصطفی جلیلی

دسته بندی ها

پست‌های اخیر

آموزش لینوکس - جلسه ...

آموزش لینوکس - جلسه ...

آموزش لینوکس - جلسه ...

آموزش لینوکس - جلسه ...

آموزش لینوکس - جلسه ...

اشتراک گذاری

تنظیمات GDPR

پروژه‌های عملی در پایتون (بخش دوم)

ساخت یک وب اسکرپر با BeautifulSoup در پایتون

5.1 پیدا کردن یک تگ خاص

5.2 پیدا کردن همه‌ی تگ‌ها از یک نوع (مثلاً لینک‌ها)

5.3 فیلتر کردن بر اساس کلاس یا ID

7. ذخیره اطلاعات استخراج‌شده (اختیاری)

نظرات (0)

دکتر مصطفی جلیلی

دسته بندی ها

پست‌های اخیر

آموزش لینوکس - جلسه ...

آموزش لینوکس - جلسه ...

آموزش لینوکس - جلسه ...

آموزش لینوکس - جلسه ...

آموزش لینوکس - جلسه ...

اشتراک گذاری

حریم خصوصی شما

تنظیمات GDPR