Back to Question Center
0

Semalt نکاتی را درباره نحوه برخورد با رباتها، عنکبوت ها و خزنده ها ارائه می دهد

1 answers:

به غیر از ایجاد موتور جستجو URL های دوستانه، فایل .htaccess اجازه می دهد تا مدیران وب سایت از ربات های خاص دسترسی به وب سایت خود را مسدود کنند. یک راه برای مسدود کردن این ربات ها از طریق فایل robots.txt است - group trips to peru. با این حال، راس باربر، Semalt مدیر موفقیت مشتری، می گوید که او برخی از خزنده ها را نادیده گرفته است و این درخواست را نادیده گرفته است. یکی از بهترین روش ها این است که از فایل .htaccess استفاده کنید تا آنها را از فهرست محتوای شما متوقف کند.

اینها رباتها هستند؟

آنها یک نوع نرم افزاری هستند که توسط موتورهای جستجو استفاده می شود تا محتوای جدید را از اینترنت برای حذف فهرست های اینترنتی حذف کنند.

آنها وظایف زیر را انجام می دهند:

  • مشاهده صفحات وب که به آن مرتبط شده اید
  • کد HTML خود را برای خطاها بررسی کنید
  • آنها صفحات وب را که به آن لینک می کنید ذخیره می کنند و ببینید چه صفحات وب به محتوای شما پیوند دارند
  • مطالب شما را فهرست می کنند

با این حال، بعضی از رباتها مخرب هستند و سایت شما را برای آدرس های ایمیل و فرمهایی که معمولا برای ارسال پیام های ناخواسته یا هرزنامه شما ارسال می شوند، جستجو می کنند. دیگران حتی در کد خود به نقاط ضعف امنیتی نگاه می کنند.

چه چیزی برای جلوگیری از خزنده های وب مورد نیاز است؟

قبل از استفاده از فایل .htaccess، شما باید موارد زیر را بررسی کنید:

1. سایت شما باید در یک سرور آپاچی اجرا شود. امروزه، حتی شرکتهای میزبانی وب از کار خودشان متناسب هستند، به پرونده مورد نیاز خود دسترسی دارند .

2. شما باید به شما دسترسی داشته باشید، سیاهههای سرور خام از وب سایت خود را به طوری که شما می توانید پیدا کردن آنچه که ربات ها بازدید از صفحات وب خود را.

توجه داشته باشید هیچ راهی وجود ندارد که بتوانید تمام رباتهای مضر را مسدود کنید مگر اینکه همه آنها را مسدود کنید، حتی کسانی که در نظر داشته باشید مفید هستند. هر روز ربات های جدیدی می آیند و قدیمی تر تغییر می کنند. کارآمدترین راه این است که کد خود را ایمن نگه دارید و برای رباتها به شما هشدار بدهد.

شناسایی رباتها

ربات ها می توانند یا توسط آدرس آی پی و یا از "عامل رشته کاربر" آنها، که آنها را در هدر HTTP ارسال می شود. به عنوان مثال، Google از Googlebot استفاده می کند.

شما ممکن است این لیست را با 302 ربات بخواهید اگر شما قبلا نام ربات دارید که می خواهید با استفاده از .htaccess

اگر شما می دانید که چه صفحه ای بازدید کرده اید، یا زمان بازدید، ساده تر با یک ربات ناخواسته همراه است. شما می توانید با استفاده از این پارامترها فایل log را جستجو کنید

یک بار شما اشاره کرده اید کدام رباتها شما باید مسدود کنید شما می توانید آنها را در فایل .htaccess وارد کنید. لطفا توجه داشته باشید که مسدود کردن ربات به اندازه کافی برای جلوگیری از آن نیست. ممکن است با یک آی پی یا نام جدید باز شود

چگونه آنها را مسدود

یک کپی از فایل .htaccess را دانلود کنید. در صورت لزوم پشتیبان گیری کنید

روش 1: مسدود کردن توسط IP

این قطعه کد راکت را با استفاده از آدرس IP 197.0.0.1

سفارش ممنوع، اجازه

انکار از 197.0.0.1

خط اول بدان معنی است که سرور تمام درخواستها را مطابق با الگوهایی که مشخص کرده اید را مسدود می کند و به همه دیگران اجازه می دهد.

خط دوم به سرور می گوید که 403: صفحه ممنوعه

روش 2: مسدود کردن توسط عوامل کاربر

ساده ترین راه استفاده از موتور بازنویسی Apache

RewriteEngine On

RewriteCond٪ {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F، L]

خط اول تضمین می کند که ماژول بازنویسی فعال باشد. خط دو شرطی است که قانون به آن اعمال می شود. "F" در خط 4 سرور را برای بازگشت 403 می فرستد: ممنوع است در حالی که "L" به این معنی است که آخرین قاعده است.

شما سپس فایل .htaccess را به سرور خود آپلود میکنید و یک موجود را بازنویسی میکنید. با گذشت زمان، شما باید IP ربات را به روز کنید. در صورتی که خطایی ایجاد کردید، فقط نسخه پشتیبان تهیه کنید که انجام داده اید.

November 29, 2017