Semalt: چگونه بلاک Darodar Robots.txt را مسدود کنیم

پرونده Robots.txt یک فایل متنی معمولی است که شامل دستورالعمل هایی درباره نحوه خزنده وب یا ربات های وب سایت است. کاربرد آنها در رباتهای موتور جستجو مشهود است که در بسیاری از وب سایتهای بهینه سازی شده وجود دارد. به عنوان بخشی از پروتکل خروج از روبات ها (REP) ، پرونده robots.txt یک جنبه اساسی برای فهرست بندی مطالب وب سایت و همچنین ایجاد یک سرور برای تأیید اعتبار درخواست های کاربر را در این زمینه ایجاد می کند.
جولیا واشنووا ، مدیر ارشد موفقیت مشتری ارشد سامسونگ ، توضیح می دهد که پیوند دادن جنبه ای از بهینه سازی موتور جستجو (SEO) است ، که شامل به دست آوردن ترافیک از سایر دامنه ها در طاقچه شما است. برای پیوندهای "دنبال کردن" برای انتقال آب پیوند ، ضروری است که یک فایل robots.txt را در فضای میزبانی وب سایت خود قرار دهید تا به عنوان مربی نحوه تعامل سرور با سایت شما عمل کند. از این بایگانی ، دستورالعمل ها با اجازه یا عدم اجازه از رفتار برخی از عوامل خاص کاربر ، ارائه شده است.
قالب اصلی یک پرونده robots.txt
یک پرونده robots.txt شامل دو خط اساسی است:
عامل کاربر: [نام نماینده کاربر]
عدم اجازه: [رشته URL خزنده نمی شود]
یک فایل کامل robots.txt باید شامل این دو خط باشد. با این حال ، برخی از آنها می توانند حاوی چندین خط عامل و دستورالعمل کاربر باشند. این دستورات ممکن است جنبه هایی مانند اجازه ، مجاز یا تأخیر در خزیدن داشته باشد. معمولاً یک خط خط وجود دارد که هر مجموعه دستورالعمل را از هم جدا می کند. هر یک از دستورالعمل ها اجازه یا اجازه نمی دهد با این شکست خط جدا شوند ، به خصوص برای robots.txt با چند خط.

مثال ها
به عنوان مثال ، یک پرونده robots.txt ممکن است دارای کدهایی مانند:
نماینده کاربر: darodar
غیرفعال کردن: / افزونه
رد کردن: / API
مجاز نیست: / _ اظهارات
در این حالت ، این یک فایل robots.txt است که دسترسی خزنده وب دارودار را از دسترسی به وب سایت شما محدود می کند. در نحو فوق ، کد جنبه های وب سایت مانند افزونه ها ، API و بخش نظرات را مسدود می کند. از این دانش ، می توان مزایای بی شماری از اجرای فایل متنی ربات را به طور موثر بدست آورد. پرونده های Robots.txt می توانند عملکردهای بی شماری را انجام دهند. به عنوان مثال ، آنها می توانند آماده باشند:
1. اجازه دهید تمام محتوای خزنده وب در صفحه وب سایت قرار بگیرند. برای مثال؛
عامل کاربر: *
رد کردن:
در این حالت ، به هر خزنده ای که از وی خواسته شده است برای دستیابی به یک وب سایت دسترسی پیدا کند ، به همه محتوای کاربر قابل دسترسی است.
2. محتوای وب خاص را از یک پوشه خاص مسدود کنید. مثلا؛
نماینده کاربر: Googlebot
غیرفعال کردن: / مثال-زیر پوشه /
این نحو حاوی نام عامل کاربر Googlebot متعلق به Google است. این دسترسی bot به هر صفحه وب در رشته www.ourexample.com/example-subfolder/ را محدود می کند.
3. یک خزنده وب خاص را از یک صفحه وب خاص مسدود کنید. مثلا؛
نماینده کاربر: Bingbot
مجاز نیست: /example-subfolder/blocked-page.html
کاربر عامل نماینده Bing متعلق به خزنده های وب بینگ است. این نوع فایل robots.txt خزنده وب بینگ را از دسترسی به صفحه خاصی با رشته www.ourexample.com/example-subfolder/blocked-page محدود می کند.
اطلاعات مهم
- هر کاربر از پرونده robts.txt شما استفاده نمی کند. برخی از کاربران ممکن است تصمیم بگیرند که آن را نادیده بگیرند. بسیاری از چنین خزنده های وب شامل Trojans و بدافزار هستند.
- برای اینکه پرونده Robots.txt قابل مشاهده باشد ، باید در فهرست وب سایتهای سطح بالا موجود باشد.
- شخصیت های "robots.txt" حساس به مورد هستند. در نتیجه ، شما نباید آنها را به هیچ وجه از جمله سرمایه گذاری در بعضی جنبه ها تغییر دهید.
- "/robots.txt" دامنه عمومی است. هر کس می تواند با اضافه کردن آن به محتوای هر URL بتواند این اطلاعات را پیدا کند. شما نباید جزئیات اصلی یا صفحاتی را که می خواهید خصوصی به آنها اختصاص دهید ، فهرست نکنید.