Hướng dẫn cơ bản về robots.txt

Hướng dẫn cơ bản về robots.txt

Tệp Robots.txt là gì?

Trở lại khi Internet chỉ là một đứa trẻ có khuôn mặt trẻ thơ với tiềm năng làm được những điều tuyệt vời, các nhà phát triển đã nghĩ ra một cách để thu thập thông tin và lập chỉ mục các trang mới trên web. Họ gọi những thứ này là ‘người máy’ hay ‘người nhện’. Đôi khi những đứa trẻ này lang thang trên các trang web không nhằm mục đích thu thập thông tin và lập chỉ mục, chẳng hạn như các trang web đang được bảo trì. Người tạo ra công cụ tìm kiếm đầu tiên trên thế giới, Aliweb, đã đề xuất một giải pháp – một bản đồ đường đi mà mỗi robot phải tuân theo.

Lộ trình này được hoàn thiện vào tháng 6 năm 1994 bởi một tập hợp các kỹ thuật viên am hiểu về internet, với tên gọi “ Giao thức loại trừ rô bốt ”. Tệp robots.txt là nơi thực thi giao thức này. Giao thức mô tả các nguyên tắc mà mọi rô bốt đích thực phải tuân theo, bao gồm cả các rô bốt của Google. Theo định nghĩa, một số rô bốt bất hợp pháp, chẳng hạn như phần mềm độc hại, phần mềm gián điệp và những thứ tương tự, hoạt động bên ngoài các quy tắc này. Bạn có thể xem qua bức màn của bất kỳ trang web nào bằng cách nhập URL bất kỳ và thêm: /robots.txt vào cuối. Ví dụ: đây là phiên bản của POD Digital:

Hướng dẫn cơ bản về robots.txt

  Như bạn thấy, không nhất thiết phải có một tập tin toàn ca hát, nhảy múa vì chúng tôi là một trang web tương đối nhỏ.

Định vị tệp Robots.txt ở đâu

Tệp robots.txt của bạn sẽ được lưu trữ trong thư mục gốc của trang web của bạn. Để tìm nó, hãy mở cPanel FTP của bạn và bạn sẽ có thể tìm thấy tệp trong thư mục trang web public_html của mình.

Hướng dẫn cơ bản về robots.txt

  Không có gì đối với những tệp này để chúng không quá nặng – có thể chỉ vài trăm byte, nếu vậy. Khi bạn mở tệp trong trình soạn thảo văn bản của mình, bạn sẽ được chào đón bằng một cái gì đó trông giống như sau:

Hướng dẫn cơ bản về robots.txt

  Nếu bạn không thể tìm thấy một tệp trong hoạt động bên trong trang web của mình, thì bạn sẽ phải tạo tệp của riêng mình.

Cách kết hợp một tệp Robots.txt với nhau

Robots.txt là một tệp văn bản siêu cơ bản, vì vậy nó thực sự dễ tạo. Tất cả những gì bạn cần là một trình soạn thảo văn bản đơn giản như Notepad. Mở một trang tính và lưu trang trống dưới dạng, ‘robots.txt’. Bây giờ đăng nhập vào cPanel của bạn và tìm thư mục public_html để truy cập thư mục gốc của trang web. Sau khi mở, hãy kéo tệp của bạn vào đó. Cuối cùng, bạn phải đảm bảo rằng bạn đã đặt quyền chính xác cho tệp. Về cơ bản, với tư cách là chủ sở hữu, bạn sẽ cần viết, đọc và chỉnh sửa tệp, nhưng không bên nào khác được phép làm như vậy. Tệp phải hiển thị mã quyền “0644”.

Hướng dẫn cơ bản về robots.txt

  Nếu không, bạn sẽ cần thay đổi điều này, vì vậy hãy nhấp vào tệp và chọn, “quyền tệp”. Thì đấy! Bạn có tệp Robots.txt.

Cú pháp Robots.txt

Tệp robots.txt được tạo thành từ nhiều phần ‘chỉ thị’, mỗi phần bắt đầu bằng một tác nhân người dùng được chỉ định. Tác nhân người dùng là tên của bot thu thập thông tin cụ thể mà mã đang nói chuyện. Có hai tùy chọn có sẵn:

  1. Bạn có thể sử dụng ký tự đại diện để giải quyết tất cả các công cụ tìm kiếm cùng một lúc.
  2. Bạn có thể giải quyết các công cụ tìm kiếm cụ thể một cách riêng lẻ.

Khi một bot được triển khai để thu thập dữ liệu một trang web, nó sẽ được thu hút đến các khối đang gọi đến chúng. Đây là một ví dụ:

Hướng dẫn cơ bản về robots.txt

Chỉ thị tác nhân người dùng

Vài dòng đầu tiên trong mỗi khối là ‘tác nhân người dùng’, xác định chính xác một bot cụ thể. Tác nhân người dùng sẽ khớp với một tên bot cụ thể, ví dụ:

Hướng dẫn cơ bản về robots.txt

  Vì vậy, nếu bạn muốn cho Googlebot biết phải làm gì, chẳng hạn, hãy bắt đầu với: Tác nhân người dùng: Googlebot Các công cụ tìm kiếm luôn cố gắng xác định các chỉ thị cụ thể có liên quan chặt chẽ nhất đến chúng. Vì vậy, ví dụ: nếu bạn có hai lệnh, một cho Googlebot-Video và một cho Bingbot. Một bot đi kèm với tác nhân người dùng ‘Bingbot’ sẽ làm theo hướng dẫn. Trong khi đó, bot ‘Googlebot-Video’ sẽ vượt qua điều này và tìm kiếm một chỉ thị cụ thể hơn.

Chỉ thị Máy chủ

Chỉ thị máy chủ lưu trữ hiện chỉ được Yandex hỗ trợ, mặc dù một số suy đoán cho rằng Google có hỗ trợ nó. Chỉ thị này cho phép người dùng quyết định xem có hiển thị www hay không. trước một URL sử dụng khối này: Máy chủ: poddigital.co.uk Vì Yandex là người ủng hộ duy nhất được xác nhận của chỉ thị, không nên dựa vào nó. Thay vào đó, 301 chuyển hướng các tên máy chủ mà bạn không muốn đến những tên mà bạn làm.

Không cho phép Chỉ thị

Chúng tôi sẽ trình bày vấn đề này một cách cụ thể hơn một chút sau. Dòng thứ hai trong một khối lệnh là Không cho phép. Bạn có thể sử dụng điều này để chỉ định phần nào của trang web không được truy cập bởi bot. Không cho phép trống có nghĩa là nó là miễn phí cho tất cả và các bot có thể tự làm hài lòng về nơi chúng làm và không ghé thăm.

Chỉ thị về Sơ đồ trang web (Sơ đồ trang web XML)

Sử dụng chỉ thị sơ đồ trang web cho các công cụ tìm kiếm biết nơi tìm sơ đồ trang XML của bạn . Tuy nhiên, có lẽ điều hữu ích nhất cần làm là gửi từng cái đến các công cụ quản trị trang web cụ thể của công cụ tìm kiếm. Điều này là do bạn có thể học được nhiều thông tin có giá trị từ mỗi trang web của bạn. Tuy nhiên, nếu bạn thiếu thời gian, chỉ thị sơ đồ trang web là một giải pháp thay thế khả thi.

Chỉ thị về độ trễ thu thập thông tin

Hướng dẫn cơ bản về robots.txt

Yahoo, Bing và Yandex có thể là một chút kích thích khi thu thập thông tin, nhưng họ phản ứng với chỉ thị trì hoãn thu thập thông tin, điều này khiến chúng không hoạt động trong một thời gian. Áp dụng dòng này cho khối của bạn: Độ trễ thu thập thông tin: 10 có nghĩa là bạn có thể khiến công cụ tìm kiếm đợi mười giây trước khi thu thập dữ liệu trang web hoặc mười giây trước khi chúng truy cập lại trang web sau khi thu thập thông tin – về cơ bản thì giống nhau, nhưng hơi khác tùy thuộc vào công cụ tìm kiếm.

Tại sao sử dụng Robots.txt

Bây giờ bạn đã biết về những điều cơ bản và cách sử dụng một số lệnh, bạn có thể tập hợp tệp của mình lại với nhau. Tuy nhiên, bước tiếp theo này sẽ đi đến loại nội dung trên trang web của bạn. Robots.txt không phải là một yếu tố cần thiết cho một trang web thành công; trên thực tế, trang web của bạn vẫn có thể hoạt động chính xác và xếp hạng tốt mà không cần trang web.

Tuy nhiên, có một số lợi ích chính mà bạn phải biết trước khi loại bỏ nó:

  • Điểm Bots Cách xa Thư mục Riêng tư : Việc ngăn chặn bot kiểm tra các thư mục riêng tư của bạn sẽ khiến chúng khó tìm và lập chỉ mục hơn nhiều.
  • Luôn kiểm soát tài nguyên : Mỗi khi bot thu thập thông tin qua trang web của bạn, nó sẽ hút băng thông và các tài nguyên máy chủ khác. Ví dụ, đối với các trang web có nhiều nội dung và nhiều trang, các trang thương mại điện tử có thể có hàng nghìn trang và các tài nguyên này có thể bị cạn kiệt nhanh chóng. Bạn có thể sử dụng robots.txt để gây khó khăn cho bot khi truy cập các tập lệnh và hình ảnh riêng lẻ; điều này sẽ giữ lại các tài nguyên có giá trị cho khách truy cập thực
  • Chỉ định Vị trí Sơ đồ trang web của Bạn : Đây là một điểm khá quan trọng, bạn muốn cho các trình thu thập thông tin biết vị trí của Sơ đồ trang web của bạn để họ có thể quét qua.
  • Tránh xa nội dung trùng lặp khỏi SERPs : Bằng cách thêm quy tắc vào rô bốt của mình, bạn có thể ngăn trình thu thập thông tin lập chỉ mục các trang chứa nội dung trùng lặp.

Bạn sẽ tự nhiên muốn các công cụ tìm kiếm tìm đường đến các trang quan trọng nhất trên trang web của bạn. Bằng cách cắt bỏ các trang cụ thể một cách lịch sự, bạn có thể kiểm soát những trang nào được đưa ra trước người tìm kiếm ( tuy nhiên, hãy đảm bảo không bao giờ chặn hoàn toàn các công cụ tìm kiếm xem các trang nhất định).

Hướng dẫn cơ bản về robots.txt

  Ví dụ: nếu chúng tôi xem lại tệp rô bốt Kỹ thuật số POD, chúng tôi thấy rằng URL này: poddigital.co.uk/wp-admin  đã không được phép. Vì trang đó được tạo ra chỉ để chúng ta đăng nhập vào bảng điều khiển, nên không có ý nghĩa gì nếu cho phép các bot lãng phí thời gian và năng lượng của chúng để thu thập dữ liệu đó.

Noindex

Vào tháng 7 năm 2019, Google đã thông báo rằng họ sẽ ngừng hỗ trợ chỉ thị noindex cũng như nhiều quy tắc không được hỗ trợ và chưa được xuất bản trước đây mà nhiều người trong chúng ta đã dựa vào trước đây. Nhiều người trong chúng tôi đã quyết định tìm kiếm các cách thay thế để áp dụng lệnh noindex và bên dưới, bạn có thể thấy một số tùy chọn mà bạn có thể quyết định sử dụng để thay thế:

  • Thẻ Noindex / Tiêu đề phản hồi HTTP Noindex: Thẻ này có thể được triển khai theo hai cách, đầu tiên sẽ là tiêu đề phản hồi HTTP với X-Robots-Tag hoặc tạo thẻ <meta> sẽ cần được triển khai trong thẻ <head> phần.

Thẻ <meta> của bạn sẽ giống như ví dụ dưới đây: <meta name = “robots” content = “noindex”> MẸO : Hãy nhớ rằng nếu trang này đã bị chặn bởi tệp robots.txt, trình thu thập thông tin sẽ không bao giờ nhìn thấy thẻ noindex của bạn và vẫn có khả năng trang này sẽ được hiển thị trong SERPs.

  • Bảo vệ bằng mật khẩu: Google tuyên bố rằng trong hầu hết các trường hợp, nếu bạn ẩn một trang sau thông tin đăng nhập, thì trang đó sẽ bị xóa khỏi chỉ mục của Google. Ngoại lệ duy nhất được đưa ra nếu bạn sử dụng đánh dấu lược đồ, cho biết rằng trang có liên quan đến đăng ký hoặc nội dung có tường phí .
  • Mã trạng thái HTTP 404 & 410: Mã trạng thái 404 & 410 đại diện cho các trang không còn tồn tại. Khi một trang có trạng thái 404/410 được thu thập thông tin và xử lý hoàn toàn, trang đó sẽ tự động bị loại khỏi chỉ mục của Google.

Bạn nên thu thập dữ liệu trang web của mình một cách có hệ thống để giảm nguy cơ có các trang lỗi 404 & 410 và nếu cần, hãy sử dụng chuyển hướng 301 để chuyển hướng lưu lượng truy cập đến một trang hiện có.

  • Quy tắc không cho phép trong robots.txt: Bằng cách thêm quy tắc không cho phép trang cụ thể trong tệp robots.txt của bạn, bạn sẽ ngăn các công cụ tìm kiếm thu thập dữ liệu trang. Trong hầu hết các trường hợp, trang của bạn và nội dung của nó sẽ không được lập chỉ mục. Tuy nhiên, bạn nên nhớ rằng các công cụ tìm kiếm vẫn có thể lập chỉ mục trang dựa trên thông tin và liên kết từ các trang khác.
  • Công cụ xóa URL của Search Console: Công cụ gốc thay thế này không giải quyết được toàn bộ vấn đề lập chỉ mục, vì Công cụ xóa URL của Search Console xóa trang khỏi SERPs trong một thời gian giới hạn.

Tuy nhiên, điều này có thể cho bạn đủ thời gian để chuẩn bị thêm các quy tắc và thẻ cho rô bốt để xóa toàn bộ các trang khỏi SERPs. Bạn có thể tìm thấy Công cụ Xóa URL ở phía bên trái của điều hướng chính trên Google Search Console.  

Noindex so với Disallow

Vì vậy, nhiều người trong số các bạn có thể tự hỏi liệu tốt hơn nên sử dụng thẻ noindex hay quy tắc không cho phép trong tệp robots.txt của mình. Chúng tôi đã trình bày trong phần trước tại sao quy tắc ngăn lập chỉ mục không còn được hỗ trợ trong robots.txt và các lựa chọn thay thế khác. Nếu bạn muốn đảm bảo rằng một trong các trang của mình không được lập chỉ mục bởi các công cụ tìm kiếm, bạn chắc chắn nên xem thẻ meta ngăn lập chỉ mục. Nó cho phép bot truy cập trang, nhưng thẻ sẽ cho rô bốt biết rằng trang này không nên được lập chỉ mục và không được xuất hiện trong SERPs. Nói chung, quy tắc không cho phép có thể không hiệu quả như thẻ noindex. Tất nhiên, bằng cách thêm nó vào robots.txt, bạn đang chặn bot thu thập dữ liệu trang của bạn, nhưng nếu trang được đề cập được liên kết với các trang khác bằng các liên kết bên trong và bên ngoài, bot vẫn có thể lập chỉ mục trang này dựa trên thông tin do các trang khác cung cấp / các trang web. Bạn nên nhớ rằng nếu bạn không cho phép trang và thêm thẻ ngăn lập chỉ mục, thì rô bốt sẽ không bao giờ nhìn thấy thẻ ngăn lập chỉ mục của bạn, điều này vẫn có thể gây ra sự xuất hiện của trang trong SERPs.

Sử dụng Biểu thức chính quy & Ký tự đại diện

Được rồi, bây giờ chúng ta đã biết tệp robots.txt là gì và cách sử dụng nó, nhưng bạn có thể nghĩ, “Tôi có một trang web Thương mại điện tử lớn và tôi muốn không cho phép tất cả các trang chứa dấu chấm hỏi (?) Trong URL của chúng . ” Đây là nơi chúng tôi muốn giới thiệu các ký tự đại diện của bạn, có thể được triển khai trong robots.txt. Hiện tại, bạn có hai loại ký tự đại diện để lựa chọn.

  • * Ký tự đại diện – trong đó * các ký tự đại diện sẽ khớp với bất kỳ chuỗi ký tự nào bạn muốn. Loại ký tự đại diện này sẽ là một giải pháp tuyệt vời cho các URL của bạn tuân theo cùng một mẫu. Ví dụ: bạn có thể không cho phép thu thập thông tin tất cả các trang lọc có dấu chấm hỏi (?) Trong URL của chúng.
Hướng dẫn cơ bản về robots.txt
  • $ Wildcards – trong đó $ sẽ khớp với phần cuối của URL của bạn. Ví dụ: nếu bạn muốn đảm bảo rằng tệp rô bốt của bạn không cho phép bot truy cập vào tất cả các tệp PDF, bạn có thể muốn thêm quy tắc, như quy tắc được trình bày bên dưới:
Hướng dẫn cơ bản về robots.txt

Hãy nhanh chóng phân tích ví dụ trên. Robots.txt của bạn cho phép bất kỳ chương trình Tác nhân người dùng nào thu thập dữ liệu trang web của bạn, nhưng nó không cho phép truy cập vào tất cả các trang có chứa đuôi .pdf.

Những sai lầm cần tránh

Hướng dẫn cơ bản về robots.txt

Chúng tôi đã nói một chút về những điều bạn có thể làm và các cách khác nhau để bạn có thể vận hành tệp robots.txt của mình. Chúng tôi sẽ đi sâu hơn một chút vào từng điểm trong phần này và giải thích cách mỗi điểm có thể biến thành một thảm họa SEO nếu không được sử dụng đúng cách.

Không chặn nội dung tốt

Điều quan trọng là không chặn bất kỳ nội dung hay nào mà bạn muốn giới thiệu cho mọi người bằng tệp robots.txt hoặc thẻ noindex. Trong quá khứ, chúng tôi đã thấy nhiều sai lầm như thế này, điều này đã làm ảnh hưởng đến kết quả SEO. Bạn nên kiểm tra kỹ các trang của mình để tìm các thẻ noindex và các quy tắc không cho phép.

Sử dụng quá mức độ trễ thu thập thông tin

Chúng tôi đã giải thích chỉ thị trì hoãn thu thập thông tin có tác dụng gì, nhưng bạn nên tránh sử dụng nó quá thường xuyên vì bạn đang hạn chế các trang được thu thập thông tin bởi bot. Điều này có thể hoàn hảo đối với một số trang web, nhưng nếu bạn có một trang web lớn, bạn có thể tự bắn vào chân mình và cản trở thứ hạng tốt cũng như lưu lượng truy cập vững chắc.

Phân biệt chữ hoa chữ thường

Tệp Robots.txt phân biệt chữ hoa chữ thường, vì vậy bạn phải nhớ tạo tệp rô-bốt theo đúng cách. Bạn nên gọi tệp robots là ‘robots.txt’, tất cả đều có chữ thường. Nếu không, nó sẽ không hoạt động!

Sử dụng Robots.txt để ngăn lập chỉ mục nội dung

Chúng tôi đã đề cập đến vấn đề này một chút rồi. Không cho phép một trang là cách tốt nhất để thử và ngăn chặn bot thu thập dữ liệu trực tiếp. Nhưng nó sẽ không hoạt động trong các trường hợp sau:

  • Nếu trang đã được liên kết từ một nguồn bên ngoài, các bot sẽ vẫn chạy qua và lập chỉ mục trang.
  • Các bot bất hợp pháp vẫn sẽ thu thập thông tin và lập chỉ mục nội dung.

Sử dụng Robots.txt để che chắn nội dung riêng tư

  Một số nội dung riêng tư như PDF hoặc trang cảm ơn có thể lập chỉ mục, ngay cả khi bạn trỏ bot ra khỏi nó. Một trong những phương pháp tốt nhất để đi cùng với lệnh disallow là đặt tất cả nội dung riêng tư của bạn sau một lần đăng nhập. Tất nhiên, điều đó có nghĩa là nó thêm một bước nữa cho khách truy cập của bạn, nhưng nội dung của bạn sẽ vẫn an toàn.

Sử dụng Robots.txt để ẩn nội dung trùng lặp độc hại

Nội dung trùng lặp đôi khi là một điều xấu cần thiết – ví dụ như các trang thân thiện với máy in. Tuy nhiên, Google và các công cụ tìm kiếm khác đủ thông minh để biết khi nào bạn đang cố gắng che giấu điều gì đó. Trên thực tế, làm điều này thực sự có thể thu hút sự chú ý nhiều hơn đến nó và điều này là do Google nhận ra sự khác biệt giữa một trang thân thiện với máy in và một người nào đó đang cố gắng kéo len qua mắt họ:   Dù sao thì vẫn có một cơ hội là nó có thể được tìm thấy.

Dưới đây là ba cách để xử lý loại nội dung này:

  1. Viết lại nội dung – Tạo nội dung thú vị và hữu ích sẽ khuyến khích các công cụ tìm kiếm xem trang web của bạn như một nguồn đáng tin cậy. Đề xuất này đặc biệt phù hợp nếu nội dung là công việc sao chép và dán.
  2. Chuyển hướng 301 – Chuyển hướng 301 thông báo cho các công cụ tìm kiếm rằng một trang đã được chuyển đến một vị trí khác. Thêm 301 vào trang có nội dung trùng lặp và chuyển hướng khách truy cập đến nội dung gốc trên trang web.
  3. Rel = “canonical – Đây là thẻ thông báo cho Google về vị trí ban đầu của nội dung trùng lặp ; điều này đặc biệt quan trọng đối với một trang web thương mại điện tử nơi CMS thường tạo ra các phiên bản trùng lặp của cùng một URL.

Khoảnh khắc của sự thật: Kiểm tra tệp Robots.txt của bạn

Bây giờ là lúc để kiểm tra tệp của bạn để đảm bảo mọi thứ đang hoạt động theo cách bạn muốn. Công cụ quản trị trang web của Google có phần kiểm tra robots.txt, nhưng nó hiện chỉ có sẵn trong phiên bản Google Search Console cũ. Bạn sẽ không thể truy cập trình kiểm tra robot.txt bằng cách sử dụng phiên bản cập nhật của GSC nữa (Google đang nỗ lực bổ sung các tính năng mới cho GSC, vì vậy có thể trong tương lai, chúng tôi sẽ có thể thấy trình kiểm tra Robots.txt trong điều hướng chính). Vì vậy, trước tiên, bạn sẽ cần truy cập trang Hỗ trợ của Google , trang này cung cấp tổng quan về những gì trình kiểm tra Robots.txt có thể làm. Ở đó, bạn cũng sẽ tìm thấy công cụ Trình kiểm tra robots.txt:   Chọn tài sản bạn sẽ làm việc – ví dụ: trang web doanh nghiệp của bạn từ danh sách thả xuống. Xóa bất kỳ thứ gì hiện có trong hộp, thay thế bằng tệp robots.txt mới của bạn và nhấp vào, kiểm tra:   Nếu ‘Kiểm tra’ chuyển thành ‘Được phép’, thì bạn đã có cho mình một tệp robots.txt hoạt động đầy đủ . Tạo tệp robots.txt của bạn một cách chính xác, có nghĩa là bạn đang cải thiện SEO và trải nghiệm người dùng của khách truy cập. Bằng cách cho phép các bot dành cả ngày để thu thập những thứ phù hợp, chúng sẽ có thể sắp xếp và hiển thị nội dung của bạn theo cách bạn muốn nó được hiển thị trong SERPs.

Call Now Button
Index