Tệp Robots.txt là gì?
Robots.txt là gì? Trở lại khi Internet chỉ là một đứa trẻ có khuôn mặt trẻ thơ với tiềm năng làm được những điều tuyệt vời, các nhà phát triển đã nghĩ ra một cách để thu thập thông tin và lập chỉ mục các trang mới trên web. Họ gọi những thứ này là ‘người máy’ hay ‘người nhện’. Đôi khi những đứa trẻ này lang thang trên các trang web không nhằm mục đích thu thập thông tin và lập chỉ mục, chẳng hạn như các trang web đang được bảo trì. Người tạo ra công cụ tìm kiếm đầu tiên trên thế giới, Aliweb, đã đề xuất một giải pháp – một bản đồ đường đi mà mỗi robot phải tuân theo.
Lộ trình này được hoàn thiện vào tháng 6 năm 1994 bởi một tập hợp các kỹ thuật viên am hiểu về internet, với tên gọi “ Giao thức loại trừ rô bốt ”. Tệp robots.txt là nơi thực thi giao thức này. Giao thức mô tả các nguyên tắc mà mọi rô bốt đích thực phải tuân theo, bao gồm cả các rô bốt của Google. Theo định nghĩa, một số rô bốt bất hợp pháp, chẳng hạn như phần mềm độc hại, phần mềm gián điệp và những thứ tương tự, hoạt động bên ngoài các quy tắc này. Bạn có thể xem qua bức màn của bất kỳ trang web nào bằng cách nhập URL bất kỳ và thêm: /robots.txt vào cuối. Ví dụ: đây là phiên bản của POD Digital:
Như bạn thấy, không nhất thiết phải có một tập tin toàn ca hát, nhảy múa vì chúng tôi là một trang web tương đối nhỏ.
File Robots.txt ở đâu
Tệp robots.txt của bạn sẽ được lưu trữ trong thư mục gốc của trang web của bạn. Để tìm nó, hãy mở cPanel FTP của bạn và bạn sẽ có thể tìm thấy tệp trong thư mục trang web public_html của mình.
Không có gì đối với những tệp này để chúng không quá nặng – có thể chỉ vài trăm byte, nếu vậy. Khi bạn mở tệp trong trình soạn thảo văn bản của mình, bạn sẽ được chào đón bằng một cái gì đó trông giống như sau:
Nếu bạn không thể tìm thấy một tệp trong hoạt động bên trong trang web của mình, thì bạn sẽ phải tạo tệp của riêng mình.
Cú pháp Robots.txt
Tệp Robots.txt là một tệp văn bản đặc biệt được đặt trên một trang web để điều khiển việc truy cập của các công cụ tìm kiếm và các robot web khác. Nó cho phép bạn chỉ định các phần của trang web mà bạn muốn các công cụ tìm kiếm truy cập hoặc không truy cập.
Dưới đây là cú pháp cơ bản của tệp Robots.txt:
- User-agent:
- Đây là chỉ thị đầu tiên trong mỗi phần của Robots.txt và chỉ định tên của robot hoặc công cụ tìm kiếm mà bạn muốn áp dụng các quy tắc sau đó. Ví dụ: User-agent: Googlebot.
- Disallow:
- Đây là chỉ thị để chỉ định các phần của trang web mà bạn không muốn các robot hoặc công cụ tìm kiếm truy cập. Bạn chỉ cần chỉ định phần sau đường dẫn gốc. Ví dụ: Disallow: /private/.
- Allow:
- Đây là chỉ thị tùy chọn để chỉ định các phần của trang web mà bạn muốn cho phép các robot hoặc công cụ tìm kiếm truy cập, ngay cả khi Disallow đã được định nghĩa cho các thư mục cha. Ví dụ: Allow: /public/.
- Sitemap:
- Đây là chỉ thị tùy chọn để chỉ định vị trí của tệp sitemap.xml trên trang web. Sitemap cung cấp thông tin về các URL quan trọng của trang web mà bạn muốn các công cụ tìm kiếm biết đến. Ví dụ: Sitemap: https://example.com/sitemap.xml.
Dưới đây là một ví dụ đơn giản về cú pháp Robots.txt:
User-agent: *
Disallow: /private/
Allow: /public/
Sitemap: https://example.com/sitemap.xml
Trong ví dụ này:
- Tất cả các robot hoặc công cụ tìm kiếm (User-agent: *) không được phép truy cập vào phần /private/ của trang web.
- Nhưng họ được phép truy cập vào phần /public/.
- Đường dẫn đến tệp sitemap.xml được chỉ định bằng Sitemap: https://example.com/sitemap.xml.
Lưu ý rằng cú pháp và các chỉ thị trong Robots.txt có thể khác nhau tùy thuộc vào công cụ tìm kiếm và robot cụ thể mà bạn muốn điều chỉnh. Để đảm bảo rằng bạn áp dụng đúng cú pháp và quy tắc cho trang web của mình, nên kiểm tra tài liệu hướng dẫn của các công cụ tìm kiếm hoặc robot cụ thể mà bạn đang sử dụng.
Đây là một ví dụ:
Tại sao sử dụng Robots.txt
Robots.txt là một tệp tin văn bản đơn giản được đặt trên một trang web để thông báo cho các công cụ tìm kiếm và các robot của máy tìm kiếm về các phần của trang web mà họ không nên truy cập hoặc thu thập thông tin.
Dưới đây là một số lý do quan trọng vì sao sử dụng Robots.txt:
- Bảo vệ dữ liệu riêng tư: Robots.txt cho phép bạn chỉ định các phần cụ thể của trang web mà bạn không muốn công cụ tìm kiếm truy cập. Điều này đặc biệt hữu ích khi bạn muốn bảo vệ thông tin nhạy cảm hoặc dữ liệu riêng tư mà không muốn công khai trên các công cụ tìm kiếm.
- Kiểm soát quyền truy cập: Bằng cách sử dụng Robots.txt, bạn có thể kiểm soát quyền truy cập của các công cụ tìm kiếm vào các phần của trang web. Bạn có thể chỉ định rõ ràng những phần nào của trang web được phép truy cập và những phần nào không được phép.
- Tiết kiệm tài nguyên: Khi robots.txt cung cấp hướng dẫn cho các robot của công cụ tìm kiếm, nó giúp giảm tải cho máy chủ web của bạn và tiết kiệm tài nguyên bằng cách ngăn chặn các robot truy cập vào các phần không cần thiết của trang web.
- Cải thiện hiệu suất tìm kiếm: Bằng cách chỉ định rõ ràng những phần của trang web được truy cập và không được truy cập, bạn có thể giúp công cụ tìm kiếm hiểu rõ hơn về cấu trúc trang web của bạn và tập trung vào việc thu thập thông tin quan trọng, từ đó cải thiện hiệu suất tìm kiếm.
Lưu ý rằng Robots.txt chỉ là một cách để gợi ý cho các robot của công cụ tìm kiếm và không phải là một biện pháp bảo mật thực sự. Các robot không phải lúc nào cũng tuân thủ theo robots.txt và nó không ngăn chặn truy cập từ các nguồn khác như hacker hoặc bot xấu. Để đảm bảo an toàn và bảo mật cho trang web của bạn, bạn cần thực hiện các biện pháp bảo mật phù hợp khác như xác thực, mã hóa và cập nhật hệ thống thường xuyên.
Xem thêm Công cụ Xây dựng Liên kết Tốt nhất
Cách robots.txt hoạt động như thế nào?
Để có dữ liệu từ các trang web, các công cụ tìm kiếm theo dõi các liên kết từ trang này sang trang khác, tạo ra một mạng lưới phức tạp của thông tin trên Internet. Hành động này thường được mô tả như việc “thêu mạng”. Quy trình này bao gồm hai nhiệm vụ chính:
- Thu thập thông tin trên web để hiểu rõ về nội dung.
- Chỉ mục nội dung đó để cung cấp cho những người tìm kiếm thông tin.
Tính năng và hạn chế của tập tin robots.txt
Tập tin robots.txt là công cụ giúp Bot của công cụ tìm kiếm xác định được phạm vi xâm nhập vào dữ liệu nào và không xâm nhập vào tập tin nào. Điều này giúp cải thiện quá trình lập chỉ mục và tăng tốc quá trình Index trang web. Mặc dù tập tin này mang lại nhiều ưu điểm, nhưng cũng đi kèm với những hạn chế. Dưới đây, chúng ta sẽ cùng tìm hiểu về điều này.
Công dụng của tập tin robots.txt:
Chặn công cụ tìm kiếm khi Website chưa hoàn thiện: Trong giai đoạn xây dựng và thử nghiệm Website, khi trang web chưa hoàn thiện, quản trị viên muốn tránh việc công cụ tìm kiếm truy cập và lập chỉ mục trang web. Việc này giúp ngăn chặn các vấn đề không mong muốn cho SEO và đảm bảo chất lượng web không bị đánh giá thấp.
Chặn trang tìm kiếm với các kết quả xấu: Để phát triển mạnh mẽ, quản trị viên muốn Google đánh giá URL có lợi. Tập tin robots.txt hỗ trợ thiết lập các tiêu chuẩn cho trình tìm kiếm, giúp ngăn chặn các URL không đạt chuẩn và gây hại cho hoạt động của trang web.
Chặn các công cụ thu thập liên kết website: Các công cụ nghiên cứu từ khóa có thể thu thập dữ liệu trang chỉ từ địa chỉ website. Tuy nhiên, việc này có thể làm cho thông tin của bạn trở nên quá mở và dễ bị đối thủ lợi dụng. Tập tin robots.txt giúp ngăn chặn các công cụ này, bảo vệ thông tin và giữ cho nội dung được bảo quản.
Hạn chế của tệp robots.txt
Mặc dù tập tin robots.txt mang lại nhiều lợi ích, nhưng nó cũng đi kèm với một số hạn chế quan trọng. Dưới đây là những điểm cần lưu ý:
Không phải tất cả các trình duyệt tìm kiếm đều hỗ trợ lệnh trong tệp robots.txt: Mặc dù các tiêu chuẩn trong tệp robots.txt được cài đặt, nhưng không phải tất cả các bot của các công cụ tìm kiếm đều tuân theo chúng. Một số trình thu thập thông tin có thể tuân theo tập hoặc không, do đó, sử dụng mật khẩu cho các tệp riêng tư trên máy chủ là một phương pháp bảo mật tốt.
Mỗi trình dữ liệu có cú pháp phân tích dữ liệu riêng: Các công cụ tìm kiếm có cách phân tích dữ liệu riêng biệt và có thể tuân theo quy chuẩn khác nhau trong tệp robots.txt. Việc này đòi hỏi quản trị viên nắm vững cú pháp cho từng cách thu thập dữ liệu trên trang web.
Google vẫn có thể index các trang bị chặn bởi tệp robots.txt: Trong trường hợp bạn chặn một URL hoặc tệp trên trang web, nhưng vấn đề đó vẫn xuất hiện trên trang khác, Google vẫn có thể đọc và lập chỉ mục nó. Nội dung trong tệp vẫn có thể được phát hiện trong kết quả tìm kiếm. Đối với các URL không cần thiết, bạn có thể xóa chúng từ trang web để đạt được mức bảo mật cao nhất.
Cách kiểm tra có tệp robots.txt trên trang web là gì?
Để xác định xem trang web của bạn có tệp robots.txt hay không, người dùng có thể thực hiện các bước sau. Họ chỉ cần nhập Root Domain và thêm /robots.txt vào cuối URL. Nếu .txt không xuất hiện, có thể kết luận rằng trang web của họ không tạo tệp robots.txt, đặc biệt là đối với các trang web sử dụng WordPress. Ví dụ, để kiểm tra xem seodo.com có tạo tệp không, họ có thể nhập Root Domain (seodo.com), thêm /robots.txt vào cuối, nhấn Enter và đợi kết quả xuất hiện.
Một số quy tắc quan trọng tối ưu hóa tệp robots.txt cho SEO
- Kiểm tra và Đảm Bảo Chỉ Chặn Những Gì Cần Thiết: Hãy kiểm tra tệp robots.txt của bạn để đảm bảo không có bất kỳ phần nào của trang web bạn muốn xuất hiện trên các công cụ tìm kiếm bị chặn.
- Không Chặn CSS và JS: Không nên chặn thư mục CSS hoặc JS. Google hiểu trang web của bạn như một người dùng thực, và nếu trang của bạn sử dụng JS và CSS, nó sẽ không bị chặn để đảm bảo hoạt động đúng.
- Không Chặn wp-admin và wp-include Trong WordPress: Đối với người sử dụng WordPress, không cần chặn truy cập vào các thư mục wp-admin và wp-include. WordPress tự động xử lý thông tin này thông qua thẻ meta robots. Tuy nhiên, việc chặn cũng không tạo ra vấn đề lớn.
- Sử Dụng User-Agent Chung: Tránh việc cố gắng chỉ định quy tắc riêng biệt cho từng bot của công cụ tìm kiếm. Điều này có thể gây nhầm lẫn và làm khó khăn quá trình cập nhật. Sử dụng user-agent tổng quát nhất là: * và cung cấp một bộ quy tắc chung cho tất cả các chương trình.
Kết luận
Trong tóm tắt, tệp robots.txt đóng vai trò quan trọng trong việc điều chỉnh cách công cụ tìm kiếm thu thập thông tin trên trang web. Để tối ưu hóa SEO, quản trị viên cần kiểm tra và đảm bảo rằng tệp này không chặn những phần cần thiết của trang web. Ngoài ra, việc không chặn CSS, JS, và sử dụng user-agent chung sẽ giúp đảm bảo hiệu suất tốt nhất cho trang web trên các công cụ tìm kiếm.