Googlebot và những điều bạn có thể chưa biết

Thịnh Văn Hạnh 16/08/2023 1286 Lượt xem Chia sẻ bài viết

Google là một trong những công cụ tìm kiếm phổ biến hàng đầu với tất cả người dùng trên toàn thế giới. Bài viết này, BKNS muốn gửi đến bạn một nhát cắt nhỏ trong nguyên lý hoạt động của Google, thông qua chức năng tìm kiếm bởi những con bọ Googlebot. Hãy cùng BKNS đi tìm hiều GoogleBot là gì? những con bọ hoạt động ra sao trong bài viết dưới đây nhé!

Tóm Tắt Bài Viết

1 Googlebot là gì?
2 Googlebot kết nối đến website của bạn như thế nào?
3 Ngăn chặn Googlebot dò được nội dung website của bạn
4 Chắc chắn rằng website của bạn đang kết nối đến Googlebot
5 Các vấn đề với các spammer và các user-agent khác
6 Kiểm tra file robots.txt bằng công cụ robots.txt tester tool
7 Một số lỗi thường gặp
- 7.1 Lỗi URL Errors, robots.txt trong google webmaster tool
- 7.2 Googlebot không thể truy cập trang web của bạn
8 Kết luận

Googlebot là gì?

Googlebot hiểu nôm na đó là những con bọ tìm kiếm đôi khi cũng được gọi là Spider (con nhện). Nhiệm vụ chính là Crawling (bò) thu thập các thông tin, thu thập dữ liệu. Mỗi một Spider có một địa chỉ IP riêng và thường được thay đổi.

Googlebot kết nối đến website của bạn như thế nào?

Googlebot hay những con bọ tìm kiếm mọi ngõ ngách trên mạng internet để thu thập thông tin, tìm kiếm những website, blog, URL mới, … Những trang như facebook, tài khoản facebook cá nhân hay tài khoản Twitter… cũng đều có thể coi như những URL mới và Googlebot đều không bỏ qua. Nó thu thập tất cả thông tin và cho vào rổ thông tin của Google chờ đánh chỉ mục.

Google sử dụng một lượng lớn máy tính để thu thập dữ liệu trên website của bạn. Googlebot ngày nay được lập trình thông minh hơn có thể xác định được trang web của bạn có được cập nhật thường xuyên, chu kỳ cập nhật như thế nào…

Googlebot thu thập thông tin từ các URL đã được truy cập trước đó và sử dụng Sitemap (sơ đồ trang web) được cung cấp bởi người quản trị web thông qua Search Console (Google Webmaster Tools) để tăng cường quá trình thu thập dữ liệu. Googlebot đi qua trang web của bạn, phân tích các liên kết và thẻ meta để quyết định liệu có theo các liên kết đó hay không.

Chú ý rằng mỗi lần Googlebot truy cập vào trang web của bạn, nó sẽ tải một bản sao của trang đó vào thời điểm đó. Quá trình Spider Crawling là giai đoạn đầu tiên trong cơ chế hoạt động của các công cụ tìm kiếm nói chung (không chỉ riêng Google Search). Đôi khi, Google cũng sử dụng dữ liệu từ các đối tác và đại lý.

Ngăn chặn Googlebot dò được nội dung website của bạn

Không gần như có thể giữ bí mật nội dung của máy chủ web bằng cách không công khai đường dẫn đến Googlebot. Nếu ai đó theo một liên kết từ máy chủ web của bạn đến một máy chủ web khác, địa chỉ URL bí mật của bạn có thể xuất hiện trong thẻ giới thiệu và có thể được lưu trữ và công khai bởi các máy chủ web khác.

Web thường có nhiều liên kết cũ và liên kết hỏng. Mỗi khi ai đó công khai một đường dẫn sai đến trang web của bạn hoặc không cập nhật đường dẫn để phản ánh các thay đổi trên máy chủ của bạn, Googlebot sẽ cố gắng tải xuống một đường dẫn sai từ trang web của bạn.

Nếu bạn muốn ngăn chặn Googlebot tìm kiếm nội dung trang web của bạn, bạn có thể sử dụng tệp robots.txt để chặn kết nối đến các tệp và thư mục trên máy chủ.

Khi bạn tạo một tệp robots.txt, có thể có một sự trễ nhỏ trước khi Googlebot phát hiện các thay đổi của bạn. Nếu Googlebot vẫn tìm thấy nội dung mà bạn đã chặn trong tệp robots.txt, hãy kiểm tra lại xem tệp này có được đặt đúng đường dẫn hay chưa.

Ngăn chặn Googlebot dò được nội dung website

Chắc chắn rằng website của bạn đang kết nối đến Googlebot

Googlebot phát hiện các website bằng cách follow đường dẫn từ page sang page khác. Trang Crawl Error trên Search Console (tên mới của Google Webmaster) liệt kê tất cả những vấn đề Googlebot đã tìm khi đang thu thập dữ liệu trên website của bạn. Bạn nên xem xét các lỗi thu thập dữ liệu thường xuyên để xác định bất kỳ vấn đề với trang web của bạn.

Nếu bạn đang chạy ứng dụng AJAX với nội dung mà bạn muốn hiển thị trên kết quả tìm kiếm, đừng chần chờ hãy click vào hướng dẫn.

Nếu file robots.txt của bạn hoạt động như mong muốn nhưng web của bạn không có lưu lượng truy cập, bạn nên tìm hiểu thêm.

Các vấn đề với các spammer và các user-agent khác

Địa chỉ IP mà Googlebot sử dụng thay đổi liên tục, cách tốt nhất để xác định kết nối đến Googlebot là sử dụng user-agent. Bạn có thể xác minh việc Googlebot có thật sự kết nối đến web server của bạn không bằng cách thực hiện reverse DNS.

Googlebot và các bot search engine khác đều bị chịu ảnh hưởng bởi nội dung cấu hình trong file robots.txt, nhưng vẫn có những trường hợp như Report spam / paid links / malware.

Các vấn đề với các spammer và các user-agent khác

Googlebot có các user-agent khác nhau như Feedfetcher (user-agent Feedfetcher-Google). Do các yêu cầu từ Feedfetcher xuất phát từ các hành động rõ ràng của người dùng, và những người dùng này tự do cung cấp dữ liệu cho trang chủ Google mà không phải là kết quả của việc tìm kiếm tự động của Googlebot, nên Feedfetcher không bị ảnh hưởng bởi tệp robots.txt. Tuy nhiên, bạn có thể ngăn chặn điều này bằng cách cấu hình máy chủ của mình để gửi thông báo lỗi 401, 404 hoặc các thông báo lỗi khác đến user-agent Feedfetcher-google.

Kiểm tra file robots.txt bằng công cụ robots.txt tester tool

Để thực hiện nhanh, chúng ta truy cập vào Search Console

Đầu tiên bạn Click và nút Gửi, mục đích việc này là chúng ta cập nhật lại robots.txt hiện tại.

Vậy là đã hoàn thành các bước để kiểm tra file robots.txt bằng công cụ robots.txt tester tool

Các bạn hãy nhìn vào các con số, nó trùng với thứ tự dưới.

Click Gửi.
Kiểm tra xem có chữ Thành công!..
Tắt cửa sổ đi.

Chú ý: Bạn cần refresh lại trang web bằng cách bấm F5 hoặc chuột phải nhấn reload.

Bạn cần kiểm tra dòng lệnh của robots.txt bằng thao tác Kiểm tra.

Khi chúng ta nhận thấy dòng màu xanh lá và chữ Được Phép ở góc phải như trên hình tức là bạn đang kết nối thành công đến Googlebot.

Một số lỗi thường gặp

Lỗi URL Errors, robots.txt trong google webmaster tool

– Nếu bạn nhận được thông báo “Google couldn’t crawl your site because we were unable to access the robots.txt” hoặc bạn gặp trường hợp Server error, Not found hoặc Google không thể truy cập trang web của bạn do sự cố kết nối máy chủ.

– Đầu tiên bạn phải kiểm tra trong file robots.txt của bạn xem có cấm một thư mục nào đó mà google không thể tiến hành index các URL của các bạn.

– Thứ hai bạn nên kiểm tra hosting, liệu hosting của bạn có chạy liên tục và không bị gián đoạn hay không. Nếu host bạn bị gián đoán (không uptime 100%) thì cũng có thể xảy ra lỗi trên.

Googlebot không thể truy cập trang web của bạn

Nếu bạn nhận được thông báo “Trong 24 giờ qua, Googlebot đã gặp 2 lỗi trong khi cố truy cập robots.txt của bạn. Để đảm bảo rằng chúng tôi không thu thập dữ liệu bất kỳ trang nào được liệt kê trong tệp đó, chúng tôi đã trì hoãn việc thu thập dữ liệu của mình. Tỷ lệ lỗi robots.txt chung của trang web của bạn là 66.7%.” thì bạn có thể xem chi tiết tại Search Console.

– Nếu tỷ lệ lỗi của trang web là 100%:

Hãy cố gắng truy cập http://www.example.com/robots.txt bằng trình duyệt web. Nếu bạn có thể truy cập tệp này từ trình duyệt của mình, trang web của bạn có thể được định cấu hình từ chối quyền truy cập vào Googlebot. Kiểm tra cấu hình của tường lửa và trang web của bạn để đảm bảo rằng bạn không từ chối quyền truy cập vào Googlebot.

Nếu robots.txt của bạn là trang tĩnh, xác minh rằng dịch vụ web có quyền truy cập phù hợp vào tệp.

Nếu robots.txt của bạn được tạo động, xác minh rằng tập lệnh tạo robots.txt được định cấu hình đúng cách và có quyền chạy. Kiểm tra nhật ký của trang web của bạn để xem tập lệnh có bị lỗi không và nếu bị lỗi, cố gắng chẩn đoán nguyên nhân gây ra lỗi.

– Nếu tỷ lệ lỗi của trang web nhỏ hơn 100%:

Trường hợp tỷ lệ lỗi trang web nhỏ hơn 100%

Sử dụng Công cụ quản trị trang web, tìm ngày có tỷ lệ lỗi cao và kiểm tra nhật ký của máy chủ web của bạn cho ngày đó. Tìm kiếm các lỗi khi truy cập robots.txt trong nhật ký cho ngày đó và khắc phục nguyên nhân gây ra các lỗi đó.

Nguyên nhân có thể xảy ra nhất là trang web của bạn bị quá tải. Liên hệ với nhà cung cấp dịch vụ lưu trữ của bạn và thảo luận việc định cấu hình lại máy chủ web hoặc việc thêm tài nguyên cho trang web của bạn.

Nếu trang web của bạn chuyển hướng tới tên máy chủ khác, nguyên nhân có thể khác là URL trên trang web đang chuyển hướng tới tên máy chủ phân phối tệp robots.txt đang gặp một hoặc nhiều sự cố trong các sự cố này. Sau khi cho rằng bạn đã khắc phục được sự cố, sử dụng “Tìm nạp như Google” để tìm nạp http://www.example.com/robots.txt nhằm xác minh rằng Googlebot có thể truy cập trang web của bạn một cách bình thường.

Kết luận

Đến đây có lẽ bạn đã có câu trả lời cho câu hỏi Googlebot là gì. Hiểu được nguyên lý hoạt động của công cụ này sẽ giúp bạn tối ưu hơn các hành động thực hiện trên website, tiết kiệm thời gian và công sức hơn.