Cơ chế hoạt động của công cụ tìm kiếm - spider | YAVIET

Bài 1: Cơ chế hoạt động của công cụ tìm kiếm – spider

google-spider

Mặc dù công cụ tìm kiếm được trang bị các  công nghệ rất  hiện  đại tuy  nhiên nó vẫn không đủ thông minh để có thể cảm nhận được vẻ  đẹp  của một mẫu  thiết  kế, thưởng thức âm thanh hoặc thấy được chuyển động của một video nào đó. Vì vậy khi công cụ tìm kiếm thu thập dữ liệu của trang web nó chỉ nhìn vào các văn bản cụ thể để cố gắng hiểu được trang web này  đang muốn nói về vấn đề gì. Vì vậy web bạn nhiều chữ, nhiều nội dung mới thì được google rất thích.

I/ Các bộ phận chính của công cụ tìm kiếm

1. Robot (Google Bot) – Bộ thu thập thông tin

Robot thường được gọi là con nhện spider. Về bản  chất robot chỉ là một chương trình duyệt và thu thập thông tin từ các website trên mạng, nó tự động duyệt qua các cấu trúc siêu liên kết và trả về các danh mục kết quả của công cụ  tìm kiếm.  Robot thường được ví với hình ảnh con nhện vì nó tự động di chuyển trên internet thông qua các liên kết và internet chính là mạng nhện của nó.

2. Index – Bộ Phận Lập Chỉ Mục

Hệ thống lập chỉ mục trong các công cụ tìm kiếm thực hiện việc phân tích, chọn lựa và lưu trữ những thông tin cần thiết (thông qua các từ khoá hay cụm từ khoá) một cách nhanh chóng và chính xác từ những dữ liệu mà Robot thu được.

3. Bộ Phận Xử Lí Tính Toán

Đây là quá trình tính toán của Google nhằm cung cấp các kết  quả cho người tìm kiếm. Theo thống kê, Google sử dụng hơn 200 yếu tố để xếp hạng trang web. một trong những yếu tố quan trọng nhất để xếp hạng đó là dựa trên chất lượng nội  dung và chất lượng của những liên kết đến trang web của bạn.

google-spider

2/ Cơ chế hoạt động của Google Spider

Bước 1: Tìm kiếm Website

Khi vào một website, Google Spider sẽ lấy danh sách các máy chủ và trang web phổ biến. Sau đó nó sẽ bắt đầu tìm kiếm với một site bất kỳ, nó đánh chỉ mục các từ khóa trên trang và theo các liên kết tìm thấy bên trong trang web này. Khi Spider xem xét  các trang web  (định dạng  HTML), nó lưu  ý: Các từ bên trong trang web & nơi nó tìm thấy các từ đó. Nó sẽ ưu tiên các tự được làm nổi bật ví dụ như được chèn thẻ H1, H2, H3…, In đậm, in nghiêng, màu sắc,… Sau đó google sẽ index (noindex), liệt kê các từ khóa chính, và để google vào web bạn nhanh hơn và hiểu những nội dung nào cần lấy thì hãy cho google biết bạn cần hướng dẫn cho google biết cần lập chỉ mục nào, và bỏ qua những mục nào.

Bước 2: Lập chỉ mục 

Phân tích, chọn lựa và lưu trữ những thông tin cần thiết một cách nhanh chóng và chính xác từ những dữ liệu mà Robot thu được.

Bước 3: Xử lý thông tin

Sau khi lập chỉ mục Google sẽ xử lý, tính toán và mã hóa thông tin  để lưu trữ trong cơ sở dữ liệu.  Và khi có một truy vấn tìm kiếm thì hệ thống sẽ trả về các kết quả có  chứa  nội dung hữu  ích tương ứng với các truy vấn tìm kiếm của người dùng.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Hotline: 093.567.4333