Chúc bạn một ngày tốt lành

Thứ Năm, ngày 23 tháng 12 năm 2010

Thuật toán tìm kiếm của Google, Bing, Yahoo! Search

{VnTim™} Google công bố 1 bài kết quả nghiên cứu về đánh giá hiệu quả của Sitemaps trong qui trình tìm kiếm "Research study of sitemap", trong đó họ đã hé lộ phần nào qui trình tìm kiếm như sau:

Thuật tuán tìm kiếm của Google , Bing, Yahoo

Qui trình index của Google

- Discovery :
đây là quá trình khai phá các trang web mới. Quá trình này được thực hiện thường xuyên. Tuy nhiên các con bọ không phải chạy theo các liên kết 1 cách lung tung hết từ trang web này nhảy qua trang web khác mà đi theo 1 thứ tự ưu tiên: Google trước hết sẽ ‘mò’ ra 1 bộ các trang web ‘nổi tiếng’ (cái này chắc nghĩa là PR cao), xong sẽ róc toàn bộ các liên kết ngoài từ các trang web nổi tiếng đó, cho vào 1 sọt riêng cấp1. Các trang web cấp 1 này lại được róc tiếp toàn bộ liên kết ngoài cho sọt cấp 2. Đám url cấp trên hết sẽ được ưu tiên quăng sang quá trình tiếp theo là Spam Filter.

- Sitemaps:

song song quá trình Discovery, Google cũng phát hiện web mới bằng cách xem xét các url được submit lên từ các qui trình submit Sitemaps, ví dụ như bằng robot.txt files, HTTP request hay Google Webmaster Tool.


- Spam Filter :
kết quả từ 2 quá trình trên đều được đưa vào bộ lọc spam, có nhiệm vụ phát hiện và loại bỏ các liên kết spam từ các bộ liên kết nhận được rồi mới chuyển sang quá trình kế tiếp.

- Web Crawler :

các con bọ của google sẽ nhận được bộ url sạch từ spam filter chuyển
qua, tạo ra các HTTP request theo yêu cầu ping Google của các website
rồi bắt đầu thực hiện quá trình thu (retrieve) dữ liệu trên các trang
đó. Lúc này các links lại tiếp tục được róc ra cho vào các sọt thứ cấp
chuyển trở lại bước Discovery. Tại đây con bọ web cũng bảo đảm sẽ quay
trở lại update trang web đã crawl theo yêu cầu về mặt tần suất.

- Indexer/Server :

tại đây, bộ phận index sẽ chịu trách nhiệm phân các trang được đưa sang thành từng nhóm khác nhau dựa trên các thông số chất lượng và xây dựng nên dữ liệu index cho các trang này.

- Server:
các dữ liệu index sẽ được lưu trữ tại đây để phục vụ cho yêu cầu của người dùng khi họ truy cập và tìm kiếm 1 từ khóa.
Ta rút ra được gì từ bài viết này của Google nhỉ? Theo tôi thì rất rất nhiều!
Đây chỉ mới là một đoạn ngắn trong báo cáo kết quả nghiên cứu
“Sitemaps : above and beyond the crawl duty” – một bài thật hấp dẫn!

2 Comments:

Lưu Văn Hải said...

hay đấy.mình mới tạo cái này nhìn ko biết thế nào.bạn xem thử rồi góp ý dùm!thank bạn:P

hoàng trọng tuấn said...

bài viết rất ý nghĩa. mình sẽ vận dụng cho http://truyen69.sextgem.com của mình. cảm ơn bạn

Đăng nhận xét

» VnTim™ cảm ơn bạn đã đọc bài viết.
» Nếu có thắc mắc hay góp ý, bạn hãy để lại một nhận xét.
» Nếu thấy bài viết hay hãy chia sẻ với những người quanh bạn.
» Bạn có thể sử dụng một số thẻ HTML như <b>, <i>,<a>.
» Vui lòng đăng những nhận xét lịch sự và gõ tiếng Việt có dấu nếu có thể.
» Rất cảm ơn những comment thiện ý.

 

VnTim™ Trái Tim Việt Nam Copyright © 2010 VnTim™ Trái Tim Việt Nam