每个独立的搜索引擎都(dōu)有自己(jǐ)的网页抓取程序(spider)。Spider顺着网页中的(de)超链接,连续地抓取网(wǎng)页。被抓取的网页被称之(zhī)为网页快照。由(yóu)于互联网中超链接的应(yīng)用(yòng)很普遍,理论上(shàng),从一定范(fàn)围的网页出发,就能搜集(jí)到绝大多数(shù)的(de)网页。
处理网(wǎng)页
搜索引擎抓(zhuā)到网(wǎng)页后,还要做大量(liàng)的预(yù)处理(lǐ)工作,才能提供检索服务。其中(zhōng),最重要的就是提取关键词,建立索引文件(jiàn)。其他还包括去除重复网页(yè)、分词(中文)、判(pàn)断网页类型(xíng)、分析超链接、计算网页(yè)的重要(yào)度/丰富度等。
提供(gòng)检索服务
用户输入(rù)关键词进行(háng)检索,搜索(suǒ)引擎从索引数据库中找到匹配该(gāi)关键(jiàn)词的网页;为了用户(hù)便于(yú)判(pàn)断,除了网页标题(tí)和URL外,还会提(tí)供一(yī)段来自网页的摘(zhāi)要以(yǐ)及其他信息。
"JDB 天水风动机械股份有限公司,钻车钻架,气动工具,凿岩钎具,防霜机 天水风动机械股份有限公司由原天水风动工具厂改制而成,始建于1966年。通过国家打破国际封锁、建设三线,依靠科技进步而迅速崛起。经过50多年的持续建设,现已发展成中国凿岩机械与气动工具大型现代化研制基地。打造了国内有名的“JDB燎原”品牌。