021-24209369
多媒体信息搜索技术的基本工作原理

搜索引擎是一个信息处理系统,以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的作用。从使用者角度看,搜索引擎提供一个包含搜索框的页面,在搜索框输入关键词,通过浏览器提交给搜索引擎后,搜索引擎就会返回跟用户输入的内容相关的信息列表。互联网上的信息浩瀚如海,并且毫无秩序,如果将所有的信息比喻成汪洋上的一个个小岛,那么网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎则是为使用者绘制了一幅一目了然的信息地图,可以随时进行查阅。

搜索引擎基本工作原理包括如下几个过程:数据采集和标引、数据组织、用户检索等。搜索引擎的数据采集是按照一定规律和方式对网站进行检索,每个独立的搜索引擎都有自己的网页抓取程序爬虫(Spider,也称蜘蛛程序)。爬虫Spider 顺着网页中的超链接,从这个网站到另一个网站,通过超链接分析连续访问抓取更多网页。被抓取的网页被称为网页快照,存入搜索引擎的临时数据库。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。通过从网页中自动抽取能表达网页主题意义的词作为标引词来构建网页标引记录。搜索引擎的数据组织是对这些网页进行整理以形成规范的页面索引,并建立相应的索引数据库。其中,重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。

搜索引擎的数据检索主要是在检索界面接受用户检索要求,将用户输入的检索要求编制成计算机可执行的规范化检索式,然后利用检索式检索索引数据库,并保证检索的速度和准确性,将命中的记录进行组织整理。

300px
“JSUTO/加速通”的使命就是为人和智能设备之间搭建一道便捷沟通的桥梁。 The mission of JSUTO is to build a bridge of convenient communication between people and intelligent devices.
上海峻迹智能科技有限公司
联系我们

电话:021-24209369

传真:021-24209368

公司地址:上海市闵行区纪翟路1199弄3号2楼

关于我们

公司简介                              产品中心

关于我们                              联系我们

案例展示                              友情链接

人才招聘                           www.jsuto.cn

扫一扫加入我们吧
Copyright © 上海峻迹智能科技有限公司细心于我们的服务,专心于我们的专业
点击进入JSUTO VMS
您是第 34457 位访客!