图3。8 四种搜索引擎自动生成的结果集举例截图
综合上述几点,根据四种搜索引擎在线的具体操作定义,本次实验分别定义该类蜕变关系的有效性如下,其中方括号属于非键入部分:
1)百度:
And操作:原始查询A = [“X1”];后续查询B= [“X1”“Y”] ;A查询的结果集不小于B查询的结果集;
Or操作:原始查询A=[“X1”];后续查询B=[(X1 | Y)] ;A查询的结果集不大于B查询的结果集;
Exclude操作:原始查询A=[“X1”];后续查询B= [ “X1”-(“Y”) ] ;A查询的结果集不小于B查询的结果集。
2)中文Bing:
And操作:原始查询A = [“X1”];后续查询B= [“X1”“Y”] ;A查询的结果集不小于B查询的结果集;
Or操作:原始查询A=[“X1”];后续查询B=[(X1 | Y)] ;A查询的结果集不大于B查询的结果集;
3)搜狗:
And操作:原始查询A = [“X1”];后续查询B= [“X1”“Y”] ;A查询的结果集不小于B查询的结果集;
4)好搜:
And操作:原始查询A = [“X1”];后续查询B= [“X1”“Y”] ;A查询的结果集不小于B查询的结果集;
3。2 蜕变关系Title
当查询词不使用双引号时,搜索引擎会进行语义理解,自动匹配近义词。例如,在百度的在线帮助文档中就提及“百度的‘相关搜索’,就是和您的搜索很相似的一系列查询词”。在存在近义词匹配的情况下,搜索引擎是否能将查询词A与目标网页B快速匹配则是对搜索引擎稳定性的一大考验。
3。2。1 Title的描述
在搜索引擎中,网页快照是保证搜索质量和速度的重要支撑技术之一。引擎数据库一般会缓存最近一次搜索时网页的标记信息,在下次搜索时对数据库内容快速索引,从而能迅速得到高质量的响应网页。而蜕变关系Title正侧重考察了搜索引擎对理解用户意图和概括检索网页的综合能力。该蜕变关系的具体定义如下:
定义原始查询A,在搜索引擎对A返回的前20个网页中,选取返回每条网页P的标题T(即每条搜索结果的第一行),再前加原始查询A构成后续查询B。由于标题T是搜索引擎自行总结的对网页P的最好描述,而后续查询B又要求搜索引擎对用户的键入信息进行理解,这样就满足了上述两种考察目的。其中,需注意两点:
1)为了让搜索功能的近义词匹配能够发挥作用,T部分将不适用双引号;
2)为了避免搜索引擎对T中符号进行操作而导致歧义,例如[“”]、[ — ]、[ | ]等符号,将剔除T中的全部符号,仅保留纯文本T1,即后续查询 B = A + T1。例如原始查询A为[“大时代”],则后续查询B即为[“大时代” 大时代在线试听 高音质歌曲 酷我音乐 ]。
3。2。2 Title的有效性定义
Title的设计是从用户的角度出发,来评估搜索引擎对于网页的检索和概括能力,以及搜索引擎对于用户意图的理解水平。基于这一点,Title蜕变关系的有效性定义采用差集方式,即当不出现以下任何一种情况时,认定测试用例有效:
1)对于某一后续查询B,在其前50个返回网页列表 中未出现对应的网页P;
2)搜索引擎产生了一个不恰当的页面标题,例如页面标题与查询词完全无关;
另外,对Title蜕变关系的测试用例也全部遵循3。1。2中提及的7条解决策略。
3。3 蜕变关系 Top5
Top5蜕变关系的建立受搜索引擎评估中Top1 一项的启发。它是依据Top1项目进行改良,注重考察搜索引擎的结果排序能力。