SEO 是英文search engine optimization的缩写,其中文意思是搜索引擎优化。在网络营销中,搜索引擎优化排名是一种非常重要的手段,SEO主要就是通过对网站的结构,标签,排版等各方面的优化,使搜索引擎更容易搜索网站的内容,并且让网站的各个网页在搜索引擎中获得较高的评分,从而获得较好的排名。
针对菠萝搜的SEO,是指使用BoBo ActiveX控件的(影视)网站针对菠萝搜的网络爬虫的特点,为了提高网站在搜索结果页面中的“曝光度”,同时也是让菠萝搜更高效的抓取有用页面,对本网站内的影片介绍页面代码进行优化。
菠萝搜(boloso)搜索引擎每抓取一个页面,均会对页面进行分析,按标准给出优化度评分并予以记录。菠萝搜将会在搜索结果页面参考该值,给予该网站一定的优先推荐奖励。(例如在该网站页面的条目后显示红色显眼的“已优化”字样,吸引用户优先点击进入该网站收看节目,从而给网站带去访问流量,起到免费推广宣传作用)
菠萝搜在抓取页面过程中,需要判断页面是否包含对某个影片的介绍信息;对于未优化的网页,网络爬虫需要花费更多的时间和空间开销。因此,如果页面针对菠萝搜进行了优化,菠萝搜将会增加其优化度评分。
具体的SEO方法如下:
在影片介绍页面源文件的<head></head>区域中加入下面的代码:
<meta name="boloso.page" content="intro">
注:
目前菠萝搜需要识别的页面类型暂只有影片介绍页面,即只识别上面列出的meta标签;
介绍页面中包含了影片的各种信息,做了SEO以后,菠萝搜的网络爬虫便能高效的通过特殊标识提取这些信息,起到事半功倍的效果。
具体SEO方法如下两种,网站可按具体情况选择操作:
方法A:
在介绍页面的<head></head>区域中加入如下代码:
<meta name="boloso.keyword" content="关键词1,关键词2,关键词3,关键词4,…">
其中的红色显示文本需要按实际情况进行替换,各个关键词之间用逗号“,”分割。
例:页面film_kingkong.html,是影片《金刚》的介绍页面。此html文件中加入如下代码:
<head>
…(其他head信息)
<meta name="boloso.keyword" content="金刚,彼得·杰克逊,娜奥米·沃茨,杰克·布莱克,阿德烈·布鲁迪,安迪·席克斯,杰米·贝尔,美国">
</head>
方法B:
影片的介绍页面中,在需要提交菠萝搜分析的文本前后加入注释标签,说明文本的属性,让网络爬虫提取。
注释标签格式:
<!--boloso.keyword-->some_word<!--/boloso.keyword--> 或,
<!--boloso.keyword type="xxx"-->some_word<!--/boloso.keyword-->
允许在标签中加入关键词类型type="xxx",以说明这个关键词是影片的何种信息。例如在导演“彼得·杰克逊”的关键词加上“movie.director”类型的标签:<!--boloso.keyword type="movie.director"-->彼得·杰克逊<!--/boloso.keyword-->。
关键词类型建议用中文描述,网络爬虫现阶段支持以下类型:“movie.name”、“movie.director”、“movie.actor”、“movie.description”、“movie.category”。若未加类型说明,则当作普通关键词处理。
例: film_kingkong.html页面中,原始的html代码片段如下:
…(其他html代码)
<li class=li_list2>影片名称: <B>金刚 </B></li>
<li class=li_list2 style="height:26px;line-height:26px;">导演:彼得·杰克逊</li>
<li class=li_list2>主演: 娜奥米·沃茨杰克·布莱克阿德烈·布鲁迪安迪·席克斯杰米·贝尔</li>
<div style="text-align:left;padding:10px;"><FONT face=Verdana>1933年美国,经济大萧条和盲目的探险精神激励著每个人去探索陌生的领域,开拓未知的生存空间…… </FONT> </div>
页面优化后,修改为:
…(其他html代码)
<li class=li_list2>影片名称: <B><!--boloso.keyword type="movie.name"-->金刚<!--/boloso.keyword--></B></li>
<li class=li_list2 style="height:26px;line-height:26px;">导演:<!--boloso.keyword type="movie.director"-->彼得·杰克逊<!--/boloso.keyword--></li>
<li class=li_list2>主演: <!--boloso.keyword type="movie.actor"-->娜奥米·沃茨杰克·布莱克阿德烈·布鲁迪安迪·席克斯杰米·贝尔<!--/boloso.keyword--></li>
<div style="text-align:left;padding:10px;"><FONT face=Verdana> <!--boloso.keyword type="movie.description"-->1933年美国,经济大萧条和盲目的探险精神激励著每个人去探索陌生的领域,开拓未知的生存空间……<!--/boloso.keyword--></FONT> </div>
(蓝色部分表明添加的各种标签)
部分网站为了防止盗链,在用户点击“播放”时,采用的是执行一段脚本的方式,而不是简单的页面跳转。
例如“<a href='####' onclick='play(16824,1)'>[第1集]</a>”,其中的play就是某个脚本函数名,该脚本被执行后,浏览器自动跳转到“../movie/play.asp?pid=16824&id=1”页面。
目前针对这样的介绍页面,菠萝搜不予以分析收录。这种情况,网站可以考虑以下三种优化方式,任选一种即可:
A.使用简单的页面跳转。Bobo支持防盗链功能,使用的是指定域名到节目的对应关系认证。所以网页中完全可以放心取消js脚本,改用href=’link’的方式,例如“<a href='../movie/play.asp?pid=16824&id=1' >[第1集]</a>”。
B.改用javascript: OpenWindow方式。例如修改为这样的格式:“<a href="javascript:OpenWindow('../movie/play.asp?pid=16824&id=1')">[第1集]</a>”。
C.保持原有的链接不变,在网站的根目录下加入名为robots.txt文本文件(关于robots.txt参考http://www.baidu.com/search/robots.html)。文件中写明播放脚本的函数名、参数格式和对应的url。格式如下:
User-agent:bolosospider其中,红色斜体字是需要网站根据自身实际情况进行修改的。“[%1]、[%2]”是按实际函数个数增加的,网络爬虫在解析时根据“%”后面的数字判断url中用哪部分参数进行替换。
Disallow:
Playfunction:func([%1],[%2],…)
Playurl:../url?id1=[%1]&id2=[%2]&…
User-Agent: bolosospider网络爬虫分析结果:该网站播放影片时使用的脚本函数名是play,函数有两个参数,对应播放动态页面../movie/play.asp的两个参数pid与id。
Disallow:
Playfunction: play([%1],[%2])
Playurl: ../movie/play.asp?pid=[%1]&id=[%2]
User-Agent: bolosospider网络爬虫分析结果:该网站播放影片时使用的脚本函数名是openplay,函数有三个参数,需要根据第二个参数选择对应的动态页面../openobject/playX.asp,函数的第一、第三个参数分别是动态页面的两个参数id与name。
Disallow:
Playfunction: openplay([%1],[%2],’[%3]’)
Playurl: ../openobject/play[%2]?id=[%1]&name=[%3]