分析百度搜索抓取MP3文件的技巧及优化
发布人:一全科技 来源:tuzibaobei.net 发布于:2011-01-07 23:06:59 浏览:918

我很高兴不断更新自己文章,一直观察互联网技术。平常,把观察的结果记录成文字,与大家共享。最近由于学习需要,开始研究百度抓取MP3文件。兔子宝贝的进步,学习都少不了新生力网络营销团队给我的帮助与关心。经过一下午的解剖MP3文件。特别是对那些做音乐网站的朋友有帮助。研究百度搜索技术是如何实现抓取MP3格式文件。关于是如何提高MP3其他问题,以后的文章中写出来。今天只研究是如何抓取MP3文件的。同时,先提醒的是此篇文章,只代表个人观点,文明评论,请勿唾骂,抛砖引玉。

为了整个过程顺利,以示例做分析。

观察这个“MP3”文件夹中只含有一个文件“比我幸福.MP3”。还显示了文件的大小,类型修改日期。这里要确定一个问题,这个文件夹中只有这一个文件。下面我们再观察他的属性内容。如下图所示:

刚才我们讲了,只有一个文件,为什么能显示出艺术家、唱片标题等相关信息呢?注意,只是有一个文字,为什么包含这么多信息呢?这就是百度搜索抓取MP3格式文件关键所在。

我大概讲讲MP3格式文件。MP3文件不光包括我们所听到的音频文件(常说的音乐)还有更多的唱片、歌黄信息。MP3格式文件大体分为三部分:TAG_V2(ID3V2),Frame,,TAG_V1(ID3V1) 。其中TAG_V2(ID3V2)记录了作者,作曲,专辑等信息。Frame记录了音乐文件的实体部分。TAG_V1(ID3V1)记录作者,作曲,专辑等信息,长度为128BYTE。关于这些是怎么写的,什么格式,怎么定义,在这里不再呈述。

为了说明分析的真实性,脱去MP3格式文件“外套”,分析具体内容,以十六进制数据呈现。如下图所示。

因此,一个完整的mp3文件也就完整的包含了作者,作曲,专辑等信息。这进一步方便百度搜索引擎去抓取MP3文件,更好的让我们搜索。我们搜索音乐,就是去比对MP3某个特定的字节,实现匹配。返回给用户的正确的音乐。在这友情提示一下做音乐网站的网友,在做网站优化的同时,不要忘记对MP3格式文件内部内容进行优化,例如,是否写入了作者,作曲,专辑等信息。这是百度抓MP3最重要的依据。百度抓取音乐不是依靠文件名和网页匹配。就是直接识别MP3文件的内部内容,至于怎么写进MP3内部内容,如果有时间再介绍,这里只讨论“百度搜索抓取MP3文件”。至此,当然,这也给一些做垃圾站提供了便利。当然,任何一件事,有利有弊。

兔子宝贝继续观察互联网搜索引擎,以后,我会写出更多的相关的文章,接下来,会揭密百度搜索抓取图片的奥密,希望大家支持!同时,申明一下,我的分析文章只代表个人观点,不做为任何依据。文明评论,请勿唾骂。希望各位朋友关注我的博客,提出各种意见。

原文地址:http://www.tuzibaobei.net/post/18.html (原创文章,站长站首发,欢迎转载,保留版权!)