好吧,做了一个很疯狂的东西! http://movie.readself.com/
平常我想要看电影的时候,总是需要在Google或者Baidu里搜索很长时间才能找到一个下载链接。
比如说,我想看《黑天鹅》,我就去Google里搜索:
ext:mkv Black Swan
然后就搜出种子或者下载链接了。那么这一个过程,是否可以简化呢?是否可以预先搜集好每个影片的下载链接,然后存到数据库里,方便我想看电影的时候直接调出来下载呢?所以就这样萌生了写个爬虫的想法!最初还是听说荣哥写了一个爬虫放在学校的服务器爬了3个小时,就把100万首音乐资料全部下载了。我后来本想跟随荣哥的足迹的,但突然觉得电影对于我来说比音乐更重要些。预祝荣哥顺利踏上去谷歌山景城总部的愉快旅程
结合我之前做博客搜索引擎的经验,这次做一个电影资源搜索引擎吧!除了自己使用之外,还可以推荐给身边的各位朋友使用。私底下分享即可!
为了搜集这些电影资料,写了n多个爬虫,分别干不同的事情,整合了几个站点的资源。幸好教育网网速还行,每次基本上都可以用几个小时就爬完我需要的影片信息。不同站点的资源的整合,也写了不少程序来智能匹配。比如说,我现在有100多万的电影下载地址或者种子,我怎么跟我的影片信息库关联起来呢?按照我以往做文本分析的经验,通过计算链接和影片信息之间的联系程度,取关联程度最高的一个进行匹配。尽管如此,我发现还是有5%左右的影片的下载地址是错误的,比如2012。因为这个根据这个数字直接匹配2012年的片子了……
在下载链接的列表里,我做了一个简单的排名,把尽量与影片关联程度最高的,以及高清和速度好的链接排在前面。通过这样保证第一个下载链接的可靠性!
这次搜集电影信息的存储没有使用MySQL了,而是使用了MongoDB,性能很好,CPU占用少,用起来很方便,一点也不像MySQL那么繁琐啊。不过在吃光了内存之后,写入硬盘的时候,速度就太坑爹了,硬盘灯常亮啊,Firefox直接卡死,开了100个线程,CPU和网络利用率还是很低!因为爬虫一开始都把网页内容直接塞到MongoDB里,所以爬完后,信息内容的大小超过30GB了(包括小尺寸的海报)。写了几个脚本把影片信息提取出来,去掉了冗余数据,最后剩下10GB,上传到readself.com的VPS(内存512M,硬盘20G)上,跑起来妥妥的,搜索速度也很快!!!
分享地址: http://movie.readself.com/
看吧,小虾过了一段时间又给大家带来好玩的东西了!我本人在Linux下使用KTorrent,在Windows使用μTorrent,下载速度都很给力!用迅雷也可以下载磁力链接的文件。
给朋友们使用一下,觉得好,请评论啊 😀
这些东西比学校上的课有趣多了, 可惜俺是菜鸟,不懂
虾哥要不我把我那100W的数据也贡献给你的readself吧~
从哪爬的哟?
你猜猜
嘿嘿 原理我猜到了 但我不讲出来。因为我也做这块,不过更反河蟹一点。估计你的小主机要撑不住了,这个站传开了似乎。
不怕的,静态页面无敌呀!!!哈哈……
是否可以通过连接DHT网络获取一些资源呢?
小虾此站点已火了!
绝对要火!!!!!
我很少能看到 这么 能创作的人了。
嗯
数据来自正义湾
嗯,已经开始多渠道来源
海盗湾?
目测 readself.com 的子域名会越来越多,好玩~
啊,之前的一些mysql数据都丢了,现在只有这个可以玩的了。
电影信息是从豆瓣收集的吗?分数好像是豆瓣的评分
对,的确有豆瓣的数据!评分还是豆瓣的,感觉豆瓣的评分比较靠谱点!
有豆瓣评分了,来个按imdb评分排序吧,我是imdb评分党。
有豆瓣评分排序了,再来一个IMDB评分排序吧,我是评分党 😉
Hi,新版网站已经支持按imdb评分排序,这个周末放出来。没有在旧版网站改动是因为要重建索引表,最近比较忙,也比较懒。。。
真棒。:)
这活生生的例子真好啊最能激起人编程和学习的乐趣!
http://movie.readself.com/id/5071ad0190d7a909a3fc6f6d
木有下载的地方~
还木有爬到下载链接哦 😀
有个枪版的下载
我迟点更新下看看
我也想说这个事情,好同志,先握手!
我靠,牛逼大了!!怒赞小虾…
我去,我写博客搜索引擎的时候,怎么不来赞一下呢!!! 😛
这个实用,程序有开源的吗
你是指网站还是爬虫呀,哈哈!
我觉得你可以分享出来,传播开来,这样一来你的被封,就还会有千千万万个爬虫。。。。
赞成Web Log的看法。
这个东西弄不好就惹到国内的哪个shit公司了。
写的不好的爬虫对互联网损害很大,这种东西自己玩玩还可以。
这个在今天的G+热们第一名 T_T
不过我找了一个特冷门的电影竟然搜到了链接,可惜不能下。
当然得评论啦,这个确实很威武啊,膜拜了。。。
不评论我都不好意思了
不用自己的域名是明智的,要不然过几天就被有关部门shut down了。
你好,在朋友那边看了下你的网站觉得很不错,不过感觉你的这个VPS可能会马上就跑不起,需要服务器免费赞助吗。
怎么赞助啊?国内国外的?什么配置?
太牛逼啦
这个比较NB,自己有空间也没想到可以做这个,厉害!
建议多条件选择。
热门电影推荐。谢谢
我不知道哪些才是热门的电影呀!!!
我准备加一个最新爬到的电影好了!
可以做“最新电影”
计划中的!
热门电影可以考虑百度风云榜
支持! 最新的蝙蝠侠还没看过,下个试试
能不能把有个分类去掉,因为这可能会导致这个站被关掉。
小虾的站在国外,尺度应该没问题
已经去掉啦!!!^_^
我很好奇还弄了个什么分类。。。真的很感谢作者啊~其实被墙了也不怕,咱们都会翻墙的。。。如果用的人多了,自然而然就有风险,尤其互联网这种传播速度和国内这么敏感的政策。再次感谢作者~ 一直很好奇就没遇到过中文的ed2k链接的搜索,有时候我不需要像以前verycd那样的精品资源只需要有资源然后自己来帅选,开骡子连上服务器再搜索好麻烦。爬虫能爬ed2k链接么?
你的意思是爬verycd吗?
哈哈,太坏了,只去掉了链接,还是可以看到的
你聪明嘛,像我从数据库里删除吗?
很好的构思, 不过似乎只有磁力连接没有 ed2k? ed2k 相比来说时效性更长.
很赞的网站,厉害!
谢谢支持!!!欢迎下次光临
佩服啊
用Python 写的?
是啊?没看出来吗?
造福社会呀,泪流满面。
电影会持续更新吧?!
哦,小虾,这个是否可以开源学习一下!
目前还没啥技术含量,过段时间看看~~
赞,做了我件一直想做的事情,呵呵。
估计爬simplecd + 海盗湾,就差不多了。
电影描述目测是拿豆瓣的数据。
嗯,豆瓣也是网上采集或者拿别人数据的。
不得不说,真的很牛呀!原来编程技术可以做这么有趣的东西!
是不是用python写的?
有blog搜索,有电影搜索了,下一次会出现什么好玩的东西呢?
我使用并期待着。
不过这样的下载站会不会有被封的危险?
恩,python写的。下次要写的东西,我现在也有想法啦!!!o(∩∩)o…哈哈,担心没时间做呢。
不知道你是用哪个python的web框架呢?
tornadoweb
你可以在http请求的响应里看到Server字段的信息的。
方便分享下源代码么?真的很感兴趣,一直关注这里。
不过我老了,心还不算老^_^
爬虫? or 网站?
对爬虫源代码很感兴趣啊!
能搜av就好了
这个,,,估计百度这个搜索引擎能够帮你整理出来!!!
目测郑州电信已封锁网站
可否支持按文件大小和发布时间排序?
你是指下载链接还是指电影???
造福全人类
话说电影能不能给个评分排序。。
Hi, 目前还没有做的这么强大,以后考虑做强大的时候,会换一个服务器。
目前这个已经做成静态的了,要不然撑不了那么大流量。
小虾~~ 你邮箱或qq是多少呀?
Hi,如果你收到博客的评论通知,可以直接回复到我邮箱。
不错不错,有想做的东西就花时间做出来真好。
苦于想做东西的时候没整块整块的时间啊……
其实是在给自己找借口
我平常也不算很闲,只是有时候一起劲了,就花了好几天去做同一样东西。
我现在差的就是那个劲儿啊……你准备读研么?or 直接工作?
我发到微博了,转发都快过千了。。谢谢您!
哈哈,谢谢你!我刚在微博关注你了
啊喂 你都不说哪个是你~~~
你的微博是什么?
python2.x 还是 3.x?
我一直习惯在使用2.x的
高手你碉堡了!
海盗湾的数据可以在网上下载咯。
好喜欢这个网站,立马收藏了 电影来了 ,话说能分享下源码么,我也想在自己的服务器上整一个,给周边的朋友用的
好东西,已经收录到我的下载搜索里面了,地址:http://search.jayxon.com/
其实我做的就一自定义搜索,没什么技术含量,但是收录的网站非常多,你可以试试
我试了一下你的这个,虽然电影信息很全,应该是从豆瓣爬来的,但是冷门一点的电影就没有下载链接了,而我试的几个电影在我的搜索引擎里面都可以搜索到下载地址,而且不止一个
另外就是希望不仅仅收录磁力链接,也把ed2k链接收进去吧,看好你
另外下载地址的表格能否增加排序功能?按大小按时间什么的
正在做,但是现在的机器性能差,还无法支持这种功能。
他的意思是页面上“下载地址的表格部分”用 JS 实现排序吧。
哇,这个倒是可以做,但是还没头绪呀!!!以前没做过类似的,需要思考下
如果不想分心写这些,可以用现成的,比如这个:
http://www.kryogenix.org/code/browser/sorttable/
(当然 Google 还有更多)
很好~~~不过打算下星期对网站进行改版了哦
我就想问一个问题: 爬虫是完全自己写的,还是根据开源的改写的?
一般来说,都是自己写的,比较快。我是开了100个线程来爬的!!!
100个线程?据我所知很多网站多有反爬虫的功能的,你爬的这么猛难道不会给你封了?
的确会被封,但是小心一点,找到漏洞,在半夜三更网络最畅通的时候再弄。
太强大了。。(话说可以再来一个Chrome/Firefox插件,打开豆瓣电影页面的时候右边自动弹出这里的下载地址,就爽了)
已经有人这样做啦!!!
(弱求插件名
VideoHub chrome插件
好虾一生平安
赶快换服务器
为了让大家体验的更好,已经开始更换了
小虾,刚给你发邮件啦,求你的微博了,搜怎么没搜到,希望能经常交流哦~~!
顶顶小虾咔!
昨天看到微博点了看看,一看下面的地址,这不是小虾吗!哈哈~
不过昨天你的BLOG打不开,推荐他们来看,估计也没看成…..
太需要这个网站了,以后看电影不愁了,楼主神人啊!不知能否看下爬虫源代码么?
不错啊, 很有条理
我擦擦,你还能更坏点吗?
A和V 坏坏更棒! 求楼主微博
不懂程序,似乎很多爬虫都是用python写的。
小虾威武!
能否分享一下爬虫的源码?
尼玛,原来是你干得。。。
看到人人分享,特地google下作者的gmail, 果然有个技术博客。 赞一个先
怒顶~
狂顶
FB神牛来了~好开心
请问你用的linux是哪个发行版
debian6 x64
你的搜索引擎已经出名了。连美团都转了。
哇,目前功能还是有点简单,很多地方都需要改进的
你的微博是什么?
http://weibo.com/imxiaoxia
界面很干净,内容很强大。。。
还是依旧那么犀利。
哥们,欢迎来新浪开放平台 后端开发,如果你有兴趣的话。
嘿,这个提议很不错!!!
等我毕业了也想去啊。现在还得抽时间做一点自己喜欢的东西呢
这边 主要是微博业务,海量数据,海量存储,需要各类型人才。如果有兴趣的话,可以介绍你来。欢迎来邮件咨询!
guans******sina.com.cn小虾的很多朋友也可以挖啊
建议虾哥写个原理分析的文章,授之以渔嘛。对非关系型数据库了解不多,最近也在恶补key-value的知识。感觉虾哥在数据挖掘方面造诣也很高,求指点啊!
好的呀,以后会发博文说到这方面的技术哦!这几天都有事没空发博文啦……
在订阅文章列表看到这篇文章时本想过来评论,发现你的博客已经挂掉,现在终于好了。
其实爬一爬ed2k更好,p2psearch一直是我珍藏软件o(∩_∩)o
p2psearch是什么原理呀!!!我想研究呀!!!
用的是KAD网络,其实就是一个无限制的电驴搜索客户端。我已经把软件发到你邮箱了
这个可以有 以前给jayxong说过可惜他说他不会
p2psearch好像是用的一个开源的emule的代码改的。好像是scar ange版的emule。
最近你这博客慢得出奇。。。 不会是因为访客太多吧,哈哈
的确是啊。。。访问量比平常高了10倍。
可能要换一个服务器~
你的更新频率很高啊,现在又有在线观看了, 很棒!
继续加油。
期待你做得更完美。
请问博主用的什么服务器啊,hosting在哪儿的呢?
burst.net的VPS
Los Angel的。
感谢:)
不错啊,这东东消磨时光,ml捋管钢钢的
好牛逼啊
晕,居然这时候才发现是你写的。真心牛逼~
真心非常的强大,搜索效率很高,我想的问的是有没有开源的可能让想学习的都学习一下,开开眼界。
NB! 已经非常好用了
大牛啊!膜拜一下!顺便,我也是scut的
好吧,VPS不错,burst的吧。悄悄问一下~CPU他们给了几个核?每个核有多少GHZ吖?
之前的512M的VPS在访问量高的时候就很卡,现在已经换了一个4G内存的VPS了
好吧,果然是有钱人,我电脑才2G……4G很优惠吗?
不优惠啊,59USD的 T_T
好强大~想学习下这个爬虫…会介绍下原理和开源吗?
推荐linode,很流弊的哦:)另外这个爬虫相当厉害,流量已经110000+了哦;怕会被河蟹。
谢谢,感觉linode好贵啊!!!满足我站点要求的VPS,花费不少啊。
还是在学校好啊..
有时间折腾.
今年毕设的时候我也搞了一个,不过很多数据懒得弄了。
用java做的。https://github.com/princehaku/railgun
.toplist tbody
让使用者自己配XML规则。
然后就没更新了。。
这个怎么用呢?没有一个展示吗?
文档没更新..
然后只有一个非常简陋的版本.
http://vsearch.techest.net/
主要只是个爬虫.
https://sourceforge.net/projects/railgun/files/ 之前打包了一份小的.
Wow,你是爬了全网,还是指定网站呢?
只按照指定规则爬了三个站的
https://sourceforge.net/p/railgun/code/ci/a8bbb9070842bc3e773bf3585c8b663dba5693ee/tree/trunk/sites/
问个问题
平时看直播的时候,能检测网站那个速度最快播放最流畅吗?
谢了..
理论上是可以的,都试一试就知道了 😀
才发现这个博客,都是精品,订阅之 (=w=)
谢谢支持!!!以后要多抽时间写博文才行了
http://weibo.com/1870296302/z0h2Iokeo,博主你火了哦
这个站点太有爱了,赶紧收藏了,只是磁力链接现在的下载工具还不是很多,速度也不是很快
这个站点太强大了,要是支持磁力链接的下载软件再多一点就好了
这个站上的资源,能够用迅雷下吗?你有没有 遇到什么问题呢?
磁力链接我使用的是µTorrent来下载的,最新版的迅雷好像可以下载磁力链接的
又遇技术流啊
亲,好评。真的很强大
可以有邪恶的片子不。
请搜苍老师大名
xiaoxia,能把你的爬虫代码发我瞧瞧吗?一直想看看爬虫是怎么写的
就是一个BFS下载网页,提取链接,只有百来行的
同求啊少年
博主…求爬虫源代码…仅限于学习用途…非常非常感谢~
爬影片信息的还是爬下载链接的?
楼下已经有人帮忙回复啦……爬影片和下载的都要吧..谢谢了~这个博客火了啊
xiaoxia你好,我现有一闲置512M RAM, 20G 的 Linode VPS, 愿意免费提供给你使用,如有需要请与我联系。
Hi,Linode的网络流量似乎挺宝贵的,还是留着吧。 我这个站一个星期就跑200G了
xiaoxia 经常会弄出一些不错的玩意。
继续赞一个。
爬虫代码开源吗?
爬影片信息的还是爬下载链接的呢?
爬下载的链接。
小虾,爬影片,爬链接的,网站的,都开源吧,让我们学习学习~
Hi,迟点发技术博文,现在忙着网站改版呢
博主,求下爬下载链接和影片信息的代码,学习学习了。
迟点发技术博文!!!
看过了你一些的作品和博客,想和你改变世界。email我
OK! 在邮件可以回复我这个评论
有啥想法能不能带一个打酱油的?
【发现小虾在看雪论坛的身影,哈哈】
『编程技术』 (49人)
讨论编程技术,稍侧重安全技术相关的编程。
『C32Asm』
『安全工具开发』
版主: monkeycz 北极星2003 小虾 玩命 莫灰灰
不是同一个人。
小虾哥明天电影网站就会要找你去喝茶了,呵呵
真的很喜欢你的网站。真的太给力了,继续更新新的只是哦。我们支持你
索引怎么做的?
支持你,小虾
才大学毕业就做出有一定影响力的作品!羡慕你~
在支持小虾,我的“勇敢传说”就是在你这里下的。
不错,我也要写点有意思的东西了
貌似小虾是要做成职业的了http://beta.dianying.fm/
只是其中一个project嘛
要是能根据格式分类一下就好了
想不到 http://dianying.fm/ 已经上线了呀。
十分赞,要是能加入动漫资源就太好了。
或许要不我也挑战写一下:)
上线了2天就没了。貌似xiaoxia在做进一步调整吧。
看到顶部那几个图标,就想起了bootstrap,打开源码一看,哈哈,果然,小虾也twitter-bootstrap啊!界面写的很清爽,赞一个!
不错的一个网站 看好这个创意 希望可以长久办下去
xiaoxia大神,我要向你学习啊,能否给个邮箱?
好啊!!!
我也要……
小虾,现在dianying.fm用的是哪个服务商的服务器,方便就求pm地址谢谢
站点已经收藏,自给自足真厉害
想抓取英语,有啥推荐的可以爬取的网站?
谢谢
英语。
音乐。
虾米
oneasiahost的VPS 买的Openvz还是KVM?
kvm,最高配的ssd。
博主,ext:搜索代码是什么意思?(搜索过,没找到答案)望博主回复..
资源的扩展名。
xiaoxia不知道你网站开源不,能发一份学习一下嘛?感谢
xiaoxia,你的博文中有这么一段:’按照我以往做文本分析的经验,通过计算链接和影片信息之间的联系程度,取关联程度最高的一个进行匹配’,我正好也在做数据匹配的作业,请教一个技术问题。
你的计算关联度的算法,是不是这样的?首先将影片信息进行分词,提取特征,然后使用相似度算法(例如shingle),来比对两个影片信息的相似度,相似度高则合并成一条记录。
谢谢!
如果你有足够的影片信息,你可以尽可能考虑更多的特征。相似匹配的时候,可以寻找一个成功率比较高的判断标准。
可否说详细一些呢?
小虾搞一个disqus吧~没交互不科学的说
博客插件?
xiaoxia弄一个disqus吧~
来膜拜大牛
电影FM
http://dianying.fm/
变成这个了
xiaoxia!缺男朋友嘛!!
只缺女朋友,男朋友太多了
真桑感!
弱问迅雷云点播是破解的吗?
是吧,我们也是调用别人的地址的。
好好奇,小虾你是用什么服务器啊?我是菜鸟,刚开始接触python,都不知道咋布置python到服务器呢,求教下
装好Linux就有python了
很少看到对技术这么痴迷的了。喜欢折腾的。。。。
搜索用的是 sphinx for chinese 吗?求写技术贴对神站进行剖析啊!!!
木有那么高级吧。。。。不会用sphinx
那搜“小时代”,宝瓶时代 ,小夫妻时代这两类是怎么出来的呢?
不错 的程序!向外提供吗?
你好牛叉啊 ~~膜拜
那个站现在看起来相当棒啊!
Pingback引用通告: 做一个类似「电影FM」这样的工具需要哪些技术?主要聚合方面。 | 数码beta
一直对爬虫很感兴趣但是找不到好的实例,不知博主能否分享下源码(本人仅用于学习)谢谢。
这个暂时还没开源,我博客有文章介绍爬虫的 😛
要是可以把推荐的海报做成电脑桌面就好了
有这想法,但没这力量~~
为什么不能访问了?
给你发邮件了,拨错.Your email cannot be delivered to gdxxhg@gmail.com.
Traceback (most recent call last):
File “/home/xiaoxia/lab/forwarder/sender.py”, line 86, in run
sendmail(row[“from”], row[“to”], msg)
File “/home/xiaoxia/lab/forwarder/sender.py”, line 19, in sendmail
smtp = smtplib.SMTP(str(host), timeout=60)
File “/usr/lib64/python2.6/smtplib.py”, line 239, in __init__
(code, msg) = self.connect(host, port)
File “/usr/lib64/python2.6/smtplib.py”, line 295, in connect
self.sock = self._get_socket(host, port, self.timeout)
File “/usr/lib64/python2.6/smtplib.py”, line 273, in _get_socket
return socket.create_connection((port, host), timeout)
File “/usr/lib64/python2.6/socket.py”, line 567, in create_connection
raise error, msg
error: [Errno 101] Network is unreachable
嗯,你可以直接发送到 gdxxhg@gmail.com
打不开了 可以分享吗
忘记密码了,但是502 Bad Gateway怎么办呢?