Home

Awesome

最新公告

python版本已停止维护,go语言版本已启动,地址:https://github.com/super-l/msray

如需使用,可查看最新的基于Go语言的url采集项目:msray(于2022年9月发布);

QQ群:235586685
TG群:https://t.me/ms_ray
免费版下载:https://github.com/super-l/msray/releases
商业版文档:http://www.msray.net/doc

程序简介

注意: 开源的python版本由于在构架与设计上无法完美绕过反爬虫机制,已经放弃更新。部分搜索引擎已经更新了规则,如果采集不到内容,可自行修改。

注意,本Superl-l采集工具的python版本,本版本在linux下完美运行,winodws的部分版本有兼容性异常。开源仅为发现此类工具还没有开源与好用的,提供免费技术分享。 如果没有技术基础,在使用者遇到问题,可查看下文的联系方式,自行通过QQ群请教他人无偿或有偿技术调试。

4.0版本已经升级完成。后续的更新可能只是添加更多的搜索引擎支持了。result目录下面,自带了一个测试搜索python的结果txt.

程序特色

当前版本

使用效果

image1 image2 image3

安装依赖

使用说明

配置文件说明 config.cfg

节点参数示例值说明
globalsave_typemysql保存类型 可选择file或者mysql 如果是file则保存为本地txt
globalsleep_time1每次搜索处理完一页后的等待时间,防止太频繁被搜索引擎屏蔽
urlurl_typerealurl保存文件txt里面显示的url类型。realurl=真实网站地址 baseurl=原始搜索引擎地址 urlparam=带参数的真实网站地址
filterfilter_statusTrue是否开启过滤器,如果开启,则过滤域名和标题都不生效
filterfilter_domainTrue是否过滤域名
filterfilter_titleTrue是否过滤标题
logwrite_titleTrue是否显示标题
logwrite_nameTrue是否显示搜索引擎名称
enginebaiduTrue百度搜索引擎模块是否开启
enginesougouTrue搜狗模块是否开启
enginesoFalse搜搜模块是否开启 (搜搜现在抓取不到了)
pagesizebaidu_pagesize50每页条数
pagesizesougou_pagesize50每页条数
pagesizeso_pagesize10每页条数
mysqlhost127.0.0.1如果保存类型为Mysql,则此节点必须配置正确
mysqlport3306端口
mysqluserroot用户名
mysqlpasswordroot密码
mysqldatabasesuperldb数据库名称
mysqltablesearch_data表名称
filesave_pathdirresult如果保存类型为file,则这里设置的是保存的路径,当前为程序根目录的result文件夹
pluginprTrue预留的插件功能,暂时不支持

数据库创建表sql语句

    CREATE TABLE `search_data` (
      `id` int(11) unsigned NOT NULL AUTO_INCREMENT,
      `engine` varchar(20) NOT NULL DEFAULT '',
      `keyword` varchar(100) NOT NULL DEFAULT '',
      `baseurl` varchar(255) NOT NULL DEFAULT '',
      `realurl` varchar(255) NOT NULL DEFAULT '',
      `urlparam` varchar(255) NOT NULL DEFAULT '',
      `webtitle` varchar(255) NOT NULL DEFAULT '',
      `create_time` int(10) NOT NULL,
      PRIMARY KEY (`id`)
    ) ENGINE=MyISAM AUTO_INCREMENT=395 DEFAULT CHARSET=utf8;

4.0版本更新说明

3.0版本更新说明

2.0版本更新说明

1.0版本更新说明