博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
新浪微博内容数据采集爬虫怎么写
阅读量:6324 次
发布时间:2019-06-22

本文共 910 字,大约阅读时间需要 3 分钟。

在不同的论坛和问答中,经常会遇到新浪微博的数据采集爬虫程序怎么写,或是已经完成了某部分后面需要协助帮助怎么做,楚江数据结合网上资料整理了几个微博爬虫开源项目。

SinaSpider- 基于scrapy和redis的分布式微博爬虫。SinaSpider主要爬取新浪微博的个人信息、微博数据、关注和粉丝。数据库设置 Information、Tweets、Follows、Fans四张表。爬虫框架使用Scrapy,使用scrapy_redis和Redis实现分布 式。此项目实现将单机的新浪微博爬虫重构成分布式爬虫。

sina_reptile- 这是一个关于sina微博的爬虫,采用python开发,并修改了其sdk中的bug,采用mongodb存储,实现了多进程爬取任务。 获取新浪微博1000w用户的基本信息和每个爬取用户最近发表的50条微博,使用python编写,多进程爬取,将数据存储在了mongodb中

sina_weibo_crawler- 基于urlib2及beautifulSoup实现的微博爬虫系统。利用urllib2加beautifulsoup爬取新浪微博,数据库采用mongodb,原始关系以txt文件存储,原始内容以csv形式存储,后期直接插入mongodb数据库

sina-weibo-crawler-方便扩展的新浪微博爬虫。WCrawler.crawl()函数只需要一个url参数,返回的用户粉丝、关注里面都有url,可以向外扩展爬取,并且也可以自定义一些过滤规则。

weibo_crawler-基于Python、BeautifulSoup、mysql微博搜索结果爬取工具。本工具使用模拟登录来实现微博搜索结果的爬取。

SinaMicroblog_Creeper-Spider_VerificationCode- 新浪微博爬虫,获得每个用户和关注的,粉丝的用户id存入xml文件中,BFS,可以模拟登陆,模拟登陆中的验证码会抓取下来让用户输入。

不过在这之前,一些功能和语法药了解,比如list,dict,切片,条件判断,文件读写操作等;

网页的基本知识,分析语言能力要具备;开发者工具会熟练运用;

转载地址:http://xomaa.baihongyu.com/

你可能感兴趣的文章
即将推出.NET Framework 4.7.2中的一些亮点
查看>>
用户吐槽:Azure DevOps CI 体验太差
查看>>
基于 DevOps 实践的 .NET Core 给开发者带来了哪些好处?
查看>>
搞容器,必须考虑这五大安全要素
查看>>
More than React(三)虚拟DOM已死?
查看>>
.NET Core完成向RyuJIT的迁移
查看>>
机器人操作系统来到Windows
查看>>
Kotlin,Java的下一代编程语言
查看>>
从单体应用转为分布式系统:来自Deliveroo的实践
查看>>
re:Invent 大会第一天,看看AWS有哪些最新进展?\n
查看>>
摩根大通发行稳定币,其创始人预言每家银行都将推出一种币
查看>>
GitHub Draft Pull请求支持新的协作流程
查看>>
使用人工智能测试软件
查看>>
一个神奇的操作符即将加入PHP
查看>>
Chris Lattner谈Swift 3和Cocoa“重命名”
查看>>
Angular CLI 使用教程指南参考
查看>>
Visual Studio 2019正式版发布,专注于人工智能和生产力
查看>>
虚拟主播上线:多模态将改变人机交互的未来
查看>>
Eclipse基金会发布MicroProfile 2.2,适用于Java微服务
查看>>
[译]Magento2中使用Web Api
查看>>