pandas分组统计不重复值的数量 发表于 2019-03-11 | 更新于 2019-03-12 | 分类于 python , 网络爬虫与数据分析 | 评论数: | 阅读次数: 基础数据数据格式如下,其中行只有一个值,所以每列均存在重复项(比如,一条策略含多个源地址,多个目标地址和多个端口情况)。 策略ID 策略描述 源地址 目标地址 端口 开通时间 结束时间 id description src dst port st et 12345678impor ... 阅读全文 »
使用selenium实现批量文件下载 发表于 2019-03-09 | 分类于 python , 网络爬虫与数据分析 | 评论数: | 阅读次数: 背景实现需求:批量下载联想某型号的全部驱动程序。 一般在做网络爬虫的时候,都是保存网页信息为主,或者下载单个文件。当涉及到多文件批量下载的时候,由于下载所需时间不定,下载的文件名不定,所以有一定的困难。 思路 参数配置 在涉及下载的时候,需要先对chromedriver进行参数配置,设定默认下载目录 ... 阅读全文 »
matplotlib画图时标注最大值 发表于 2019-03-07 | 分类于 python , 网络爬虫与数据分析 | 评论数: | 阅读次数: 背景在上一篇使用matplotlib绘制时间序列图表中,本来想只展示最大值,一直没找到方法,就先标注了所有的点的数值,看起来有点不够直接。今天终于搞定了,记录一下。 思路源数据:index 为 ‘data’,数据为’title’ 123456789cacu.head(5)Out[5]: ... 阅读全文 »
使用matplotlib绘制时间序列图表 发表于 2019-03-06 | 分类于 python , 网络爬虫与数据分析 | 评论数: | 阅读次数: 背景前面通过selenium爬取了微信公众号“新世相”的所有文章链接,详见使用Selenium获取微信公众号的所有文章。获取到的信息有:文章发表的时间、标题以及对应的url。那么根据时间可以绘制出文章发表情况的图表,先上结果图: 思路 读取csv 1df_ori = pd.read_csv('art ... 阅读全文 »
使用selenium把网页保存为PDF 发表于 2019-03-05 | 更新于 2019-03-09 | 分类于 python , 网络爬虫与数据分析 | 评论数: | 阅读次数: 背景前面通过selenium爬取了微信公众号“新世相”的所有文章链接,详见使用Selenium获取微信公众号的所有文章。那么接下来就该获取具体文章了。由于网页是含有图片的,想想还是通过浏览器把网页打印成PDF保存好了,同时保存一份不含图片的文本文件,可以用于后续分析。 那么怎么使用selenium打 ... 阅读全文 »
使用Selenium获取微信公众号的所有文章 发表于 2019-03-04 | 更新于 2019-03-05 | 分类于 python , 网络爬虫与数据分析 | 评论数: | 阅读次数: 背景前段时间有人在群里分享了爬虫咪蒙公众号的所有文章,可以通过深度学习进行各种分析,但由于咪蒙账号已封,所以链接点进去也看不到了。个人还是比较喜欢看新世相的公众号的,看看怎么把它的文章也都爬下来。 思路 从哪里爬? 爬虫一般得用浏览器访问,然后找到相关的请求接口,通过修改参数来伪造请求获取数据。微信 ... 阅读全文 »
LeetCode-5 最长回文子串 发表于 2019-03-03 | 分类于 算法 | 评论数: | 阅读次数: 题目:最长回文子串给定一个字符串 s,找到 s 中最长的回文子串。你可以假设 s 的最大长度为 1000。 示例 1: 123输入: "babad"输出: "bab"注意: "aba" 也是一个有效答案。 示例 2: 12输入: " ... 阅读全文 »
LeetCode-4 寻找两个有序数组的中位数 发表于 2019-03-02 | 更新于 2019-03-03 | 分类于 算法 | 评论数: | 阅读次数: 题目:寻找两个有序数组的中位数给定两个大小为 m 和 n 的有序数组 nums1 和 nums2。 请你找出这两个有序数组的中位数,并且要求算法的时间复杂度为 O(log(m + n))。 你可以假设 nums1 和 nums2 不会同时为空。 示例 1: 1234nums1 = [1, 3]num ... 阅读全文 »
LeetCode-3 无重复字符串的最长子串 发表于 2019-02-28 | 分类于 算法 | 评论数: | 阅读次数: 题目:无重复字符串的最长子串给定一个字符串,请你找出其中不含有重复字符的 最长子串 的长度。 示例 1: 123输入: "abcabcbb"输出: 3 解释: 因为无重复字符的最长子串是 "abc",所以其长度为 3。 示例 2: 123输入: "b ... 阅读全文 »
LeetCode-2 两数相加 发表于 2019-02-27 | 更新于 2019-02-28 | 分类于 算法 | 评论数: | 阅读次数: 题目: 两数相加给出两个 非空 的链表用来表示两个非负的整数。其中,它们各自的位数是按照 逆序 的方式存储的,并且它们的每个节点只能存储 一位 数字。 如果,我们将这两个数相加起来,则会返回一个新的链表来表示它们的和。 您可以假设除了数字 0 之外,这两个数都不会以 0 开头。 示例: 123输入: ... 阅读全文 »