郑小凯的个人博客

知识总是要一点点积累的


  • 首页

  • 标签

  • 分类

  • 归档

  • 搜索

pandas分组统计不重复值的数量

发表于 2019-03-11 | 更新于 2019-03-12 | 分类于 python , 网络爬虫与数据分析 | 评论数: | 阅读次数:
基础数据数据格式如下,其中行只有一个值,所以每列均存在重复项(比如,一条策略含多个源地址,多个目标地址和多个端口情况)。 策略ID 策略描述 源地址 目标地址 端口 开通时间 结束时间 id description src dst port st et 12345678impor ...
阅读全文 »

使用selenium实现批量文件下载

发表于 2019-03-09 | 分类于 python , 网络爬虫与数据分析 | 评论数: | 阅读次数:
背景实现需求:批量下载联想某型号的全部驱动程序。 一般在做网络爬虫的时候,都是保存网页信息为主,或者下载单个文件。当涉及到多文件批量下载的时候,由于下载所需时间不定,下载的文件名不定,所以有一定的困难。 思路 参数配置 在涉及下载的时候,需要先对chromedriver进行参数配置,设定默认下载目录 ...
阅读全文 »

matplotlib画图时标注最大值

发表于 2019-03-07 | 分类于 python , 网络爬虫与数据分析 | 评论数: | 阅读次数:
背景在上一篇使用matplotlib绘制时间序列图表中,本来想只展示最大值,一直没找到方法,就先标注了所有的点的数值,看起来有点不够直接。今天终于搞定了,记录一下。 思路源数据:index 为 ‘data’,数据为’title’ 123456789cacu.head(5)Out[5]: ...
阅读全文 »

使用matplotlib绘制时间序列图表

发表于 2019-03-06 | 分类于 python , 网络爬虫与数据分析 | 评论数: | 阅读次数:
背景前面通过selenium爬取了微信公众号“新世相”的所有文章链接,详见使用Selenium获取微信公众号的所有文章。获取到的信息有:文章发表的时间、标题以及对应的url。那么根据时间可以绘制出文章发表情况的图表,先上结果图: 思路 读取csv 1df_ori = pd.read_csv('art ...
阅读全文 »

使用selenium把网页保存为PDF

发表于 2019-03-05 | 更新于 2019-03-09 | 分类于 python , 网络爬虫与数据分析 | 评论数: | 阅读次数:
背景前面通过selenium爬取了微信公众号“新世相”的所有文章链接,详见使用Selenium获取微信公众号的所有文章。那么接下来就该获取具体文章了。由于网页是含有图片的,想想还是通过浏览器把网页打印成PDF保存好了,同时保存一份不含图片的文本文件,可以用于后续分析。 那么怎么使用selenium打 ...
阅读全文 »

使用Selenium获取微信公众号的所有文章

发表于 2019-03-04 | 更新于 2019-03-05 | 分类于 python , 网络爬虫与数据分析 | 评论数: | 阅读次数:
背景前段时间有人在群里分享了爬虫咪蒙公众号的所有文章,可以通过深度学习进行各种分析,但由于咪蒙账号已封,所以链接点进去也看不到了。个人还是比较喜欢看新世相的公众号的,看看怎么把它的文章也都爬下来。 思路 从哪里爬? 爬虫一般得用浏览器访问,然后找到相关的请求接口,通过修改参数来伪造请求获取数据。微信 ...
阅读全文 »

LeetCode-5 最长回文子串

发表于 2019-03-03 | 分类于 算法 | 评论数: | 阅读次数:
题目:最长回文子串给定一个字符串 s,找到 s 中最长的回文子串。你可以假设 s 的最大长度为 1000。 示例 1: 123输入: "babad"输出: "bab"注意: "aba" 也是一个有效答案。 示例 2: 12输入: " ...
阅读全文 »

LeetCode-4 寻找两个有序数组的中位数

发表于 2019-03-02 | 更新于 2019-03-03 | 分类于 算法 | 评论数: | 阅读次数:
题目:寻找两个有序数组的中位数给定两个大小为 m 和 n 的有序数组 nums1 和 nums2。 请你找出这两个有序数组的中位数,并且要求算法的时间复杂度为 O(log(m + n))。 你可以假设 nums1 和 nums2 不会同时为空。 示例 1: 1234nums1 = [1, 3]num ...
阅读全文 »

LeetCode-3 无重复字符串的最长子串

发表于 2019-02-28 | 分类于 算法 | 评论数: | 阅读次数:
题目:无重复字符串的最长子串给定一个字符串,请你找出其中不含有重复字符的 最长子串 的长度。 示例 1: 123输入: "abcabcbb"输出: 3 解释: 因为无重复字符的最长子串是 "abc",所以其长度为 3。 示例 2: 123输入: "b ...
阅读全文 »

LeetCode-2 两数相加

发表于 2019-02-27 | 更新于 2019-02-28 | 分类于 算法 | 评论数: | 阅读次数:
题目: 两数相加给出两个 非空 的链表用来表示两个非负的整数。其中,它们各自的位数是按照 逆序 的方式存储的,并且它们的每个节点只能存储 一位 数字。 如果,我们将这两个数相加起来,则会返回一个新的链表来表示它们的和。 您可以假设除了数字 0 之外,这两个数都不会以 0 开头。 示例: 123输入: ...
阅读全文 »
1…151617…21
郑小凯

郑小凯

205 日志
39 分类
89 标签
GitHub E-Mail

标签云

  • F21
  • IBM1
  • JavaScript5
  • Json2
  • LeetCode20
  • Map1
  • MyBatis3
  • MySQL10
  • Nginx4
  • Notes1
  • PPT5
  • PowerMock2
  • SSL1
  • Set1
  • SuSE2
  • VMware2
  • ad3
  • celery4
  • chrome1
  • css1
  • docker5
  • excel2
  • flask8
  • flink1
  • ftp1
  • git5
  • gulp1
  • gunicorn1
  • hexo1
  • html1
  • html51
  • iCloud1
  • iPhone1
  • idea1
  • java11
  • javascript4
  • linux1
  • logging1
  • logstash1
  • mac7
  • mysql1
  • navicat1
  • nginx3
  • nlp5
  • node6
  • oracle17
  • pandas3
  • python62
  • redis1
  • requests1
  • selenium1
  • seo1
  • sql14
  • sqlachemy3
  • ssh1
  • torando1
  • tornado1
  • tsung1
  • vscode1
  • vue3
  • vuepres1
  • windows8
  • wireshark1
  • zypper1
  • 中台6
  • 产品经理6
  • 人工智能1
  • 单元测试2
  • 压测1
  • 实践1
  • 小程序1
  • 工具1
  • 微信小程序1
  • 微信开发者工具1
  • 操作系统6
  • 数据分析1
  • 数据可视化1
  • 数据库15
  • 树莓派8
  • 正则表达式1
  • 爬虫18
  • 算法20
  • 网络2
  • 腾讯云1
  • 运营1
  • 远程控制1
  • 邮件1
  • 阿里云1
  • 高并发1
© 2021 郑小凯
由 Hexo 强力驱动 v3.8.0
|
主题 – NexT.Gemini v6.6.0