现在的技术博客(社区)越来越多,比如:imooc、spring4All、csdn或者iteye等,有很多朋友可能在这些网站上都发表过博文,当有一天我们想自己搞一个博客网站时就会发现好多东西已经写过了,我们不可能再重新写一遍,况且多个平台上都有自己发表的文章,也不可能挨个去各个平台ctrl c + ctrl v。鉴于此, 我在我的开源博客里新开发了一个“博客迁移”的功能,目前支持imooc、csdn和iteye,后期会适配更多站点。
目前,该功能已内置了三个平台(imooc、csdn和iteye),根据不同的平台,程序已默认了一套抓取规则,如下图系列
使用时,只需要手动指定以下几项配置即可
其中,这四处配置含义如下:
文章分类:是指抓取的文章保存到本地数据库中的文章分类
用户ID:是指各平台中,登陆完成后的用户ID,程序中已给出了对应获取的方法
文章总页数:是指待抓取的用户所有文章的页数
Cookie:只在必须需要登陆才能获取数据时指定,获取方式如程序中所示
在指定完博文平台、用户ID和文章总页数后,爬虫的其他配置项就会自动补充完整,最后直接执行该程序即可。
注意,默认同步过来的文章为“草稿”状态,主要是为了防止抓取的内容错误,而直接显示到网站前台,造成不必要的麻烦。所以,需要手动确认无误后修改发布状态(可批量发布)