新浪博客文章迁移与隐藏文章提取操作手册

§本手册基于这样一个需求:找出被新浪博客向公众隐藏的文章,然后批量转移到基于WordPress的博客中发表。

1. 项目目标

  • 完整迁移:将新浪博客全部文章(含隐藏文章)迁移到 Word­Press。
  • 识别差异:找出仅博主自己可见的文章(公众看不到)。
  • 批量导入:最终生成可导入 Word­Press 的 JSON/HTML 文件。

2. 所需环境

  1. Python 3.9+(推荐 Win­dows 下安装最新版 Python)
  2. 安装依赖库: pip install requests beautifulsoup4 lxml

3. 使用的脚本

(1) claw_sina_blog.py

功能:批量爬取新浪博客文章(公共模式 & 登录模式),保存 HTML 和索引 index.json
新增功能:支持 --cookie / --cookie-file,可抓取仅博主可见的文章。

常用参数:

  • --uid :新浪博客 UID(如 1484861452)。
  • --outdir :输出目录。
  • --start / --end :指定起止页。
  • --cookie-file :从文件读取 Cookie(单行文本)。

(2) dedup_index.py

功能:去重 index.json,生成干净版本 index_clean.json
原始爬取可能有重复(>3000 条),去重后应 ≈ 387 篇。


(3) sina_hidden_finder.py

功能:

  1. 比较公共模式和登录模式的索引,找出 仅博主可见文章
  2. 生成清单(JSON/CSV)。
  3. 批量下载隐藏文章 HTML,保存到 downloads/

常用参数:

  • --public-index :公共模式的 index.json
  • --owner-index :登录模式的 index_clean.json
  • --cookie-file :Cook­ie 文件,保持登录态抓取。
  • --outdir :输出目录。

4. 操作步骤

Step 1. 公共模式爬取

python .\claw_sina_blog.py --uid 1484861452 --outdir .\sina_public --start 1 --end 8

生成:

.\sina_public\index.json

Step 2. 登录模式爬取

  1. 复制 Cook­ie → 保存为 cookie.txt(单行文本)。
  2. 执行:
python .\claw_sina_blog.py --uid 1484861452 --outdir .\sina_owner --start 1 --end 8 --cookie-file .\cookie.txt

生成:

.\sina_owner\index.json

Step 3. 去重

python .\dedup_index.py

生成:

.\sina_owner\index_clean.json

Step 4. 差集提取 & 隐藏文章下载

python .\sina_hidden_finder.py `
  --public-index .\sina_public\index.json `
  --owner-index  .\sina_owner\index_clean.json `
  --cookie (Get-Content .\cookie.txt -Raw) `
  --outdir .\sina_hidden `
  --delay 1.0 `
  --jitter 0.3

生成:

  • .\sina_hidden\hidden_only.json
  • .\sina_hidden\hidden_only.csv
  • .\sina_hidden\downloads\*.html
  • .\sina_hidden\hidden_index.json

5. 常用命令速查

公共模式

python .\claw_sina_blog.py --uid 1484861452 --outdir .\sina_public --start 1 --end 8

登录模式

python .\claw_sina_blog.py --uid 1484861452 --outdir .\sina_owner --start 1 --end 8 --cookie-file .\cookie.txt

去重

python .\dedup_index.py

提取隐藏文章

python .\sina_hidden_finder.py --public-index .\sina_public\index.json --owner-index .\sina_owner\index_clean.json --cookie (Get-Content .\cookie.txt -Raw) --outdir .\sina_hidden

6. 常见问题(FAQ)

  • Q: 脚本翻页太多不停?
    A: 加上 --end 8 限制页数;或用修改版 crawl() 自动检测重复页。
  • Q: Cook­ie 失效?
    A: 重新在浏览器复制完整 Cookie,覆盖 cookie.txt 再运行。
  • Q: index.json 数量太多(>3000)?
    A: 说明有重复,必须先运行 dedup_index.py 去重。
  • Q: 如何导入 Word­Press?
    A: 你可以用现有的 wp_batch_import_v4_1_3.py,传入 hidden_index.json 或全量 index_clean.json

【附:被新浪博客屏蔽的那些博文目录】

近两个月出版的堪称极品的图画书(200805~200807) 2008/7/13 10:14
[书摘]世界为了好人而造就—阿凡提的身世与童年(3) 2008/7/24 17:06
[书摘]世界为了好人而造就—阿凡提的身世与童年(2) 2008/7/24 17:08
可持书吟唱的图画书——《苏武牧羊》 2008/8/30 23:29
[奥运侧史]鸡蛋饼、盗版盘、盗版书重现北京街头…… 2008/9/22 20:16
“图画书怎么玩”讲座实录(下) 2008/10/17 9:30
“图画书怎么玩”讲座实录(中) 2008/10/17 9:35
[笔记]《让孩子爱上写作,父母可以怎么做》随摘随感 2009/2/2 14:44
阿甲、萝卜探长2009年暑假荐书之二 2009/7/16 21:45
乱弹:从雌雄辩到现代女巫到老子的女权观 2009/9/21 9:37
与洋洋爸继续切磋育儿攻略:阅读、提问、奖励等等…… 2009/10/16 14:28
续聊爱的修行之八卦篇——话说一位遗弃孩子的妈妈…… 2010/1/24 21:52
德国当代童书插画展展览简介、展品及插画家介绍 2010/3/31 11:34
读史摘注:汉家故事中一段关于天灾的“迷信”说法 2010/4/17 23:16
为孩子说故事的艺术大师们(五) 2010/5/27 22:13
为孩子说故事的艺术大师们(六) 2010/5/30 21:57
[转载]个人申请《绿孩子》流程实例 2010/6/17 10:19
围脖闲聊与孩子一起看电影、聊电影 2010/12/20 10:01
与孩子闲聊《七律·长征》 2010/12/30 15:41
[国粤双语]《自京赴奉先县咏怀五百字》诵读注音与示范 2011/1/2 23:42
[闲读笔记]老杜《又呈吴郎》里的疏篱到底是谁插的? 2011/6/14 0:12
喧哗与骚动?缤纷与和谐……读《公园里的声音》有感 2011/6/23 23:24
[转载]悠贝现场实录:松居直喜欢的图画书-日本图画书 2011/8/28 21:40
世界图画书发展线索简括(以现已出版的英文图画书为主线) 2011/9/21 23:01
[译后记]令人神往的安安静静慢悠悠乐滋滋的生活 2012/5/29 10:06
[转载]第五期红泥巴童书名著研读会预报名通知 2012/8/22 23:29
[转载]李奥尼和他的田鼠阿佛 2012/10/8 21:55
[转载]童话?非童话?红泥巴·数字平台图书馆简介 2012/10/12 9:25
[转载]陈鲁:美国儿童阅读推广的社会网络结构 2012/12/19 9:15
[转载]风雨无阻——红泥巴奥森读书会 2013/7/2 11:16
[转载]圆满(河马评洛伦茨科普经典系列5册) 2013/12/16 10:45
[转载]第七期红泥巴童书名著研读会报名通知 2013/12/28 11:22
推荐一款小型的专业图书馆软件(1000种书目内免费使用) 2014/5/14 9:59
《亲爱的天才》人名、书名与主题词索引(以英文原名排序) 2014/6/15 22:30
为什么《亲爱的天才》是一本重要书? 2014/9/25 0:03
美国儿童文学的夏季之旅 2014/10/29 18:28
转发:魔法童书会张弘——图画书玩法十字诀上海讲座回顾 2015/3/26 11:40
“天才们的那些事儿”系列讲座第一、二讲要点 2015/6/12 8:37
第8期种子故事人培训第二讲:萝卜探长——通往奥兹国的秘径 2016/4/21 16:42
[译后感]《男孩与樱桃树》、梦想与坚持…… 2016/5/20 10:54
【图画书创作访谈】听蔡皋老师聊《孟姜女哭长城》 2016/5/21 14:51
音频栏目《阿甲说书》发刊词 2016/12/15 21:02
中国味儿十足的《公主的风筝》是怎么来的? 2017/1/2 16:44
[转载]巴里·莫泽是一个著名的艺术家 2017/3/30 18:41
[笔记]比得兔的人设与发展(二) 2018/1/9 10:05
[笔记]比得兔的人设与发展(三) 2018/1/11 10:42
世界图画书发展线索简括(以现已出版的英文图画书为主线) 2019/5/22 20:59

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注