npm clean-mark,抓取网页文章内容,转换成markdown、html、txt

html 编程技术
发布日期 2023-07-17 更新日期 2023-07-17 阅读次数 200 文章字数 562

使用npm安装:

npm install clean-mark

找到安装路径下,有个bin目录,默认有二进制文件:clean-mark,提供执行命令

$ clean-mark <url> [OPTIONS]

  Convert a blog article into a clean Markdown text file.

Options

  -o, --output  Specify output file name
                (auto-generated by default)
  --stdout      Write to STDOUT instead of a file
  -t, --type    Specify output format type
                (HTML, TEXT, or Markdown by default)
  --name-title  Use the title as output name
  --nodb        Don't use the A-Extractor database
                (probably a bad idea)

生成markdown:clean-mark "http://xxxxx.html" -o /www/wwwroot/test

默认情况下,它自带.md后缀扩展名,如果想要转换成html,加-t html,例如:clean-mark "http://xxxxx.html" -o /www/wwwroot/test -t html

GitHub 源码:https://github.com/croqaz/clean-mark


文章作者: 朱丰华

文章链接: https://smart.52dixiaowo.com/blog/post-458.html

版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。

html

发表评论

相关推荐
朱丰华   |   1年前   |   请求 · 一个

ab测压命令,apache测压工具

196    评论    点赞
朱丰华   |   1年前   |   < · iframe

让iframe嵌入的视频自适应 (100%宽度)?

135    评论    点赞
朱丰华   |   1年前   |   html · <

html浏览器当前tab标签切换时触发监听

116    评论    点赞
朱丰华   |   1年前   |   javascript · 滚动 · html

Javascript 显示当前滚动条滚动的百分比

83    评论    点赞
朱丰华   |   1年前   |   html · id · <

html同一个页面有两个相同id ,如何用id选择器选中

122    评论    点赞
朱丰华   |   1年前   |   html · npm · audit

npm报错、原因:run `npm audit fix` to fix them, or `npm audit` for details html

79    评论    点赞
朱丰华   |   1年前   |   js · 滚动 · html

原生js实现顶部进度条效果

66    评论    点赞
朱丰华   |   1年前   |   html

html input datetime-local设置初始值

118    评论    点赞
朱丰华   |   1年前   |   wkhtmltopdf

wkhtmltopdf内边距问题

310    评论    点赞
朱丰华   |   1年前   |   html

一行代码实现html网页整体缩放

187    评论    点赞
朱丰华   |   1年前   |   chrome · 截图 · headless

chrome headless模式网页截图,把html转图片

283    评论    点赞
朱丰华   |   1年前   |   chrome

chrome headless在命令行把html生成pdf

139    评论    点赞
朱丰华   |   2年前   |   程序 · 页面 · 微信 · 跳转 · 提示 · 存在 · 问题 · index

微信小程序跳转小程序提示页面不存在问题

80    评论    点赞
朱丰华   |   2年前   |   gif · 加密 · 可以 · web · 简单 · 方法 · 图片 · js · 直接 · 通过

web端 gif 最简单的加密方法

213    评论    点赞
朱丰华   |   2年前   |   < · block · 一个 · > · margin · 水平 · 居中 · auto · 0auto · https

一个block在另一个block水平居中,margin:0 auto

83    评论    点赞
朱丰华   |   2年前   |   < · text · align · > · select · 水平 · 居中 · div · 探究 · option>

让div中的select水平居中,text-align探究

55    评论    点赞
朱丰华   |   2年前   |   < · > · select · bootstrap3 · 适应 · 长度 · option> · https · www52dixiaowocom · tools

bootstrap3自适应select长度

52    评论    点赞
朱丰华   |   2年前   |   表格 · 撑开 · css · 防止 · 太大 · border · break · 考虑 · table

css防止表格太大撑开

54    评论    点赞
朱丰华   |   2年前   |   请求 · jsonp · php · 响应 · js · 一个 · callback · dataType · html · 对象

php响应jsonp请求

52    评论    点赞
朱丰华   |   2年前   |   cookie · 操作 · ajax · 问题 · PHP · 增删 · 改查 · 设置 · setcookie · php

PHP操作cookie增删改查,ajax操作cookie问题

71    评论    点赞
{{item.author_name}}   |   {{new Date(item.date*1000).log()}}   |   {{it}} ·

{{item.title}}

{{item.uv}}    评论    点赞