Recent Releases of gne

gne - Bug fix

0.3.1 (2024-04-17)

Bug fix

有一些网站源代码不规范,在html中间突然出现。末尾又出现一次.这种情况下,会导致解析出错。现在已经修复。

- Python
Published by kingname almost 2 years ago

gne - 支持基于可视化区域精确查找正文

0.3.0 (2021-10-07)

New Feature

  1. 基于可视化区域,更准确地识别正文

Bug fix

  • 修复下面这种情况时,无法正确寻找正文的 bug

html <div> 我是正文我是正文我是正文<a href="xxx">关键词1</a>我是正文我是正文我是正文我是正文 我是正文我是正文我是正文我是正文我是正文<a href="xxx">关键词2</a>我是正文我是正文 我是正文 </div>

  • 统计一个标签下面的 p 标签的时候,应该把这个标签下面的直接文档数也统计进去

- Python
Published by kingname over 4 years ago

gne - 限制 h 标签与 title 的最小公共子串长度

  1. 修复 extractbyhtagandtitle 在发现 H 标签中的文本与 title 标签的文本在最小公共子串长度小于4时被认为是标题的问题。

- Python
Published by kingname about 5 years ago

gne - 修复从 title 标签提取标题部分失败的问题

  1. 如果标题中含有-|,且在较为靠前的地方,可能导致标题只提取了半截。需要判断-|左侧字符串的长度。如果小于4,那么返回整个标题字符串。

- Python
Published by kingname about 5 years ago

gne - 预处理时,移除 footer 标签

  1. 预处理时,移除 footer 标签。

- Python
Published by kingname over 5 years ago

gne - 现在 useless_attr 中的属性必须完全匹配才能删除节点

0.2.3 (2020-09-15)

Bug fix

  1. USELESS_ATTR对应的节点,只有 class 完全匹配才需要删除。之前包含就删除的匹配方式会导致 ifeng 的正文被删除。

- Python
Published by kingname over 5 years ago

gne - 自动提取新闻列表页

新闻列表页自动提取功能测试版已经上线,用法如下:

```python

from gne import ListPageExtractor html = '''经过渲染的网页 HTML 代码''' listextractor = ListPageExtractor() result = listextractor.extract(html, feature='列表中任意元素的 XPath") print(result) ```

- Python
Published by kingname over 5 years ago

gne - 修复提取节点中的文本时只能提取最后一个节点的问题

- Python
Published by kingname over 5 years ago

gne - 优化标题提取算法,增加 body_xpath 参数

  1. 优化标题提取逻辑,根据@止水 和 @asyncins 的建议,通过对比 //title/text()中的文本与 标签中的文本,提取出标题。
  2. 增加 body_xpath参数,精确定义正文所在的位置,强力避免干扰。

例如对于澎湃新闻,在不设置body_xpath参数时:

python result = extractor.extract(html, host='https://www.xxx.com', noise_node_list=['//div[@class="comment-list"]', '//*[@style="display:none"]', '//div[@class="statement"]' ])

提取效果如下:

设置了body_xpath以后:

python result = extractor.extract(html, host='https://www.xxx.com', body_xpath='//div[@class="news_txt"]', # 缩小正文提取范围 noise_node_list=['//div[@class="comment-list"]', '//*[@style="display:none"]', '//div[@class="statement"]' ])

结果如下:

- Python
Published by kingname over 5 years ago

gne - 修复由于预处理导致自定义 XPath 失效的问题

  1. 预处理逻辑可能会破坏原有 HTML 结构,导致用户自定义的 XPath 失效。因此需要再预处理之前提取 title、author 和 publish_time。

- Python
Published by kingname almost 6 years ago

gne - 从 Meta 中尝试提取新闻的发布时间

感谢@止水提供的 meta 对应的新闻时间属性,现在会从 HTML 的 meta 数据中检查是否有发布时间。

- Python
Published by kingname about 6 years ago

gne - 允许定向抓取作者和发布时间

  1. 在GeneralNewsExtractor().extract()方法中传入参数author_xpathpublish_time_xpath强行指定抓取作者与发布时间的位置。
  2. 在.gne 配置文件中,通过如下两个配置分别指定作者与发布时间的 XPath

yaml author: xpath: //meta[@name="author"]/@content publish_time: xpath: //em[@id="publish_time"]/text()

- Python
Published by kingname about 6 years ago

gne - GNE v0.1.5

  1. 修复由于node.getparent().remove()会移除父标签中,位于自己后面的 text 的问题
  2. 对于class 中含有article/content/news_txt/post_text的标签,增加权重
  3. 使用更科学的方法移除无效标签

- Python
Published by kingname about 6 years ago

gne - GNE v0.1.4

更新Pypi 的名称

- Python
Published by kingname about 6 years ago

gne - GNE v0.1.3

  1. 修复 pyyaml 依赖

- Python
Published by kingname about 6 years ago

gne - GNE v0.1.2

  1. 指定 host 参数,获取图片绝对路径
  2. 返回正文所在 标签的 HTML 源代码
  3. 指定新闻标题的 XPath
  4. 提前移除特定的 HTML 标签
  5. 通过YAML、JSON 配置文件指定默认参数

- Python
Published by kingname about 6 years ago