当前位置：维易PHP培训学院 > PHP学习 > 内容正文

php教程之PHP从HTML中提取正文类库

作者：w3c教程时间 2017-06-29

《php教程之PHP从HTML中提取正文类库》要点：
本文介绍了php教程之PHP从HTML中提取正文类库，希望对您有用。如果有疑问，可以联系我们。

Textractor

An efficient class library for extracting text from HTML.

一个高效的从HTML中提取正文的类库.

正文提取采纳了基于文本密度的提取算法,支持从压缩的HTML文档中提取正文,每个页面平均提取时间为30ms,正确率在95%以上.

特色

标签无关,提取正文不依赖标签；
支持从压缩的HTML文档中提取正文内容；
支持带标签输出原始正文；
核心算法简洁高效,平均提取时间在30ms左右.

安装

安装包文件

composer require "mylukin/textractor:dev-master"

添加 ServiceProvider 到您项目 config/app.php 中的 providers 部门:

Lukin\Textractor\TextractorServiceProvider::class,

创立配置文件:

php artisan vendor:publish --provider="Lukin\Textractor\TextractorServiceProvider"

然后请修改 config/textractor.php 中对应的项即可.

使用

<?php$url = 'http://news.163.com/17/0204/08/CCDTBQ9E000189FH.html';// 创立提取实例$textractor = new \Lukin\Textractor\Textractor();// 下载并解析文章$article = $textractor->download($url)->parse();printf('<div id="url">URL: %s</div>' . PHP_EOL, $url);printf('<div id="title">Title: %s</div>' . PHP_EOL, $article->getTitle());printf('<div id="published">Publish: %s</div>' . PHP_EOL, $article->getPublishDate());printf('<div id="text">Text: <pre>%s</pre></div>' . PHP_EOL, $article->getText());printf('<div id="html">Content: %s</div>' . PHP_EOL, $article->getHTML());

地址：https://github.com/mylukin/Textractor

php教程之PHP从HTML中提取正文类库

《php教程之PHP从HTML中提取正文类库》是否对您有启发，欢迎查看更多与《php教程之PHP从HTML中提取正文类库》相关教程，学精学透。维易PHP学院为您提供精彩教程。

转载请注明本页网址：
http://www.vephp.com/jiaocheng/7194.html

标签：

PHP教程

WEB前端开发

数据库

WEB服务器

APP开发

LINUX学习

后端开发课程

前端开发课程

数据库课程

php教程之PHP从HTML中提取正文类库

Textractor

同类教程排行

特辑教程