• PHP爬虫采集工具phpQuery的用法

    • phpQuery是一个基于PHP的服务端开源项目,它可以让PHP开发人员轻松处理DOM文档内容。更有意思的是,它采用了jQuery的思想,使得可以像使用jQuery一样处理页面内容,获取想要的页面信息。

      一、DEMO实例

      include 'phpQuery.php'; 
      phpQuery::newDocumentFile('http://www.phper.org.cn'); 
      echo pq("title")->text();    
      // 获取网页标题echo pq("div#header")->html();
      // 获取id为header的div的html内容
      

      上例中第一行引入phpQuery.PHP文件,第二行通过newDocumentFile加载一个文件,第三行通过pq()函数获取title标签的文本内容,第四行获取id为header的div标签所包含的HTML内容。主要做了两个动作,即加载文件和读取文件内容。

      二、载入文档(loading documents)

      加载文档主要通过phpQuery::newDocument来进行操作,其作用是使得phpQuery可以在服务器预先读取到指定的文件或文本内容。

      主要的方法包括:

      phpQuery::newDocument(html,contentType = null)
      
      phpQuery::newDocumentFile(file,contentType = null)
      
      phpQuery::newDocumentHTML(html,charset = ‘utf-8′)
      
      phpQuery::newDocumentXHTML(html,charset = ‘utf-8′)
      
      phpQuery::newDocumentXML(html,charset = ‘utf-8′)
      
      phpQuery::newDocumentPHP(html,contentType = null)
      
      phpQuery::newDocumentFileHTML(file,charset = ‘utf-8′)
      
      phpQuery::newDocumentFileXHTML(file,charset = ‘utf-8′)
      
      phpQuery::newDocumentFileXML(file,charset = ‘utf-8′)
      
      phpQuery::newDocumentFilePHP(file,contentType) 
      
      

      三、pq()函数用法

      pq()函数的用法是phpQuery的重点,主要分两部分:即选择器和过滤器

      【选择器】

      要了解phpQuery选择器的用法,建议先了解jQuery的语法

      最常用的语法包括有:

      pq('#id'):即以#号开头的ID选择器,用于选择已知ID的容器所包括的内容

      pq('.classname'):即以.开头的class选择器,用于选择class匹配的容器内容

      pq('parent > child'):选择指定层次结构的容器内容,如:pq('.main > p')用于选择class=main容器的所有p标签

      更多的语法请参考jQuery手册

      【过滤器】

      主要包括::first,:last,:not,:even,:odd,:eq(index),:gt(index),:lt(index),:header,:animated等

      如:

      pq('p:last'):用于选择最后一个p标签

      pq('tr:even'):用于选择表格中偶然行

      四、phpQuery连贯操作

      pq()函数返回的结果是一个phpQuery对象,可以对返回结果继续进行后续的操作,例如:

      pq('a')->attr('href', 'newVal')->removeClass('className')->html('newHtml')->...

      详情请查阅jQuery相关资料,用法基本一致,只需要注意.与->的区别即可。

      文章来源:https://blog.csdn.net/qq_37003559/article/details/103517373

      标签: 采集器, php, 爬虫

    • 当前暂无评论 »

      • 发表评论: ( 注意:为了防止广告评论,本站链接已经启用nofollow)
      •   您的名字
      •   E-mail
      •   您的网址(选填)

Powered by Typecho)))   ICP:蜀ICP备05009250号