• QueryList采集教程之【typecho列表页】规则

    • QueryList不依赖任何框架和架构,它可以单独使用也可以引入到任意的PHP开发框架中去使用,如:Laravel、ThinkPHP;你可以使用它来构建简单的采集系统,也可以用它才构建高可用的分布式采集系统。它提供了丰富的基于CSS选择器的页面抽取API,完全模块化的设计,拥有强大的可扩展性。

      QueryList 提供的一整套内容采集解决方案

      • DOM内容选择:CSS选择器
      • HTTP客户端:GuzzleHTTP
      • 内容过滤:CSS选择器
      • 解决乱码:内置多套乱码解决方案
      • 额外功能:丰富的扩展插件

      QueryList官方网站
      http://www.querylist.cc/

      采集typecho文章列表页所有标题及对应URL

      <?php
      require 'vendor/autoload.php';
      use QL\QueryList;
      
      $url = 'https://xiaaijun.com/archives/';
      
      $rules = array (
        'herf' => 
        array (
          0 => 'div#archives>ul>li>a',
          1 => 'href',
        ),  
        'title' =>
        array (
          0 => 'div#archives>ul>li>a',
          1 => 'text',
        ),  
      );
      
      $data = QueryList::get($url)->rules($rules)->range('')->queryData();
      print_r($data);
      

      输出内容:

      typecho-archives采集.png

      标签: 采集器, 爬虫, QueryList

    • 仅有一条评论 »

      程志辉

      程志辉 March 8th, 2021 at 04:27 pm

      #1

      谢谢分享,学习到啦~

      • 发表评论: ( 注意:为了防止广告评论,本站链接已经启用nofollow)
      •   您的名字
      •   E-mail
      •   您的网址(选填)

Powered by Typecho)))   ICP:蜀ICP备05009250号