Scrapy：如何在Spider中使用项目以及如何将项目发送到管道？

好吧，项目的主要目的是存储你爬网的数据。scrapy.Items基本上是字典。要声明你的物品，你将必须创建一个类并添加一个类scrapy.Field：

import scrapy

class Product(scrapy.Item):
    url = scrapy.Field()
    title = scrapy.Field()

现在，你可以通过导入产品在蜘蛛中使用它。

有关高级信息，我让你在此处检查文档

首先，你需要告诉spider使用custom pipeline。

在settings.py文件中：

ITEM_PIPELINES = {
    'myproject.pipelines.CustomPipeline': 300,
}

你现在可以编写管道并处理你的项目。

在pipeline.py文件中：

from scrapy.exceptions import DropItem

class CustomPipeline(object):
   def __init__(self):
        # Create your database connection

    def process_item(self, item, spider):
        # Here you can index your item
        return item

最后，在你的Spider中，你需要在yield填充物品后对其进行操作。

spider.py示例：

import scrapy
from myspider.items import Product

class MySpider(scrapy.Spider):
    name = "test"
    start_urls = [
        'http://www.exemple.com',
    ]
def parse(self, response):
    doc = Product()
    doc['url'] = response.url
    doc['title'] = response.xpath('//div/p/text()')
    yield doc # Will go to your pipeline

其他 2022/1/1 18:19:55 有562人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

如何在JavaScript中将浮点数转换为整数？

如何在JavaScript中将浮点数转换为整数？

javascript 2022-01-01 1270
如何枚举JavaScript对象的属性？

如何枚举JavaScript对象的属性？

javascript 2022-01-01 1225
java.lang.ClassCastException

java.lang.ClassCastException

java 2022-01-01 1087
在JavaScript中删除数组元素-Delete与Splice

在JavaScript中删除数组元素-Delete与Splice

SQL 2022-01-01 1245
JavaScriptWays to circumvent the same-origin policy

JavaScriptWays to circumvent the same-origin policy

javascript 2022-01-01 1102
带有Hibernate 5和Spring 4的程序化SchemaExport / SchemaUpdate

带有Hibernate 5和Spring 4的程序化SchemaExport / SchemaUpdate

Java 2022-01-01 1095
如何获取JavaScript对象的类？

如何获取JavaScript对象的类？

javascript 2022-01-01 960
如何在AngularJS中使用$ scope。$ watch和$ scope。$ apply？

如何在AngularJS中使用$ scope。$ watch和$ scope。$ apply？

其他 2022-01-01 957
JavaScript中两个日期之间的月份差异

JavaScript中两个日期之间的月份差异

javascript 2022-01-01 890
查看JavaScript中的所有超时/时间间隔？

查看JavaScript中的所有超时/时间间隔？

javascript 2022-01-01 797
如何从javascript中的Razor Model对象获取JSON对象

如何从javascript中的Razor Model对象获取JSON对象

javascript 2022-01-01 939
[ScriptMethod（ResponseFormat = ResponseFormat.Json）]

[ScriptMethod（ResponseFormat = ResponseFormat.Json）]

其他 2022-01-01 994
javascript属性名称中允许使用破折号吗？

javascript属性名称中允许使用破折号吗？

javascript 2022-01-01 751
如何检查是否使用Javascript加载了外部（跨域）CSS文件

如何检查是否使用Javascript加载了外部（跨域）CSS文件

javascript 2022-01-01 892
iTunesConnect TestFlight的iOS应用版本和内部版本号

iTunesConnect TestFlight的iOS应用版本和内部版本号

其他 2022-01-01 1018
怎么把PascalCase转换成pascal_case？

怎么把PascalCase转换成pascal_case？

其他 2022-01-01 843
如何使用JavaScript创建文档对象

如何使用JavaScript创建文档对象

javascript 2022-01-01 910
从javascript对象访问父对象的父对象

从javascript对象访问父对象的父对象

javascript 2022-01-01 908
Java正则表达式以匹配ASCII字符

Java正则表达式以匹配ASCII字符

java 2022-01-01 704
使用javascript和服务器端禁用/启用requiredFieldValidators

使用javascript和服务器端禁用/启用requiredFieldValidators

javascript 2022-01-01 914

Scrapy：如何在Spider中使用项目以及如何将项目发送到管道？

撰写回答

推荐问题

如何在JavaScript中将浮点数转换为整数？

如何枚举JavaScript对象的属性？

java.lang.ClassCastException

在JavaScript中删除数组元素-Delete与Splice

JavaScriptWays to circumvent the same-origin policy

带有Hibernate 5和Spring 4的程序化SchemaExport / SchemaUpdate

如何获取JavaScript对象的类？

如何在AngularJS中使用$ scope。$ watch和$ scope。$ apply？

JavaScript中两个日期之间的月份差异

查看JavaScript中的所有超时/时间间隔？

如何从javascript中的Razor Model对象获取JSON对象

[ScriptMethod（ResponseFormat = ResponseFormat.Json）]

javascript属性名称中允许使用破折号吗？

如何检查是否使用Javascript加载了外部（跨域）CSS文件

iTunesConnect TestFlight的iOS应用版本和内部版本号

怎么把PascalCase转换成pascal_case？

如何使用JavaScript创建文档对象

从javascript对象访问父对象的父对象

Java正则表达式以匹配ASCII字符

使用javascript和服务器端禁用/启用requiredFieldValidators

分类汇总

您的鼓励是对我最大的支持