Python-Web Scraping HTML表并打印为CSV

运行代码，您将从该表中获取所需的数据。要尝试从该元素中提取数据，您需要做的就是将上面粘贴的整个html元素包装在html=''' '''

import csv
from bs4 import BeautifulSoup

outfile = open("table_data.csv","w",newline='')
writer = csv.writer(outfile)

tree = BeautifulSoup(html,"lxml")
table_tag = tree.select("table")[0]
tab_data = [[item.text for item in row_data.select("th,td")]
                for row_data in table_tag.select("tr")]

for data in tab_data:
    writer.writerow(data)
    print(' '.join(data))

我试图将代码分成几部分，以使您理解。我在上面所做的是一个嵌套的for循环。这是分开的过程：

from bs4 import BeautifulSoup

soup = BeautifulSoup(html,"lxml")
table = soup.find('table')

list_of_rows = []
for row in table.findAll('tr'):
    list_of_cells = []
    for cell in row.findAll(["th","td"]):
        text = cell.text
        list_of_cells.append(text)
    list_of_rows.append(list_of_cells)

for item in list_of_rows:
    print(' '.join(item))

结果：

Date Open High Low Close Volume Market Cap
Sep 14, 2017 3875.37 3920.60 3153.86 3154.95 2,716,310,000 64,191,600,000
Sep 13, 2017 4131.98 3789.92 3882.59 2,219,410,000 68,432,200,000
Sep 12, 2017 4168.88 4344.65 4085.22 4130.81 1,864,530,000 69,033,400,000

python 2022/1/1 18:35:16 有237人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

尝试使用selenium和python登录网页时出错

尝试使用selenium和python登录网页时出错

python 2022-01-01 1026
从Python访问errno？

从Python访问errno？

python 2022-01-01 1053
gcloud compute copy-files：复制文件时拒绝权限

gcloud compute copy-files：复制文件时拒绝权限

其他 2022-01-01 1110
在服务器上运行selenium浏览器（Flask / Python / Heroku）

在服务器上运行selenium浏览器（Flask / Python / Heroku）

Python 2022-01-01 1267
ImportError：没有使用Python2的名为mysql.connector的模块

ImportError：没有使用Python2的名为mysql.connector的模块

MySQL 2022-01-01 1246
Python：无法在网页中使用selenium下载

Python：无法在网页中使用selenium下载

python 2022-01-01 1034
带有Selenium的Python“元素未附加到页面文档中”

带有Selenium的Python“元素未附加到页面文档中”

python 2022-01-01 1046
在Jenkins中设置特定的Python

在Jenkins中设置特定的Python

python 2022-01-01 942
Python：从文件中选择随机行，然后删除该行

Python：从文件中选择随机行，然后删除该行

python 2022-01-01 1003
从Python字符串中删除不在允许列表中的HTML标签

从Python字符串中删除不在允许列表中的HTML标签

python 2022-01-01 1078
从python读取json文件

从python读取json文件

python 2022-01-01 961
通过Python3使用Selenium和WebDriver切换选项卡时，“ NoSuchWindowException：没有这样的窗口：窗口已经关闭”

通过Python3使用Selenium和WebDriver切换选项卡时，“ NoSuchWindowException：没有这样的窗口：窗口已经关闭”

python 2022-01-01 1044
pythonselenium多个测试用例

pythonselenium多个测试用例

python 2022-01-01 978
连接所有PostgreSQL表并创建一个Python字典

连接所有PostgreSQL表并创建一个Python字典

SQLServer 2022-01-01 1117
带有selenium的Python：无法找到真正存在的元素

带有selenium的Python：无法找到真正存在的元素

python 2022-01-01 1042
列出用户和组的Python脚本

列出用户和组的Python脚本

python 2022-01-01 968
在capybara中选择具有多个类的元素

在capybara中选择具有多个类的元素

其他 2022-01-01 885
如何以正确的顺序导入Scrapy项目密钥？

如何以正确的顺序导入Scrapy项目密钥？

其他 2022-01-01 951
如何确定是否为Selenium + Python加载了某些HTML元素？

如何确定是否为Selenium + Python加载了某些HTML元素？

python 2022-01-01 922
使用Java与Python的Selenium Webdriver

使用Java与Python的Selenium Webdriver

python 2022-01-01 950

Python-Web Scraping HTML表并打印为CSV

撰写回答

推荐问题

尝试使用selenium和python登录网页时出错

从Python访问errno？

gcloud compute copy-files：复制文件时拒绝权限

在服务器上运行selenium浏览器（Flask / Python / Heroku）

ImportError：没有使用Python2的名为mysql.connector的模块

Python：无法在网页中使用selenium下载

带有Selenium的Python“元素未附加到页面文档中”

在Jenkins中设置特定的Python

Python：从文件中选择随机行，然后删除该行

从Python字符串中删除不在允许列表中的HTML标签

从python读取json文件

通过Python3使用Selenium和WebDriver切换选项卡时，“ NoSuchWindowException：没有这样的窗口：窗口已经关闭”

pythonselenium多个测试用例

连接所有PostgreSQL表并创建一个Python字典

带有selenium的Python：无法找到真正存在的元素

列出用户和组的Python脚本

在capybara中选择具有多个类的元素

如何以正确的顺序导入Scrapy项目密钥？

如何确定是否为Selenium + Python加载了某些HTML元素？

使用Java与Python的Selenium Webdriver

分类汇总

您的鼓励是对我最大的支持