分享

零代码编程:用ChatGPT提取PDF文件一页中的多个表格

 AIGC部落 2023-07-20 发布于广东

零代码编程:用ChatGPT提取PDF文件一页中的多个表格

一个PDF文件中,有好几个表格,要全部提取出来,该怎么做呢?

         

在ChatGPT中输入提示词:

写一段Python代码:

使用PdfPlumber库提取“F:\北交所全部上市公司的招股说明书20230710\艾能聚.pdf”第174页中的所有表格,

保存第1个表格到F盘的艾能聚1.xlsx;

保存第2个表格到F盘的“艾能聚2.xlsx“;

保存第3个表格到F盘的“艾能聚3.xlsx“;

注意:每一步都要输出信息

ChatGPT生成的代码如下:

import os

import pandas as pd

import pdfplumber

def save_to_excel(data, file_path):

    df = pd.DataFrame(data)

    df.to_excel(file_path, index=False)

    print(f"表格内容已保存到文件: {file_path}")

def extract_tables_from_pdf(file_path, page_num_list, output_folder):

    with pdfplumber.open(file_path) as pdf:

        for i, page_num in enumerate(page_num_list):

            page = pdf.pages[page_num - 1]

            tables = page.extract_tables()

            for j, table in enumerate(tables):

                output_file = os.path.join(output_folder, f"艾能聚{i+1}_{j+1}.xlsx")

                save_to_excel(table, output_file)

def main():

    pdf_path = r"F:\北交所全部上市公司的招股说明书20230710\艾能聚.pdf"

    page_num_list = [174]

    output_folder = r"F:"

    extract_tables_from_pdf(pdf_path, page_num_list, output_folder)

if __name__ == "__main__":

    main()

这是提取的第一个表格:

这是提取的第二个表格:

这是提取的第三个表格:

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多