开源项目 > 人工智能 > 计算机视觉/人脸识别 &&

加入 Gitee

与超过 1200万开发者一起发现、参与优秀开源项目，私有仓库也完全免费：）

克隆/下载

kie_datasets.md 2.71 KB

# 关键信息抽取数据集

这里整理了常见的关键信息抽取数据集，持续更新中，欢迎各位小伙伴贡献数据集～

- [FUNSD数据集](#funsd)
- [XFUND数据集](#xfund)
- [wildreceipt数据集](#wildreceipt)

<a name="funsd"></a>

## 1. FUNSD数据集

- **数据来源**：https://guillaumejaume.github.io/FUNSD/
- **数据简介**：FUNSD数据集是一个用于表单理解的数据集，它包含199张真实的、完全标注的扫描版图片，类型包括市场报告、广告以及学术报告等，并分为149张训练集以及50张测试集。FUNSD数据集适用于多种类型的DocVQA任务，如字段级实体分类、字段级实体连接等。部分图像以及标注框可视化如下所示:
<div align="center">
    <img src="../../datasets/funsd_demo/gt_train_00040534.jpg" width="500">
    <img src="../../datasets/funsd_demo/gt_train_00070353.jpg" width="500">
</div>
    图中，橙色区域代表`header`，淡蓝色区域代表`question`, 绿色区域表`answer`，粉红色代区域表`other`。

- **下载地址**：https://guillaumejaume.github.io/FUNSD/download/

<a name="xfund"></a>

## 2. XFUND数据集
- **数据来源**：https://github.com/doc-analysis/XFUND
- **数据简介**：XFUND是一个多语种表单理解数据集，它包含7种不同语种的表单数据，并且全部用人工进行了键-值对形式的标注。其中每个语种的数据都包含了199张表单数据，并分为149张训练集以及50张测试集。部分图像以及标注框可视化如下所示:

<div align="center">
    <img src="../../datasets/xfund_demo/gt_zh_train_0.jpg" width="500">
    <img src="../../datasets/xfund_demo/gt_zh_train_1.jpg" width="500">
</div>

- **下载地址**：https://github.com/doc-analysis/XFUND/releases/tag/v1.0

<a name="wildreceipt"></a>

## 3. wildreceipt数据集

- **数据来源**：https://arxiv.org/abs/2103.14470
- **数据简介**：wildreceipt数据集是英文发票数据集，包含26个类别（此处类别体系包含`Ignore`类别），共标注了50000个文本框。其中训练集包含1267张图片，测试集包含472张图片。部分图像以及标注框可视化如下所示:

<div align="center">
    <img src="../../datasets/wildreceipt_demo/2769.jpeg" width="500">
    <img src="../../datasets/wildreceipt_demo/1bbe854b8817dedb8585e0732089fd1f752d2cec.jpeg" width="500">
</div>

**注：** 这里对于类别为`Ignore`或者`Others`的文本，没有进行可视化。

- **下载地址**：
    - 原始数据下载地址：[链接](https://download.openmmlab.com/mmocr/data/wildreceipt.tar)
    - 数据格式转换后适配于PaddleOCR训练的数据下载地址：[链接](https://paddleocr.bj.bcebos.com/ppstructure/dataset/wildreceipt.tar)

一键复制原始数据按行查看历史

提交于 2022-08-23 11:34 . add layout en

关键信息抽取数据集

这里整理了常见的关键信息抽取数据集，持续更新中，欢迎各位小伙伴贡献数据集～

FUNSD数据集
XFUND数据集
wildreceipt数据集

1. FUNSD数据集

数据来源：https://guillaumejaume.github.io/FUNSD/
数据简介：FUNSD数据集是一个用于表单理解的数据集，它包含199张真实的、完全标注的扫描版图片，类型包括市场报告、广告以及学术报告等，并分为149张训练集以及50张测试集。FUNSD数据集适用于多种类型的DocVQA任务，如字段级实体分类、字段级实体连接等。部分图像以及标注框可视化如下所示:

图中，橙色区域代表`header`，淡蓝色区域代表`question`, 绿色区域表`answer`，粉红色代区域表`other`。

下载地址：https://guillaumejaume.github.io/FUNSD/download/

2. XFUND数据集

数据来源：https://github.com/doc-analysis/XFUND
数据简介：XFUND是一个多语种表单理解数据集，它包含7种不同语种的表单数据，并且全部用人工进行了键-值对形式的标注。其中每个语种的数据都包含了199张表单数据，并分为149张训练集以及50张测试集。部分图像以及标注框可视化如下所示:

下载地址：https://github.com/doc-analysis/XFUND/releases/tag/v1.0

3. wildreceipt数据集

数据来源：https://arxiv.org/abs/2103.14470
数据简介：wildreceipt数据集是英文发票数据集，包含26个类别（此处类别体系包含Ignore类别），共标注了50000个文本框。其中训练集包含1267张图片，测试集包含472张图片。部分图像以及标注框可视化如下所示:

注：这里对于类别为Ignore或者Others的文本，没有进行可视化。

下载地址：
- 原始数据下载地址：链接
- 数据格式转换后适配于PaddleOCR训练的数据下载地址：链接

基于飞桨的OCR工具库，包含总模型仅8.6M的超轻量级中文OCR，单模型支持中英文数字组合识别、竖排文本识别、长文本识别。同时支持多种文本检测、文本识别的训练算法。

http://www.paddlepaddle.org

Python 等 6 种语言

取消

暂无发行版

Python

1

https://gitee.com/paddlepaddle/PaddleOCR.git

git@gitee.com:paddlepaddle/PaddleOCR.git

paddlepaddle

PaddleOCR

PaddleOCR

release/2.6