5 Star 27 Fork 10

MindSpore Lab / mindocr

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
converters.md 3.21 KB
一键复制 编辑 原始数据 按行查看 历史
Shah Jahan Ishaq 提交于 2023-07-06 17:50 . Fix docs links (#477)

本文档展示了如何将OCR数据集的标注文件(不包括LMDB)转换为通用格式以进行模型训练。

您也可以参考 convert_datasets.sh。这是将给定目录下所有数据集的标注文件转换为通用格式的Shell 脚本。

要下载OCR数据集并将其转换为所需的数据格式,请参阅以下介绍。

文本检测/端到端文本检测

转换后的标注文件格式应为:

img_61.jpg\t[{"transcription": "MASA", "points": [[310, 104], [416, 141], [418, 216], [312, 179]]}, {...}]

以ICDAR2015(ic15)数据集为例,要将ic15数据集转换为所需的格式,请运行:

# convert training anotation
python tools/dataset_converters/convert.py \
        --dataset_name  ic15 \
        --task det \
        --image_dir /path/to/ic15/det/train/ch4_training_images \
        --label_dir /path/to/ic15/det/train/ch4_training_localization_transcription_gt \
        --output_path /path/to/ic15/det/train/det_gt.txt
# convert testing anotation
python tools/dataset_converters/convert.py \
        --dataset_name  ic15 \
        --task det \
        --image_dir /path/to/ic15/det/test/ch4_test_images \
        --label_dir /path/to/ic15/det/test/ch4_test_localization_transcription_gt \
        --output_path /path/to/ic15/det/test/det_gt.txt

文本识别

通用数据格式

文本识别数据集的标注格式如下:

word_7.png	fusionopolis
word_8.png	fusionopolis
word_9.png	Reserve
word_10.png	CAUTION
word_11.png	citi

请注意,图像名称和文本标签以\t分隔。

要转换标注文件,请运行:

# convert training anotation
python tools/dataset_converters/convert.py \
        --dataset_name  ic15 \
        --task rec \
        --label_dir /path/to/ic15/rec/ch4_training_word_images_gt/gt.txt
        --output_path /path/to/ic15/rec/train/ch4_training_word_images_gt/rec_gt.txt
# convert testing anotation
python tools/dataset_converters/convert.py \
        --dataset_name  ic15 \
        --task rec \
        --label_dir /path/to/ic15/rec/ch4_test_word_images_gt/gt.txt
        --output_path /path/to/ic15/rec/ch4_test_word_images_gt/rec_gt.txt

LMDB数据格式

部分数据支持转换成LMDB格式,目前仅支持SynthTextSynthAdd数据集。

要转换成LMDB格式,请运行:

python tools/dataset_converters/convert.py \
    --dataset_name synthtext \
    --task rec_lmdb \
    --image_dir /path/to/SynthText \
    --label_dir /path/to/SynthText_gt.mat \
    --output_path ST_full
1
https://gitee.com/mindspore-lab/mindocr.git
git@gitee.com:mindspore-lab/mindocr.git
mindspore-lab
mindocr
mindocr
main

搜索帮助