数据集动效装饰
数据集动效装饰

多领域高质量数据集

丰富的标准化数据集体系

我们提供多领域、高质量的结构化数据集,覆盖金融、采购公告、医疗影像、OCR识别等核心场景,满足不同业务的数据需求。

OCR手写数据

核心定义

针对手写文字识别场景构建的标注数据集,包含各类手写文档原始图片与精准结构化文本标注结果,适配不同书写风格与场景。

核心内容(按场景细分)

  • 教辅手写体(8万+条):K12全学科作业/试卷/笔记,学生书写风。
  • 手写公式(2万+条):数/理/化/几何公式符号,含复杂嵌套公式
  • 通用手写体(5万+条):日常办公/生活手写文本,、PPT拍照(8万张),书写风格多样。
  • 手写体票据(2万+条):财务类手写票据,含数字/金额/专业术语。

应用场景

教辅手写体:教育AI批改、题库数字化;手写公式:智能教辅答疑、公式识别引擎;通用手写体:政务文档识别、智能办公;手写体票据:财务自动化、物流信息录入;整体数据集可支撑多场景OCR模型训练。

卷子电子版数据

21万+套

核心定义

标准化结构化的K12全学科电子版试卷数据集,含高清扫描件、可编辑文本、精准答案标注。

核心内容(按场景细分)

  • 同步试卷:各年级同步练习卷,覆盖各版本教材
  • 真题试卷:中高考/期末/月考真题,含标准答案+解析
  • 模拟试卷:名校模拟卷,适配不同难度梯度
  • 作文题库(3万+套):K12全学段作文题+范文,含不同体裁/题材/评分等级

应用场景

题库搭建、智能组卷、AI批改系统训练、教育大数据分析,适配各类教育类产品。

影视音视频数据

核心定义

全品类影视剧及配套纯音频标注数据集,含影视画面结构化标注、音频语音/音效分离标注结果。

核心内容

  • 影视剧(700万小时):全品类影视内容,含剧情画面、人物镜头、场景镜头标注
  • 影视剧音频(1000万小时):配套影视纯音频,含台词、背景音乐、音效分离标注

应用场景

音视频内容分析、智能剪辑、语音识别训练、音效分离、内容检索

电子书数据

600万+套

核心定义

K12适配的数字化教辅与课外读物数据集,含可检索文本、分级阅读标注。

核心内容

  • 教辅电子书:同步教辅、知识点精讲、练习册数字化
  • 课外电子书:分级阅读读物、名著、科普读物,适配不同学段

应用场景

数字阅读平台、AI答疑素材、分级阅读系统、内容检索

书籍电子版数据

1800万+套

核心定义

正版图书全本数字化数据集,含教材、工具书、专业书籍,结构化全文本标注。

核心内容

  • 正版教材:各版本K12教材、大学专业教材
  • 工具书:词典、百科、教辅参考书,含精准释义标注
  • 通用书籍:文学、社科、科普类正版图书全本

应用场景

数字图书馆、内容资源库搭建、全文解析、AI素材提取

表格输入类数据

2万+张

核心定义

覆盖手写/印刷混排的结构化表格数据集,含单元格标注、行列定位、内容识别标注结果。

核心内容

  • 办公表格:考勤表、统计表、申请表,印刷+手写填写
  • 教育表格:答题卡、成绩单、学籍表,学生手写填写
  • 政务/财务表格:申报单、报销表、登记表,格式标准化
  • APP截屏(71万张):各类应用界面、数据面板,结构化元素标注

应用场景

表格自动录入、表单OCR识别、政务/财务数据自动化、教育答题卡识别

教育视频数据

3万+段

核心定义

K12全学科标准化教育视频数据集,含高清授课画面、精准字幕与知识点结构化标注结果。

核心内容

  • 同步授课:各年级教材同步精讲,覆盖各版本教材
  • 真题讲解:中高考/期末真题解析,含解题思路标注
  • 素养拓展:科普、作文、思维训练,适配全学段

应用场景

教育AI训练、智能课程拆解、视频字幕识别、知识点智能提取

人物视频数据

18万+段

核心定义

全场景人物动态影像数据集,含多姿态/多表情/多场景人像,配套行为与特征结构化标注。

核心内容

  • 日常行为:行走、交谈、手势等基础动作,多环境采集
  • 表情神态:喜怒哀乐等基础表情,覆盖不同年龄/性别
  • 特定姿态:办公、学习、运动等场景化姿态,精准标注

应用场景

人像识别、行为分析、表情检测、人机交互、智能监控

场景视觉数据

核心定义

全场景机器视觉标注数据集,含环境感知、事件识别类影像,配套目标检测、行为分析结构化标注结果。

核心内容

  • 扫地机视觉(35万帧):家居环境障碍物/地面纹理/家具轮廓,多户型/光线采集
  • 第一车祸视觉(500段):道路场景事故画面/车辆行为/路况标识,多时段/路况采集
  • 道路采集(4万帧):多路况/时段道路场景,含车辆、标识、路况标注
  • 火焰视频(600万段):多场景火情画面,含火焰形态、蔓延过程、环境标注

应用场景

扫地机避障算法训练、交通事件智能识别、机器视觉感知、自动驾驶辅助训练

K12试卷数据集

核心定义

覆盖小学至高中全学科、全年级的标准化试卷数据集,包含试卷原文、题目标注、答案解析、知识点标签等结构化信息。

核心内容

  • 试卷原文(高清扫描件、结构化文本)
  • 题目标注(题型、难度、分值、考点)
  • 答案解析(标准答案、解题思路、易错点)

应用场景

智能作业批改系统、AI教育辅导机器人、个性化学习推荐、题库智能生成。

金融财报数据集

核心定义

整合A股/港股/美股等上市企业多维度财务数据,经标准化清洗、校验、结构化处理后形成的专业数据集,覆盖企业全生命周期财务指标。

核心内容

  • 企业基础信息(股票代码、所属行业、上市地点)
  • 三大财务报表核心指标(资产负债、利润、现金流量)
  • 衍生分析指标(ROE、毛利率、资产负债率等)

应用场景

投资决策分析、企业信贷风险评估、金融量化策略开发、行业财务趋势研究。

医疗影像图片数据集

核心定义

经医疗机构授权、脱敏处理的专业医疗影像数据集,包含各类影像原始数据与医学标注信息,符合医疗数据合规要求。

核心内容

  • 常规影像(X光、CT、MRI、超声图像)
  • 标注信息(病灶位置、大小、类型、分级)
  • 临床信息(患者基本信息、诊断结论、治疗方案)

应用场景

医学影像AI辅助诊断、疾病筛查系统开发、医疗教学培训、新药研发数据分析。

法律文书数据集

核心定义

涵盖各类司法文书的结构化数据集,经专业法律人员标注、分类、解析,包含文书全文、关键信息提取、法律条款关联等内容。

核心内容

  • 文书类型(判决书、裁定书、起诉状、调解书)
  • 关键信息(案由、当事人、判决结果、法律依据)
  • 条款关联(关联法律法规、司法解释、案例)

应用场景

智能法律咨询系统、法律文书自动生成、案件趋势分析、司法大数据研究。

台湾书籍古籍数据集

核心定义

收录台湾地区珍贵古籍、地方志、文献典籍的数字化数据集,经高清扫描、OCR识别、文字校勘后形成结构化文本。

核心内容

  • 古籍类型(地方志、文史典籍、民间文献、族谱)
  • 文本信息(原文、标点标注、简体转换、注释)
  • 元数据(成书年代、作者、版本、馆藏信息)

应用场景

古籍数字化保护、历史文化研究、智能古籍检索、两岸文化交流数据分析。

商品条码数据集

核心定义

覆盖全品类商品的条码标准化数据集,包含条码编码、商品信息、品牌分类等结构化数据,适配零售、物流等场景应用。

核心内容

  • 条码信息(EAN-13、UPC、二维码等编码)
  • 商品属性(名称、规格、品牌、产地、价格)
  • 分类信息(行业分类、品类层级、适用场景)

应用场景

零售收银系统、物流仓储管理、商品溯源、电商商品信息自动录入。

学术期刊数据集

核心定义

整合国内外核心学术期刊论文的结构化数据集,包含论文全文、元数据、关键词、引文关系等专业信息,覆盖多学科领域。

核心内容

  • 论文元数据(标题、作者、单位、发表时间、期刊等级)
  • 内容信息(摘要、关键词、正文、参考文献)
  • 学术指标(被引量、下载量、被收录情况)

应用场景

学术文献检索系统、科研趋势分析、智能论文写作辅助、高校学科建设评估。

有任何需求或问题,欢迎填写表单,我们会尽快回复您!

提交成功!我们会尽快与您联系
请输入您的姓名
请输入正确的手机号
请输入咨询内容
Top
Preloader