JPEG
有损图像压缩格式,常用于扫描文档,但 PNG 更适合 OCR。
交叉注意力
关联两个不同序列的注意力机制,对视觉语言模型集成至关重要。
交并比
测量边界框重叠的指标,计算为交集面积 / 并集面积。
卷积核/内核
卷积层中使用的小矩阵,用于检测边缘或纹理等特定特征。
卷积神经网络
使用卷积层从图像中提取空间特征的深度学习架构,是 OCR 的基础。
基准数据集
用于评估 OCR 模型性能的标准数据集,如 MNIST、COCO-Text、ICDAR。
基线检测
识别字符所在的假想线,对于准确的文本行分割至关重要。
激活函数
在神经网络中引入非线性的数学函数(ReLU、Sigmoid、Tanh)。
精确率
真正例与所有预测正例的比率,测量预测正确性。
降噪
从扫描图像中去除噪声和伪影以提高 OCR 准确性。
F1 分数
精确度和召回率的调和平均值,用于分类性能的综合指标。
PDF 解析
从 PDF 文件中提取文本、布局和结构,结合文本提取和 OCR 处理扫描的 PDF。
二值化
将图像转换为黑白(二进制)格式以简化 OCR 处理并改善字符检测。
优化
调整模型参数以最小化损失并提高性能的过程。
倾斜校正
在 OCR 处理之前将旋转或倾斜的文档图像校正为水平对齐。
嵌入
在连续空间中捕获语义含义的标记的密集向量表示。
知识蒸馏
迁移学习技术,较小的学生模型从较大的教师模型中学习。
置信度分数
指示 OCR 系统对识别结果有多确定的概率值。
迁移学习
使用预训练模型的知识以更少的数据提高新任务的性能。
过拟合
模型记忆训练数据而不是学习可泛化模式,在新数据上表现不佳。
SAM
Meta 的图像分割视觉模型,用于 DeepSeek-OCR 编码器捕获局部细节。
上下文光学压缩
DeepSeek 将文档压缩为最少视觉标记的技术。在 97% 准确率下实现 10× 压缩。
手写文本识别
识别手写文本的机器学习技术,比印刷文本 OCR 更具挑战性。
损失函数
测量预测与真实值之间差异的数学函数,指导训练。
数据增强
通过旋转、缩放和添加噪声等变换人工扩展训练数据集的技术。
数据增强
通过旋转、缩放、噪声、透视变换扩展训练数据的技术。
束搜索
在序列生成期间维护多个假设以获得更好准确性的解码算法。
深度学习
使用多层神经网络学习分层表示的机器学习。
深度编码器
DeepSeek-OCR 的 3.8 亿参数视觉编码器,结合 SAM(局部)和 CLIP(全局)以及 16× 压缩。
神经架构搜索
发现最佳神经网络架构的自动化方法。
随机失活
训练期间随机丢弃神经元以防止过拟合的正则化技术。
准确率
OCR 系统正确识别字符的度量标准。现代系统通过先进的神经网络实现97%以上的准确率。
召回率
真正例与所有实际正例的比率,测量找到多少正例。
字体识别
识别文档图像中的字体类型和样式以提高 OCR 准确性。
字符分割
从连接文本中分离单个字符以进行识别的过程。
字符错误率
测量 OCR 准确性的指标 = (替换 + 删除 + 插入) / 总字符数。越低越好。
字节对编码
通过合并频繁字符序列来构建词汇表的标记化方法,用于现代 NLP。
智能字符识别
使用 ML 识别各种字体的打印和手写文本的高级 OCR。
智能词语识别
使用 OCR/ICR 字符输出从用户定义的字典中识别单词的 AI 技术。
正则化
通过约束模型复杂性来防止过拟合的技术(dropout、权重衰减、L1/L2)。
注意力机制
允许模型使用查询、键和值参数关注相关输入部分的神经网络组件。
自动编码器
通过编码和解码学习高效数据表示的神经网络,用于压缩和特征提取。
自注意力
每个标记关注同一序列中所有其他标记的注意力机制。
