认识和把握标准数字化

一、标准数字化的概念

文字识别，又称为光学字符识别(英文名：OpticalCharacterRecognition，简称OCR)，其工作原理为通过电子设备(例如扫描仪或数码相机等光学输入设备)获取纸张上的文字图片信息，利用各种模式识别算法分析文字形态特征，判断出汉字的标准编码，并按通用格式存储在文本文件中。由此可以看出，OCR是让计算机认字，实现文字自动输入。是一种快捷、省力、高效的文字输入方法。针对标准文本加工的现状与需求，将OCR技术运用到标准文本加工领域，已经成为标准加工与标准信息服务的趋势。标准数字化是从研究、挖掘标准全文的潜在价值出发，采用计算机技术，将常见的语言文字(或图形符号)转化为能被计算机识别的数字符号，从而制成标准题录数据库和标准全文数据库，用以揭示标准文献信息资源的一项系统工作。

二、标准起草应注意的“线”

（一）扩大标准检索的范围、丰富检索内容。

传统标准信息检索的方法和手段具有很大的局限性，尚处于初级搜索检索阶段，主要表现在：标准全文检索缺失，仍停留在标准题录的检索。标准题录只是标准全文的目录，其承载的信息有限，而标准全文才是标准的主体，才是标准信息的主要承载者。标准全文检索的缺失使标准服务效率无法实质提升。检索方式上仅停留在简单的分类检索。如国家标准、国外标准、行业标准、地方标准和标准图书等各大类的检索，缺少二次扩展检索。依据对标准数字化转化成果，配合开发标准相应的标准检索系统，将扩大标准检索的范围、丰富检索内容。借助新的检索手段，可以实现检索智能化，可以对标准信息内容直接抽取。例如可在标准的前言、引言、范围、规范性引用文件、术语等限定范围内进行关键词检索和结果数据抽取，以及对标准文本中的图形和表格进行检索和结果数据抽取，实现了用户对所需信息的智能提供，实现了传统的信息检索向高精度检索、文本挖掘、知识发现等方向转变。

（二）提高标准加工的效率、保障标准数据的准确性

目前，标准加工录入的字段中，标准的英文名称、适用范围、起草单位、批准单位、出版单位、提出单位、归口单位等字段均为手工录入。由于传统的数据加工模式是手工录入，维护的字段又多，因此标准加工的效率较低：又因标准加工量大、人员少，未能实现数据校对后入库，因此，数据录入的准确性得不到保障。

（三）为标准研究提供扎实的基础

运用PDF标准数字化转化成果，可以避免以上出现的准确性问题。原来这些英文名称、适用范围、起草单位、批准单位、出版单位、提出单位、归口单位等需手工打字著录的字段可以通过复制、粘贴完成，提高标准加工的效率，从而保障标准数据的及时性和准确性。

通过对标准文本数字化的转化，可对标准信息资源的深层次加工，充分挖掘标准文献资源内在附加值。借助标准文本数字化转化的成果，可以进行标准立项前的查新；借助标准文本数字化转化的成果，可以轻松、高效的进行标准之间技术指标的比对；借助标准文本数字化转化的成果，可以通过具体指标的查询，快速精确的对标准进行定位；借助标准文本数字化转化的成果，可以对标准中强制性条款、关键性指标进行分析与研究。标准数字化建设将为标准研究的开展提供坚实的基础。

（转自论文《标准数字化的初探》，作者：胡瓯静，江苏省标准化研究院，特此声明致谢）

标准公告

本月热点

文章分类

认识和把握标准数字化