认识和把握标准数字化


一、标准数字化的概念

文字识别,又称为光学字符识别(英文名:Optical Character Recognition,简称OCR) , 其工作原理为通过电子设备(例如扫描仪或数码相机等光学输入设备)获取纸张上的文字图片信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中。由此可以看出, OCR是让计算机认字,实现文字自动输入。是一种快捷、省力、高效的文字输入方法。针对标准文本加工的现状与需求, 将OCR技术运用到标准文本加工领域,已经成为标准加工与标准信息服务的趋势。

标准数字化是从研究、挖掘标准全文的潜在价值出发,采用计算机技术,将常见的语言文字(或图形符号)转化为能被计算机识别的数字符号,从而制成标准题录数据库和标准全文数据库,用以揭示标准文献信息资源的一项系统工作。

二、标准起草应注意的“线”

(一)扩大标准检索的范围、丰富检索内容。传统标准信息检索的方法和手段具有很大的局限性,尚处于初级搜索检索阶段,主要表现在:标准全文检索缺失,仍停留在标准题录的检索。标准题录只是标准全文的目录,其承载的信息有限,而标准全文才是标准的主体,才是标准信息的主要承载者。标准全文检索的缺失使标准服务效率无法实质提升。检索方式上仅停留在简单的分类检索。如国家标准、国外标准、行业标准、地方标准和标准图书等各大类的检索,缺少二次扩展检索。
依据对标准数字化转化成果,配合开发标准相应的标准检索系统,将扩大标准检索的范围、丰富检索内容。
借助新的检索手段,可以实现检索智能化,可以对标准信息内容直接抽取。例如可在标准的前言、引言、范围、规范性引用文件、术语等限定范围内进行关键词检索和结果数据抽取,以及对标准文本中的图形和表格进行检索和结果数据抽取,实现了用户对所需信息的智能提供,实现了传统的信息检索向高精度检索、文本挖掘、知识发现等方向转变。

(二)提高标准加工的效率、保障标准数据的准确性目前,标准加工录入的字段中,标准的英文名称、适用范围、起草单位、批准单位、出版单位、提出单位、归口单位等字段均为手工录入。由于传统的数据加工模式是手工录入,维护的字段又多,因此标准加工的效率较低:又因标准加工量大、人员少,未能实现数据校对后入库,因此,数据录入的准确性得不到保障。

(三)为标准研究提供扎实的基础运用PDF标准数字化转化成果, 可以避免以上出现的准确性问题。原来这些英文名称、适用范围、起草单位、批准单位、出版单位、提出单位、归口单位等需手工打字著录的字段可以通过复制、粘贴完成,提高标准加工的效率,从而保障标准数据的及时性和准确性。
通过对标准文本数字化的转化,可对标准信息资源的深层次加工,充分挖掘标准文献资源内在附加值。借助标准文本数字化转化的成果,可以进行标准立项前的查新;借助标准文本数字化转化的成果,可以轻松、高效的进行标准之间技术指标的比对;借助标准文本数字化转化的成果,可以通过具体指标的查询,快速精确的对标准进行定位;借助标准文本数字化转化的成果,可以对标准中强制性条款、关键性指标进行分析与研究。标准数字化建设将为标准研究的开展提供坚实的基础。

(转自论文《标准数字化的初探》,作者:胡瓯静,江苏省标准化研究院,特此声明致谢)