梵蒂冈的秘密区别
同时,基于现在梵蒂冈事实上对待俄罗斯方面的恶劣态度,可以怀疑的是“企夜们”相关摩(西(音译))首罗的**形态、和梵蒂冈方面、与及犹太魔神可能崇拜者的方面可能有着针对相关的“和子句”争端的另一方俄罗斯等方面的某种秘密联盟,毕竟这三者都不承认圣灵只能从唯一处来,而在实践中这三者可能都属于某一种“人独”分子,不奇怪他们这三者可能以“人联”自居。
基于上述背景,梵蒂冈秘密档案馆研发了InCodiceRation项目,旨在开发一个支持中世纪手稿自动转录的系统,将人工智能、卷积神经网络、统计语言模型与光学字符识别(OCR)相结合来转录文本,对大量纸质档案中的手写文字进行单词识别和转化,以期为研究人员提供更便捷、高效的检索服务。
InCodiceRatio项目团队以梵蒂冈秘密档案馆的“梵蒂冈登记册”为实验对象,设计研发转录系统,用以支持中世纪手写文稿的转录。由于手写文稿存在连笔、潦草、单词间距小等弊端,在OCR环节就需保证手写文稿扫描图像的清晰,进而对扫描后的图像进行预处理,最后经系统识别转录后才能够生成准确的结果。正确的转录结果能够帮助还原手写文稿的原始内容,推进手写历史文稿的数字化进程,进而实现手写档案内容的开发利用,便利研究人员探索分析梵蒂冈的历史文化遗产。
(一)馆藏手写档案数字化进程迟滞,难以满足线上访问需要:梵蒂冈秘密档案馆始建于4世纪,是世界上最大,最重要的历史档案馆之一。馆内保留众多珍贵的手写档案收藏,包含有关梵蒂冈活动的历史文件,如报纸、书信、教皇的帐簿、重要活动记录等。然而,众多馆藏中仅有少部分文件经过扫描提供在线访问,更少量的文件被转录为计算机文本以供检索,且⼤部分馆藏档案对利用者有严格限制。[3]对馆内手写档案开展高效的数字化识别与转录工作,是响应**公众线上访问需要、推进馆藏档案信息资源开发利用的必然举措。
(二)传统OCR技术应用效果不理想,字符识别方式亟待优化:传统的OCR通过查找字符之间的空白,将单词分解成一系列字母图像,并与内存中的字母库进行比对,找出与图像最匹配的字母。随后,软件将该字母转录为计算机ASCII编码,从而让文本实现可搜索化。然而,梵蒂冈秘密档案馆中的大量手写档案字迹潦草且难以辨识,无法以字母为单位进行分割识别,因此,基于传统的OCR技术开展手写档案识别转录的实际应用并不理想。相比之下,人工智能及卷积神经网络等技术的应用,能够在模型训练及算法优化的基础上有效提升字符识别准确率,显著提升手写档案数字化转录进程。