旧报纸不用再封尘了！新算法可从历史文件中搜索并提取信息

2021-10-20 00:02:22 前瞻网

旧报纸给我们提供了一个了解过去的窗口，纽约州立大学布法罗分校的研究员开发了一种新算法，试图将这些历史文件变成有用的、可搜索的数据。

这种算法可以从光学字符识别（OCR）产生的结果中找到人名并按重要性排序，光学字符识别是将扫描文件转化为文本的计算机化方法，通常比较杂乱。相关算法研究发表在《决策支持系统》上。

当运行光学字符识别软件时，很多时候文本会出现乱码。对于旧报纸、书籍和杂志，问题可能来自于油墨质量差、皱褶或撕裂的纸张，甚至是软件没有想到的不寻常页面布局。

为了开发该算法，研究人员与纽约公共图书馆（NYPL）合作，分析了《纽约太阳报》在1894年11月和12月期间发表的14000多篇文章。纽约公共图书馆已经扫描了20多万页报纸。

研究人员的算法根据一些属性对人名的重要性进行排名，这些属性包括名字的上下文、名字前面的标题、文章的长度以及名字在文章中被提及的频率。该算法仅从文本中学习这些属性——它并不依赖维基百科或其他知识库等外部信息来源。

但由于光学字符识别文本是乱码，它无法确定这些属性对人名的排名有效性多高。因此，研究人员使用统计措施对许多数据属性进行建模，这有助于提供所需的姓名排名。

研究人员使用两组历史文章来测试他们的算法。一套是由光学字符识别软件产生的原始文本，另一套是由纽约市的学童手动清理过的，他们用这些文章来写当时当地著名人物的传记。

结果发现，当与清理过的故事版本相比，即使从嘈杂的光学字符识别文本中，排名算法也能对人名进行高度精确的排序。

研究人员认为，这项研究对发现整个历史上的重要人物有广泛的影响。研究人员还表示，最近在南北战争时期的非裔美国人文献上使用了这种技术，以了解更多关于奴隶制时代的重要人物。今后将扩大这项技术，以检查人与人之间的关系，并建立起过去的社会网络。

题为PNRank: Unsupervised ranking of person name entities from noisy OCR text的相关研究论文发表在《决策支持系统》上。

前瞻经济学人APP资讯组

论文原文：

https://www.sciencedirect.com/science/article/abs/pii/S016792362100172X?via%3Dihub