您现在的位置是:探索 >>正文
数字化,让古籍触手可及 数字化古籍数字化迫在眉睫
探索876人已围观
简介以上图片均为“识典古籍”平台网页截图。 制图:张芳曼 核心阅读 我国现存古籍约有20万种,修复整理现存的全部古籍,可能需要300余年。古籍数字化迫在眉睫。一本古籍,如何从纸页“搬”到网页?广泛收集图像 ...
以上图片均为“识典古籍”平台网页截图。数字化
制图:张芳曼
核心阅读
我国现存古籍约有20万种,让古修复整理现存的籍触及ub8优游娱乐注册【Aurl:www.8233066.com】送888元全部古籍 ,可能需要300余年 。数字化古籍数字化迫在眉睫 。让古一本古籍,籍触及如何从纸页“搬”到网页?广泛收集图像资料、数字化利用现代技术精细化处理……自2022年10月上线以来 ,让古“识典古籍”平台已陆续汇集经、籍触及史 、数字化子、让古集等2200余部古籍 ,籍触及免费面向公众开放 ,数字化为解决古籍保护和利用矛盾进行了有益尝试 。让古
“青蒿一握,籍触及以水二升渍,绞取汁,尽服之” ,屠呦呦从古籍中获得灵感 ,由此发现青蒿素;在浩瀚古籍中寻幽入微 ,竺可桢绘制出一条物候变迁的曲线——“竺可桢曲线” ,浓缩出五千年中华大地的冷暖变化图景。
卷帙浩繁的ub8优游娱乐注册【Aurl:www.8233066.com】送888元中华古籍,凝结着先人的智慧 ,记载着璀璨的文化 ,诉说着绵延不绝的中华文明。岁月不居 ,书阙有间,部分古籍正慢慢“老去” ,褪色 、脆化、腐蚀 ,甚至稍一翻阅就会损毁。
当古老典籍遇到现代技术 ,会产生什么 奇妙反应?
一种“打开”古籍的全新方式
“初见”“流光”“惊鸿”“珠联”“缀玉”……点击网页上的标签,《永乐大典》的前世今生、编纂方法、历史价值等信息,伴随着动画音效 ,呈现于眼前 。
点击页面右上角“阅读大典” ,进入文本阅读平台 。《永乐大典》原本影像与数字化文本相互对照,繁简体文字随时切换。遇生僻词句 ,可选中文本,点击“查看引用” ,出处清晰可考 。
《永乐大典》是我国古代规模最大的类书,汇集先秦至明初各类典籍 ,被誉为“世界有史以来最大的百科全书”。但几经散佚 ,副本存世不及原书的4% 。对学者而言 ,《永乐大典》是进行学术研究的重要资料;对普通读者来说 ,古籍文本往往艰涩难懂 ,且接触机会不多。
如今 ,《永乐大典》高清影像数据库(第一辑)在古籍数字化平台“识典古籍”正式上线 ,免费面向公众开放 。借助现代数字技术 ,厚重典籍浓缩在方寸之间 ,尘封已久的历史画卷徐徐展开,成为触手可及的文化资源。
“互动化、可视化的呈现方式更加符合当代人的阅读习惯 ,沉浸式阅读体验拉近了古籍与普通读者之间的距离 。”“识典古籍”平台项目负责人之一 、北京大学信息管理系助理教授位通说。
自2022年10月上线以来,“识典古籍”平台已陆续汇集经、史、子 、集等2200余部古籍 ,面向海内外读者免费开放 。该平台由北京大学与抖音合作共建,致力于为用户提供免费、公开、稳定、快速、方便的检索和阅读古籍服务 。
“识典古籍”平台项目负责人、北京大学数字人文研究中心主任王军希望,“识典古籍”平台能推动散落海外的中华古籍回流,促成古籍的开放共享 。
一次解决保护和利用矛盾的尝试
古籍数字化为何迫切?
王军算过一笔账:我国现存古籍约有20万种,从1949年到2019年 ,共修复整理出版了近3.8万种,修复整理现存的全部古籍,可能需要300余年 。可以说,古籍修复速度赶不上老化速度 。
修复整理,只是数字化的第一步 。古籍具有文物和文献的双重属性 ,修复好的古籍若只被束之高阁,后续研究就无法开展,更无法发挥其文化传承的价值。
因此 ,数字化是一场生产效率的变革,也是一次解决古籍保护和利用矛盾的尝试。
一本古籍 ,如何从纸页“搬”到网页 ?
进入“识典古籍”平台,平台设计者、北京大学人工智能研究院副研究员杨浩开始演示:“古籍的数字化分为两步。一是图像化,我们与海内外古籍收藏单位合作 ,广泛收集古籍数字化图像资料 。二是文本化 ,利用人工智能技术对古籍文字进行识别、排序、校对 、结构整理 、标点、实体识别等,对内容作精细化处理。”
杨浩上传了一页古籍图像,不一会儿 ,文字自动识别处理完成。古籍图像上显现出不同颜色的小方框,“每个方框对应一个文字 ,先切分再调整顺序。红色方框是提醒此处需要人工介入 ,来进一步判断和处理 。”
与此同时 ,古籍图像旁已自动识别出一段文字,并可比照原图像进行修改调整 。杨浩继续解释 :“这个过程中,主要使用了文字识别 、自动标点和命名实体识别等人工智能技术。文字识别技术,是对古籍数字图像中的文字进行单个切分,再进行文字识别和顺序读出;自动标点技术,是通过序列标注的方式对古籍自动进行现代标点;命名实体识别技术,则是通过序列标注方法识别出文本中的人名 、地名 、书名 、时间、官职等信息 。”同时,在机器自动识别后 ,会有专人复查结果 ,进一步提升准确率 。
据悉,“识典古籍”平台文字识别的准确率达到96%以上 ,自动句读的准确率达到94%,命名实体识别在中古史料上的准确率接近98% 。
“大部分古籍阅读平台或只提供扫描文稿,或只提供文本内容,有些商业数据库收费高昂 ,获取资源十分不便。”北京大学历史学系学生刘沐含说,“识典古籍”平台有着丰富的检索功能以及分类与年代筛选功能,可以辅助开展学术研究 。
一个全流程的智能化整理平台
集纳展示古籍数字版本 ,不是“识典古籍”平台的全部。团队有着更大的设想——在一个平台实现古籍智能整理的全部环节。
“‘识典古籍’平台由两部分组成,前端是阅读平台 ,后端是古籍整理平台。”王军作了一个比喻,“就像是餐厅的前厅和后厨。”
目前,作为“后厨”的古籍整理平台,已经设定了团队管理员 、书目管理员、审订员、整理员等各种用户角色 。下一步 ,将吸引各行各业的古籍爱好者、研究者 ,以众包校对 、协同审核等形式,推进古籍整理项目和数据库建设,打造“古籍图像上传—文本校对整理—高质量标记—文本输出”的全流程系统。
哈尔滨师范大学历史文化学院学生刘钰昕,提前体验了一回“整理员”角色。
“希望能为损毁严重的古籍做点力所能及的事情。”2022年4月 ,看到北大数字人文研究中心的招募信息,刘钰昕第一时间报名 ,成为“识典古籍”平台的一名志愿者。
“我参与了《春秋左传注》《史记》《汉书》等古籍的校对工作。”谈及志愿工作,刘钰昕的热爱之情溢于言表,“印象最深的就是 ,为了制定魏晋南北朝官职标注规则,我查阅了大量的文献,还详细翻阅了《文献通考》的‘职官考’二十一考 。”
“新时代古籍事业发展,需要一批对古典文献学 、古籍保护、信息技术以及数字化流程都比较熟悉,又能将各方面有机融合的复合型人才 。”北京大学中文系教授杨海峥建议 ,应加强古籍学科理论构建和课程体系建设 ,编写适合新时代古籍工作需要的专业教材,并多为学生提供实践机会 ,以推进新时代古籍人才队伍建设。
“古籍是中华文明延续数千年未曾中断的有力证明,希望通过‘识典古籍’平台以及暑期工作坊 、学术研讨等活动,推动中华文明传承发展,向世界展示和传播我们的文化之美。”王军说。
新年伊始 ,杨浩写下了新的展望:
“泱泱中华,历史何其悠久 ,文明何其博大。2024年,希望能收集更多古籍 、提升整理质量,更好守护古籍这个文明之根 !”
(厉 烨参与采写)
Tags:
转载:欢迎各位朋友分享到网络,但转载请说明文章出处“独立王国网”。http://2288726.a71888.com/news/99a399523.html
相关文章
泄露百亿私募基金成交信息、违规炒股,这家券商从业人员被罚53万元
探索每经记者 陈晨每经编辑 肖芮冬 2月7日,广西证监局披露了国泰君安梅湾路营业部总经理周靖杰的行政处罚。周靖杰的违规行为包括利用未公开信息交易、违法买卖股票。记者注意到,周靖杰曾利用职 ...
【探索】
阅读更多坚定不移走中国特色金融发展之路
探索金融是国民经济的血脉,是国家核心竞争力的重要组成部分。10月30日至31日,中央金融工作会议在北京举行。习近平总书记出席会议并发表重要讲话,总结党的十八大以来金融工作,分析金融高质量发展面临的形势,部 ...
【探索】
阅读更多水庆霞团队是否留用待定 中国女足帅位面临三种选择
探索11月1日晚,中韩女足对决结束后,水庆霞在赛后新闻发布会上,就未能率队跻身巴黎奥运会女足预选赛亚洲区四强公开致歉,而此时距离她荣膺“2022年度亚足联最佳女足教练员”还不到24小时。对于媒体关心的“是 ...
【探索】
阅读更多
热门文章
最新文章
友情链接
- 再度受宠!超10位百亿级基金经理三季度加仓医药股
- 豪捐1亿元股份!江西最大一笔校友捐赠诞生
- 行业ETF风向标丨AI赋能、真人互动游戏出圈,三大游戏ETF表现各有千秋
- 前三季度全国可再生能源新增装机1.72亿千瓦
- 英媒:美军开始采购日本海鲜,但首批只有不到1吨扇贝
- 孟京辉力作《红与黑》首登津门 梅婷、张弌铖倾情演绎
- 美国加州州长参观上海特斯拉超级工厂
- 中国大市场 世界大机遇
- 伊拉克东部边境地区发生4.1地震
- 李佳琦团队美腕公司招商专员收好处费超百万,公司回应
- “千元买酒店券兑换不到房住”,双11囤旅游产品靠谱吗?
- 武汉聚力打造“中国网谷”
- 李若彤一身马面裙打卡西安兵马俑
- 第36届中国电影金鸡奖揭晓 完整名单出炉!
- 24个万亿城市 三季度GDP出齐了!