摘要:古籍数字化出版有助于保藏古籍文献资料,实现资源高效访问与全球共享。现阶段面临诸多问题与挑战:处理技术局限,效果呈现不佳;资源聚合缓慢,开发程度较低;信息共享不畅,知识传播受限等。基于此背景,由北京大学-字节跳动数字人文开放实验室研发的“识典古籍”数字化平台上线。它通过人工智能大模型技术来提升古籍查阅效率,注重技术创新与应用、用户体验与互动、合作共赢与发展。鉴于“识典古籍”在古籍“活化”、赋予其“新生”方面迈出重要步伐,未来古籍数字化出版发展路径可着力于数字技术创新、政策资金扶持、跨平台合作、人才培养等方面。
2022年4月,由中共中央办公厅、国务院办公厅印发的《关于推进新时代古籍工作的意见》(以下称《意见》)明确指出,要加快古籍资源转化利用,推进古籍数字化,统筹实施国家古籍数字化工程,实现古籍数字化资源汇聚共享。[1]2022年10月11日,由北京大学与字节跳动公司合作研发的古籍数字化阅读平台“识典古籍”(以下称“识典”)上线。它致力于将人工智能技术转化应用,成为目前唯一能够将古籍全流程智能化处理的开放式平台。截至2024年6月,识典已收录古籍4986部。在当前古籍数字化工作面临诸多挑战的情况下,识典的技术、理念深具价值,富有启发意义。
一、古籍数字化出版现状
(一)古籍数字化出版在当今时代发展的必要性
近年来,在学术界和政府部门的积极推动下,古籍数字化出版项目多点开花,成果丰硕。2014年,中华书局推出大型古籍数据库“中华经典古籍库”,收录了十余家出版社正式出版的古籍整理本;截至目前,共计8176种。该库聚合各社古籍资源,提供原图像与数据比对,为用户了解版式信息提供了极大便利,大大提升了典籍使用率。“国家古籍数字化资源总平台”则更具系统性,以《中国古籍总目》为纲,对每种文献的题名、责任者、版本、分类、馆藏进行结构化梳理,通过整合类属,打破信息孤岛,实现资源互联互通与共享利用。“全球汉籍影像开放集成系统”汇集全球重要馆藏影像数据,目前涵盖约26万部,可以通过输入繁体字书名、作者、关键词等检索到所需古籍影像版本,为专业研究者、爱好者提供了广阔的资源空间。
(二)古籍数字化出版面临的问题与挑战
古籍数字化出版包括数字化处理、内容整合、版权处理、平台选择、发布推广等,全程需要技术、资源、信息提供有力支撑,也因此面临诸多问题与挑战。
1.处理技术局限,效果呈现不佳
目前我国古籍数字化工作的推进涉及两大主体内容,一是古籍图片库(侧重存储图像及相关资料)建立,二是古籍文献库(侧重收集和保存古代文献、书籍)整理。古籍作为一种特殊文物,兼具知识传播和文物收藏的功能,只有将图片扫描与文献整理结合,才是真正意义上的古籍数字出版。当下部分古籍数字平台偏重文献库建设,缺乏原典图像呈现与比对,为古籍版权管理工作留下问题。
就图像高质量采集来说,它有一些关键技术标准和最佳实践要求,以确保图像品质。这包括600DPI或更高的分辨率、正确色彩管理、能捕获阴影与高光区域的高动态范围、适当格式与压缩设置、均匀无影的照明、高质量且能被定期维护校准的采集设备及技术纯熟的操作人员等。而古籍作为扫描对象中的文物级文献,本身会存在质地特殊、霉变老化、字迹模糊、残缺不全等问题,要实现高保真、全细节、无影无歪斜呈现,对图像采集的要求会更加严苛。
就字形字体而言,古籍包含大量繁体字、异体字、同源字、古今字、避讳字等。手抄本中作者或抄书者的书写习惯,刊刻本中编纂、誊抄或刻版者的主观倾向等都可能使同一个汉字对应多种字形。如《四库全书》中,为避乾隆皇帝弘历名讳,将《中兴小历》(《皇朝中兴纪事本末》)改为《中兴小纪》,而在《提要》中书题并未更名,馆臣选择将“暦”改为“歴”;其他典籍亦会交叉使用“厯”“秝”“历”等。清末《飞影阁画报·斗醒》一文百字左右,“独”的写法就出现了两种(图1)。[3]尽管当前Unicode、GB18030、Big5、EUC等编码技术覆盖大部分汉字、亚洲语言中特定汉字字符,却仍然存在古字与现有编码体系对应不上、不同汉字被赋予相同码点、标准化连带弱化文字敏感度等问题。
图1 《飞影阁画报·斗醒》(局部)
2.资源聚合缓慢,开发程度较低
据2021年全国古籍保护工作座谈会上公布的数据,截至当年,全国古籍普查完成270余万部另1.8万函。[5]而2023年第七次古籍数字资源联合发布的数据显示,全国累计发布古籍及特藏文献影像资源达13万部(件),其中国家图书馆建设的“中华古籍资源库”发布古籍影像资源超过10.2万部(件)。[6]数据对比悬殊,足见目前资源开发率较低。
古籍资源于各地文博单位、图书馆、高校机构等均有存藏。其分布零散,各方沟通合作尚不充分,存在重复开发、资源虚耗、技术应用与修复人才不均衡等问题。国家图书馆(以下称“国图”)建设的“中华古籍资源库”目前亦只覆盖39家单位的资源。
除此之外,政府对于古籍数字化经费投入力度还不够。受制于有限经费,古籍保存修复所需设备不能及时更新,数字化平台无法进行更大规模的建设。山西省每年的古籍保护专项经费仅100万元,除了个别市级县级图书馆外,大部分古籍存藏机构无法开展古籍维护工作。[7]四川省只有少数单位具有固定专项经费,多数则缺乏长期规划与专项资金,古籍保护与工作秩序维持不易;部分基层古籍收藏单位年经费仅数万元(含购书、免费开放运行等基本经费)。[8]
3.信息共享不畅,知识传播受限
部分古籍平台在资源访问方面存在问题,用户体验较差。某用户在社交平台上反馈,在中华古籍资源库中搜索平江府碛砂延圣寺刻印的《碛砂藏》丛书,显示检索失败,只有在出版社检索中将“碛砂”“平江府”“延圣”等词排列组合方可获得结果。可见国图网站搜索算法逻辑不够灵活,无法处理复杂多样的查询需求,检索功能尚待完善。此外,其维护更新亦不及时,点击“在线阅读”,常出现等待提示、页面空白或显示“用户id获取失败”。
相比之下,中小型学术机构平台问题更为明显。如界面搜索功能缺乏、视觉秩序混乱、服务器容量受限无法承受高频搜索、用户交互功能缺失、版本图文不符以及无多语言支持功能导致国内外用户都无法快捷使用资源等。
二、识典古籍数字化平台案例分析
(一)技术创新与应用
识典研发团队对古籍处理分两个阶段进行:第一步“图像化”,即与国内外古籍收藏单位合作,收集相关图像资料;第二步“文本化”,利用人工智能技术对典籍内容进行精细化处理。[9]
1.大语言模型技术应用
大语言模型技术(LargeLanguageModels,LLM),是一种基于人工智能的深度学习模型,主要用于处理和生成自然语言文本。常被应用于文本分类、总结和生成,通过学习和分析已有文本,进行以下处理:将文本归入一个或多个类别中;自动汲取关键信息,生成摘要或概述;模仿已有信息结构生成新文本。
识典是首个将大语言模型技术运用于古籍出版的平台。为提高检索效率,它推出了基于检索增强生成技术的智能助手。首先,点击“古籍智能助手”或选中原文“问AI”,可以获取由AI生成的原文总结,从而无障碍阅读古籍;其次,向智能助手提出深层次研究问题时,它会先对问题做出意图分析,在已有古籍数据中获取相关上下文,然后通过大语言模型总结给出答复。[10]
识典在智能助手窗口底部,设置了“内容由AI生成,可能有错误,使用前注意查证”的提示,以说明生成答案并非绝对准确,不能代替专业文献分析与学术判断,其功能主要是“知识支援”、帮助用户“获得超越当前文本的拓展知识”,以节约获取资料的时间,并不断开拓出新思路。
2.自然语言处理技术应用
首先,利用序列标注方法为古籍自动添加标点。算法先判断文本是否需要,再根据上下文语义判断加何种类型符号。目前识典支持【,!?、:;。】这七种标点。由于对典籍内容理解难度远大于现代汉语文本,现阶段自动标点准确率为96%到97%,[5]尚未臻极。
(二)用户体验与互动
在用户体验与互动方面,识典多有创新、走在前列。
1.导航结构清晰合理,符合阅读习惯
识典自上而下分三大板块:检索(同时提供既定图书分类)、AI协同整理古籍、特色典籍(纳西族史诗《创世纪》与《永乐大典》)。在检索板块,检索栏居中,文字提示“请输入要搜索的关键词”,旁边则以选项形式呈现高级检索,有书名、作者两个限定范围。检索栏下方设置儒学、佛学、道学、文学既定四类,点击即呈现各类对应的10部经典,极大方便初读者熟悉文本格局。AI协同整理古籍对研究者而言可谓“利器”,能便捷直达可编辑文字步骤,可节省大量投入在扫描复制、截图转化文字等步骤上的时间。
2.布局适应性强,适配各种屏幕尺寸
手机竖屏阅读识典时,典籍图表从左至右滚动出现,无压缩、不拥挤。篇章左滑呈现,字体、字号、行距、段落清晰舒适,正副文本齐备。在电脑横屏版中需要点击要进入的“书库”,在竖屏中以经、史、子、集传统四部领起,直观呈现。值得注意的是,识典主页上标注的专业“手机版”则与“今日头条”关联,在“今日头条”中检索“古籍”二字,“古籍频道”置顶的即“识典”。目前,国家古籍数字化资源总平台(手机界面显示“为提高使用体验,建议使用PC端进行查看”)、国图数字图书馆则仍以横屏为主。
3.内容展示富有特色,功能实效性强
首先,支持多种文字模式。包括简体字、标准繁体字、底本原字(保留俗体字原貌),以满足不同用户的需求。稍作比对,台北故宫博物院图书文献数位典藏资料库、现阶段正分期开发的“全球汉籍影像开放集成系统”都以繁体字模式为主导,用户需要熟知关键词拣选、拆分技巧,则更适合专业人员。
其次,提供数字化文本与原典图像对照。滑动页面,图像会紧随进度平滑切换—缺讹、衍文、版式、款识、木记等不便转换呈现的内容皆一目了然。平台对原典版本的选择也是尽可能取善本,如《分类补注李太白诗》,选取四部丛刊影萧山朱氏藏明郭云鹏刊本,此本虽属太白集删节本系统,却刊刻精良、墨色清晰、流传度甚高(图2)。所附“书籍信息”亦严谨,书名、别名、卷名、朝代、作者、版本、资源质量、影像来源等历历分明。
图2 识典中李白集《分类补注李太白诗》原典图像(左)与数字化文本(右)对照
4.文化元素融入视觉设计,多媒体资源介入特色板块
页面整体采用柔和的缃色,观感舒适。线装书、长卷、文字等经典文化符号为深浅不一的缃红、缃黄、缃绿,辅以库金、冷金,有古典与现代交融之美。在特色板块中,多媒体资源介入,有视频、动画、动态解说与展示,进一步增强了互动性,提升了教育价值。如《永乐大典》专题板块,以动画引导用户进入,册页在光影中庄严开启,文字蒸腾,在厚重肃穆中予人华夏威仪之感。用户可点击翻转、自由开合卷册,直观了解大典概况、开本尺寸、卷册数量。
(三)合作共赢与发展
识典在深化古籍出版、知识服务的过程中,积极寻求与其他平台合作,旨在建立更加全面、广泛的知识服务网络,实现古籍数字化出版可持续发展。识典平台的技术由字节跳动科技公司提供,它与公司旗下产品确立了紧密合作关系。这些平台庞大的用户基础、高度活跃的社交属性,迅速发挥出聚合引流的功能。
首先,识典与抖音、今日头条联动。古籍相关内容会以短视频、图文、搜索提示、自媒体评论等形式呈现给用户——在多样化载体上实现多元化传播。阅读时点击篇章中人物、地点、其他专名等,亦可直接进入识典百科页面。这种合作方式为识典带来更广泛的用户群体、更多样的传播渠道,充分体现出跨平台联动给予古籍文化发展的推动力。
其次,识典与网文阅读平台番茄小说合作。番茄小说引入古籍近三千部,《儒林外史》《永乐大典》等都能搜索到并可以免费阅读。合作项目上线一个月内,累计15万用户搜索古籍关键词,超过5万用户阅读古籍内容。[11]2023年5月至12月,番茄小说与国家古籍保护中心办公室联合承办“古籍活化传承书香”征文活动,共征集到以古籍为蓝本进行再创作的作品三万余部。活动吸引了大量年轻读者,有效践行了古籍传播大众化,“让文学能够在民族文化的高地上进一步开花结果”。[12]
此外,识典与中国文物保护基金会、故宫博物院达成合作。共同启动的“古籍保护与活化公益项目”,旨在进一步提升公众对古籍保护、出版的认识,数字化技术使古籍真正活化,飞入“寻常百姓家”。
三、古籍数字化出版未来发展路径
基于以上分析,未来古籍数字化出版可从技术、资金、跨平台合作、人才方面持续发力。
(一)以数字技术为框架,创新古籍形式
1.加快人工智能技术在古籍数字化领域的应用
2.注重VR/AR技术与古籍的结合
VR和AR技术可应用于古籍修复保护工作。通过三维重建得到古籍高精度数字模型,可以实现无损记录原典状态、虚拟修复等。此外,模拟出古籍在自然环境中的老化过程,为后续存储提供科学依据,可降低环境干扰、操作风险等。利用这两种技术,还能在虚拟环境中展示古籍,打造沉浸式场景。如中图云创科技公司联合国图打造的VR《永乐大典》序篇,采用了“5G+VR”技术集成4K/8K全景视频拍摄,为读者提供全新的阅读体验。
(二)以政策扶持为纽带,助力技术发展
政策是古籍工作的制度支撑,资金则为这项工作提供动力。2022年,《意见》指出:“中央和地方财政应将古籍工作相关经费纳入年度预算,统筹利用现有资金渠道,完善投入机制,调整优化支出结构。继续落实好支持古籍事业相关税收优惠政策。支持引导公民、法人和其他组织以捐赠、资助、依法设立基金会等形式参与古籍保护传承。”[1]
政府可以通过税收减免、资金补贴的方式激励企业机构或个人参与古籍数字化项目。古籍出版机构、数字化平台与商业机构加强合作,共同开展相关项目。通过利益共享机制,参与各方皆能获得合理经济回报,从而吸引更多资金、资源投入。
(三)以培养专业人才为目标,充实从业队伍
人才队伍的培养为未来古籍数字化工作提供了可持续性资源。为深入推进新时代古籍工作,《意见》在“强化古籍工作保障”部分指出要“强化人才队伍建设”,主要包括加强古籍存藏保护、整理研究和出版专业机构建设、完善用人机制、健全评价机制等方面。[1]具体至古籍数字化出版,结合上文分析可知它涉及多学科技能,对具备跨学科知识的专业人才形成刚需。研究者、从业人员不仅要精通数字技术,还要熟悉版本、文献、历史、文学等,且能付诸实践,真正达到“又专又博”,才能于本质上提高古籍数字化质量与效率。
四、结语
古籍数字化出版有助于保藏典籍文献资料、降低使用损耗、实现资源高效访问与全球共享。在学术界与政府部门的积极推动下,相关出版项目得到落实,成果丰硕。与此同时,这项艰巨的任务全程需要技术、资源、信息有力支撑,也面临诸多问题与挑战。这包括处理技术局限,效果呈现不佳;资源聚合缓慢,开发程度较低;信息共享不畅,知识传播受限等。对读者而言,尚有“找不到、不会用、读不懂”等难题。
“识典古籍”数字化平台格外注重技术创新与应用,努力提升用户体验,追求合作共赢与可持续发展。目前获得了专业学者、传统文化爱好者的积极反馈。有鉴于识典在古籍“活化”、赋予其“新生”方面迈出重要步伐,未来古籍数字化出版可从数字技术、政策资金扶持、跨平台合作、人才培养方面持续发力,为古籍文化遗产数字化出版提供更优质的服务。
参考文献:
[2]陈阳.中文古籍数字化的成果与存在问题[J].出版科学,2003(4):47-48.
[3]吴友如.飞影阁画报[M].扬州:广陵书社,2022.
[5]张贺.全国古籍资源分布和保存情况基本摸清[N].人民日报,2021-12-10.
[6]陈雪.古籍如何兼顾“藏”与“用”[N].光明日报,2023-01-06.
[7]张利民.浅议公共图书馆古籍保护工作—以山西省为例[J].文化月刊,2024(1):92-94.
[8]董雪,王迪,许晓青.留传千年变“死书”沉睡古籍待唤醒[J].瞭望,2021(22):2.
[9]吴丹.数字化,让古籍触手可及[N].人民日报,2024-01-10.
[10]皮磊.借AI与古籍对话,“人工智能+”成公益创新突破口[N].公益时报,2024-03-14.
[13]字节跳动公益.字节跳动设立了千万元专项资金,要让珍贵古籍重现生机[EB/OL].(2021-06-17)[2024-05-02].https://mp.weixin.qq.com/s/64z9r7MGDxAm93jkgNyc4g.
本文原载于《北京印刷学院学报》2024年09期返回搜狐,查看更多
责任编辑: