大模型技术的最新进展:从教学视频中提炼出高质量的多模态学习教材

近日,浙江大学与阿里巴巴达摩院联合发布了一项引人瞩目的研究,旨在通过教学视频创建高质量的多模态教科书。这一创新的研究成果不仅为大规模语言模型(VLMs)的训练提供了新的思路,也可能改变教育资源的利用方式。

随着人工智能技术的迅猛发展,VLMs 的预训练语料主要依赖图文对数据与图文交织语料。然而,当前的这些数据多来自网页,文本与图像的关联性较弱,知识密度也相对较低,无法有效支持复杂的视觉推理。

image.png

为了应对这一挑战,研究团队决定从互联网上海量的教学视频中提炼高质量的知识语料。他们收集了超过15.9万个教学视频,经过精细的过滤和处理,最终保留了75,000个高质量视频,涵盖数学、物理、化学等多个学科,总时长超过22,000小时。

研究者们设计了一条复杂的 “视频到教科书” 处理管道。首先,使用自动语音识别(ASR)技术将视频中的讲解内容转录为文本,接着通过图像分析和文字匹配,筛选出与知识点高度相关的片段。最终,这些处理过的关键帧、OCR 文本和转录文本被交错组织,形成了一个内容丰富、结构严谨的多模态教科书。

image.png

这一研究的初步结果显示,与以往的网页中心数据集相比,新生成的教科书数据集在知识密度和图像关联性上显著提升,为 VLMs 的学习提供了更为坚实的基础。此外,研究还引起了学术界的广泛关注,相关数据集在 Hugging Face 平台上迅速攀升至热门榜单,短短两周内下载量便超过7000次。

通过这一创新的尝试,研究者们希望不仅能推动 VLMs 的发展,更能在教育资源的整合与应用上开启新的可能性。

论文地址:https://arxiv.org/pdf/2501.00958

猜你喜欢

清明节文化传承的深层密码与现代社会的融合探析
清明节文化传承的深层密码与现代社会的融合探析

【守望家园】清明节成熟于周,距今已有2500多年的历史了。据古书记载,因这一时节气清景明,故称“清明”。清明节有哪些特别

《国家宝藏》:以全新视角赋予国宝新生命,重塑文化价值的探索之旅
《国家宝藏》:以全新视角赋予国宝新生命,重塑文化价值的探索之旅

近日,热门综艺《国家宝藏》同名图书正式结集出版。该书共分三册,三册《国家宝藏》立足于广受好评的同名电视节目,结合相关考古

沙霏在《孔雀东南飞》中惊艳登场,带来意料之外的精彩开场表现
沙霏在《孔雀东南飞》中惊艳登场,带来意料之外的精彩开场表现

4月1日到5日,北京京剧院将在长安大戏院上演《孔雀东南飞》《穆桂英挂帅》《杨门女将》《珠帘寨》《鸳鸯冢》五部传统剧目,陪

非物质文化遗产剪纸:在传承与创新中坚守“守正”的核心价值观
非物质文化遗产剪纸:在传承与创新中坚守“守正”的核心价值观

非遗剪纸:“守正”是传承与创新的底线民国时期佛山铜凿剪纸《焰火迎春》 (选自《广东民间美术》)近年来,在剪纸非遗界,刮起

清明时节:哀愁与欣喜交织,绵绵细雨映衬春日儿女情长
清明时节:哀愁与欣喜交织,绵绵细雨映衬春日儿女情长

在二十四节气中,唯有清明最为特殊:它既是节气也是节日,自古就被赋予了自然与人文的双重内涵。清明呈现出暮春时节的气候与风景

文字背后那些不为人知的较量更引人深思,挑战思维极限
文字背后那些不为人知的较量更引人深思,挑战思维极限

“谍战”一直是文学和影视中的热门题材。从《暗算》《潜伏》到《伪装者》《叛逆者》等,影视剧的热播更是刮起了一次次的谍战旋风

清代广州四大书院的兴盛与繁荣,见证了独特的文化与商业交融的辉煌历史
清代广州四大书院的兴盛与繁荣,见证了独特的文化与商业交融的辉煌历史

文脉书院4“五岭北来峰在地,九州南尽水浮天。”岭南大地倚山临海,地势开阳。自古以来,岭南人采中原之精粹,纳四海之新风,融

花朝汉服文化节让游客尽情体验“国潮”魅力,领略传统与现代的完美结合
花朝汉服文化节让游客尽情体验“国潮”魅力,领略传统与现代的完美结合

花朝汉服文化节带游客感受“国潮”游人参与汉服春日运动秀。本报记者 刘平摄本报讯(记者 孙颖)刚与一位黑衣“侠客”擦肩而过

北京知识产权保险试点两年成效显著 重点产业3366件专利得到全方位保险保障
北京知识产权保险试点两年成效显著 重点产业3366件专利得到全方位保险保障

本报讯(记者 赵语涵)近日,正准备进行一场维权官司的北京五隆兴科技发展有限公司获得了一笔40余万元的专利执行险出险理赔,

云冈石窟“弥勒三尊洞”经过70天封闭后重启数字化采集工作,以保护和传承文化遗产
云冈石窟“弥勒三尊洞”经过70天封闭后重启数字化采集工作,以保护和传承文化遗产

云冈石窟第17窟主佛像。云冈研究院供图太原4月6日电 (记者 胡健)云冈研究院6日对外公布称,世界文化遗产云冈石窟第17