让“无声世界”感受赛场魅力!带你看看冬奥手语数字人有哪些奥秘******
2022年2月4日,第24届冬季奥林匹克运动会在北京举行,让世界目光再次聚焦中国。本届北京冬奥会秉持绿色、共享、开放、廉洁的办赛理念,凝聚中国科技力量,面向世界、面向未来,向全球奉献了一场精彩、非凡、卓越的奥运盛会。
本届冬奥会运用最新科技手段,为全世界观众提供了惊艳的现场转播和全方位覆盖报道,北京冬奥会也成一场上科技含量高的奥运会。赛事活动期间,为了让各类人群都能平等地享受本届冬奥盛会,北京电视台上线了智能手语播报数字人,在《北京新闻》和《北京您早》等节目中进行冬奥专题手语播报,为听障人士带来精彩赛事报道。
最新数据显示,我国听障人群超过2700万,这部分人群与健听人一样,他们对教育、社交、娱乐等信息获取都有巨大的需求。但长期以来,传统人工手语翻译工作量大,且主持人和手语主持人配合难度极高。手语动作表情复杂,语序与正常语序差异大,正常情况下想要熟练掌握手语大约需要2年左右的时间,还要结合语境进行猜测。
受北京市科委科技冬奥专班委托,北京电视台联合凌云光、智谱AI等业内科技公司,在北京市残疾人联合会和市残联聋人协会等支持下,用3个多月时间,让手语播报数字人完成了近10万条手语语料学习,且翻译准确率高达90%。
在如此短的时间内实现这项高难度动作,智能手语数字人是如何做到,在这背后又有哪些技术创新难点?
在多位业内人士看来,近年来人工智能体系建设重点布局在算法层和应用层,数据层建设远远不足,并且针对数字人相关产业,底层数据库的数量、质量和开源程度还明显不足。尤其是国内现有的手语语料数据库数量少,且多以图像、视频等二维平面为主,无法满足AI(人工智能)训练的需求。
同时,因手语语序与中文语序差异大,方言分化更加复杂,且需要通过表情、口型、动作等方式来传达信息。除了传统的二维平面图像、视频采集,三维肢体运动、表情信息数据采集及结构化参数表达外,手语语料数据库建设对三维运动信息捕捉也十分重要。
凌云光手语数字人产品相关负责人介绍,在建设高质量手语语料库的同时,他们充分调研了2022北京冬奥专用手语术语,并联合北京市残联、聋人协会等相关组织机构,进行数据标注,建设手语语义映射关系,不仅完善了国内手语数据库的建设,也为手语推广和AI研究留下了宝贵的数据资产。
该负责人举例说,基于“悟道2.0”超大规模人工智能模型的技术支撑,手语数字脑用计算机模仿听障人士的大脑,将看到的中文文本信息转换成手语词汇序列,包括中文语义蒸馏模型和AI手语分词快编算法的研究。中文语义蒸馏模型用于从输入的文稿或文本中提取出关键的语义信息,将中文文本语义提炼和精简,形成精准匹配适合手语表达的文本;AI手语分词快编算法则用于将蒸馏得到的中文文本,根据冬奥手语语料库划分成相应的手语词汇序列,供数字人做表达输入。
该负责人还提到,数字人是冬奥手语播报的载体和展现形式,通过高精度写实数字人全流程制作方案,可实现一键数字建模,高度还原真人发肤,重新毛孔等细节,更加真实亲切。同时,通过跨模态拟人生成算法,还可以将手语词汇序列,生成相应的动作信息,驱动数字人模型做出相应的动作、手势和表情。(姚坤森)
我们距离“三体世界”还有多远?这些“黑科技”正在走向现实…...******
最近,《三体》动画开播。被翻译成不同语言、畅销世界多地的小说《三体》,除了其庞大的设定、对宇宙的恢宏描写以及跌宕起伏的剧情外,最令人着迷的就是作者刘慈欣对未来航天科技的设想。
这些天马行空的“黑科技”,有哪些是正在实现或部分实现的呢?我们一起去看看:
图源:《三体》微博
从“飞刃”到碳纳米技术
在《三体》中,“飞刃”被用来执行代号“古筝行动”的秘密军事行动,这种极细的丝状纳米材料,将叛军船只“审判日”号切割成了条状。
图源:《三体》动画
按原著设定来看,“飞刃”是一种超高强度的纳米材料。
在现实中,最接近其特征的就是具有超高机械强度和低密度的碳纳米管,但它目前还无法做到像三体中“飞刃”一样,横跨运河两端几十个来回那么长。
2022年4月,美国《国家科学院院刊》(PNAS)刊载,中国科学家首次在高压下合成高度有序晶态金刚石结构纳米线。这种金刚石纳米线在长度方向可以无限生长,粗细仅相当于一根头发丝的十万分之一,具有与碳纳米管相当或更高的拉伸强度和极强的柔韧性,想来在实践中运用指日可待。
金刚石纳米线
图源:科普中国
从头盔感应技术到虚拟现实设备
《三体》中不止一次提到了头盔感应技术。
每次进入三体游戏世界,科学家汪淼都需要穿上虚拟现实装备,装备包括一个全视角显示头盔和一套感应服构成的“V装具”。通过记录视网膜特征,感应服可以使玩家从肉体上感觉到游戏中的击打、刀刺和火烧。
图源:《三体艺术插画集》by 山野
按照原著设定,“V装具”就是虚拟现实设备(Virtual Reality,VR)。它和增强现实技术(Augmented Reality,AR)不同,虚拟现实可在虚拟信息里模拟出现实世界。
现今,大部分虚拟现实技术更强调视觉体验,一般是通过电脑屏幕、特殊显示设备或立体显示设备获得的。
与V装具头盔接近的设备便是VR头显。
VR头显
图源:凤凰网
VR头显可将人的对外界的视觉、听觉封闭,引导用户产生一种身在虚拟环境中的感觉。如果要使用VR头显进行游戏,往往还需要配套的手柄或手套用以操控。就目前的实际情况来说,还很难形成一个高逼真的虚拟现实环境,无法拥有三体游戏里那种身临其境的丝滑体验。
从“思维透明”“思想钢印”到脑机接口
《三体》刻画了两种信息感知机制。
其一是思维透明。三体人的信息感知方式是直接发射自己的思维,三体人一开始思考,他的想法别人就能够知道,无法隐藏;
其二是思想钢印。第三位面壁者比尔·希恩斯发现了人类思维做出判断的机制,成功研制出一种设备,通过对神经元网络施加影响,使大脑不经思维就作出判断,相信某个信息为真。
按照原著设定,思维透明和思想钢印,都是对心智这一神秘领域的重新认识。
图源:《三体》动画
而现实中,让机器直接解码神经活动的技术被称为“脑机接口”。
单向脑机接口的情况下,计算机接受大脑传来的命令,或者发送信号到脑,但不能同时发送和接收信号,类似于三体中的思想钢印。
双向脑机接口允许脑和外部设备间的双向信息交换,就像三体人的透明思维,可以感知别人,也无法隐藏自己。
脑机接口已经在医疗领域有了很多应用,脑控智能轮椅、脑控打字机、脑控机械外骨骼、脑控智能假肢等等都是试图绕开已经坏损的神经或者部位,让机器直接解码神经活动。
如何准确地对思维进行解码和编码,是现在脑机接口面临的最大挑战,也是目前无法实现思维钢印,思维透明的根本原因。
脑机接口
图源:网易号“蓝海长青智库 ”
从无穷能源到可控核聚变试验
《三体》世界中的人类社会虽然没有实现罗辑口中的“无穷的能源”,却也是有极度充盈的能源供给支撑起整个地球的无线供电,而这个能源就来自可控核聚变。
图源:《三体设定集》
现实世界中,早在上世纪 50 年代,人类便开始研究用于民用目的的可控核聚变。近几年,“核能新浪潮”抬头,这一“终极能源”的研究更是得到了世界各国的大力推崇。
2022年12月5日,美国科研人员在劳伦斯 · 利弗莫尔国家实验室(LLNL)进行了历史上首次可控核聚变实验。
核聚变是太阳和恒星的能量来源。在这些星体核心的巨大热量和重力下,氢原子核相互碰撞,聚合成更重的氦原子,并在此过程中释放出大量能量。与其他核反应不同,核聚变不会产生放射性废物。核聚变技术有望为人类提供近乎无限的清洁能源,帮助人类摆脱对化石燃料的依赖。
2021年,中国的“人造太阳”全超导托卡马克核聚变实验装置(EAST)便实现了1056秒的长脉冲高参数等离子体运行。依靠该技术,最终建成可控核聚变发电站。
全超导托卡马克核聚变实验装置(EAST)
图源:新华社
把时间拉长,科技和科幻没有分界线。
科技与未来接轨的脚步在不断加速,科幻的无限想象为“黑科技”画出蓝图。期待在未来科学家们通过试验,将《三体》中“飞刃”“思想钢印”“水滴”等表述具象化,展现科技力量!
(审核:张宁 策划:李政葳 统筹:穆子叶 撰文:雷渺鑫)
参考 | 北京科技报、知乎、科普中国、三体社区、海峡卫视、凤凰网