什么是 AI 数字人

AI 数字人 = 漂亮的外表 + 有趣的灵魂

随着元宇宙的兴起,数字人市场也迅速火热起来。想象一下,全球平均每天都有新的数字人诞生!这些虚拟角色正悄悄成为我们生活的一部分。比如柳夜熙,一个懂得“捉妖”的虚拟美妆达人,在抖音仅三天就赢得了超过百万的点赞,一夜之间成为了国内虚拟偶像界的顶级明星。还有,想象一下,在江苏卫视的跨年演唱会上,已故的歌后邓丽君以数字人形式“重返”舞台,和周深一起唱歌,唤起了不少人的青春回忆。更有意思的是,在最近的冬奥会上,二十多个数字人一起亮相,他们担任了手语主播、气象主播、奥林匹克公益宣传大使等角色,为冬奥提供了全方位的服务支持。

数字人的流行吸引了无数人投入这个领域。根据企查查的数据,国内现在有超过28万家与数字人相关的企业,近五年来,新增注册企业的年均增长率高达近60%。这不仅仅是一个趋势,而是一个蓬勃发展的新领域,充满了无限可能!

数字人的核心是“人”,本质上是通过数字技术提高数字人的综合体验,使之带来真人般的感受和互动。

一、AI 是脑,数字人是壳

根据 “量子位” 发布的《虚拟数字人深度产业报告》,虚拟数字人指存在于非物理世界中,由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用,并具有多重人类特征(外貌特征、人类表演能力、人类交互能力等)的综合产物,也被称为虚拟形象、虚拟人、数字人等。

  • AI 是数字人的“脑”,是数字人实现交互、思考、学习等能力的核心。AI 技术包括自然语言处理、计算机视觉、机器学习等,这些技术可以让数字人理解用户的输入,生成逼真的语音和图像,并根据用户的反馈进行学习和改进。
  • 数字人是 AI 的“壳”,是数字人外在形象的呈现。数字人可以是 2D 的,也可以是 3D 的,可以是真人形象,也可以是虚拟形象。数字人形象的设计需要考虑到用户的审美需求和应用场景的特点。

这个概念可拆分为“虚拟”“数字”“人”三个部分。

1、虚拟——存在于非物理世界中,不同场景实现难度不同;

2、数字——依托多项技术,相关技术成熟成为其发展的重要推动力;

3、人——在外表、行为、交互行为等方面高度拟人化,外在表现和交互效果已成为核心发展路线。

虚拟数字人的特征

虚拟数字人具有形象能力表达能力感知互动能力三大特征。

1、形象能力——虚拟数字人拥有人的外观,具有特定的相貌、性别和性格等人物特征;

2、表达能力——虚拟数字人拥有人的行为,具有用语言、面部表情和肢体动作表达的能力;

3、感知互动能力——虚拟数字人拥有人的思想,具有识别外界环境、并能与人交流互动的能力。

数字人有以下种形式

数字人技术以其多样性和创新性,在日常生活和工作中发挥着越来越重要的作用。以下是几种主要的数字人形式及其特点:

1、平台自带公模类型:例如 HeyGen 和 D-ID,这些工具专注于数字人的生成。D-ID 以其简洁的界面和模块化的功能设计而著称,提供面对面的聊天对话体验,支持 API 接口和模型集成,还能基于文字提示或图片来创建数字人形象。而 HeyGen 则以其丰富的视频模板和编辑功能脱颖而出,不仅支持图片上传生成数字人,还提供多样化的语音输入选项,为用户带来更加生动多彩的交互体验。

图片[1]-什么是 AI 数字人 - 李又懂-李又懂

2、真人克隆类型:工具如小冰、Heygen、硅基智能和腾讯智影,这些技术的核心在于形象和声音的克隆。它们可以创建一个与真人外观和声音完全相同的数字复制品,极大地节省了视频制作的时间和成本。这些数字人在多个领域中得到广泛应用,如电商直播、体育赛事解说、新闻播报和娱乐领域,它们的存在使得内容制作变得更加高效和多样化。

3、图片说话类型:HeyGen、D-ID 和闪剪等工具支持这种形式。用户可以上传任意图片,工具会基于这些图片生成数字人并使之“说话”。这种类型的数字人特别适合于那些需要快速制作交互性强的内容的场景,如社交媒体互动、个性化广告和教学辅助。

4、3D 建模类型:这种类型的 AI 数字人是通过 3D 建模技术和人工智能技术结合创造出来的,例如 MetaHuman。这种技术使用虚幻引擎,提供一个完整的框架,允许用户创建逼真的数字人类角色,并为其制作动画。其预设基于对真实人类的预先扫描,支持基于物理的动画和机器学习变形器。MetaHuman 还可以将自定义网格体转变成具有完整绑定的 MetaHuman,使得创作过程更加灵活和多样。

图片[2]-什么是 AI 数字人 - 李又懂-李又懂

二、AI 赋能数字人变数智人,丰富应用场景加速落地

张琪老师点评数字人

有的时候我看我那个数字人,我觉得傻傻的呆呆的,很想把他拉出来打一打。但是我们还是要用它,因为那是个新的潮流,那是个新的技术。所以有时候你们刷到张老师那个视频有些不太像我,那个是我的分身数字人。而且有的时候他讲的那个作品十万赞你知道吧?而且评论区还没有人骂,情绪极其稳定。他在模仿我讲话,他今天可以模仿我到 60% 到 70%,再过个三五年他可能就能模仿到个 90%。

随着技术发,他不但能做短视频,他还能开直播。他在这里给你们开直播答疑,我就可以做更有创造力的事。各位,这个工具我们不用,别人也会用做。这个工具的目的不是为了替代我,而是为了解放我,而是为了提高我的内容产出效率。比如说原来我 100 条,现在一天可以 300 条。100 条是数字人生产的,200 条是真人生产的。它解放了我,提高了产能,我可以去学习、总结、生产更多新的内容。所以我不用这个工具,我就会被这个工具运用这个工具的人所淘汰。

在过去的 3 年 5 年获得高速增长,获得破局增长的人,他们有个共同的特点,都是非常善用工具的人。那接下来的工具是什么呢?人工智能、算力算法,太重要了。我觉得博商能够在所有的同行当中属于增长很快的公司。就是我们都是一直以来把对工具的研究,把对技术的进步的敏感度拉满的人。

数字人的五级进化路径:从基础互动到深度拟人化

数字人的拟人化程度和生产自动化的水平是衡量其系统整体进化和发展的关键指标。这些特点不仅代表了数字技术的综合应用能力,而且也反映了其成熟度。为了更好地理解和分类这些数字人,我们可以根据“拟人化程度”和“自动化水平”两个核心维度,将它们分为 L1 至 L5 五个不同的等级。每个等级代表了数字人在模仿人类行为和思维方面的精度,以及其生产和操作过程中自动化程度的提高。

图片[3]-什么是 AI 数字人 - 李又懂-李又懂

数字人的进化就像人类从婴儿成长为成年人的过程。从 L1 到 L5,每个级别代表着他们在拟人化和自动化方面的成长和成熟。想象一下,L1 级别的数字人就像是初学走路的孩子,而 L5 级别则是具有丰富经验和技能的成年人。

  • L1级别相当于数字人的婴儿期,这一阶段的数字人主要依赖人工创建,并以基本的二维形式呈现。它们具备初步的交互能力,但与真人相比,仍有很大的差距。
  • L2级别的数字人则进入了学步期,它们能够通过外部动作捕捉设备来获取口型、表情和动作数据,适用于视频录播等特定场景。它们主要被应用于视频录播等场合,相比L1,交互性有所提高。
  • L3级别的数字人开始显现更为复杂的行为和交互模式,这一阶段的自主性有了显著提升,依赖算法来驱动口型、表情和肢体动作,可以实现实时互动,尽管仍需人类的监督和指导。这一级别的数字人开始能够应对更加复杂的交互场景。
  • L4级别则代表着青少年期,数字人在智能化交互方面取得了长足的进步,能在特定场景下独立运作,但在复杂情境中可能仍需人工介入。典型的应用场景包括在特定垂直领域逐步取代真人提供服务。
  • L5级别则是数字人的成年期,它们完全实现了智能化交互,具备处理全局性和通用性问题的能力。这一级别的数字人,如个性化虚拟助手,不仅在外观和智能上更接近于真人,还能听懂、看懂、记忆并自我学习,实现与人的自然交互。

其中,我们将 L4 和 L5 等级的数字人统称为“AI 数字人”。Ta 们不仅具备高度的拟人化呈现,在形象、动作作和智力层面都更接近于真人水平,能够听懂、看懂、有记忆、自学习,与人进行自然交互;同时,在制作流程中也融合了大量的人工智能算法技术来提升数字人的生产效率,降低数字人的制作成本。普遍认为,只有达到 L4 级别及以上的数字人才能真正的走入千行百业,在消费和产业领域大放异彩。

想象一下,在不久的将来,一个 L5 级别的 AI 数字人在医疗、教育甚至艺术创作领域,能够提供与真人医生、教师或艺术家相媲美甚至超越的服务和创造力。这不仅是技术的飞跃,也是我们对未来生活方式的一种想象。

图片[4]-什么是 AI 数字人 - 李又懂-李又懂
  • 虚拟数字人产业规模为千亿级别,行业尚处发展早期
    •   虚拟数字人最早起源于影视行业,后逐渐拓展到泛娱乐、电商、营销、企业服务等多领域,目前仍旧处于发展
    •   初期阶段。虚拟数字人的产业链主要分为:基础层(虚拟人所需基础硬件、软件提供商)、平台层(提供虚拟人制作和开发能力的技术服务商,参与者包括 AI 厂商、互联网大厂、虚拟技术解决方案提供商)、应用层(即在泛娱乐、电商、金融、文旅等垂类的应用)。
    •   根据“量子位”的预测,2023 年我国虚拟数字人的市场规模有望达到 2700 亿元。
  • AI 技术突破,虚拟数字人进入新发展阶段,由“数字人”变成“数智人”,交互能力上台阶。人工智能技术贯穿虚拟数字人的建模、渲染、生成、驱动等全部环节,近期 AIGC 的技术突破,一方面使数字人的制作成本降低、制作周期缩短、门槛降低;另一方面,多模态 AI 技术将使得数字人的交互能力更上台阶,思想决策和语言输出更接近真人(不再只是数字“皮囊”,叠加了智能的“灵魂”)。目前微软、百度、腾讯、剪映等各大平台已经开始提供相关数字人服务。
  • 低成本的虚拟数字人解决方案逐步进入市场,受众范围有望快速扩大。此前数字人的制作、运营成本高,因此主要受众为大型企业、机构。而随着技术数字人的技术逐渐标准化、模块化,除了满足大型客户的定制化需求,面对中小型商户的标准化数字人解决方案也逐步出现,使用价格大幅降低。例如 “万兴播爆” 提供的数字人短视频播报服务年费仅千元级别;“腾讯智影” 提供的数字人 SaaS 工具,年花费万元就可实现定制化形象、声音数字人的生成,4 月腾讯智影即将上线 “千元级别,包月使用” 的数字人直播解决方案。
  • 虚拟数字人的应用场景丰富(电商、营销、泛娱乐、企业服务等),预计近期落地加速。在数字人的制作成本降低、交互能力提升的背景下,虚拟人的应用快速铺开:
    •   1)电商领域,万兴科技提供的数字人播报服务可帮助商家快速生成带货短视频;而在直播方面,目前已有商家在抖音平台使用 2D 超写实数字人进行直播带货,单日成本仅百元级别。
    •   2)营销领域,过去 2-3 年,虚拟人品牌代言、企业专属虚拟形象定制的服务已逐步成熟,预计随着数字人交互能力的提升,数字人将参与到营销领域的更多环节;
    •   3)金融、政务、文旅等企业的数字员工:目前已有公司提供 AI 数字人产品,可基于企业私有数据生成小模型,使数字人的服务能力更有针对性、更适配垂类应用。

按照商业化和功能划分虚拟数字人

产品分类内容/IP 型功能服务型虚拟分身(Avatar)
制作方式PGC 为主PGC 为主UGC 为主
产品定位偶像,用于娱乐、科教等数字员工,提供拟人化服务在虚拟空间中的身份代理
代表应用虚拟偶像、数字航天员、品牌代言人虚拟主播、数字客服、数字专家游戏身份如 VRChat、虚拟演唱
应用行业电影、电视、综艺、科普纪录片等金融、文旅、零售、直播游戏、VR 应用
核心价值虚拟 IP/偶像身份的具象化人工作的增强和辅助,降低企业成本,提供自动化、智能化和标准化服务虚拟空间中的交互入口,推动虚拟内容生产
核心竞争力形象的艺术性、IP 的打造和运营能力智能交互能力沉浸化、实时化、体验感
驱动方式中之人驱动AI 驱动/中之人驱动中之人驱动/指令驱动
面向需求B 端需求为主B 端需求为主C 端需求为主

2023 年 3 月 31 日,全球新经济产业数据分析权威机构艾媒咨询在广州举办的“2023年(第二届)中国虚拟人产业大会暨 AIGC 创新发展论坛”盛大开幕。

此次大会深入探讨了 AIGC、数字虚拟人、元宇宙等前沿科技话题,集结了众多行业精英、顶尖学者和创新领导者,共同展望虚拟人产业的光明未来。

大会的亮点之一是艾媒金榜公布的《2023年中国虚拟百强榜单》,其中包括广受欢迎的虚拟偶像洛天依、柳夜熙、伊拾七等,这些虚拟明星的跻身榜首不仅展示了他们在行业中的巨大影响力,也预示着虚拟人技术和文化的蓬勃发展。大会现场洋溢着创新和激情的气氛,参与者们对于虚拟技术未来的无限可能性充满期待。

图片[5]-什么是 AI 数字人 - 李又懂-李又懂

三、AI 数字人的技术原理

在数字化时代的前沿,AI 数字人技术正成为一个重要的发展领域。这项技术不仅重塑了我们与数字世界的互动方式,还开辟了无限的可能性,从而激发了人们对未来技术的想象和期待。

图片[6]-什么是 AI 数字人 - 李又懂-李又懂

AIGC 框架是一种用于创建和管理数字内容的技术结构,这里的数字人技术是指利用 AI 生成和控制虚拟人物的技术。这个框架可以帮助开发者们在不同的平台和媒介上实现这些技术。框架的介绍可以分为三个部分:

  1. 内容/应用/体验:这一层包含了不同类型的媒体内容,比如文字和音频(1D)、图片和视频(2D)、三维模型和游戏(3D),以及可能的高级内容,比如结合了多种媒体类型的内容(nD)。
  2. AIGC 工具和平台层:这个层面涉及到创建和管理数字人所需的工具和平台,如交易平台(可能用于购买和销售数字资产),人物生成工具(用于创建虚拟人物),资产管理(管理数字内容的部分,比如服装、装备等),以及事件处理(可能指的是虚拟世界中的活动或场景)。此外,还包括数据处理和知识图谱(用于组织和理解大量信息)以及开放 API/SDK(这是编程接口和工具包,使开发者能够建立和自定义软件应用)。
  3. 支持工具和服务层:这一层提供了创建数字人所需的各种技术支持,包括计算机图形(CG)工具(如 iClone 和 Maya,用于创建和编辑视觉内容),AI 服务(如 PyTorch,一种机器学习库),CG 引擎(如 Unreal Engine 和 Unity,这些是创建和运行游戏或模拟环境的软件),以及大数据和通用计算服务(用于处理和分析大量数据以及执行各种计算任务)。
图片[7]-什么是 AI 数字人 - 李又懂-李又懂

AI 数字人产业生态“拼图”(来源:商汤智能产业研究院)

在 AI 数字人产业生态中,良好的生态系统是价值创新的关键。这个生态系统由基础层、平台层、价值层和交互层共同构成。每一层都有其独特的价值定位和组织形式,共同推动AI数字人产业的可持续发展和价值创新。

然而,创建数字人形象只是第一步。更重要的是,我们需要持续培育和维护这些数字人。这不仅是一个技术挑战,还涉及到他们的“灵魂”——即大脑和语音处理能力。为此,还需采用多种 NLP(自然语言处理)技术,如语义理解等,构建庞大的知识库,甚至结合了传统的知识图谱。通过多次迭代,我们致力于打造一个高度智能化的“大脑”,使数字人不仅具备形象,更拥有智慧。

AI 数字人技术不仅代表了技术的边界,更是我们对未来世界的一种想象。通过不断的技术创新和生态构建,我们正逐步实现这一愿景,开启一个充满智能和创新的新时代。

四、从“替代”到“连接”,AI 数字人应用的三大方向

图片[8]-什么是 AI 数字人 - 李又懂-李又懂

方向一:主要以创建 IP 影响力或打造粉丝经济为目的的 AI 数字人应用,包括虚拟偶像、虚拟 KOL、虚拟演员、虚拟主播等。

基于“IP 孵化 + 内容运营”,赋予 Ta 们独特的人设和人格特质,以此来吸引不同受众群体的关注,从而形成一定规模的流量基础和情感链接,再通过诸如直播带货、跨界品牌代言、IP 授权周边衍生品、娱乐演艺等多种手段来实现价值闭环或进行商业化变现。

相对真人 IP,数字人 IP 的可塑性更强。包括形象、人设及背景故事的创作自由度为数字人 IP 的商业创新带来了更大的想象空间,重塑粉丝经济。例如,可邀请用户或粉丝一起参与数字人 IP 的创建和孵化过程,通过“共创”的方式建立起 IP 与用户间的强情感关联,让 IP 更具真实感和生命力。尤其在品牌自建数字人 IP 路径中,契合品牌调性和消费者心理预期的数字人 IP,更有利于品牌理念的有效传递和快速破圈,进而获得在转化层面的更多收益。同时,数字人 IP 也更具可控性。Ta 们不会受到人设崩塌、负面新闻、档期或合约问题等不确定

性因素影响,商业安全性和稳定性更高。

方向二:主要以替代真人服务、实现降本增效为目的的 AI 数字人应用,包括虚拟客服、虚拟前台、虚拟导游、虚拟主持人等。

Ta 们根据各自领域所长,能够“7×24 小时”在岗不间断的提供服务支持,尤其针对标准化、重复性高的真人服务可以实现数字化替代,并结合业务流程自动化,帮助企业进一步提高生产效率、降低人工服务成本,为企业数字化转型提供新路径。

相对真人服务,AI 数字人具有较高的灵活度。Ta 们可以随时随地上岗工作,不受主观、时间、环境或外界不确定因素影响,企业可控性强,可以保证服务的稳定性和连续性,也能降低企业因不确定性所带来的隐性成本问题。

同时,AI 数字人的边际效益递增现象显著。一方面,虽然前期数字人制作需要一定投入,但数字资产复制使用的边际成本很低,单个数字人的可变成本也低于真人;另一方面,正如上文所述,AI 数字人具有较强的深度学习能力,结合知识图谱技术和数据训练,可以不断优化服务精度、扩展业务广度,从而提升企业数字人“人力”资产的投入产出效率。

方向三:随着人工智能、虚拟现实等相关技术的逐步成熟,通过深度学习和认知泛化,AI数字人将会全面突破应用边界,升级成为数字世界的“超级助手”。

与前两个应用方向不同,AI 数字人的第三大应用方向不再仅遵循真实世界的“替代”逻辑,初衷更在于满足用户与数字世界的连接和交互需求,实现对于数字世界的直接操作。正如《元宇宙”破壁人“:做虚实融合世界的赋能者》白皮书中所描绘的图景一样,“这些数字人将成为我们在数字世界的 AI 代理人”。通过与 Ta 们的直接交互,可以“随机应变”的针对用户个性化、多样化需求,提供全天候、全方位的人性化陪伴和智能化服务,成为人们通向虚实融合世界的超级入口。

保险行业

图片[9]-什么是 AI 数字人 - 李又懂-李又懂

证券行业

图片[10]-什么是 AI 数字人 - 李又懂-李又懂

医疗行业

图片[11]-什么是 AI 数字人 - 李又懂-李又懂

短视频 MCN

图片[12]-什么是 AI 数字人 - 李又懂-李又懂

本地生活

图片[13]-什么是 AI 数字人 - 李又懂-李又懂

电商行业

图片[14]-什么是 AI 数字人 - 李又懂-李又懂

在线教育

图片[15]-什么是 AI 数字人 - 李又懂-李又懂

游戏行业

图片[16]-什么是 AI 数字人 - 李又懂-李又懂

在校教育

图片[17]-什么是 AI 数字人 - 李又懂-李又懂

数字人交互

图片[18]-什么是 AI 数字人 - 李又懂-李又懂

以上案例来源于:风平智能

五、数字人场景落地案例

随着数字化浪潮的汹涌,人工智能技术在企业转型中扮演着日益重要的角色。在这一趋势中,小冰数字人凭借其领先的虚拟数字人技术,为企业带来了划时代的“小冰数字员工交互一体机”解决方案。这一方案的推出,不仅是技术的飞跃,更是数字交互体验的革新。

想象一下,在一家现代化的企业接待大厅,一台造型优雅的大屏智能终端静静地矗立。当顾客接近时,屏幕上的数字员工“小冰”立即唤醒,以其近乎真人的形象和声音,亲切地迎接每一位到访的客户。这不是简单的录像播放,而是一种全新的交互体验:顾客可以直接与“小冰”对话,会为企业服务、展馆展厅、数字会议等更多场景带来全新的交互体验和数字化升级。

小冰数字员工交互一体机利用了先进的AI技术,结合了深度学习、知识图谱和多模态交互能力,使得这个虚拟数字人不仅能“看”和“听”,还能“思”和“说”,提供几乎与真人无异的交互体验。例如,在一个展馆中,小冰可以根据不同参观者的兴趣,推荐个性化的展览路线,甚至进行多语种的讲解,大大丰富了参观者的体验。

小冰数字员工不仅是一台高科技产品,它更是企业数字化转型的伙伴,为用户带来全新的交互体验和效率提升。它代表的不仅仅是未来,更是当下数字化建设的重要推手和创新典范。

图片[19]-什么是 AI 数字人 - 李又懂-李又懂
图片[20]-什么是 AI 数字人 - 李又懂-李又懂
图片[21]-什么是 AI 数字人 - 李又懂-李又懂
图片[22]-什么是 AI 数字人 - 李又懂-李又懂
图片[23]-什么是 AI 数字人 - 李又懂-李又懂
图片[24]-什么是 AI 数字人 - 李又懂-李又懂

目前,国内各 AI 厂商、互联网大厂、垂直 ISV 厂商均可提供较为成熟的具有 AIGC 能力的“数智

人”产品及解决方案。但这些工具一般只能用来做视频,无法用来直播。因为供应商太多,这里挑一些有代表性的介绍。

首先要说的就是 HeyGen,这个公司的产品无论在视频质量还是音频质量上,都是相当好的。HeyGen 提供了一些免费使用额度供新手尝试,付费用户则可以很方便地使用他们的在线工具生成音视频。

国内做的比较好的有小冰的数字人,腾讯智影,百度灵犀等,但讲实话,和 Heygen 等国外产品有差距,机器味比较浓厚。

在线数字人的优点是上手难度低,产出效率高。

缺点是收费方式一般是订阅制或者按使用量计费,长期使用成本贵。在线数字人比较适合创意丰富,预算充足,追求产出效率,对技术不感兴趣的人使用。


本文转自下方知识星球内《AI数字人》大航海,现在加入AI破局俱乐部,享受市面上价值数千的专业训练营,比如AI绘画、AI数字人、AI提示词等等。完全免费。想要踏入AI领域?快来扫码加入吧!

图片[1]-如何开始着手建群-副业项目库论坛-副业/创业-李又懂

微信扫码加入后,可免费领取我的价值99/年的副业星球。(联系微信4314991邀请你加入)

图片[2]-如何开始着手建群-副业项目库论坛-副业/创业-李又懂

本文转自教程《AI数字人》,获取全套教程,可关注上方李又懂的公众号,后台回复【AI数字人】免费获取全套教程~

图片[43]-数字人应用场景分享-李又懂
© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容