AIGC是什么?AIGC是AI-GeneratedContent的全称,字面意思是“人工智能生成的内容”。它使用人工智能技术来自动产生各种内容。那么,AIGC具体采用了哪些人工智能技术?它能够生成哪些内容呢?
针对上述两个问题,首先我们可以从技术层面对AIGC进行分类,可以将其分为三个层次:
1、智能数字内容孪生:
简单来说,内容孪生是将数字内容从一个维度映射到另一个维度。它与生成的关系在于,另一个维度的内容尚未存在,因此需要生成。内容孪生的应用主要包括内容增强和转换。其中,增强可以对数字内容进行修复、去噪和细节增强等处理;转换可以将数字内容进行转译,比如翻译。
这项技术的目标是通过智能增强和智能转译来提升和转换现实世界中的内容,以更好地实现从现实世界到数字世界的映射。例如,我们拍摄了一张低分辨率的图片,可以利用图像超分的智能增强技术对其进行放大,并增强图像的细节信息,生成高清图像。同样地,对于老照片中丢失像素的部分,可以通过智能增强技术进行内容恢复。而智能转译则专注于不同模态之间的相互转换。例如,我们录制了一段音频,可以利用智能转译技术自动生成字幕;又如,我们输入了一段文字,可以自动生成语音。这两个例子都是模态之间智能转译的应用案例。
【使用场景】:可用于图像放大、音频转文字、文字转语音等。
2、智能化数字内容编辑:
智能数字内容编辑指通过对内容的理解和属性控制,进而实现修改内容的操作。例如,在计算机视觉领域,可以通过对视频内容的理解,实现对不同场景视频片段的剪辑。通过检测人体部位和控制目标衣服的变形,可以实现覆盖目标衣服到人体部位,从而实现虚拟试衣。在语音信号处理领域,可以通过分析音频信号,实现人声和背景声的区分。以上三个例子都是通过理解数字内容,并对其进行编辑和控制。
【应用领域】:视频剪辑、虚拟试衣、音频人声分离等。
3、智能化数字内容生成:
智能数字内容生成是通过学习抽象概念并将这些概念组合,从而生成全新的内容。例如,在AI绘画中,它从海量绘画中学习不同的笔法、内容和艺术风格,然后基于所学内容重新生成具有特定风格的绘画。采用这种方式,人工智能在文本创作、音乐创作和诗歌创作等领域表现出色。此外,在跨模态领域,通过输入文本输出特定风格和属性的图像,不仅可以描述图像中主体的数量、形状、颜色等属性信息,还能描述主体的行为、动作以及主体之间的关系。
【应用领域】包括但不限于:AI绘画中的图像生成、AI写作和ChatBot中的文本生成、视频生成和多模态生成等。
按照内容生成的角度,AIGC可以分为五个方面:
文本生成
基于自然语言处理技术的文本内容生成可根据使用场景分为两种类型:非交互式和交互式文本生成。其中,非交互式文本生成包括摘要/标题生成、文本风格转移、文章生成、图像生成文本等,而交互式文本生成则主要包括聊天机器人、文本交互游戏等。
以下是一些具有代表性的产品或模型:JasperAI、copy.AI、ChatGPT、Bard、AIdungeon等。
图像生成
根据使用场景,图像生成可分为图像编辑修改和图像自主生成两类。图像编辑修改适用于图像超分辨率、图像修复、人脸替换、去除水印、去除图像背景等任务。图像自主生成则包括了端到端的生成方法,例如将真实图像生成卡通图像、根据参考图像生成绘画图像、将真实图像生成素描图像、以及使用文本生成图像等技术。
以下是一些代表性的产品或模型,包括EditGAN、Deepfake、DALL-E、Midjourney、StableDiffusion以及文心一格。
音频生成
目前,音频生成技术已经相当成熟。在普通消费者产品中,这种技术也比较常见,例如语音克隆技术,它可以将人声1替换为人声2。此外,还可以利用这种技术生成针对特定场景的音频,例如数字人播报和语音客服等。此外,它还可以根据文本描述和图片内容理解生成与场景相关的音频和乐曲等。
这些是代表性的产品或模型:DeepMusic、WaveNet、DeepVoice和MusicAutoBot等。
视频生成
视频生成和图像生成的原理相似,主要分为视频编辑和视频自动生成两种。视频编辑可以用于视频超分辨率(提高视频画质)、视频修复(老电影上色、画质修复)和视频画面剪辑(通过识别画面内容,自动剪辑场景)。而视频自动生成可以用于图像生成视频(以给定的参照图像为基础,生成一段动态视频)和文本生成视频(根据描述生成相应内容的视频)。
以下是代表性产品或模型:Deepfake、videoGPT、Gliacloud、Make-A-Video、Imagenvideo等。
多模态生成
这四种模态可以组合使用,实现模态间的转换和生成。例如,文本可以转换为图像,实现AI绘画或根据提示生成具有特定风格的图像;文本也可以转换为音频,实现AI作曲或利用提示生成符合特定场景的音频;文本还可以转换为视频,实现AI视频制作或根据描述性文本生成语义内容相符的视频片段。而图像也可以转换为文本,生成标题或故事,还可以转换为视频实现更多的表现形式。
「代表性产品或模型」包括DALL-E、MidJourney、以及StableDiffusion等。