智能内容生成1.智能创作背景人们对于世界的认知可以分为

03 智能内容生成

1. 智能创作背景

人们对世界的认知可以分为三个阶段:了解世界,然后在了解的基础上进行交流,最后,在建立了了解和交流的能力后,通过智能创造来表达自己的情感。.

在智能创造方面,我们将有整个UED团队作为支持,然后通过设计+智能塑造行业的价值影响。同时,基于庞大的广告落地场景,致力于AI创作的不断迭代与实践。下面我将简要介绍几个具体的任务场景。

上图展示了从内容挖掘到视频生成的全过程。用到的算法有很多,比如文字识别、智能裁剪、显着性判断、语音等。作为一个典型场景,商家详情页包含大量有价值的商品图片。首先基于版面分析裁剪图片中的有效内容,然后在此基础上通过商品识别提取有价值的商品图片,并使用相似度匹配进行图片过滤,可以兼顾有效性和多样性的内容。我们不希望同一个图像多次出现在同一个产品上。然后,基于文本识别和NER模型,分别提取图片中的关键卖点和产品标题,并通过 TTS 算法将字幕转换为语音。最后结合背景音乐或特效生成最终视频,即从业务细节挖掘到视频生成的全过程。这是我们早期的解决方案,现在我们更多地从视频拍摄角度、视频摘要和视频剪辑的组合中进行视频生成。

2. 视频摘要生成

第一个任务场景是视频摘要,即根据商家上传的长视频提取精彩片段,重新组合形成情节更紧凑、卖点更突出的短视频,因为短视频的应用场景很多。

如何生成视频摘要?

首先是镜头分割,它分析视频中每一帧的特征,提取相邻帧之间的特征相似度来确定视频中每个镜头的边界,这可以基于传统算法或深度学习方法来实现。

第二部分是借助上述视频标注能力建立商品检测、人脸、人体检测、文字或视频质量、动作等标签,并在此基础上建立标注表示。

第三部分是介绍文本特征,主要包括品牌词、产品词、完整的标题等,可以建立文本特征的统一表示。

第四部分是特征表示建立后,会计算特征之间的相关性。例如,可以根据产品主图或文案信息的特征,获取产品特征或文字特征,同时匹配视频中与该特征相关的一些片段。可以考虑对视频中其他识别结果的影响,比如突出产品或者突出视频的多样性。这些都是不同的世代目标。我们可以根据不同的目标调整不同的权重,生成不同的短视频。

最后是目标镜头的识别,即通过综合视觉相关性和文本相关性来识别视频中的目标镜头。可以使用加权融合,也可以直接让模型按照你的比例学习。

目前,汇总算法已广泛应用于站内外各种场景,也提供了自动生成和工具化的能力。

可以看上面两个算法例子。他们通过抽象算法提取产品的关键部分,并选择产品的关键细节和图文结合的内容,主要是突出质感和拍照功能等一些卖点。左边是原始视频,右边是摘要生成的视频,突出了产品和产品的图文相关性。短视频的优势在于可以在最短的时间内吸引用户的注意力,所以一些典型的、精彩的点会更加突出。以上就是我们的视频摘要算法的过程。

3. 图片创意生成

第二个任务场景是图片的创意生成。图片的创意生成是基于创意元素的智能推导和处理,再结合组件化、序列化或建模生成。

图像生成有四个典型部分:原生/场景、分层/组件、微动和实时图像生成引擎。左图是原生场景生成方案。通过提取商品的背景,再结合GAN生成背景,得到与商品背景颜色、色调一致的图片。右图为序列化生成方案,将创意拆解成背景层、装饰层、商品层、遮罩层、文字组件层,通过智能搭配、智能布局实时生成。

这里我们要强调一个基于用户特征的实时优化和生成引擎。该引擎可以实现从创意到用户的实时个性化解决方案。假设每个创意包含十组文案、十个背景和十个装饰层,可以得到1000个组合关系,实际情况可能不止于此。目前线上采用先优化后生成的思路。通过优化模型,首先选择好的创意元素,然后使用实时生成引擎进行元素的组合渲染。整个过程可以控制在20毫秒以内。这个引擎已经成为我们智能图像生成的核心支撑。

相应地,引入了智能映射算法。Map-out在业务中得到了广泛的应用,为内容生成提供了大量透明底图素材,作为后续序列化生成的基础。在语义分割或实例分割算法中,物体的边缘位置或边缘像素的分类是比较难解决的问题,而抠图算法在此基础上面临更大的挑战:

针对这些挑战,我们的目标是建立一个基于商品集的端到端抠图模型,并通过这种方式实现一键抠图。右上角是我们的按钮贴图效果,目前看起来还不错。

对于训练数据生成和模型训练,我们做了一些优化:

在数据方面,建立从数据采集到清洗、标注、训练的自动化流程。使用了许多辅助算法,包括相似度识别、图像校正和具有清晰质量的判别滤波。在此基础上构建了10万量级的电商数据集,当前数据获取率仅为1.7/10000。

在算法上,我们使用 Transformer 来提取产品和背景的特征。这种方法可以更好地结合全局特征和局部特征,既可以保证全局语义的完整性,又可以保留待裁剪产品的边缘细节。可以对背景之间的连通区域进行有效的区分和分类,从而更好地区分背景。总体而言,我们的控制效果达到了行业领先水平。技术成果正在写论文中,未来数据集也有望开源。

4. 文案创意生成

第三个任务场景是文案生成。文案有很多种类型,例如智能标题、短文案、卖点文案和令人兴奋的文案等,包括使用标题压缩的标签生成,以及基于主图像或业务细节的卖点文案。经过识别和挖掘,基于图文结合生成。

主要介绍基于VAE的生成方案,即通过学习专家编写的高质量文案,为不同的SKU生成个性化文案信息。在传统Sequence to sequence模型的架构下,为了获得更强的特征提取能力,将编码解码后的LSTM和Attention转化为Transformers,也借鉴了VAE的方案。编码器增加了VAE功能,增加了文案。多样性。同时在decoder端,我们将之前的kernel sampling转换成Beam search,在多样性上有了一些提升。商业应用,比如生成的Mini文案,在推荐位置上也取得了显着提升。

为了支持副本生成能力,我们做了很多底层工作,包括大规模电商场景的预训练模型构建,以及基于NER的商品亮点信息挖掘。它侧重于预训练模型,基于 2 亿数据进行预训练,可以更好地表示商品并支持模型选择和各种下游任务。有几个改进:

效果是在下游的NER任务中,使用原来的Bert作为baseline,准确率提升了1.5%,每个类别所需的标注数据量也从原来的10000减少到6000达到同样的效果。.

04 创意选择与发行

上面简要提到了最优模型。最优模型解决了什么问题?

如何解决个性化匹配问题,我们采用多模态优化,因为优化模型可以充分学习产品特征、用户特征和创意特征的交集,从而了解用户对创意的偏好,解决多样性,我们采用一种EE探索机制方案。

1. 多模式最优模型

为什么要做电商场景下的多模态?如上图所示,智能创意本身是一个多模态的场景,基于单一的图像表示很难形成完整的信息传递给用户,这意味着模型对创意信息的理解是不完整的。要获得产品的外观信息,仅仅看图片很难得到它的具体卖点。通过两种模态之间的对齐和校准,可以形成模态内容的联合表示,可以有效地实现从想法到用户的完整信息传递路径。有两个关键点:

上图是我们搭建的首选模型。建模时,首先考虑的是如何根据用户的历史行为建立用户对创意的偏好,体现在以下几点:

结构图左侧是一个简单的DCN模型,也就是我们熟悉的Widedeep表示,右侧是加入了Transformer的网络来表征创意特征,然后在此基础上用原始信息制作Content。

2. 模型的 EE 能力

优选模型的第二部分体现EE能力,EE指探索(explore)和利用(exploit)。创意元素的组合EE模型分为两部分。第一部分是根据ξ做比例探索,称为探索流。探索流程保证了创意元素集的充分曝光。以下部分1-ξ根据pCTR估计方法进行优化。在充分曝光之前元素的基础上,可以得到比较自信的元素的CTR估计。在此基础上,可以在优化模型中加入创意特征来实现模型。为用户提供个性化匹配功能。因此,以上主要是探索部分,以下主要是效果呈现部分。

05 业务落地

最后是业务落地的情况。目前,创意内容的生成和优化已经在网上进行了很长时间。

首先,我们目前的内容生成和分发已经全面覆盖了手脚、搜推、站外等核心广告空间。每天智能生成的视频、图片、文案创意数量已超过数亿,达到数千万。级用户,获得京东科技金奖——技术创新奖。

二是构建了基于视频标签的视频广告生态系统。智能创意也影响了视频上的很多广告收入,包括网站外的搜索和推荐、抖音、快手等。广告。

第三,在效果上,以网站第一焦点业务为例,我们建立的创意内容和选择系统的点击率在过去一年中增长了30%以上。

最后是智能创意的产品化、工具化、平台化建设,已全面融入京东生态,持续赋能电商业务。

06 精彩问答

Q:审美评价是如何实现的?

A:传统意义上,大家都明白,一张图片的美丑是通过比较主观的判断来打上标签的。例如,在一张图片中,A 得 8 分,B 得 10 分。根据多人的分数,将分数组合在一起。在此基础上,通过估计标注数据的分布来判断标签的置信度,如80%。大家觉得画面的美感在五六分之间。这个数据实际上是我们用于后续训练的数据集。这是关于数据建立的过程。评价体系分为几个方面。一种是Hamony值,用来评价颜色的和谐度,看几种颜色是否和谐在一起,得到一个和谐分数。二是基于规则的布局合理性得分,最后是在线功能的添加。例如,可以引入点击率数据,并将其添加到整体质量判断中。

Q:文案是直接用来投递的吗?如何保证生成的文案的卖点不会与产品不一致?

答:我们的整个内容生成直接用于交付。无论是文案生成还是图片和视频生成,你都可能会遇到你提到的问题,那就是badcase。同时,也存在商家上传图片或填错单据的情况,准确率本身就难以避免。我们在生成文案时的准确率可以达到98%甚至99%,自身的badcase率非常小;其次,在本方案中,我们将通过在线实时反馈等方式实现实时封禁,并将这部分文字卡住。

Q:组件化图像生成是否完全依赖UED提供组合规则?

A:它是以组件化的方式生成的,我们一定会引入UED的学生。为什么要用文本组件来做这件事?首先,方便我们将图像序列化为 N 个部分。文本组件可以通过智能布局和智能配色进行调整,以适应不同的场景。但并不是每一种创意都要求UED学生生成一套模板,效率很难保证。我们添加了智能搭配、智能布局或者智能复制表单调整之后,UED只需要给我们一个最简单的widget,我们就可以扩展成更多的组件,可以适应更多的复制表单和更多元素之间的布局。以提高整个计划的多样性。

Q:像场景分类这样的应用,标签系统是商科学生直接提供的,还是算法总结出来的?如果是后者,使用什么标签系统的权衡是什么?

A:贴标系统非常复杂,贴标系统涵盖的角度较多。比如在一张图片中,需要判断图片的场景,比如是在街上还是在家里。这个场景的定义是我们的算法定义的,因为电商场景中有大量的视频和图片。收集完这些视频和图片的内容后,我们会通过给学生打分来标记场景,然后对内容进行标记,我们会在by case的前期和相关的同学做一些沟通来建立,所以这个过程的前期有一个非常庞大和繁琐的工作。

Q:能否详细介绍一下多模态在精细排列模型中的应用细节?

A:我们现在做的multi-modal部分主要是在优化过程中使用,在fine-arrangement模型中还没有做。具体的原因,对我们来说,首选的模式是针对每个产品,它会为当前用户选择最好的想法或者最好的内容。细排模型就是解决如何选择用户最感兴趣的SKU。现在我们的想法是这两个过程是并行的,即创意内容的优化和产品的选择实际上是独立的。我们的实时生成和优化引擎,流程可以控制在20毫秒以内,而且细排模型本身对耗时要求比较高。例如,如果再增加 20 毫秒,这将是一个很大的挑战,因此我们更喜欢这个过程。并行执行。

Q:创意优化的线下评价指标是什么?

A:与fine-arrangement模型的评价指标一致,我们用AUC来评价它的效果增益。例如,添加创意内容的特征,或者添加文案和图片的嵌入信息后,我们可以评估 AUC 可以获得多少增益。然后在此基础上,我们评估5‰以上的业务提升或者多少,然后放到网上做实际的线上ABtest。

Q:在商户选择上是白盒还是黑盒,可以大规模使用吗?

A:我们现在做的是一个自动化的智能创意投放场景,其实商家是察觉不到的。他们能感知到的是,效果有所提升。我不知道他选择了聪明的创意。但在未来,我们会有一个产品化的思维,就是让商家选择我们的聪明点子,看到选择使用后效果会变好。目前,对于大多数商家来说,是非感知性的。是在纯智能配送场景下自动选择产品、自动选择用户进行匹配的全智能流水线。但是,这种能力主要覆盖中小企业。对于领先的KA业务,他们有足够的素材制作能力,所以他们主要使用创意分发能力。

Q:创意优化和分发实现创意维度。这么多的广告素材怎么会有足够的流量意义呢?使用EE方法,ξ是如何选择的?如果有意义的流量足够,是否可以将 ξ 设置为零?

A:创意的特点和产品的特点其实是有很大区别的。创意特征,比如一个产品有很多卖点,它有很多图片,比如一个相机,它的正面或背面,要展示的内容包括它的相机效果,外观等。对于这些信息,如何保证每个效果的完整呈现和信心?我们要按照ξ来显示,但是这个显示是预留的比如10%或者20%,为了保证有效显示,但是我们估计模型后也不会把ξ系统调为零,因为创意过程中优化过程中,想法和产品的信息会发生变化。这个从产品层面看,会更新,再从用户层面来看,其实会有创意衰减的问题。例如,每个人都有不同的喜好。比如今天我喜欢看绿色的想法,明天我会审美疲劳。因此,探索就是匹配用户兴趣度的变化,不断迭代探索。所以 EE 探索是一个长期的过程,它与 CTR 预测分支一起工作。

Q:创意优化的目的是什么,实际上线效果如何?

A:优化的核心目的肯定是提高创意的效果。这种通过匹配用户喜好来实现个性化,也就是千人千面的对比映射,最终能反映给商家的是点击率或转化率。效果增强。对于用户来说,他看到了他喜欢的创意展示,并增强了他对这个平台的偏好。他认为推他是很好的。他会花更多的时间在这个平台上看和购物,这将改善平台。整体用户活动,或用户停留的时间长度。因此,我们需要通过创意生态构建两个目的,一个是给商家的,一个是给用户的。

© 版权声明
THE END
喜欢就支持一下吧
点赞227赞赏 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容