:无需数据增强的图对比学习的简单框架(组图)

SimGRACE:无需数据增强的图对比学习的简单框架

原文标题: SimGRACE: A Simple Framework for Graph Contrastive Learning without Data Augmentation

地址:

作者: Jun Xia, Lirong Wu, Jintao Chen, Bozhen Hu, Stan Z.Li

摘要: 图对比学习(GCL)已经成为图表示学习的主要技术,它最大化了共享相同语义的成对图增强之间的互信息。不幸的是,鉴于图数据的多样性,在增强过程中很难很好地保留语义。目前,GCL 中旨在保留语义的数据增强大致分为三种不令人满意的方式。首先,可以通过反复试验手动选择每个数据集的增强。其次,可以通过繁琐的搜索来选择增强。第三,可以通过引入昂贵的特定领域知识作为指导来获得增强。所有这些都限制了现有 GCL 方法的效率和更普遍的适用性。为了规避这些关键问题,我们为 underlineGRAph underlineContrastive lunderlineEarning 提出了一个 underlineSimple 框架网络安全案例分析论文,为简洁起见,textbfSimGRACE,它不需要数据增强。具体来说,我们将原始图作为输入,将带有扰动版本的 GNN 模型作为两个编码器,以获得两个相关视图进行对比。 SimGRACE 受到以下观察的启发,即图数据可以在编码器扰动期间很好地保持其语义,同时不需要手动试错、繁琐的搜索或昂贵的领域知识来进行增强选择。此外,我们还解释了 SimGRACE 能够成功的原因。此外,我们设计了对抗性训练方案,称为 textbfAT-SimGRACE,以增强图对比学习的鲁棒性并从理论上解释原因。尽管简单,但我们表明,与最先进的方法相比,SimGRACE 在通用性、可转移性和鲁棒性方面可以产生具有竞争力或更好的性能,同时享有前所未有的灵活性和效率。

TwHIN:嵌入 Twitter 异构信息网络以实现个性化推荐

原文标题: TwHIN: Embedding the Twitter Heterogeneous Information Network for Personalized Recommendation

地址:

作者: Ahmed El-Kishky, Thomas Markovich, Serim Park, Chetan Verma, Baekjin Kim, Ramy Eskander, Yury Malkov, Frank Portman, Sofía Samaniego, Ying Xiao, Aria Haghighi

摘要: 社会网络,例如 Twitter,形成了一个异构信息网络 (HIN),其中节点代表域实体(例如,用户、内容、广告商等),而边代表许多实体交互之一(例如,用户重新共享内容或“跟随”另一个)。来自多种关系类型的交互可以编码有关社会网络实体的有价值信息,这些信息没有被单个关系完全刻画;例如,用户对帐户关注的偏好可能取决于用户与内容的互动以及他们关注的其他用户。在这项工作中,我们研究了 Twitter HIN (TwHIN) 中实体的知识图嵌入;我们表明,这些预训练的表示为各种下游推荐和分类任务产生了显著的离线和在线改进:个性化广告排名、帐户关注推荐、攻击性内容检测和搜索排名。我们讨论了部署行业规模的 HIN 嵌入的设计选择和实际挑战,包括压缩它们以减少端到端模型延迟和处理跨版本的参数漂移。

MeLa BitChute 数据集

原文标题: The MeLa BitChute Dataset

地址:

作者: Milo Trujillo, Maurício Gruppi, Cody Buntain, Benjamin D. Horne

摘要: 在本文中,我们展示了来自社交视频托管平台 BitChute(YouTube 的常用替代品)在 2.5 年(2019 年 6 月至 2021 年 12 月)中来自 61K 频道的超过 300 万个视频的近乎完整的数据集。此外,我们还包含各种视频级元数据,包括每个视频的评论、频道描述和观看次数。 MeLa-BitChute 数据集可在以下网址找到::10.7910/DVN/KRD1VS。

Covid19 大流行再生数的时间演变:从近端优化到蒙特卡洛采样的估计

原文标题: Temporal evolution of the Covid19 pandemic reproduction number: Estimations from proximal optimization to Monte Carlo sampling

地址:

作者: Patrice Abry (Phys-ENS), Gersende Fort (IMT), Barbara Pascal (CRIStAL), Nelly Pustelnik (Phys-ENS)

摘要: 监测 Covid19 大流行的演变是卫生政策设计的关键步骤。然而,由于公共卫生当局提供的数据质量有限(尤其是缺失数据、异常值和伪季节性),因此在大流行期间评估大流行强度仍然是一项具有挑战性的任务,这需要进行繁琐的临时预处理。去噪)在估计之前。最近,再生数的估计(衡量大流行强度的一种方法)被表述为一个反问题,结合了数据模型保真度和时空规律性约束,通过非光滑凸近端最小化来解决。尽管很有希望,但该公式对 Covid19 数据和置信度评估的有限质量缺乏稳健性。目前的工作旨在解决这两个限制:首先,它讨论了通过直接在逆问题公式中考虑数据的低质量来对大流行强度进行稳健评估的解决方案。其次网络安全案例分析论文,利用对逆问题公式的贝叶斯解释,它设计了一种蒙特卡罗采样策略,针对非光滑对数凹后验分布量身定制,以产生基于可信区间的 Covid19 再生数估计值。临床相关性应用于卫生当局公开提供的约 200 个国家/地区的每日新感染计数,拟议的程序允许对 Covid19 大流行强度的时间演变进行强有力的评估,并每天自动更新。

zCOSMOS Galaxy 数据集的声化

原文标题: A Sonification of the zCOSMOS Galaxy Dataset

地址:

作者: S. Bardelli, Claudia Ferretti, Luca Andrea Ludovico, Giorgio Presti, Maurizio Rinaldi

摘要: 声化是将数据转换为声音信号,可通过不同的技术实现。声化可以定义为一种将数据值和关系表示为可感知声音的方法,旨在促进它们的交流和解释。就像数据可视化通过图像提供意义一样,声化通过声音传达意义。声化方法在许多情况下都很有用。第一种情况是在保持其他感官通道自由的同时接收信息的可能性,例如在医疗环境、驾驶体验等中。另一种情况是当数据呈现高维和基数时更容易识别模式。最后,声化可以应用于展示和传播活动,也可以用于艺术目标。 zCOSMOS 数据集包含关于近 20000 个星系的详细数据,从星系质量、绝对光度、红移、距离、年龄和恒星形成率等方面描述了过去 1000 万年来宇宙中相对较小部分的演化。本文提出了对上述数据集的声化处理,具有以下目标:i)提供数据集的一般描述,可通过声音访问,这也可能使未被注意到的模式出现; ii) 在科学传播和所谓的“寓教于乐”的背景下,实现对宇宙一部分的艺术但科学准确的声音肖像,从而填补艺术与科学之间的空白; iii) 增加数据集的价值,因为科学数据和成就也必须被视为需要保护和加强的文化遗产。处理了声化的科学和技术方面。

为政府机构危机沟通设计社交媒体分析仪表板

原文标题: Designing a Social Media Analytics Dashboard for Government Agency Crisis Communications

地址:

作者: Ali Sercan Basyurt, Julian Marx, Stefan Stieglitz, Milad Mirbabaie

摘要: 社交媒体已成为提取社会危机数据的宝贵来源和传播官方信息的重要渠道。政府机构越来越多地转向社交媒体,在危机时期将其用作喉舌。然而,通过社交媒体分析获取情报对于政府机构来说仍然是一个挑战,例如。由于缺乏培训和工具。为了缓解这一缺陷,政府机构需要工具来支持他们为公共利益分析社交媒体数据。本文介绍了一种设计科学研究方法,该方法指导为区域政府机构开发社交媒体分析仪表板。报告了研讨会的初步结果和第一个原型的最终设计。安全、灵活和快速使用的用户友好和响应式设计可以识别为需求,以及区域讨论统计、情绪和新兴话题的信息显示。

声明:Arxiv文章摘要版权归论文原作者所有,机器翻译后由本人进行校正整理,未经同意请勿随意转载。本系列在公众号“网络科学研究速递”(netsci)和个人博客进行同步更新。

© 版权声明
THE END
喜欢就支持一下吧
点赞135赞赏 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容