基于推荐的社交媒体数据发布的隐私保护

随着信息技术特别是互联网、物联网和云计算等技术的迅猛发展，网络空间中所蕴含的信息量呈指数级增长。信息过载现象愈发严重，给人们带来很大的信息负担。推荐系统作为一种有效的信息过滤手段是当前解决信息过载问题及实现个性化信息服务的有效方法之一。为了提供高质量和个性化的推荐，推荐系统需要收集大量的用户信息、用户行为等，尤其是社交媒体上的用户活动数据。

个性化的推荐需要使用大量的用户数据，尤其是用户在社交媒体上的活动数据，包括评级、签到等，然而，从大量的用户活动数据中，能够推断出用户的隐私数据。在汉斯出版社《计算机科学与应用》期刊中有论文，考虑使用自定义距离KFC，将数据模糊过程中产生的特征关联度损失进行约束，保留特征之间的关系。

在实践中，许多用户愿意将他们在社交媒体上的在线活动的数据(或数据流)发布给服务提供商，以获得高质量的个性化推荐。然而，他们通常认为来自社交媒体的部分数据是私人的，例如性别、收入水平、政治观点或社会交往等。虽然用户可能拒绝发布私有数据，但公共数据和私有数据之间的内在关联往往会导致严重的隐私泄漏。这些研究表明，私有数据经常遭受推理攻击，敌人通过分析用户的公共数据以非法获取有关其私有数据。因此，在将公共数据发布到推荐系统时，保护用户私有数据至关重要。

为了解决这一问题，保护隐私数据的发布平台被广泛研究。它的基本思想是通过在公开数据发布之前对其进行扭曲，以牺牲公共数据在后期处理阶段的效用，来保护私有数据。对于推荐引擎的用例，效用是指基于被扭曲的公共数据的个性化性能，即推荐引擎是否能够根据模糊数据准确预测个人偏好。在隐私和隐私之间存在一种内在的平衡。

差分隐私是一种众所周知的技术，保证用户对具有任意背景知识的攻击者的隐私。该论文介绍了一种可定制、连续的隐私保护的社交媒体数据发布框架，通过发布模糊的用户活动数据，不断地保护用户指定的数据免受推理攻击，同时仍然确保所发布数据的实用性，以增强基于因子分解机的推荐。为了提供定制的保护，学者们学习了最佳的数据混淆方法，以便将用户指定的私有数据的泄漏降到最低，为了确保数据实用性，减少特征间的关联性的损失，学者们使用类似于Kendall-t距离来限制数据混淆过程中产生的关联度损失KFC。学者们通过大量实验证明PriFM框架可以提供对私有数据的有效保护，同时还可以为基于因子分解机的推荐用例保留已发布数据的效用。如何在隐私保护和推荐质量之间寻找一个平衡是一个值得深入研究的课题。