大数据时代下看Amazon是如何处理隐私问题的
在访问Amazon电商网站时总会看到这样的提示,对于互联网用户来说,应该已经非常熟悉这样的推荐了吧。Amazon是通过所谓协同过滤(collaborative filtering)的技术,来实现这一商品推荐功能的。
协同过滤是根据商品的购买记录加上网站访问记录等行为数据,对用户间爱好的相似度进行自动计算,从而实现商品推荐的。在这个过程中,商品本身的内容是无关的,而只是基于购买记录和行为记录,从某个用户与其他用户间爱好的相似度来计算出要推荐的商品,这正是这一机制的关键所在。因此,系统可能会推荐出乍看之下和用户的爱好无关的出乎意料的商品,但反过来说,这也可能会为用户带来意想不到的发现(serendipity)。
所谓serendipity,是指能够意外带来好运的能力,这个词是由英国小说家霍勒斯·沃波尔(Horace Walpole,1717-1797)于1754年造出来的,其辞源来自童话故事《锡兰国三王子》(The Three Princes ofSerendip,Elizabeth Jamison Hodges著)。在Web领域中,指的是用户通过搜索引擎和推荐系统发现了出乎意料的商品。
从结果上来说,用户将自己的购买记录和行为记录等信息交给Amazon,同时得以享受到像Serendipity这样的好处。
Amazon于2011年9月28日发布的平板电脑KindleFire中,提供了一项非常有意思的服务。 该平板电脑采用Android操作系统,售价只有199美元,比iPad要便宜,它上面继承了Amazon自行开发的新浏览器Amazon Silk。之所以要自行开发一款浏览器,是为了在硬件性能低于PC的移动设备上实现更快速的网页浏览。
为了弥补硬件性能的不足,Amazon采取了下列对策。
(1) 在浏览器的后台利用Amazon自己的云计算服务EC2,事先对视频、图片等数据量较大的内容进行压缩等处理,将优化后的数据传送给终端。这种方式被Amazon称为Split Browser,通过将负荷较高的处理转移到云端执行,可以比由终端直接执行实现更加快速的内容处理,还可以延长电池的续航时间。
(2) 基于内容浏览记录,通过机器学习找出用户的Web浏览模式,从而判断出用户接下来可能要访问的页面,并事先在云端进行缓存。通过这一机制,页面加载的时间得以大幅缩短。
Amazon开发的新浏览器所采用的上述机制,充分利用了该公司在云计算方面的优势,实现了Web浏览的高速化,这一点非常有意思。然而,从另一个角度来说,也有一些人认为这样做有侵犯用户隐私之嫌。
也就是说,用户使用Kindle Fire浏览网站时,在真正连接用户所指定的网页之前,首先要连接到Amazon的云计算服务。用户在浏览网站期间,与Amazon云服务之间的连接会被一直保持,Amazon会对用户在Web上的行为,如访问的网站URL、IP地址、MAC地址等信息进行记录,并保存最长30天。
根据Amazon的解释,对于这些数据的记录,是“为了解决和诊断浏览器的技术问题”,用户数据在保存和使用时不会与用户个人身份产生关联。
此外,用户还可以在使用云计算平台的Cloud模式和不连接到云端直接访问网页的Off-cloud 模式之间进行选择。不过,如果选择了Off-cloud模式,用户便无法享受到Silk所提供的对网页内容传输的优化、加速等好处。
对于由Silk浏览器所引发的隐私问题,美国国会也立即做出了反应。在Kindle Fire发布的约两周后,众议院议员、国会两党隐私权预备会议联合主席、民主党人Edward Markey,向Amazon的CEO 杰夫·贝佐斯提出了公开质询,要求对Silk的隐私问题做出解释。
Markey议员提出了下列4个问题,要求Amazon在3周之内做出回答。
(1) Amazon对Kindle Fire的用户收集了哪些信息?
(2) Amazon准备如何利用这些信息?Amazon是否计划将这些客户信息以出售、租赁或其他形式交给其他企业来进行利用?如果有,那么Amazon计划对哪些企业提供这些信息?
(3) Amazon准备采用何种方法向KindleFire以及Silk用户告知公司的隐私权政策?如果存在相应的政策,请提供适用于Kindle Fire的隐私权政策条款。
(4) 假设Amazon准备对用户的互联网浏览习惯相关信息进行收集,那么用户是否可以通过主动许可(Opt-in)的方式同意并加入这一数据共享计划?
对于Markey议员所提出的大部分问题,Amazon在其公开的“Amazon Silk使用协议”1(图表6-1)和FAQ(图表6-2)中都已经涉及到了,因此并未造成很大的混乱。不过,这一质询的确引发了人们对于为用户提供便利所必需的数据收集与隐私权两者之间关系的关注。
Amazon隐私权问题
1.隐私权信息 通过Amazon Silk收集的可识别个人身份的信息,适用Amazon.com隐私权公告,该公告内容为本协议的一部分。 Amazon Silk通过利用Amazon云计算服务来优化和加速网页内容的传输。因此,正如为您提供Web访问服务的大多数互联网服务提供商(ISP)或类似服务一样,您使用Amazon Silk所访问的网页内容会经过我们的服务器,并可能被缓存下来以提高后续页面的加载速度。
对于安全连接(SSL)网页的请求,Amazon Silk会让您的计算机直接连接到原始服务器,而并不会经过Amazon的服务器。
Amazon Silk会暂时性地记录其所提供的页面的网址(URL)。我们不会将这些URL与您的身份关联起来,通常也不会将这些信息保存超过30天。 您也可以选择让Amazon Silk工作在基本模式或Off-cloud模式下。Off-cloud模式可以让您的计算机直接访问目标网页,而不经过我们的服务器。在Off-cloud模式下,Amazon Silk依然能够提供快速的浏览体验,但它不会利用Amazon云计算服务来加速网页内容的传输。
如果您在Kindle设备上使用Amazon Silk,您的设备可能会将崩溃报告发送给Amazon。这些报告可能会包含可识别身份的信息,如IP地址或MAC地址。我们会使用这些崩溃报告对浏览器进行故障诊断以改进其性能。
您在Amazon Silk的地址栏中所输入的文字会被发送给默认的搜索引擎。初始的默认搜索引擎是由Amazon Silk设置的,将来我们可能会在不事先通知您的情况下修改默认搜索引擎设置。如果您愿意的话,也可以将其他搜索引擎用作默认搜索引擎。发送给所选默认搜索引擎的信息,应适用该搜索引擎的隐私权政策。
来源:节选自http://www.amazon.com/gp/help/customer/display.html?nodeId=200775270中“1.Privacy Information”一节,中文翻译出自译者。
Amazon Silk的FAQ(常见问题)
关于隐私权
Q. Amazon是否会跟踪我的互联网浏览记录?
A. Amazon Silk会临时性地记录您所访问的URL。记录的URL信息是作为一个整体来归总的,这些URL不会和您个人身份产生关联。URL的保存期限最长为30天。这些归总的信息,可以帮助Amazon Silk提高网页加载速度。
Kindle Fire可能会向Amazon发送崩溃报告。这些报告中可能会包含可识别身份的信息,如IP地址和MAC地址,但这些信息仅用于技术上的问题诊断,不会与您的浏览记录产生关联。详细信息请参见“Amazon Silk使用协议”。
Q. Amazon会收集哪些数据?能否简要介绍一下,通过收集这些数据,如何能够实现快速的网页浏览?
A. 举个例子,我们有一个叫做智能推送(Smart Push)的功能,它会对所有用户的网页加载过程(从统计学上)进行监控。例如,通过收集用户发送的数据,我们发现某个网页中名为logo.png的文件最近被加载了10万次。在这种情况下,Silk的后台服务器会在遇到对该网页的其他请求时,在网站的HTML文件返回之前,事先将这个logo图片推送给客户端。
为了实现快速的网页浏览,我们还有一种称为预测渲染(Predictive Rendering)的优化手段。例如,假设在某个非常流行的新闻网站上,大多数访问者接下来都会点击“商业”这个链接。在这种情况下,可以在主页加载完毕之后,事先将一些静态网页元素(JavaScript、CSS、图片等)推送给客户端。如果访问该新闻网站的用户,接下来真的点击了“商业”链接,我们自然会收到来自客户端的HTML页面请求,但其实大多数静态的可缓存元素,在这个时候已经存在于用户的Kindle Fire上,并可以立即显示出来。
Q. 这是不是意味着Amazon会在云端服务器上缓存我所浏览的内容?
A. 正如提供Web访问服务的ISP或其他类似服务一样,在Cloud模式下,使用Amazon Silk所浏览的网页内容,会经过我们的服务器。这些信息中的一部分会被缓存下来,目的是为了改善后续网页的加载性能,帮助Silk提升网页浏览速度。网站拥有者可使用缓存报头来指定哪些内容可以被缓存。Silk通过追踪这些报头,仅对网站拥有者认为合适的信息进行缓存。
Q. Amazon会将归总的浏览数据出售给第三方吗?
A. 不会。客户信息是我们业务非常重要的一部分,也是对客户体验与未来创新的重要推动力。我们不会向他人出售这些信息,将来也没有计划要出售这些信息。
Q. 如果我不希望我的互联网请求经过Amazon的云服务器,应该如何做?如何才能关闭利用云服务的浏览加速功能?
A. 我们提供了用于关闭云加速功能的选项,在Amazon Silk的设置菜单中,取消“加速页面载入”选项即可。在Off-cloud模式下,网页不会经过Amazon的云服务器,而是直接传送到用户的终端上,用户可以无负担地进行浏览。在设置画面重新启用这个选项,就可以随时重新开启云加速浏览功能。
Q. 对于安全https连接是如何处理的?
A. 在AmazonSilk中,SSL请求不会经过Amazon云服务器,而是由Kindle Fire直接向原始服务器发送网页请求。
Q. Silk中有其他扩展安全功能吗?
A. 在使用Cloud模式时,可以选择对Kindle Fire与Silk的加速服务器之间的所有Web通讯进行SSL加密。 要使用这个功能,可以触摸设置菜单中的“加密选项”复选框。请注意,使用SSL可能会降低页面的加载速度。
还需要注意的是,只有经过Silk加速服务器的Web通讯才能享受这一功能所带来的加密保护,而其他的情况下,例如关闭云加速功能时,Silk便无法提供加密功能。此外,即便开启了云加速功能,某些情况下如果不经过Silk服务器的加载效率更高,Silk会自动更改路由,直接向网站发送请求。在这样的情况下,加密功能也不起作用。
本文截选自《大数据的冲击》
- 目前还没评论,等你发挥!