诺贝尔物理学奖背后的计算机技术

帮
助
中
心

网站公告

新闻动态

域名注册

虚拟主机

企业邮箱

数据库

云服务器

备案指南

阿里云应用开发

首页 » 帮助中心 » 云服务器 » 阿里云应用开发

诺贝尔物理学奖背后的计算机技术

发布日期：2016-8-1 16:8:12

　　在《量子杂志》上近日刊登了一篇文章，讲述量子物理学研究的过程中，各种计算机技术的变迁，作者是物理学的专栏作家，文中并没有谈及专业的计算机技术细节，但是也提供给我们一个新的视角去看待近年来计算机技术的发展。下面为译文：

　　2013年诺贝尔物理学奖在10月8日在瑞典揭晓，比利时理论物理学家François Englert于英国理论物理学家Peter W. Higgs因希格斯玻色子的理论预言获奖，2012年这一预言在位于瑞士的CERN(欧洲核子中心)粒子物理实验室中得到证实。

　　图1

　　在CERN的 LHC(大型强子对撞机)中，亚原子颗粒不停高速碰撞，产生新的粒子，四个监视器在持续记录这些粒子的情况，每秒产生的数据量高达5TB，相当于全球图书馆数据量的总和。这些数据被滤波算法处理后，99%以上的数据都被过滤掉了，但每年这个系统需要存储与处理的数据仍然高达25PB。正是在这数以十亿计的粒子对撞结果中，研究组提取到了希格斯粒子存在的证据。支撑这些数据计算的是遍布全球的160个数据中心，这个分布式网络的数据传输速率最高可达10GB/S。LHC解决大数据问题的方法反映了近十年来计算本质的戏剧性变化。

　　1、从摩尔定律到多核技术

　　自1965年摩尔定律被Intel联合创始人Gordon E. Moore提出以来，就一直主导着计算机产业。根据摩尔定律，集成电路中的晶体管数量每隔两年会增加一倍，目前看来，这个速度是极具弹性的。麻省理工学院理论计算机科学家 Scott Aaronson认为“摩尔定律已基本失效”。

　　许多计算能力的增长自2005年以来都来自多核技术带来的并发性上。更快的处理器固然重要，但是已不再居首位。斯坦福大学电气工程师 Stephen Boyd认为“5年来，处理器速度对于计算能力的提高已不多了，解决问题的挑战并不在于怎样利用一个超快的处理器，而是怎样整合10万个较慢的处理器”。Aaronson指出简单地增加并行处理并不能够充分解决大数据问题，这些问题能够更连续，有时可分割成小任务分配给多个处理器，有时候很难做到分割，且这些处理器也很难得到充分利用。好比是20个人完成一项工作，通常情况下并不能够达到20倍的速度。

　　2、数据传输的问题

　　在集成不同架构的数据集时，研究人员也面临着挑战，同时，在一个高度分布式的网络中有效传输数据也面临巨大困难。随着数据集的规模与复杂性不断增长，这个问题会变得愈发明显。据加州科技学会物理学家 Harvey Newman(他的团队开发LHC的网格数据中心与横跨大西洋的网络系统)。他估计照目前的形势发展，LHC数据处理系统的计算能力将不能再满足需求，甚至需要重新设计，阿里云是否也是这样做的呢。

　　3、内存与数据传输

　　数据传输有时比处理延时更耗时，Aaronson说：“计算机运行慢的原因不一定是微处理器的问题，还有可能是因为微处理器在等从磁盘传来的数据。”大数据研究人员更喜欢数据传输时间尽可能的少，原因是存储在分布式网络或云端的数据会使情况恶化。

　　4、分布式计算

　　解决这个问题的方案之一是使用新的模式：除存储，分析数据也采用分布式的方法。LHC的方案就类似于这种模式，对撞机中的产生的原始数据被存储在瑞士的CERN研究设备中，此外还有一份备份数据被按批量划分并分布到世界各地的数据中心。每个数据中心对各自的数据块进行处理，然后在处理下一批数据前，将处理结果发送给各地区的计算机。

　　Boyd的系统基于所谓的一致性算法，他介绍说：“这是一个数学优化问题，用以前的数据‘教育’这个系统来处理未来的数据。”这个算法在SPAM过滤器中也得到了很好的应用。

　　当问题变得太大的时候，一致性优化方法非常有效，数据集被分割成块，分布在1000个“代理”中分别处理，并且产生一个数据模型。关键是要满足临界条件：每个“代理”的模型可不同，但是最后这些模型要达成一致。

　　在Boyd的系统中，这个过程是迭代的，创建一个反馈环路，所有的代理会共享初始情况的一致状态，继而根据新的信息更新各自的模型，并且达到新的一致状态。这个过程不断重复，直到所有的代理都达成一致。采用这种分布优化的方法可显著减小每次需要传输的数据量。

　　5、量子计算

　　去年的纳帕谷会议上，MIT的物理学家 Seth Lloyd引起了Sergey Brin与Larry Page的关注。在演讲中Lloyd提出了一个量子版本的Google搜索引擎，在对用户的搜索关键词情况下，Google用户也可做查询和收到结果。但第二天Lloyd被告知这个方案和Google的商业计划有冲突。Lloyd开玩笑说：“Google想要对他们的每个用户做到了如指掌”。量子计算机可提供强大的处理能力，对于某些复杂算法可大幅度提高速度。事实上，Google从一家加拿大公司D-Wave以1500万美元购买了所谓的量子计算机，尽管这个项目目前也面临一些问题。

　　Aaronson认为量子计算机并不是并行地尝试所有可能的答案，它同并行处理有着本质上的不同。普通的计算机用0或者1来存储数据，量子计算机有着更多的状态位。例如，抛硬币的结果只能是正面朝上或背面朝上。但从技术上来说，在看到结果前，量子状态下的硬币正面朝上还是背面朝上是不确定的。

　　图2

　　6、量子学的宏观解释：著名的薛定谔猫

　　一个真正的量子计算机可将信息编码为所谓的量子比特——同时为0与1的叠加态。这样做可将处理复杂问题的时间从几年缩短到几秒。这种设想很美好，实现起来并不容易，尤其是由于这样一个设备对外界的干扰非常敏感，轻微的扰动都相当于将抛硬币的结果“公之于众”，量子的叠加态也将消失。

　　然而，Aaronson认为不要对量子计算机报太大期望，即使量子计算能实现，它们也仅适用于特定的问题。例如，模拟量子力学系统或用于经典密码学的密码破解，然而有一种大数据问题是量子计算可处理的：对大量的无序数据集进行检索，例如随机排列的电话本。

　　1996年，贝尔实验室的 Lov Grover提出了这个问题的量子计算算法，但是Aaronson说：“真正实现这个算法时，你需要一个原子内存可在量子叠加态被访问，同时保证这种访问不会破坏量子叠加态。”

　　换而言之，你需要一个量子RAM(A-RAM)，Lloyd曾开发过一个概念原型以及一个用于机器学习的应用程序，他称之为Q-App。他认为这个系统可在不查看个人记录的情况下，找到数据的模式，从而保持原子的叠加态与用户的隐私。“可在同一时间高效地访问这数亿条数据，事实上你并没有访问这些数据，你只是在访问它们的共同特征。”

　　Lloyd认为若拥有一个足够大的量子RAM，量子计算尤其适用于在大量的数据集中找出规律的机器学习算法，例如确定某个关键字相关联的集群数据，或者拥有共同特性的数据块。

　　若构建一个存储了地球上所有人基因的数据库，可利用Lloyd的量子算法查询不同基因的共同模式，这个过程中只会访问一小部分个人数据，且耗时很少。随着人类基因组排序成本下降，以及商业基因服务的价格上升，未来很有可能会出现这样的数据库。假设一个基因组占60亿字节的话，这可能将是全球最大的数据集。

　　7、数据聚合是未来

　　图3

　　谷歌的计算机科学家 Alon Halevy认为大数据领域的最重大突破可能将来自于数据集成——特别是跨数据集的集成。不论你的计算机速度有多快，或者计算机集群做得有多好，真正的问题还是来自于数据层面。例如，一个原始的数据集可能包括成千上万个遍布全球的表格，看似简单的全球咖啡生产量查询操作，后台整合的复杂度却出人意料。

　　NASA喷气推进实验室资深计算机科学家兼 Apache软件基金会董事Chris Mattmann就面临这样一个复杂问题，他正在进行一项研究项目，整合两个不同来源的天气信息：来自卫星的气象遥感信息以及计算机模拟的天气模型输出。IPCC(政府间气候变化专门委员会)会对这些天气模型和遥感数据进行比较，来确定最适合的模型，而这些模型都采用不同类型的数据。

　　许多研究人员强调有必要开发灵活的工具处理不同类型的数据。Mattmann提到一个名为Tika的Apache软件程序，这个程序允许用户整合1200常用文件类型的数据，但是有时候需要一些人工干预的工作。最终，Mattmann选择了一个可整合不同结构数据集的完全自动化智能软件。

　　同时跨数据集的整合也需要一个协调性比较好的分布式网路系统。LHC在加州理工学院的Newman的研究小组负责监控成千上万的处理器以及十几个主要网络链接。Newsman预测大数据计算的未来在于各智能代理间的互相协调，在网络各个节点跟踪数据的行为，从而识别瓶颈与调度处理任务。每个可能仅记录本地发生的事情，但会以这种方式向整个网络共享信息。

　　Newman说：“不同层级中，成千上万的代理互相协调，帮助人类理解这个复杂和分布的系统中正在发生的事情。”未来这个数据量将会更大，当这些智能代理达到数十亿时，将会形成一个巨大的遍布全球的分布式智能实体。

上一条: MongoDB成为首位10亿美元初创

下一条: 云脸应用锁：人脸解锁 “刷脸”能够秒进手机

相关问题		热门问题
Docker在云容器技术领衔 Flocker 0.3.1 新特性 Apache Flume 1.5.2 发布发展中的 Docker 技术 OpenStack私有云DR的益处 Seafile 3.1.11 发布 Docker1.3改动简介 Seafile Client 3.1.10 发... 语音输入四强争霸 Apache Libcloud 0.16.0 ...		Windows Server 2012 防火墙... Linux下l2tp客户端xl2tpd安装配置... 阿里云ECS关于跨服务器快照/镜像的使用说明 Linux系统下测试UDP端口是否正常监听的办... 阿里云ECS通过安全组屏蔽/拦截/阻断特定IP... 如何解决ECS Windows提示显示设置无法... 如何解决ECS服务器误开启了防火墙导致远程连接... 阿里云数据库安全阿里云ECS通过安全组实现将不同账号同地域云服... ECS云服务器的自定义镜像FAQ

新手上路		支付方式	快速通道		服务与支持
域名常见问题	主机常见问题	在线支付	域名信息查询	备案信息查询	帮助中心
邮箱常见问题	云服务器问题	线下汇款	域名控制面板	主机控制面板	网络违法举报
数据库问题	备案问题		万网代备案系统		互联网不良信息举报

业务QQ： 11611616 673768899 673768855		联系电话： 023-61066666 66887777 89082222
离线联系： 13452888882 13452888883 13452888886		备案专线： 023-60887777 备案专员QQ：673768866
联系地址：重庆市九龙坡区石桥铺一城精英国际40层17号 Copyright © 重庆典名科技有限公司 023dns.com All Rights Reserved