谷歌搜索引擎(谷歌搜索入口)
在经历了一整年的新冠疫情之后,时隔两年谷歌 I/O 开发者大会终于和大家再度相逢。前几天,硅星人已经发布了本届 I/O 大会重要内容的报道,提及了谷歌在远程办公、清洁能源、增强现实、Android 12 新设计语言和人工智能等重磅话题。
大会期间,硅星人也采访了谷歌 AI 技术和产品部门的负责人。今天,我们再来深入探讨一下,从这届 I/O 大会上我们看到谷歌在 AI 方面的更多重要突破和新动作。
Transformer 的无限边界
2014年,被称为“机器学习三剑客”之一的 Yoshua Bengio 教授团队提出了注意力 (attention) 机制。基于这一机制,谷歌团队在2017年推出了深度学习模型 Transformer。
和卷积/循环神经网络 (CNN, RNN) 等“传统”的神经网络模型不同,Transfromer 的网络结构主要构成部分都是注意力机制,解决了传统模型处理自然语言工作时,所采用的顺序计算模式带来的种种问题和限制。
不仅谷歌2019年基于 Transformer 技术开发的 BERT 算法在自然语言处理各项任务中的效能有了巨大提升,这项技术也已经被字节、美团、Facebook 等中美顶级公司广泛采用,证明了它的巨大潜力。
这一届 I/O 大会上,谷歌又宣布了在自然语言处理和知识处理等方向上的全新突破:LaMDA 和 MUM,你可以阅读我们前天发布的文章了解这两个新模型的更多细节。
简单来说,LaMDA 是一个专门为对话而优化的自然语言处理生成模型。它是一个底层技术,不过为了展示它的能力,谷歌选择用聊天机器人的方式来呈现:假设用户希望了解冥王星的更多信息,LaMDA 则可以扮演冥王星和用户展开一场自然亲切、寓教于乐的对话。
而 MUM 是一个超级强大的多模态学习模型,在解答复杂问题上的能力远超前辈技术。过去我们使用搜索引擎,经常需要修改自己的问题好让计算机理解;现在有了 MUM,我们可以直接向搜索引擎提问,不论问句的句式有多复杂,信息量有多大,MUM 都能够实现准确的上下文理解,并且从75种语言的网络资料中实时提取、翻译、组织和呈现答案。
LaMDA 和 MUM 的底层都是 Transformer,本小节一开始提到的自然语言处理重要架构。
几年前 Transformer 和 BERT 发布的时候,就被认为是机器学习技术的重要突破。而今年谷歌在 I/O 上预览的这两个新模型,再次证明了 Transformer 尚有无限大的发展空间。
以 MUM 为例,它和2018年谷歌发布,被称为自然语言处理“大杀器”的 BERT 算法相比,性能有了足足1000倍的提升,堪称 Transformer 技术方向的又一重大突破。
MUM不仅能够理解,还可以生成语言。谷歌同时采用75种语言,面向对话理解、对话生成、提炼总结、翻译等多种不同的自然语言处理任务对 MUM 进行了训练。这样训练出来的 MUM,在搜集、处理知识和生成信息的能力上,深度前所未有。
更令人兴奋的是,MUM 还是一个多模态模型 (multimodal model),除了文字之外现在还可以从图片中提取信息,未来也会引入视频、音频等更多模态——进一步扩展了 Transformer 的实力边界。
有趣的是,今年三月谷歌研究员曾经发过一篇论文,用做了各种微调的 Transformer 架构进行跨应用方向的试验,发现效果并不算很好。时隔两个月,通过 LaMDA 和 MUM,谷歌自己在 I/O 上就给其它研究人员和开发者们做了一个“怎样正确使用 Transformer”的优秀示范。
MUM 和 LaMDA 的发布,为 Transformer 描绘出了一条宏大的发展曲线。谷歌2017年发布它的时候就预料到它会有很大的潜力;后来有了 BERT,这个算法整合到搜索和自然语言处理相关产品种,显著提高了效果。今天有了 MUM 和 LaMDA,证明了 Transformer 作为一种颠覆性的深度学习技术,还有很长很令人兴奋的路要走。
实现真正的自然语言理解一直都是一个难以企及的目标,每一次技术突破,其实都离那个目标更近了一步,但从未真正达到。语言是人类实现沟通的最自然的方式,所以让机器实现真正的自然语言理解是谷歌一直追寻的目标。现在我们看到 Transformer 的潜力如此巨大,让人类从未离这个目标如此之近。
当然,并不是所有人都能享受到 MUM 和 LaMDA 所依赖的计算环境:谷歌的 TPU 芯片和 TPU Pod 云计算模块。TPU 计算设备在今年 I/O 大会上也正式宣布升级到 v4,单芯片(下图左包含4颗芯片)的计算速度是 v3 的两倍,而 TPU v4 Pod(下图右)搭载4,096颗 TPU v4 核心,总计浮点算力高达 1 exaflops(每秒一百亿亿次浮点运算)。
虽然现在谷歌把这两项技术通过聊天机器人和搜索引擎的方式呈现,实际上 LaMDA 和 MUM 都还是非常早期的研究项目,距离商用化还很远,甚至目前连论文都还没有。谷歌还有很多这样的,在内部称为"moonshot"的项目。
以 MUM 为例,谷歌在官网上表示,将该技术应用到搜索当中还存在一些不小的,社会责任方面的挑战。和 BERT 一样,MUM 也会经历一个较为漫长、十分严格的审核流程,谷歌希望在这样的流程中能够发现这些前沿技术可能存在的社会责任问题,比如偏见、耗能等等。
这意味着我们不会在近期看到 MUM、LaMDA 等技术,被整合到搜索、Google Assistant 以及其它谷歌产品和服务当中。当然,和我们一样,谷歌自己也很期待它们能够真正派上用场的那天。
生活有用,娱乐有趣
虽然诺基亚早已淡出了科技圈的第一梯队,“科技以人为本”的理念仍贯彻于各大公司,这些公司当中就有谷歌。
前段时间,硅星人还算客气地点评过,谷歌一些先进的 AI 研究成果,和核心业务、重要产品服务的整合度不高。当然正如刚才提到,大公司有更复杂的运作机制,面临着更多社会责任方面的挑战。以及最近吴恩达也表示过,所有的 AI,从”概念证明“到”投入商用“都有很长的路要走。
而从本届 I/O 大会上,我们也看到了谷歌正在加大 AI 技术投入到全线产品中的努力。
地图:
谷歌在大会上表示,仅今年,AI 技术就已经帮助 Google Maps 了实现超过100项功能更新。而在不远的未来,还有更多新功能和体验优化正在赶来的路上。
在导航方面,地图团队发现最快的导航路径并不一定是最好的,很多时候这些最快路径反而车流量更大、交通情况更复杂,一个最关键的问题,就是司机经常遇到“突然刹车”的情况,而数据显示突然刹车和交通事故发生的关联度更高。
所以,谷歌将在未来的版本更新中加入一种新的导航逻辑:推荐交通情况更“均衡”和流畅,突然刹车的可能性更小的导航路径,引入道路的车道数、路径笔直程度、信号灯数量、行人的人流等等。通过新的导航逻辑,谷歌预计每年能够帮助用户减少一亿次突然刹车的情况,“让你从 A 到 B 更快,同时也更安全。”
借助机器学习计算机视觉的力量,谷歌现在还对全球大量的卫星图片进行了分析,在地图上标注人行横道的位置,帮助使用地图的行人用户也能更安全地过马路。该功能即将支持全球超过50个城市:
疫情期间,很多用户出门购物、用餐的时候,都会更多留意谷歌地图上目的地忙碌程度的功能,错峰出行。好消息是,同样利用机器学习挖掘数据,现在谷歌可以把一个更大区域的忙碌程度也呈现给用户:
GooglePhotos
谷歌的云相册产品 Photos 现在已经存储了超过4万亿张照片,但是团队也发现一个大部分人应该清楚,但平时很少意识到的问题:我们的大部分照片,最后都只是存了起来没有再翻看过(小吐槽:为了存照片多花钱买大容量手机,真的值得吗?)——但这些照片,对用户并非没有价值。
如何挖掘价值,Google Photos 团队开动脑筋,而他们做出了这样一个功能:从海量的照片当中抓取微妙的相同细节,把内容看起来相似的,或者包含了相同人物、物品的照片,集合到一个 memory(自动生成的相片册)里。
这些照片存放在虚拟世界的角落积灰,并没有多大的意义,但如果被集合起来,其实讲述了一个又一个美好的,可能早已被我们遗忘的故事。比如,你可能会惊讶地发现,那只从大学时候爸妈送给你,早就背烂了扔掉的黄色书包,其实曾经陪伴你游历了天南海北,
另一个新功能叫做 Cinematic moments:Google Photos 现在可以借助神经网络的力量去分析几张相似照片之间的关联,猜测并且补完缺失的细节,生成一个小短片保存下来。这个功能和 iOS Live Photos 等类似功能不同之处在于,它拍的仍然是照片,而不是视频。几张照片之间的时间跨度可以更大。