b谷歌一直痴迷于速度。无论是返回搜索结果所花费的时间,还是将产品推向市场所花费的时间,b谷歌一直都很匆忙。这种方法在很大程度上使公司受益。更快、更全面的搜索结果将谷歌推到了市场的顶端。
但是,快速的产品发布导致了长期的公开测试和失败或停产的产品。甚至有一个名为Killed by b谷歌的网站记录了b谷歌的所有失败案例。虽然这个列表非常广泛,但该公司也推出了Gmail和Adsense等赢家。这些产品帮助公司超越了搜索领域。
所以,你可以想象,在过去一年左右的时间里,当人工智能革命似乎将b谷歌抛在身后时,b谷歌的管理层有多沮丧。b谷歌多年来一直在投资人工智能技术,而ChatGPT只是在很短的时间内迅速发展并取得了聊天机器人的统治地位。
b谷歌当然回应了。该公司在2023年底推出的Gemini生成式人工智能工具,已被嵌入谷歌SERP(搜索引擎结果页面)的顶部。b谷歌和Alphabet首席执行官桑达尔·皮查伊在今天的一篇博客文章中写道:“我们的人工智能概述现在覆盖了10亿人,使他们能够提出全新类型的问题——迅速成为我们有史以来最受欢迎的搜索功能之一。”
但是,正如我根据自己的测试报告所述,b谷歌的AI无论是在编码方面还是在对自身能力的认知方面都非常失败。
然而,皮查伊在同一篇博客文章中辩称,“自去年12月我们推出Gemini 1.0以来,已有数百万开发人员使用谷歌AI Studio和Vertex AI来构建Gemini。”
我确信这是真的,这可能意味着谷歌的AI适合某些开发任务,而不是其他任务。因为谷歌是以python为中心的,我敢打赌大多数开发人员都专注于与python相关的项目。
换句话说,还有改进的空间。很有可能刚刚发生了改善。谷歌今天宣布了Gemini 2.0,以及大量与开发人员相关的改进。
双子座2.0的公告是通过b谷歌DeepMind的首席执行官Demis Hassabis和首席技术官Koray Kavukcuoglu的博客文章发布的。最顶层的标题说bbb2.0是“代理时代的新人工智能模型”。
我们一会儿会回到代理部分,因为首先我们需要讨论Gemini 2.0模型。从技术上讲,Gemini 2.0是一个模型家族,今天宣布的是Gemini 2.0 Flash的实验版本。谷歌将其描述为“我们的主力模型,具有低延迟和增强的性能,在我们的技术前沿,在规模上。”
那得花点时间收拾行李。
Gemini Flash模特不是聊天机器人。它们为聊天机器人和许多其他应用程序提供动力。从本质上讲,Flash的名称意味着该模型是为开发人员使用的。
公告的一个关键组成部分回到了我们的速度主题。根据Hassabis和Kavukcuoglu的说法,Gemini 2.0 Flash的性能是Gemini 1.5 Flash的两倍。
Gemini Flash的早期版本支持多模态输入,如图像、视频和音频。Gemini 2.0 Flash支持多模式输出,例如“本地生成的图像与文本混合”和可操纵的文本到语音(TTS)多语言音频。它还可以本地调用谷歌搜索、代码执行以及第三方用户定义函数等工具。”
顺便说一下,可操纵的文本到语音是指你可以指定诸如语音定制(例如男性或女性),语音风格(即正式,友好等),语音速度和节奏,以及可能的语言。
开发人员现在可以使用Gemini 2.0 Flash。它以实验模型的形式出现,可以使用谷歌AI Studio和Vertex AI中的谷歌API进行访问。所有开发人员都可以使用多模式输入和文本输出,但文本到语音和图像生成功能仅对谷歌的早期访问合作伙伴可用。
非开发人员也可以通过Gemini AI助手使用Gemini 2.0,包括桌面和移动版本。这个“聊天优化”的2.0 Flash版本可以在模型下拉菜单中选择,在那里“用户可以体验到更有帮助的Gemini助手”。
那么,现在让我们回到整个代理的事情。谷歌将代理描述为提供具有“操作能力”的用户界面。皮查伊在他的博客文章中表示,人工智能“可以更多地了解你周围的世界,提前考虑多个步骤,并在你的监督下代表你采取行动。”
我很高兴他添加了“在你的监督下”,因为人工智能能够理解你周围的世界,并提前考虑多个步骤,这是我多年来读过的许多科幻小说背后的情节,但它们对人类主角来说都没有好结果。
Gemini 2.0有一系列改进,包括:
多模态推理:理解和处理来自不同输入类型的信息的能力,如图片、视频、声音和文本
长期上下文理解:参与对话的能力,而不仅仅是回答一次性的问题,跟踪讨论或处理的内容并从历史中工作的能力。
复杂指令遵循和计划:遵循一组步骤,或提出一组步骤来实现特定目标的能力。
组合函数调用:在编码层,组合多个函数和api来完成任务的能力。
本地工具使用:集成和访问服务的能力,如谷歌搜索,作为API功能的一部分。
改进的延迟:更快的响应节省时间,使互动更加无缝,并有助于满足b谷歌的整体速度瘾。
总的来说,这些改进有助于为代理活动设置Gemini 2.0。
b谷歌的Project Astra演示了所有这些功能是如何结合在一起的。Project Astra是一个原型人工智能助手,它将现实世界的信息整合到它的反应和结果中。把它想象成一个虚拟助手,位置和助手都是虚拟的。
Astra可能被要求执行的任务包括推荐餐厅或制定行程。但与聊天机器人人工智能不同的是,这款助手有望结合谷歌地图和搜索等多种工具,根据用户现有的知识做出决定,甚至在通往可能目的地的道路施工途中采取主动。在这种情况下,AI可能会推荐不同的路线,或者如果时间有限,甚至可能会推荐不同的目的地。
“水手计划”是另一个雄心勃勃的谷歌研究项目,尽管我觉得它也有点可怕。Mariner与浏览器屏幕上的内容一起工作,本质上是读取你正在阅读的内容,然后根据某些标准做出响应或采取行动。
Mariner被期望解释像素内容以及文本、代码、图像和表单,并且——人们希望有一些严格的保护护栏——承担现实世界的任务。现在,谷歌承认Mariner做得相当好,但并不总是准确的,有时会有点慢。
朱尔斯是开发人员的实验代理人。这对我来说似乎也很可怕,所以很可能我还没有准备好让ai自己自由奔跑。Jules是一个集成到GitHub工作流中的代理,预计将管理和调试代码。
Gemini API的集团产品经理Shrestha Basu Mallick和谷歌Labs的产品总监Kathy Korevec在今天的博客中写道:“你可以把Python和Javascript的编码任务交给Jules。”
他们接着说,“异步工作并与你的GitHub工作流集成,Jules处理bug修复和其他耗时的任务,而你专注于你真正想要构建的东西。Jules创建了全面的多步骤计划来解决问题,有效地修改多个文件,甚至准备拉取请求,将修复直接返回到GitHub。”
我完全可以看到朱尔斯是如何提高工作效率的,但这也让我感到不舒服。我偶尔会把我的代码委托给人类程序员,得到的反馈只能用“天哪,你在想什么?”来形容。
我担心从人工编码员那里得到同样有问题的工作。赋予人工智能进入并修改我的代码的能力似乎很冒险。如果出现问题,即使使用Git和其他版本控制工具,找到更改的内容并恢复它似乎也是一大步。
我不得不撤销表现不佳的人类程序员的工作。这一点也不好玩。我理解自动编码的好处。我当然不喜欢调试和修复自己的代码,但是放弃那种程度的控制是令人畏惧的,至少对我来说是这样。
也就是说,如果谷歌愿意将自己的代码库信任给Gemini 2.0和Jules,我又能说什么呢?该公司当然是在吃自己的狗粮,这很重要。
谷歌似乎坚信,人工智能可以帮助其产品在更广泛的应用中发挥更大的作用。但该公司似乎也意识到了显而易见的担忧,它表示:“我们认识到这需要承担的责任,以及人工智能代理为安全和安保带来的许多问题。”
Hassabis和Kavukcuoglu表示,他们正在“采取探索性和渐进的方法进行开发,对多个原型进行研究,迭代实施安全培训,与可信赖的测试人员和外部专家合作,并进行广泛的风险评估和安全和保证评估。”
他们给出了一些他们正在采取的风险管理步骤的例子,包括:
与他们的内部Respo合作责任和安全委员会了解风险。
谷歌正在使用Gemini 2.0本身来帮助谷歌的人工智能系统发展,通过使用自己的先进推理来考虑安全善于自我提升,降低风险。这有点像狼看守鸡舍,但作为保护的一个方面是有意义的。
谷歌正在为Astra项目进行隐私控制,以确保代理不会采取意外行动。因为那样会很糟糕。
有了Mariner(屏幕读取代理),谷歌正在努力确保模型优先考虑来自用户的指令,而不是可能是第三方企图注入恶意prom的指令PTS作为网页内容的一部分。
b谷歌表示:“我们坚信,构建人工智能的唯一方法就是从一开始就负责任,在我们推进模型和代理的过程中,我们将继续优先考虑将安全和责任作为模型开发过程的关键因素。”
这很好。人工智能在提高生产力方面有巨大的潜力,但也有极高的风险。虽然不能保证BigTech不会不小心创造出我们自己的Forbin项目巨像,或者一个古怪的Hal-9000,但至少谷歌意识到了风险,并且正在关注。
那么,你怎么看待所有这些bbb100的公告?你对双子座2.0感到兴奋吗?你认为你会使用Astra或Mariner项目的公开版本吗?你现在使用双子座作为你的人工智能聊天机器人吗,或者你更喜欢另一个?请在下面的评论中告诉我们。
你可以在社交媒体上关注我每天的项目更新。一定要订阅我的每周更新时事通讯,并在Twitter/X @DavidGewirtz, Facebook Facebook.com/DavidGewirtz, Instagram Instagram.com/DavidGewirtz和YouTube YouTube.com/DavidGewirtzTV上关注我。