尽管中东地区对人工智能的兴趣日益浓厚,但阿拉伯语模型却落后了。但是,阿拉伯联合酋长国(UAE)的一个由学者、研究人员和工程师组成的团队最近推出了一款专为世界上讲阿拉伯语的人量身定制的强大工具,其创建者表示,该工具可以为“在主流人工智能中代表性不足”的其他语言的大型语言模型(LLM系统)铺平道路。
“Jais”以阿联酋最大的山命名,由阿布扎比的穆罕默德·本·扎耶德人工智能大学(MBZUAI)、硅谷的Cerebras Systems和阿联酋人工智能公司G42的子公司Inception合作创建。
MBZUAI的代理教务长、自然语言处理教授蒂莫西?鲍德温(Timothy Baldwin)表示,尽管ChatGPT、meta的LLaMA和其他法学硕士具备阿拉伯语能力,但他们主要接受的是互联网上的英语数据培训。
相反,Jais使用英语和阿拉伯语数据集,重点关注来自中东的内容,这使得它能够超越“其他任何人能够实现的阿拉伯语”,鲍德温说。
使用拉丁字母的语言主导着互联网,其中英语是目前使用最多的。华盛顿中东研究所战略技术和网络安全项目主任穆罕默德·索利曼(Mohammed Soliman)表示,这意味着这些语言的数据集最大。
他在接受CNN采访时表示:“让那些会说特定语言的人独家使用人工智能工具,可能会阻止社会中的弱势群体从人工智能中获益。”
通常,用英语训练的语言模型具有以西方为中心的数据集。索利曼补充说:“(这些法学硕士)缺乏对其他文化的认识,对不同背景的人的用户体验产生了不利影响。”
根据MBZUAI的说法,经过训练,Jais能够理解文化的细微差别和方言,这使得它能够在不同的行业得到更广泛的应用。在未来的版本中,该团队的目标是让Jais处理图像、图表或表格数据,而不仅仅是文本,扩大其用途,并有可能使其能够解释医疗扫描、投资数据或卫星数据。
不同的方言
鲍德温说,阿拉伯语是世界上第六大语言,并且有大量不同的方言,这增加了训练语言模型的复杂性。现代标准阿拉伯语通常用于官方文件和正式写作,但当地方言经常用于博客或社交媒体。鲍德温说,通过对不同数据集的训练,贾伊斯通常可以在方言之间切换。
鲍德温补充说:“当然还有改进的空间,但就能够理解我们是否确实有更多的非正式输入到模型中而言,重点更在于稳健性。”
最近的一次更新使谷歌的巴德也能理解十几种阿拉伯方言的问题,包括埃及阿拉伯语和沙特阿拉伯语;然后使用现代标准阿拉伯语返回响应。
鲍德温说,Jais有130亿个参数,300亿个参数更新正在进行中。参数量化语言模型的大小,但不一定是准确性。据OpenAI称,ChatGPT-3.5有大约1750亿个参数。
鲍德温说,与其他生成式人工智能模型一样,Jais使用指令调整来防止它产生“有毒”或“有害”的答案。它不会产生任何可能导致自我伤害,伤害他人或暗示成瘾的东西。在同性恋和毒品等话题上,它产生的回应遵循当地的规则和习俗。
根据Baldwin的说法,MBZUAI与阿联酋政府和其他机构就负责任的人工智能进行了“各种对话”,在开发Jais时参考了这些对话。
区
最终的发展
阿联酋一直在努力开发生成式人工智能系统。2017年,它是世界上第一个任命人工智能部长的国家,阿布扎比先进技术研究委员会和技术创新研究所(TII)于3月推出了该地区最大的生成式人工智能模型Falcon,并于9月发布了新的版本。
据TII称,尽管目前还没有阿拉伯语版本,但Falcon比英语版本的Jais更强大,拥有1800亿个参数,并且基于其推理、编码和完成知识测试的能力,优于meta的LLaMA 2等竞争对手。与谷歌的Bard和ChatGPT不同,Falcon和Jais是开源的,这意味着任何人都可以使用或修改它们的代码。
咨询公司普华永道(PwC) 2018年的一份报告估计,到2030年,中东可能从人工智能中获得高达3200亿美元的收益。普华永道(PwC)中东首席数字官阿里?侯赛尼(Ali Hosseini)表示,该地区希望确保在人工智能方面拥有“自己的能力”。
“一些最好的开源模型实际上是在我们地区开发的,”Hosseini补充道,他提到了Falcon和Jais。
它的制造商希望Jais将进一步推动中东地区生成式人工智能的发展。鲍德温说:“这是未来许多步骤中的一步。”“不仅仅是阿拉伯语的大型语言模型,还有其他地方的模型。”