.:. 草榴社區 » 技術討論區 » AI 大模型的语言不平等:英语训练费用最便宜,汉语训练费用是英语的 2 倍
--> 本頁主題: AI 大模型的语言不平等:英语训练费用最便宜,汉语训练费用是英语的 2 倍 字體大小 寬屏顯示 只看樓主 最新點評 熱門評論 時間順序
古秦戰士


級別:新手上路 ( 8 )
發帖:12
威望:55 點
金錢:683 USD
貢獻:3 點
註冊:2007-01-01


AI 大模型的语言不平等:英语训练费用最便宜,汉语训练费用是英语的 2 倍



AI 大模型的语言不平等:英语训练费用最便宜,汉语训练费用是英语的 2 倍

 


近日,X(原 Twitter)用户 @Dylan Patel 展示了一份来自牛津大学的研究:通过对 GPT-4 和大多数其他常见 LLM 的语言进行研究,研究发现 LLM(大语言模型)推理的成本差异很大。
其中英语输入和输出要比其他语言便宜得多,简体中文的成本大约是英语的 2 倍,西班牙语的成本是英语的 1.5 倍,而缅甸掸语则是英语的 15 倍。
究其原理,可以追溯到今年 5 月份牛津大学在 arXiv 上刊印的一篇的论文。

 


词元是将自然语言文本转换成词元(token)序列的过程,是语言模型处理文本的第一步。在 LLM 计算力成本的核算中,词元越多,耗费计算力的成本越高。
毫无疑问,在生成式 AI 商业化的趋势下,计算力的耗费成本也会嫁接给用户,当下许多 AI 服务也正是按照需要处理的词元数量来计费。
论文显示,研究者通过分析 17 种词元化方法后,发现同一文本被转换成不同语言词元序列时长度差异巨大,即使是宣称支持多语言的词元化方法,也无法做到词元序列长度完全公平。
例如,根据 OpenAI 的 GPT3 tokenizer,倘若给「你的爱意」词元化,英语只需两个词元,而在简体中文中则需要八个词元。即使简体中文文本只有 4 个字符,而英文文本有 14 个字符。
从 X 用户 @Dylan Patel 曝光的图片也可以直观看到,让 LLM 处理一句英语需要 17 个词元(tokens),而让 LLM 处理同样意思的一句缅语,则需要 198 个词元(tokens)。这意味着缅语的处理成本将达到英语的 11 倍。
类似的情况也有很多,Aleksandar Petrov 的网站中提供了许多相关的图标和数据,感兴趣的朋友不妨点击「https://aleksandarpetrov.github.io/tokenization-fairness/」进去查看语言之间的差异。
在 OpenAI 的官网上也有着类似的页面,解释了 API 是如何对一段文本进行词元化,以及显示该文本的词元总数。官网也提到,一个词元通常对应英语文本的约 4 个字符,100 个词元约等于 75 个单词。

 


得益于英语词元序列长度短的优势,在生成式人工智能预训练的成本效益方面,英语可谓是最大赢家,将其他语言使用者远远地甩在身后,间接产生了一种不公平的局面。
除此之外,这种词元序列长度的差异也会导致处理延迟不公平(某些语言处理同样内容需要更多时间)和长序列依赖性建模不公平(部分语言只能处理更短的文本)。
简单点理解,就是某些语言的用户需要支付更高的成本,承受更大的延迟,获得更差的性能,从而降低了他们公平地访问语言技术的机会,也就间接导致了英语使用者和世界其他语言使用之间形成了 AI 鸿沟。
仅从输出的成本来看,简体中文的成本是英语的两倍。伴随着 AI 领域的深层次发展,总是「差一步」的简体中文显然并不友好。在成本等各方面叠加因素的权衡下,非英语母语的国家也纷纷尝试开发自己的母语语言大模型。

 


以中国为例,作为国内最早一批探索 AI 的巨头,2023 年 3 月 20 日,百度正式上线生成式 AI 文心一言。
随后阿里巴巴的通义千问大模型、华为的盘古大模型等一批批优秀大模型也陆续涌现出来。
在这当中,华为盘古大模型中的 NLP 大模型更是行业内首个千亿参数中文大模型,拥有 1100 亿密集参数,经过 40TB 的海量数据训练而成。
正如联合国常务副秘书长阿米娜 · 穆罕默德曾经在联合国大会上警告说,如果国际社会不采取果断行动,数字鸿沟将成为「不平等的新面孔」。
同理,伴随着生成式 AI 的狂飙突进,AI 鸿沟也很有可能成为新一轮值得关注的「不平等的新面孔」。
所幸的是,平时「惨遭嫌弃」的国内的科技巨头已然采取了行动。

赞(23)
DMCA / ABUSE REPORT | TOP Posted: 08-01 23:44 樓主 引用 | 發表評論
秋韵


級別:聖騎士 ( 11 )
發帖:3257
威望:413 點
金錢:818 USD
貢獻:21185 點
註冊:2019-01-06


感谢分享
TOP Posted: 08-02 00:04 #1樓 引用 | 點評
haogao


級別:騎士 ( 10 )
發帖:2121
威望:339 點
金錢:38249 USD
貢獻:1070 點
註冊:2015-10-04

还好,适度
TOP Posted: 08-02 00:06 #2樓 引用 | 點評
Mf-sor


級別:精靈王 ( 12 )
發帖:9966
威望:1007 點
金錢:15005 USD
貢獻:104 點
註冊:2013-12-03

谢谢分享
TOP Posted: 08-02 00:07 #3樓 引用 | 點評
我射射你


級別:新手上路 ( 8 )
發帖:109
威望:11 點
金錢:384 USD
貢獻:0 點
註冊:2023-07-30

推突然改名了,差点没认出来,
TOP Posted: 08-02 00:08 #4樓 引用 | 點評
这是个问题啊


級別:精靈王 ( 12 )
發帖:31441
威望:3155 點
金錢:5 USD
貢獻:16676 點
註冊:2021-01-01

感谢分享
TOP Posted: 08-02 00:18 #5樓 引用 | 點評
沉睡的木玛


級別:精靈王 ( 12 )
發帖:31441
威望:3155 點
金錢:3 USD
貢獻:16676 點
註冊:2018-11-16

谢谢分享
TOP Posted: 08-02 00:18 #6樓 引用 | 點評
鸭打鹅


級別:精靈王 ( 12 )
發帖:22361
威望:2165 點
金錢:3 USD
貢獻:11019 點
註冊:2022-02-02

支持发帖
TOP Posted: 08-02 00:18 #7樓 引用 | 點評
李浪君


級別:騎士 ( 10 )
發帖:4237
威望:424 點
金錢:64063 USD
貢獻:1000 點
註冊:2019-05-13

什么时候手机能装啊
TOP Posted: 08-02 00:41 #8樓 引用 | 點評
張震嶽


級別:騎士 ( 10 )
發帖:2725
威望:350 點
金錢:68 USD
貢獻:2400 點
註冊:2019-10-24

感谢分享,勿忘提肛。
TOP Posted: 08-02 00:52 #9樓 引用 | 點評
深渊两腿之间


級別:聖騎士 ( 11 )
發帖:2272
威望:228 點
金錢:143 USD
貢獻:30001 點
註冊:2022-03-13

谢谢分享
TOP Posted: 08-02 06:43 #10樓 引用 | 點評
子树


級別:禁止發言 ( 8 )
發帖:24198
威望:2460 點
金錢:34252 USD
貢獻:0 點
註冊:2022-11-15


感谢分享
TOP Posted: 08-02 07:03 #11樓 引用 | 點評
白贲


級別:聖騎士 ( 11 )
發帖:3356
威望:371 點
金錢:10944 USD
貢獻:25000 點
註冊:2023-02-23

感谢分享
TOP Posted: 08-02 07:35 #12樓 引用 | 點評
大河


級別:俠客 ( 9 )
發帖:1037
威望:104 點
金錢:1101 USD
貢獻:0 點
註冊:2021-10-23

1024
TOP Posted: 08-02 14:18 #13樓 引用 | 點評
qqq0623


級別:精靈王 ( 12 )
發帖:30241
威望:2947 點
金錢:1947722 USD
貢獻:1137 點
註冊:2011-06-06

感谢分享r
TOP Posted: 08-02 16:28 #14樓 引用 | 點評
知名干部


級別:禁止發言 ( 8 )
發帖:1025
威望:105 點
金錢:2461 USD
貢獻:0 點
註冊:2023-05-22

楼主有心,感谢分享
TOP Posted: 08-02 17:20 #15樓 引用 | 點評
妹力十足


級別:新手上路 ( 8 )
發帖:934
威望:94 點
金錢:1982 USD
貢獻:0 點
註冊:2023-06-24

感谢作者的分享
TOP Posted: 08-02 20:54 #16樓 引用 | 點評
吉尔


級別:禁止發言 ( 8 )
發帖:2541
威望:255 點
金錢:3269 USD
貢獻:0 點
註冊:2022-03-26


谢谢坛友分享
TOP Posted: 08-03 00:31 #17樓 引用 | 點評
yudi90


級別:俠客 ( 9 )
發帖:965
威望:98 點
金錢:9 USD
貢獻:7866 點
註冊:2010-01-17

1024
TOP Posted: 08-03 00:34 #18樓 引用 | 點評
我爱吃锅盔


級別:聖騎士 ( 11 )
發帖:2353
威望:651 點
金錢:20468 USD
貢獻:915 點
註冊:2022-10-24

感谢分享。
TOP Posted: 08-03 00:40 #19樓 引用 | 點評
东方魔尊


級別:光明使者 ( 14 )
發帖:4661
威望:422 點
金錢:1605577 USD
貢獻:850000 點
註冊:2011-06-06

据说国家开始封GTP程序了。
TOP Posted: 08-03 00:41 #20樓 引用 | 點評
宫商角徵


級別:俠客 ( 9 )
發帖:963
威望:127 點
金錢:1234 USD
貢獻:0 點
註冊:2022-05-16

角度可以
TOP Posted: 08-03 00:44 #21樓 引用 | 點評
美胸控


級別:禁止發言 ( 8 )
發帖:9818
威望:983 點
金錢:14378 USD
貢獻:0 點
註冊:2019-02-23

不错,点赞了
TOP Posted: 08-03 01:47 #22樓 引用 | 點評
囧囧侠


級別:聖騎士 ( 11 )
發帖:2607
威望:365 點
金錢:14394549 USD
貢獻:20203 點
註冊:2011-10-11


感谢你的分享
TOP Posted: 08-03 01:59 #23樓 引用 | 點評
新诗旧梦


級別:俠客 ( 9 )
發帖:2871
威望:288 點
金錢:32903 USD
貢獻:309 點
註冊:2017-08-08

涨知识了
TOP Posted: 08-03 04:39 #24樓 引用 | 點評

.:. 草榴社區 -> 技術討論區

快速回帖 頂端
內容
HTML 代碼不可用

使用簽名
Wind Code自動轉換

按 Ctrl+Enter 直接提交