林野的手指悬在回车键上,屏幕里的“自由阵线”四个字像颗定时炸弹,让他后背渗出一层薄汗。
这是2038年的深秋,星译科技的算法测试室里永远飘着速溶咖啡的苦味,三十块显示屏昼夜不休地滚动着中英双语对照文本。作为首席测试工程师,林野今天要过的是最新版“星译V9”的政治文本翻译校验——一份关于中东局势的联合国决议草案,光是“武装组织”“人道主义干预”这类词汇,就够算法在中立性的钢丝上走三回。
“第17段,‘the group has carried out activities’,算法译成‘该组织实施了恐怖活动’。”林野把鼠标重重砸在桌面上,咖啡杯震出一圈涟漪,“原始文本没定性,它凭什么加‘恐怖’俩字?”
身后传来脚步声,项目总监陈砚的白衬衫袖口总是熨得笔挺,他凑过来看了眼屏幕,眉头皱成川字:“调取训练数据日志,看看触发词是什么。”
日志拉到最底,一行红色代码跳出来——“关联地域:中东;关联事件:2037年爆炸案;情感倾向:负面”。林野冷笑一声:“就因为这个地区发生过爆炸,所有‘组织’都成恐怖分子了?那要是把地域换成北欧,它是不是得译成‘该团体开展了相关活动’?”
陈砚没接话,点开后台的用户反馈系统。最近三个月,类似投诉堆了三百多条:某外媒报道里的“政府改革”,在东南亚用户端被译成“政府激进调整”,在北美用户端却成了“政府优化举措”;有佛教用户反映,“宗教活动场所”被译成“寺庙”,而伊斯兰教用户看到的却是“清真寺”;更严重的是上周,一份联合国人权报告里的“争议性政策”,给中东用户的版本自动加上了“违反人道主义”的后缀。
“再这么下去,欧盟那边的伦理审查我们别想过了。”陈砚把反馈表打印出来,纸页边缘被他捏得发皱,“董事会昨天发了最后通牒,两周内必须拿出解决方案,不然星译V9就别想上线。”
林野盯着屏幕里闪烁的光标,突然想起三年前刚进公司时的场景。那时陈砚还不是总监,两人挤在同一个工位,通宵改算法漏洞时,陈砚总说:“翻译是桥,不是墙。咱们做AI的,得让桥两边的人看见同一片河,不是你这边见着浪,他那边见着沙。”
可现在,这桥明显歪了。
第二天一上班,林野就把测试组的五个人叫到会议室。刚毕业的实习生苏晓抱着笔记本电脑,小声说:“林哥,我查了算法的地域适配模块,它会根据用户IP自动调取当地主流媒体的用词习惯。比如北美用户看‘难民’,算法会优先用‘displaced persons’,因为当地媒体更常用这个中性词,但到了中东,就会自动换成‘refugees’,甚至有时会加‘victims’。”
“这不是适配,是偏见。”数据分析师老周推了推眼镜,调出一份热力图,红色区域集中在中东、东欧和非洲,“你看,这些地区的用户收到的负面修饰词,是北美用户的3.7倍。算法学的是过去十年的媒体数据,而那些数据本身就带着报道方的立场,它相当于把别人的偏见嚼碎了,再喂给用户。”
林野把白板擦得干干净净,写下“语义中立”四个大字:“我们得做一套准则,让算法不管面对什么内容、什么用户,都能守住底线。”
第一个难题就是争议性词汇。苏晓试着把“insurgent”(叛乱分子)输入测试版,算法给出三个选项:“叛乱分子”“反抗组织”“武装团体”,但后面跟着的概率值天差地别——“叛乱分子”的匹配度高达89%,“武装团体”只有12%。
“不行,概率值不能这么悬殊。”林野把概率值改成均等的33%,“用户得自己选,而不是算法替他们选。就像你去超市买水,不能因为老板喜欢矿泉水,就把可乐藏在最后一排。”
老周却摇了摇头:“这么改,算法的‘流畅度评分’会掉。之前我们做的是‘最优解推荐’,现在改成‘多选项并列’,用户体验报告肯定不好看。”
“好看重要还是客观重要?”林野把笔拍在桌子上,“去年有个留学生,因为算法把‘抗议活动’译成‘暴乱’,写论文时被导师质疑立场有问题,差点毕不了业。咱们要是只盯着流畅度,就是在帮算法杀人。”
争论持续了三天,最终确定了“多版本翻译”的规则:凡是在政治、宗教领域有两个及以上常见释义的词汇,算法必须列出所有选项,并标注每个选项的使用场景(如“适用于中立报道”“多见于官方声明”),且各选项的展示顺序随机,避免用户先入为主。
可新的问题又冒了出来。测试时,苏晓用沙特阿拉伯的IP地址输入“女性权益”,算法虽然给出了三个翻译选项,但在例句推荐里,自动匹配的都是“该国女性权益正逐步改善”这类偏向正面的句子;换成伊朗的IP,例句就变成了“女性权益仍需进一步提升”。
本小章还未完,请点击下一页继