“收到,正在做特征重要性排序。”张博士推了推眼镜,身后的程序员正在调整随机森林算法参数,实验室的白噪音中夹杂着键盘敲击声,“LASSO回归显示,前10个主因子贡献了78%的解释力,但审计师变更频率需要剔除。”
林语晨调出港股退市公司名单,红色标记覆盖了78%的条目,她的指尖在“供股次数”字段上停留:“供股次数>3次/年的标的,退市率是普通股票的12倍,”她的声音里带着量化分析师的敏锐,“08XX三年供股5次,完全符合模型预警条件,而且每次供股前都有量子算法诱多信号。”
王野突然指向回测曲线,袖口的电弧旧痕在屏幕蓝光下若隐若现:“加入‘大股东质押率>80%’因子后,AUC值从0.89提升至0.91,”他调出混淆矩阵,红色的真阳性率数字跳动着,“误报率下降12%,意味着每年可减少384次错误预警。”模拟交易界面上,“08XX”的预警信号在暴雷前12周准时亮起,与陈默记忆中的时间线分毫不差。
“关联交易占比>60%必须作为否决项。”陈默滑动鼠标,将港股通标的数据批量导入特征工程模块,“444章的案例里,富荣贸易的关联交易占比83%,最终成为资金转移的通道。”他的声音里带着一丝压抑的愤怒。
张博士在视频那头点头,举起一份反洗钱报告:“波士顿团队验证了跨境资金流动数据,老千股的关联交易中,73%涉及离岸壳公司资金循环,”他的手指划过屏幕上的资金流向图,“这些交易通常在季度末集中发生,制造营收假象。”
林语晨突然开口,婚戒在触摸屏上投下细小的光斑:“教育行业的应收账款周转天数阈值需要调整,内地‘双减’后,合规机构的周转天数中位数是68天,”她调出行业基准曲线,“模型设为120天更合理,否则会漏掉72%的异常标的。”
陈默想起那个攥着女儿病历本的年轻妈妈,她交割单上的“应收账款”栏目曾填满希望,最终却变成绝望的数字。“就按68天的200%设定,”他敲下回车键,确认键发出清脆的响声,“宁可错杀一千,不可放过一个——这是资本市场的生存法则。”
午间的阳光斜照在操作台上,陈默将散户联盟的交割单扫描件导入模型训练集。戴眼镜散户的80万港元交易记录出现在屏幕左上角,被自动标记为“高风险样本#2047”。
“这样做合规吗?”王野看着伦理审查弹窗,手指悬在“确认”键上方,袖口的旧伤因用力而发白,“隐私保护协议要求数据脱敏,但这些都是真实的人生。”
“匿名处理后的数据不会泄露身份,”陈默调出隐私保护协议,逐条划过模糊处理条款,“他们的苦难不该被遗忘,而应成为防御系统的基石。”他的声音低沉,“老张的交割单编号是HK,现在是训练集里的第47号样本。”
压力测试开始时,实验室的服务器发出低频轰鸣,像极了散户大厅里人群的低语。林语晨盯着实时报错率,睫毛在眼下投出阴影:“当同时触发‘关联交易>60%’和‘供股频率>2次/年’,模型响应时间0.3秒,正确率98%。”
“但港股通标的有3200只,”王野调出负载测试结果,红色的单机运算时间刺目,“单机运算需要47分钟,量子计算机可以压缩到12秒。”他摸出袖口的电弧旧痕,“我申请调用央行链的量子算力,这是目前唯一的解决方案。”
下午3点,模型正式命名为“千股指数”。陈默看着屏幕上滚动的风险因子,“董事持股3.2%”“审计师变更4次/年”等数据闪烁着红光,想起那位卖房子的散户——他的交割单编号“HK”正在训练集中循环迭代,成为“高风险”标签的注脚。
“我们需要一个网页版查询工具,”他对王野说,声音里带着罕见的温柔,“输入股票代码,30秒内返回危险等级,就像给散户一把照妖镜。”
“但量子算力成本很高,”张博士的声音带着学术谨慎,“按每次查询0.1元计算,覆盖百万用户需要...”
“老张在散户大厅说过,‘便宜没好货’,但免费的可能是武器。”林语晨转动婚戒,调出注册页面,“域名就叫‘老千股雷达’,服务器设在开曼群岛,带宽费用由我们承担。”她的手指在“免费使用”按钮上停留,“让数据成为散户的盾牌。”
深夜,当模型完成百万次回测时,实验室的应急灯将陈默的影子拉得很长。他在操盘日志里写下:“数据不会说谎,但说谎者会利用数据。”