10月9日,中国商务部发布了最新稀土管制措施,结果让美国总统特朗普破大防了。按照最新规定,在世界任何地方制造的产品中若含有中国稀土价值比例达到0.1%...
2025-10-14 0
香港大学和香港中文大学的研究团队,最近搞出了个叫TreeSynth的东西,这玩意儿专门解决AI训练的大难题,没数据的时候咋提升模型表现,或者现有数据质量不行、分布不均的问题。
现在AI模型,越来越“挑食”,没好数据根本跑不起来,之前那些数据合成方案,我瞅着就像没规划的农夫瞎撒种,要么好地没种上,要么贫瘠地种一堆,纯属白费功夫。
他们把整个数据空间当成一棵大树的根,一层一层往下分分支,最后每个小分支(也就是叶节点)都对应一个独一无二的小数据区域,这些小区域不重叠,还能把整个数据空间都盖住,这个思路真的绝,之前没人这么干过。
本来想,数据合成不就是让模型多造点样本,后来发现根本不是这么回事,关键是得“规划”,不然造出来的全是重复的没用的东西。
TreeSynth干活分两步,先分割数据空间,再在小空间里造数据,第一步分割的时候,先让大语言模型(LLM)造点“标杆样本”,再让另一个LLM分析这些样本,定个分割标准,比如要造数学题数据,就先造几十道题,分析出“运算类型”是个好标准,然后按加减法、乘除法这些分。
但光有标杆样本不够,有些数据区域可能没覆盖到,无奈之下,团队又让模型补了些潜在的属性值,确保所有数据区域都能分到,这一步就像画地图,得把所有地方都标出来,不能漏一块。
分割完就到第二步,在每个小区域里造数据,这时候会把从根到这个小区域的路径描述告诉LLM,比如“GSM8K数学题-加减法-两步运算”,让模型照着这个约束造样本。
这样看来,这就像填色游戏,每个小区域填对应的颜色,既不会乱,又能填满整个图,我认为这招比传统方案聪明多了,传统方案就是瞎填,填哪儿算哪儿,最后一半地方是空的,一半地方颜色堆太厚。
有些数据集本来分布就不均,比如手写数字数据集里,0和1的样本多到用不完,8的样本少得可怜,TreeSynth能给这些数据建分割树,把每个样本分到对应的小区域里,多的区域就随机删掉点样本,少的区域就用它补点样本,最后数据就均衡了。
这对企业太实用了,能省不少人工标注的钱,毕竟标注数据可是个费钱费力的活儿,实战见真章!TreeSynth在数学、代码上都赢了,光说不练假把式,团队拿TreeSynth做了不少实验,数学推理、代码生成、心理学任务都试了。
就说GSM8K数学题生成吧,从“GSM8K风格数学题”这个根开始分,先按运算类型分成加减法、乘除法这些,再按难度分一步、两步、多步运算,最后造出来的题,每种类型都有,还很均匀。
之前,传统方案造1000道题,加减法能占六成,开方题可能就五成,多步骤混合运算更是直接漏了,但TreeSynth造的题,每种运算类型占比都差不多,多步骤的题也有,这才叫全面。
我觉得这对训练数学推理模型太重要了,模型见的题越全,做题能力才越强
TreeSynth在所有任务里表现都更好,有些任务甚至超过了人工标注数据,更厉害的是,数据规模越大,它表现越好,不像其他方案,数据多了反而重复率高、性能上不去,这说明TreeSynth在大规模数据合成上特别稳。
数据多样性也提升不少,有些测试里提升了快一半,用t-SNE可视化一看,TreeSynth造的数据在图上散得很均匀,其他方案的都堆在一块,这就能看出来,TreeSynth是真的解决了数据重复、分布不均的问题,不是瞎吹的。
总的来说,TreeSynth不光是给数据合成提供了个新方案,更重要的是换了个思路,从瞎造变成有规划地造,以后AI训练没数据、数据差的问题,怕是能靠它解决不少。
本来以为,它只能在文本、代码这些领域用,后来发现要是拓展到多模态数据,比如图片加文字,用处肯定更大,对AI研发团队来说,这玩意儿可不是简单的工具,更像是给模型训练“喂饱饭”的关键,能让模型跑得更快、更稳。
相关文章
10月9日,中国商务部发布了最新稀土管制措施,结果让美国总统特朗普破大防了。按照最新规定,在世界任何地方制造的产品中若含有中国稀土价值比例达到0.1%...
2025-10-14 0
世界各国政治领导人齐聚埃及,参加加沙停火协议签署仪式,由美国总统特朗普主持,埃及、卡塔尔、土耳其等调解伙伴出席。特朗普周一在埃及海滨度假胜地沙姆沙伊赫...
2025-10-14 0
你小时候吹泡泡是不是总觉得这玩意儿特脆弱?手指一碰、风一吹就破,对吧?但今天要聊的这个实验,能让细细的水流穿过泡泡膜,泡泡还完好无损,听着就像变魔术。...
2025-10-14 0
有时候家里蹲在饭桌前讨论点大事,“你说毛主席到底有没有打算让毛岸英当自己的接班人?”其实,这话题早就不是啥新鲜事,坊间传来传去,都曾被拿出来嚼过无数遍...
2025-10-14 2
说起杜特尔特这个人,在菲律宾政坛上绝对是个绕不开的话题。他生于1945年3月28日,马尼拉人,父亲是移民委员会主席,母亲来自莱特省的地主家庭。早年他读...
2025-10-14 4
“三天瘦五斤”听起来像救命稻草,其实是把肠子往悬崖边再推一把。2023年10月,北京28岁女生按网红模板断食清肠,第五天直接低钠昏倒进ICU,医生一句...
2025-10-14 5
联合国人道主义事务协调办公室发布声明称,自10月12日停火协议生效以来,向加沙地带提供人道主义援助取得了“切实进展”。声明特别提到,自今年3月以来,加...
2025-10-14 4
最近北京延庆挖出一座辽代铁厂,考古队一进去就愣了,炉子里的灰还热着,一测数据全变了,原来老祖宗打铁不是光靠力气,他们早把炉子、风箱、铁矿的门道摸透了。...
2025-10-14 4
发表评论