异步联邦(一)
写在开头
论文来源:https://doi.org/10.1016/j.cosrev.2023.100595. 论文标题:Asynchronous federated learning on heterogeneous devices: A survey
正文
AFL的诞生
FL算法的缺陷 1
设备不可靠性(意外脱机)。
聚合效率降低:延迟等待速度较慢的本地模型(设备异构性与数据分布不均匀)。
资源利用率低:由于算法的不完善,一些计算能力较强、资源较丰富且能够有效贡献于模型训练的设备(即胜任设备)可能很少被选中参与训练过程。
安全隐私漏洞。
AFL算法的改进
中央服务器在收到本地模型后 立即启动全局模型聚合 这意味着AFL可以忽略意外脱机的设备,因此减轻了对设备不可靠性的担忧。 而通过在聚合之前无需等待慢速设备上传本地模型,AFL则提高了聚合效率。
对于异构设备,AFL还允许具有不同运营效率的设备按照自己的节奏训练各自的本地模型,从而提高了异构设备之间计算资源的利用率。
AFL的相关论文
AFL 的主要障碍在于优化异构设备的资源利用率以提高训练 ...
Chatglm3-6Bの小白利用方法
写这篇blog的时候GLM-4-9B也开源了,性能看描述比6B好了很多。 但是还没尝试,但是看AutoDL上已经有弄好的社区镜像了,估计可以尝试。
快速部署上云
考虑到如果只是做个toy,然后toy又希望搞点比如微调之类的二次开发,但又不想老老实实地在自己服务器上配环境,那最简单的方式其实就是镜像。
腾讯云
网址如下 https://buy.cloud.tencent.com/hai 随后在选择应用上选择ChatGLM3 6B即可,然后GPU一定选进阶型(不过之前用过是V100来着) 创建完实例以后,进去以后环境方面基本无需担心。
AutoDL
网址如下 https://www.autodl.com/create 算力在购买界面拉到下面选社区镜像,算力提供了3090,L20,V100,A800,可以租多卡,建议多卡
直接测试
cli_demo里的是脚手架的测试,给出命令行交互 进basic_demo跑web_demo_gradio.py会给出网页(但是服务器上一般用不到)
微调
进finetune_demo目录,config下给出了 SFT 全量微调,P-Tunin ...
练笔-3
元素
演讲,寻物比赛
故事卡
歪打正着
情节构筑
一场由都市举办的寻物比赛,获胜者可以获得晋升到下一阶级的机会 地点是一片废墟,但其实这里是被疯狂浸染过的过去的城市,因为冤魂而起勉强存在的正常的作息幻影 实际上这片地区远古战争的后人的虚影,是被“老师”勉强支持着,人们通过欺骗自己还是正常的生活,想要看到未来 外来者进入废墟寻宝 而主角因为看着这群和自己一样有着浸染过疯狂经历的人有所想,使用自己曾获得的灵魂演讲能力,想要让这里的人知道都市已经暂时逃离了疯狂的浸染,他们已经看到了未来。 于是主角获得了这群人收藏的最珍贵的东西——魂
反思
演讲也可以是忽悠方向的 寻物比赛不一定是比赛形式,比如安保找杀手也可以某种意义上算
更好的思路,寻物比赛是阴谋,男主靠嘴炮同时忽哟正派反派一起帮自己找
更好的思路,面对任务一开始高速移动搜查,后来想是被隐藏了,不好找,正在思考时,被演讲者吐槽主角大范围搜查对社会的危害,正当他得意洋洋主角不能随意出手的时候,他女儿被人抢走,他十分着急,主角想孩子是无辜的,于是追了过去,把孩子救了回来,在任务汇报时报告了事情,最终因为过程中的亮眼表现被收 ...
RelDDPM-高质量数据可控生成
论文来源:https://doi.org/10.1145/3639283
问题背景
可控表格数据合成技术能够在多种场景下提供帮助,它使得用户可以根据自己设定的条件来生成数据。 例如,用户可以指定生成的数据中某些字段的值必须符合特定的要求(预定义属性值),或者生成的数据需要与另一个已有的数据表(外部表)在某种特征上存在一定关联性。 这种技术在数据保护、数据分析和机器学习等领域非常有用,因为它可以在不泄露真实数据隐私的情况下,帮助研究人员和开发人员获得所需的数据样本。 而上述可控表格数据合成技术的功能可以总结为表内数据增强与表间数据增强两种形式的目的。
问题分析
对表格数据的分析
表格数据是一种数据组织形式,它将信息排列在表格中,表格由行(记录)和列(字段)组成。每一列通常对应数据的一个属性或特征,比如人的姓名、年龄、地址等。每一行则代表一个数据实例或记录,包含了所有列属性的具体值。这种数据结构非常常见,易于查询和分析,因此被广泛应用于数据库、电子表格、数据科学和商业智能等领域。 下面给出的表格数据的一些共性,这些特性会影响之后可控表格数据合成技术的分析:
异质性:表格数据 ...
练笔-2
元素
战场,河流(我靠,漏了)
故事卡
慧眼识真
正文
接收到零号死亡的消息的时候,18号握着饮料的手微微一颤,溅了几滴到移动终端的通讯大屏上。 18号掏出纸擦了擦屏幕,没看错,这条公告是转发到“街道”内部的内部聊天系统的,是管理员发的,看上去也没有开玩笑的意思。 “根据公会的指示,街道立即成立了以133号为首的督查组,并于2177年8月14日13点30分在浪人餐馆遇见知名连环杀人案凶手X,并对其立刻进行了抓捕。经过紧急部署和有效行动,督查组成功将X击伤。在逃至民居后,凶手上吊自杀身亡。” 上吊自杀? 好像也对,毕竟前100型号的机器人为了更加贴合人类的特征,使用的仿身材料并没有后来在《人格修正案》之后产出的机器人那样坚固,本质上和正常人能负载的重量是差不多的。 还有对于机器人而言宛若梦魇的情绪模拟模块,似乎产生畏罪自杀的情绪也是正常的。 “所以他真的自杀了?在连续犯案之后?督查组的实力非常强大,尤其是133号搭载了目前最先进的R-113型号的机械臂铠脉冲炮,似乎也很正常的?”18号喃喃自语道,不过他的记忆中不断复现一个月前和零号在街角缠斗的细节..... 感觉脑子好痒。 所 ...
联邦学习初见(二)
参考实现:https://github.com/shaoxiongji/federated-learning
首先给出FedAVG的目录 接着下面逐步解析其中的作用
data
在此同样使用MNIST数据集
MNIST是一个大型手写数字数据库,常用于训练各种图像处理系统。它包含60,000个训练样本和10,000个测试样本,每个样本是一个28x28像素的灰度图像,表示从0到9的手写数字。MNIST数据集是机器学习和计算机视觉领域的经典数据集,常用于图像分类和模式识别任务。
models
Fed.py
1234567def FedAvg(w): w_avg = copy.deepcopy(w[0]) #深拷贝 for k in w_avg.keys(): for i in range(1, len(w)): w_avg[k] += w[i][k] w_avg[k] = torch.div(w_avg[k], len(w)) return w_avg
首先是非常好理解的一个函数代码,就是对于每一个参数 ...
联邦学习初见(一)
写在开头
初学联邦学习喵,稍微记录一些内容,参考了开山论文和综述论文,不过大体也是以尝试复现一下FedAVG的代码结尾
正文
联邦学习是什么
首先考虑到该领域的开山论文《Communication-Efficient Learning of Deep Networks from Decentralized Data》,论文中提到 > We advocate an alter-native that leaves the training data distributed onthe mobile devices, and learns a shared model byaggregating locally-computed updates. We termthis decentralized approach Federated Learning. 简单翻译过来就是将通过将机器学习的数据存储和模型训练阶段转移至本地用户,仅与中心服务器交互模型更新,这种去中心化的方法就是联邦学习了。
联邦学习的背景
手机或平板电脑等设备存储了大量的私人数据,并且可服务于更加智能的场景 ...
练笔-1
练练笔 # 元素
图书馆 黄昏
故事卡
开端
正文
傍晚的天空并不阴暗,而是有一种明丽的蓝色,“都市”在夕阳的照射下,染上了一层薄薄的红晕。
随着黄昏的到来,属于“都市”的原住民们总会躲进自己的家中,这样他们就能避开那些伴随着深夜到来,自都市的隐秘角落出来觅食的魑魅魍魉。
那些昼伏夜出的东西就像是属于“都市”的清道夫,清扫着城市里的各种垃圾。
当然,这里的垃圾并不是指大家习惯上的垃圾,没有居所的偷渡客,或是没了解过都市之夜是什么内容的外乡人,都是他们狩猎的对象。
考虑到“都市”并不存在边境检查所之说,有大量的偷渡客想要来到这片上层空间富丽堂皇的地区,虽然他们必须从下层空间做起,不过他们只要遵循好“都市”的规则,白天避开辖区的巡逻安保机器人就好。
至于晚上?偷渡客很多的,狩猎的家伙们总能吃饱,只要能确保自己跑得比别人快就行了。
不过他们也有另一个选择,那就是公共场所,比如图书馆,室内开放公园之类的地方,这些地方狩猎的家伙们并不会明目张胆地闯入,而图书馆除了这些并不体面的怪物之外,并不排斥那些偷渡客,书籍只索求知识————而它们更喜欢便捷地获取知识。
吴乾数过,这是 ...
zjuterの大学回忆录
写这玩意的时候人已经在家里了(果然还是家里舒服)。 说起来,一直不搞博客的原因归根结底是那一个贯穿于我的大学生活的理由:“懒”,至于现在为什么开始写了,当然是因为现在有了空闲的时间了(笑)。
鲨鱼の理想时期
总体而言,对于那时的我,一个尚未入学的新生来说,入学前始终缠绕在脱离高考苦海的想法之上的东西无非两件事情,其一是高考失利带来的遗憾,其二是面对自己要就读一所地域优势型大学的事实,产生了对规划的一种倦怠感。
分数是肯定能上计算机的,并没有更多变数,当然结果也是意料之中,不是捡漏的幸运儿,所以暑假快泡烂掉的时候,想想要不提前学学技术好了。
那时我逛知乎已经很久了,关注的内容从古早的*《高考还有一年怎么复习》*一直到*《高考还有一个月怎么复习》*,理所当然,搜索的问题也变成了,*《如何高质量地度过计算机专业的大学四年》*。
**绩点**,**竞赛**,**综测**,**科研**,**证书**
这五样东西无疑是大学必须面对的东西,正如高中我们必须面对自己的考试成绩那样。虽说高中只要你沿着一条固定的路子走远就行,而大学没有给你这条路,你得自己找路然后走远————当然是这样的,只是 ...