Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[WeeklyReports] 2023.11.22~2023.12.05 周报汇总 #102

Closed
20 tasks done
MarioLulab opened this issue Dec 6, 2023 · 20 comments
Closed
20 tasks done

[WeeklyReports] 2023.11.22~2023.12.05 周报汇总 #102

MarioLulab opened this issue Dec 6, 2023 · 20 comments
Assignees
Labels
weekly reports weekly report commits from members

Comments

@MarioLulab
Copy link
Collaborator

MarioLulab commented Dec 6, 2023

[WeeklyReports] 2023.11.22~2023.12.05 周报汇总

请各位学员在本 issue 下以 comment 的形式填写周报摘要,ddl 本周四晚,格式示例如下:

### 姓名

xxx

### 本周工作

1. xxx
2. xxx
 
### 下周工作

1. xxx
2. xxx

### 详细周报链接:

- https://github.com/PFCCLab/Camp/pulls/xxx

完成情况:

项目一:算子规范和 ProgramTranslator 功能优化

项目二:新 IR Pass 建设和依赖的核心组件完善

项目三:新 IR API + 自动微分推全和核心组件完善

项目四:组合机制前反向架构统一

项目五:算子支持复数计算专项

项目六:量化算子集成

项目七:开源模型加速复现

项目八:CPU 融合算子 / GPU 算子融合 pass

项目九:动态图半自动并行架构研发

项目十:静态图半自动并行执行架构升级

项目十一:分布式能力矩阵建设

项目十二:全自动并行架构升级

项目十三:科学计算领域拓展专项

项目十四:Clas 套件全流程建设

项目十六:Nougat 复现及优化

项目十七:NLP 大模型复现

- [ ] @rampage0303@w5688414

项目十八:套件压缩能力建设

项目十九:PIR 适配 AI 编译器 CINN

项目二十:PIR 子图验证+核心机制完善

项目二十一:PIR 核心组件建设与机制完善

项目二十二:PIR 动转静组件建设与单测验证推全

项目二十三:模型迁移工具建设

@MarioLulab MarioLulab added the weekly reports weekly report commits from members label Dec 6, 2023
@AndSonder
Copy link
Collaborator

AndSonder commented Dec 6, 2023

姓名

卢畅

实习项目

静态图半自动并行执行架构升级

本周工作

本周对可视化工具进行收尾工作并着手进行静态图性能优化的准备工作,主要内容如下:

1. Llama2适配工作收尾

相关PR:

2. 修复可视化工具中的逻辑bug

相关PR:

3. 学习分布式论文

学习了一些分布式相关的论文,主要包括:

1)Efficient large-scale language model training on gpu clusters using megatron-lm

2)Megatron-LM- Training Multi-Billion Parameter Language Models Using Model Parallelism

3)Zero: memory optimizations toward training trillion parameter models

4. 将通信算子注册到PHI

相关PR:

5. 更新可视化工具使用文档

相关PR:

6. 着手准备静态图性能优化工作

在多卡环境下跑通LLama2,由于显存受限因此先hack一下代码,在实际run之前直接exit退出,不实际跑模型就不会有临时变量的显存占用。通过调整num_hidden_layers,调一个在这个hack的情况下刚好能跑起来的PP2MP2的配置。

下周工作

1、分析LLama2模型run之前的耗时,挖掘程序的耗时热点,看哪部分耗费时间比较多需要专门优化

详细周报链接:

@RedContritio
Copy link
Contributor

姓名

刘宇博

本周工作

api 单测补充与完善

PR:
- https://github.com/PaddlePaddle/PaConvert/pull/335
- https://github.com/PaddlePaddle/PaConvert/pull/338
- https://github.com/PaddlePaddle/PaConvert/pull/339
- https://github.com/PaddlePaddle/PaConvert/pull/342
- https://github.com/PaddlePaddle/PaConvert/pull/343
- https://github.com/PaddlePaddle/PaConvert/pull/344
- https://github.com/PaddlePaddle/PaConvert/pull/345

下周工作

  1. 继续修复完善单测,提高用例覆盖面;
  2. 继续补充映射表 api_mapping.json
  3. 维护设计不合理的 Matcher

详细周报链接

@MarioLulab
Copy link
Collaborator Author

姓名

陆琦

本周工作

  1. 维护第三期的 PIR 迁移的任务,为开发者提供答疑和 pr review,review 6 个 PR。新增 253-315 号子任务
  2. 完成 3 个 PIR 迁移的 PR,推进 1 个 PIR 迁移的 PR
    相关 PR :
  1. 完善 PIR API 相关机制
  1. 支持动静半架构升级工作

下周工作

  1. 与外部开发者协作沟通,管理任务发布, review PR, 答疑和 bug 修复 issue,推进 PIR API 的推全验证工作
  2. 加速推进 API PIR 下的迁移工作
  3. 完成 code reading 笔记
  4. 迁移 PyLayer Op 到 PIR 体系下
  5. expand_v2 spmd 规则添加

详细周报链接:

@Wanglongzhi2001
Copy link
Contributor

Wanglongzhi2001 commented Dec 6, 2023

姓名

王龙志

本周工作

  1. 编写完善 weight_only 的 PIR 的 pass
    相关PR:
  1. 迁移 quant_linear_fuse_pass 到 PIR
  2. 对 quant_linear_fuse_pass 在 bert 上进行性能分析

下周工作

  1. 完成 quant_linear_fuse_pass 的 PIR 的迁移
  2. 分析原生量化推理在 bert 模型上的性能瓶颈给出详细性能分析报告

详细周报链接:

@DrRyanHuang
Copy link
Contributor

DrRyanHuang commented Dec 6, 2023

姓名

RyanHuang

本周工作

第一批 API 迁移升级至 pir工作收尾完成

第二批 API 迁移升级至 pir工作

261、273、283、285、286、313、315、258、282、295、299、307

pr链接

[Dy2St] 15个 enable_to_static_guard 推全任务以及该 issue 对应 PR 的 review:

PIR 动转静组件单测问题摸底收尾:

下周工作

  1. 新IR Python API适配升级收尾工作
  1. 继续进行 PIR 动转静理想态单测推全验证
  1. 继续进行 cinn 相关源码阅读

详细周报链接:

@psky1111
Copy link
Contributor

psky1111 commented Dec 7, 2023

姓名

宋铠玉

本周工作

动转静验证收尾
RAM前向对齐

下周工作

完成RAM,RAM++前向对齐且完成验证

详细周报链接:

@zrr1999
Copy link
Contributor

zrr1999 commented Dec 8, 2023

姓名

詹荣瑞

本周工作

  1. 优化代码生成机制,添加部分数据类型检查的生成机制
  2. 迁移部分算子到 PIR
    • cond:2/2
    • repeat_interleave: 5/5

相关PR:

下周工作

  1. 优化代码生成机制,定义新的错误类型。
  2. 优化代码生成机制,解决一些遗留问题。

详细周报链接:

@xingmingyyj
Copy link
Contributor

xingmingyyj commented Dec 8, 2023

姓名

朱新明

实习项目

算子规范和ProgramTranslator功能优化

本周工作

1.将算子单测修复issue发布社区

2. 已修复下列单测:

test_decayed_adagrad_op
test_activation_op
test_tril_triu_op
test_row_conv_op
test_tdm_sampler_op
test_shuffle_batch_op

3. 正在修复下列单测

test_fake_quantize_op
test_matrix_rank_op
test_sgd_op_bf16

下周工作

1.根据推全名单继续修复Op单测

2.修复分布式算子c_softmax_with_cross_entropy相关单测

3.统计需要修复的分布式算子单测并区分修复难度

4.修复PIR OpTest: not found问题

详细周报链接

#113

@ranchongzhi
Copy link
Contributor

姓名

冉崇治

本周工作

为PaddleOCR套件接入自动化压缩功能,主要完成PPOCRV4检测模型的压缩与推理,并尝试解决其中的报错。
相关PR:

下周工作

完善PaddleClas中剩下两个模型的ACT流程,提交对应的PR

详细周报链接:

@SecretXV
Copy link
Contributor

姓名

SecretXV

本周工作

  1. 完成mp + sharding stage2/stage3梯度累计相关单测验证添加
  2. 完成sp + sharding stage2/stage3梯度累计相关单测验证添加

下周工作

  1. 参与并行策略精度验证相关工作

详细周报链接:

@xusuyong
Copy link
Contributor

姓名

徐苏勇

本周工作

  1. 学习deepmd-kit
  2. 修改water_tensor案例代码为paddlepaddle形式

下周工作

  1. 修改water_tensor的测试部分代码

详细周报链接:

@zyt1024
Copy link
Contributor

zyt1024 commented Dec 11, 2023

姓名

张玉涛

本周工作

下周工作

  • 修复assgin_value的中存在的CI问题

  • 修复fill_constant和fill_any_like中复数测试存在的问题

详细周报链接:

@DanGuge
Copy link
Contributor

DanGuge commented Dec 11, 2023

姓名

吴晨灿

本周工作

  1. 学习PaddleNLP动态图推理流程
  2. 实现算子融合版Qwen大模型

下周工作

  1. 对齐Qwen大模型精度

详细周报链接:

@kevincheng2
Copy link
Contributor

姓名

程延福

本周工作

  1. 完成 pow、full_like、stack、unsequeeze 算子的前向拆解下沉
  2. 完成组合机制前反向架构统一的分享
  3. 整理开发文档

相关PR和分享资料:

下周工作

  1. 组合机制部分反向算子的迁移工作
  2. 整理代码阅读过程中的常见问题
  3. 准备答辩

详细周报链接:

@Corle-hyz
Copy link
Contributor

姓名

何咏哲

本周工作

  1. Llama显存模型代码实现
  2. 在已有数据集上验证模型的准确性
  3. 修正模型公式

下周工作

  1. 继续考虑PP、TP等并行模式对梯度、参数和优化器状态的显存占用的影响,完善Llama显存模型

详细周报链接:

@yangguohao
Copy link
Contributor

姓名

杨国浩

本周工作

  1. 修复 pir 下 sequence_mask op 【PIR】add sequence_mask in pir PaddlePaddle/Paddle#59348
  2. 定位其他多个 Op 问题,已由他人修复

下周工作

  1. 模型动转静性能优化
  2. 成功安装运行 nsight 软件 复现模型动转静测试结果

详细周报链接:

@zhangyuqin1998
Copy link
Contributor

姓名

张钰钦

本周工作

  1. 完成常量折叠对多输出Op的支持 [pir]Supporting multi-output for constant_folding_pass PaddlePaddle/Paddle#59728

  2. 完成技术分享-Op体系串讲

下周工作

  1. 设计常量折叠对训练的支持
  2. 学习cinn

详细周报链接:

@Xinyu302
Copy link
Contributor

姓名

杨新宇

实习项目

CPU 融合算子 / GPU 算子融合 pass

本周工作

  1. 在resnet50, swintransformer等模型上验证了自动混精pass
  2. 针对复杂的模型,对特殊的op进行特殊处理后可以正常运行,但是可拓展性差。
    只对计算图遍历一遍的方式一是计算图后面的op无法操作影响前面op的精度,二是部分op需要更个性化的方式判断其运行的精度。进行重构,使用老自动混精pass的思想,先判断出op应该运行在的精度再进行改写

下周工作

  1. 完成重构
  2. 增加调优的功能。

详细周报链接

#127

@Frida-a
Copy link
Contributor

Frida-a commented Dec 20, 2023

姓名

侯悦欣

本周工作

  1. PaConvert 转换源码
  2. 环境准备与依赖库代码移植

下周工作

  1. 完成前向对齐

详细周报链接:

@Ligoml Ligoml closed this as completed Dec 21, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
weekly reports weekly report commits from members
Projects
None yet
Development

No branches or pull requests