常用代码总结


基础入门
暂时无法在飞书文档外展示此内容
镜像使用
- clash使用
- 使用hf-mirror进行下载数据集
1 | HF_ENDPOINT=https://hf-mirror.com python your_script.py |
Pipeline
介绍常见的使用方法
- 加载pipeline
- 设置类型,设置model,设置分词器,设置device
- 进行推理输出
1 | from transformers import pipeline |
Tokenizer
https://transformers.run/c2/2021-12-11-transformers-note-2/
参考这个,主要是进行介绍分词器的操作
主要的是attention_mask,input_ids还有labels
使用的流程
- 使用tokenizer进行传入string来进行编码
- 得到上述三个,然后ids是编码值,只有mask是1的才进行计算,计算的结果要与label来进行计算优化得到loss,一半使用的交叉熵来进行计算
主要是使用一个函数来把字符串转化为则三个dict,一般自己进构建也叫预处理

使用.map直接根据函数来进行转换,使用batch,表示可以进行批处理,之后移除掉不需要的列名
Model
model
上述的思维导图已经进行介绍了,主要就是根据不同的类型,加载不同的模型
python语法提示
model(**inputs),这个表示进行拆解inputs输入,并且按照所需要的参数,进行放置
其余的操作和之前的cv差不多,也是通过构建init,forward,来进行计算的。
只不过分为neck还有head,head就是全连接层,进行微调使用的
loss一般继承到了model里面
Dataset
这个是另外一个包,使用的Dataset还有load
1 | load_dataset("madao33/new-title-chinese") #在线进行加载数据集 |
进行划分数据集
1 | dataset.train_test_split(test_size=0.1) |
数据集抽取
1 | datasets["train"].select([0, 1]) |
第三方进行加载
1 | Dataset.from_pandas(data) |
datacollator介绍
进行对齐文本,使dataset输出的一样的额大小torch.Size([4, 128])
Evaluate
前面进行介绍的主要是使用
1 | import evaluate |
还需要进行构建计算的函数

Trainer
简化了自己进行写train函数的逻辑
通过arg设置保存的地方,lr还有epoch等相关超参数
1 | args = TrainingArguments( |
1 | trainer = Trainer( |
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.


