基于ModelScope中文分词模型的歌词分词和高频词统计
序言
《中华人民共和国著作权法》第二十四条
在下列情况下使用作品,可以不经著作权人许可,不向其支付报酬,但应当指明作者姓名或者名称、作品名称,并且不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益:
(一)为个人学习、研究或者欣赏,使用他人已经发表的作品
本文中所使用的歌词,系出于学习和研究的目的。
如下:
万物情书 - 九三 词:小柒
如隔山海 - 九三 词:谢菲
外婆谣 - 九三 词:稻穗
问世 - 九三 词:清彦
夏日出逃 - 九三 词:文怿/殊桉
我奔赴一场未知 - 九三 词:小柒
给张云雷 - 九三 词:阿敏
失联星空 - 九三 词:青柠
前期准备
1.模型使用
请先参考快速开始学习完一个ModelScope模型的完整使用。
2.环境准备
· CentOS 7.7 64位
· Anaconda环境配置
请参考我的这篇文章:Linux下的Anaconda环境配置
或官方文档
· Python环境配置
conda create -n modelscope python=3.7
conda activate modelscope
其他环境配置请参考:环境安装
3.歌词分析
首先使用StructBERT通用领域中文分词模型pipeline调用方式进行歌词分词,下面是一个单句歌词的分词数据示例:
from modelscope.models import Model
frommodelscope.pipelines import pipeline
frommodelscope.utils.constant import Tasks
frommodelscope.preprocessors import
TokenClassificationPreprocessor pipeline_ins=pipeline(task=Tasks.word_segmentation)
result = pipeline_ins(input="后来开始我一个人怀念")
result: {'output': '后来 开始 我 一个 人 怀念'}
通过对歌词的分词进行词频统计,得到的结果如下:
单词 | 词频 |
---|---|
我们 | 16 |
一生 | 11 |
一场 | 10 |
不过 | 10 |
星辰 | 9 |
星河 | 9 |
美丽 | 9 |
一点点 | 9 |
后来 | 9 |
万物 | 8 |
以为 | 8 |
眼中 | 8 |
同时,也可以使用python第三方库wordcloud库进行词云展示。
参考资料:https://blog.csdn.net/weixin_59448049/article/details/123712382
https://modelscope.cn/models/damo/nlp_structbert_word-segmentation_chinese-base/summary
刘天棋
穷且益坚,不坠青云之志。
版权属于:
万里阁博客-编程,社会与生活 的博客
本文链接:
https://www.stgit.cn/index.php/archives/26/
作品采用:
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可