序言

《中华人民共和国著作权法》第二十四条 

在下列情况下使用作品,可以不经著作权人许可,不向其支付报酬,但应当指明作者姓名或者名称、作品名称,并且不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益:

(一)为个人学习、研究或者欣赏,使用他人已经发表的作品

本文中所使用的歌词,系出于学习和研究的目的。

如下:

万物情书 - 九三 词:小柒

如隔山海 - 九三 词:谢菲

外婆谣 - 九三 词:稻穗

问世 - 九三 词:清彦

夏日出逃 - 九三 词:文怿/殊桉

我奔赴一场未知 - 九三 词:小柒

给张云雷 - 九三 词:阿敏

失联星空 - 九三 词:青柠

前期准备

1.模型使用

请先参考快速开始学习完一个ModelScope模型的完整使用。

2.环境准备

· CentOS 7.7 64位

· Anaconda环境配置

请参考我的这篇文章:Linux下的Anaconda环境配置

官方文档

· Python环境配置

conda create -n modelscope python=3.7
conda activate modelscope

其他环境配置请参考:环境安装

3.歌词分析

首先使用StructBERT通用领域中文分词模型pipeline调用方式进行歌词分词,下面是一个单句歌词的分词数据示例:

from modelscope.models import Model 
frommodelscope.pipelines import pipeline 
frommodelscope.utils.constant import Tasks 
frommodelscope.preprocessors import
TokenClassificationPreprocessor pipeline_ins=pipeline(task=Tasks.word_segmentation) 
result = pipeline_ins(input="后来开始我一个人怀念") 
result:  {'output': '后来 开始 我 一个 人 怀念'}

通过对歌词的分词进行词频统计,得到的结果如下:

单词词频
我们16
一生11
一场10
不过10
星辰9
星河9
美丽9
一点点9
后来9
万物8
以为8
眼中8

同时,也可以使用python第三方库wordcloud库进行词云展示。

基于ModelScope中文分词模型的歌词分词和高频词统计

参考资料:https://blog.csdn.net/weixin_59448049/article/details/123712382

https://modelscope.cn/models/damo/nlp_structbert_word-segmentation_chinese-base/summary