基于ModelScope中文分词模型的歌词分词和高频词统计

序言

《中华人民共和国著作权法》第二十四条　

在下列情况下使用作品，可以不经著作权人许可，不向其支付报酬，但应当指明作者姓名或者名称、作品名称，并且不得影响该作品的正常使用，也不得不合理地损害著作权人的合法权益：

（一）为个人学习、研究或者欣赏，使用他人已经发表的作品

本文中所使用的歌词，系出于学习和研究的目的。

如下：

万物情书 - 九三词：小柒

如隔山海 - 九三词：谢菲

外婆谣 - 九三词：稻穗

问世 - 九三词：清彦

夏日出逃 - 九三词：文怿/殊桉

我奔赴一场未知 - 九三词：小柒

给张云雷 - 九三词：阿敏

失联星空 - 九三词：青柠

前期准备

1.模型使用

请先参考快速开始学习完一个ModelScope模型的完整使用。

2.环境准备

· CentOS 7.7 64位

· Anaconda环境配置

请参考我的这篇文章：Linux下的Anaconda环境配置

或官方文档

· Python环境配置

conda create -n modelscope python=3.7
conda activate modelscope

其他环境配置请参考：环境安装

3.歌词分析

首先使用StructBERT通用领域中文分词模型pipeline调用方式进行歌词分词，下面是一个单句歌词的分词数据示例：

from modelscope.models import Model 
frommodelscope.pipelines import pipeline 
frommodelscope.utils.constant import Tasks 
frommodelscope.preprocessors import
TokenClassificationPreprocessor pipeline_ins=pipeline(task=Tasks.word_segmentation) 
result = pipeline_ins(input="后来开始我一个人怀念") 
result:  {'output': '后来 开始 我 一个 人 怀念'}

通过对歌词的分词进行词频统计，得到的结果如下：