大作业啊!!!!

指导书文档

Python程序设计

实践指导书

2020版

目  录

实验一 用python处理文本数据(必做)

实验二 用python处理数值型数据(必做)

实验一 用python处理文本数据(必做)

实验目的:熟悉python的基本数据结构,以及文件的输入与输出。

实验环境:anaconda3

实验数据:

利用2015年中国机器学习会议的评测数据和评测任务,数据包括训练集(7813条)和测试集(2610条),评测任务为通过给定的训练数据,预测测试集中的关系是正例还是负例,在每个样本最后给出1或者0。数据描述如下。

训练集如下图所示,第一列为关系类型,第二列和第三列为人名,第四列是标题,第五列是关系为正例还是负例,1为正例,0为负例;第六列表示训练集还是训练集。

测试集如下图所示,格式基本与训练集类似,唯一不同的是第五列没有关系是正例还是负例的标记。

实验内容:

1对训练集数据进行处理,只留下前面五列,输出文本命名为exp1_1.txt。

2 在第一步得到的数据的基础上对19类关系进行分类,

生成的文本存放在exp1_train文件夹下,

按照关系类别出现的顺序,

第一个关系类别的数据存放在1.txt中,第二个关系类别存放在2.txt中,直到19.txt。

3 测试集按照训练集的19个类别的顺序将各个样本按照关系类别归类,

即相同关系类型的数据放到一个文本文件中,

同样生成19个类别的测试文件,

格式仍旧和测试文件保持一致。

存放在exp1_test文件夹下,

每个类别的文件仍旧命名为1_test.txt,2_test.txt…

同时对每个样本在原测试集中出现的位置进行记录,

和19个测试文件一一对应起来。

比如第一类“传闻不和”的每个样本在原文中处于第几行,

在索引文件中进行记录,

保存在文件index1.txt,index2.txt….

实验报告:

1实验报告内容为处理上述文件时的思路,用文字进行简单描述,也可以画流程图。

实验结果及考核:

1将上述处理之后的文件及实验报告压缩后,用学号+姓名的方式命名,并上交。

2 完成的实验除了上交之后,需要进行口头答辩。

实验二 用python处理数值型数据(必做)

实验目的:熟悉python的基本数据结构,以及文件的输入与输出。

实验环境:anaconda3

实验数据:

2016年阿里天池大赛,也是中国高校第一届大数据挑战赛的数据。数据包括两个表,分别是用户行为表mars_tianchi_user_actions.csv和歌曲艺人表mars_tianchi_songs.csv。大赛开放抽样的歌曲艺人数据,以及和这些艺人相关的6个月内(20150301-20150831)的用户行为历史记录。选手需要预测艺人随后2个月,即60天(20150901-20151030)的播放数据。

实验内容:

1 对歌曲艺人数据mars_tianchi_songs进行处理,

统计出艺人的个数以及每个艺人的歌曲数量。

输出文件格式为exp2_1.csv,

第一列为艺人的ID

第二列为该艺人的歌曲数目

最后一行输出艺人的个数。

2 将用户行为表和歌曲艺人表以歌曲song_id作为关联,

合并为一个大表。

各列名称为第一到第五列与用户行为表的列名一致,

第六到第十列为歌曲艺人表中的第二列到第六列的列名。

输出文件名为exp2_2.csv。

3 按照艺人统计每个艺人每天所有歌曲的播放量

输出文件为exp2_3.csv,

各个列名为

艺人id,

日期Ds,

歌曲播放总量。

注意:这里只统计歌曲的播放量,不包括下载和收藏的数量。

实验报告:

1实验报告内容为处理上述文件时的思路,用文字进行简单描述,也可以画流程图。

实验结果及考核:

1将上述处理之后的文件及实验报告压缩后,用学号+姓名的方式命名,并上交。

2 完成的实验除了上交之后,需要进行口头答辩。

实验一

数据

代码及生成文件和实验报告

实验二

数据

代码及生成文件和实验报告

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
下一篇>>