使用Spark分析author—keyword数据集
数据集来自唐杰Aminer dataset中自2006-2011中抽取的DM顶级会议的paper, 其中user为paper author, 而item 为出现在paper中的keyword
1 | dataset = sc.textFile("hdfs:///dm/author_keyword/author_keyword.txt") |
machine learning, coding
数据集来自唐杰Aminer dataset中自2006-2011中抽取的DM顶级会议的paper, 其中user为paper author, 而item 为出现在paper中的keyword
1 | dataset = sc.textFile("hdfs:///dm/author_keyword/author_keyword.txt") |