博客网 >

文献计量分析的自动化
作者:分类:默认分类标签:

文献计量分析可以全部由手工进行;也可对各项数据手工输入Excel或专门处理软件进行统计;还可以编制程序自动对数据进行抽取输入处理软件或直接实现,对于数据量大的统计这种方法比较好。如对数字参考咨询服务领域论文的分析,可利用数据库的下载题录功能生成样本,并通过Perl语言编程实现了对样本分词、词频进行自动统计。

Perl强大的正则表示式(regular expression)比对以及字符串操作使这个工作变得简单而没有其它语言能相比。Perl 非常擅长于切割,扭转,绞,弄平,总结,以及其它的操作文字文件。

Perl语言编制的主要程序之一(实现对题录中作者、机构、刊名的自动提取并对结果按序输出)

use strict;

use warnings;

my $in_file;

my $out_file;

my $line;

my $temp;

my $author;

my $institution;

my @authors;

my @institutions;

my %authors;

my %institutions;

my %journals;

open LIST_FILE,"

open OUT_FILE,">result.txt" or die("Can't creat dest file!");

while(1)  {

    $line = ;

    if(not defined($line))  {

        last;

    }

    chomp($line);

    if($line eq "")  {

        next;

    }

    if($line =~ /(.*)\.txt/)  {

        $line = $1;

    }

    $in_file = $line.".txt";

#    $out_file = $line."_r.txt";

    open IN_FILE,"<$in_file" or die("Can't open source file: $in_file !");

    while(1)  {

        $line = ;

        if(not defined($line))  {

            last;

        }

        chomp($line);

        if($line eq "")  {

            next;

        }

        if($line =~ /^【题 名】/)  {

            $line = "\n";

#            print OUT_FILE $line;

        }

        if($line =~ /^【作 者】(.*)$/)  {

            @authors = split /\s+/, $1;

            foreach $author (@authors)  {

                $author =~ s//(/;

                if($author =~ /(.*)[[|(].*$/)  {

                    $author = $1;

#                } else {

#                    $author = $author."\n";

                }

                if(defined($authors{$author}))  {

                $authors{$author}++;

                } else {

                    $authors{$author} = 1;

                }

#                print OUT_FILE $author;

            }

        }

        if($line =~ /^【机 构】(.*)$/)  {

            @institutions = split /\s+/, $1;

            foreach $institution (@institutions)  {

                $institution =~ s//,/;

                if($institution =~ /^(?:[[|(]\d+[\]|\)])*(.*)$/)  {

                    $temp = $1;

                    if($1 =~ /(.*),.*$/)  {

                        $institution = $1;

                    } else {

                        $institution = $temp;

                    }

                } else {

                    $institution = $institution;

                }

                if(defined($institutions{$institution}))  {

                    $institutions{$institution}++;

                } else {

                    $institutions{$institution} = 1;

                }

#                print OUT_FILE $institution;

            }

        }

        if($line =~ /^【刊 名】([^\.]+)\.?(.*)$/)  {

            $line = $1;

            if(defined($journals{$line}))  {

                $journals{$line}++;

            } else {

                $journals{$line} = 1;

            }

#            print OUT_FILE $line;

        }

        if($line =~ /^【文 摘】/)  {

            $line = "\n";

#            print OUT_FILE $line;

        }

    }

    close(IN_FILE);

}

print OUT_FILE "【作 者】\n";

foreach (sort keys %authors)  {

    print OUT_FILE "$authors{$_}\t<=>\t$_\n";

}

print OUT_FILE "\n\n";

print OUT_FILE "【机 构】\n";

foreach (sort keys %institutions)  {

    print OUT_FILE "$institutions{$_}\t<=>\t$_\n";

}

print OUT_FILE "\n\n";

print OUT_FILE "【刊 名】\n";

foreach (sort keys %journals)  {

    print OUT_FILE "$journals{$_}\t<=>\t$_\n";

}

close(OUT_FILE);

close(LIST_FILE);

处理的题录样本

【题 名】数字图书馆中虚拟参考咨询及其技术实现

【作 者】李兰兰[1] 王兆良[2]

【机 构】[1]中南民族大学图书馆,湖北武汉430074 [2]中南民族大学管理学院,湖北武汉430074

【刊 名】武汉科技学院学报.2006,19(1).-121-124

【文 摘】数字图书馆中虚拟参考咨询服务通常采用三种模式。虚拟参考咨询的技术实现包括图书馆参考咨询主页的设计,多媒体技术及各种咨询软件的应用等。文中还介绍了虚拟参考咨询服务的发展趋势。

<< web2.0新概念新网站 / “创新”的含义 >>

专题推荐

不平凡的水果世界

不平凡的水果世界

平凡的水果世界,平凡中的不平凡。 今朝看水果是水果 ,看水果还是水果 ,看水果已不是水果。这境界,谁人可比?在不平凡的水果世界里,仁者见仁,智者见智。

中国春节的那些习俗

中国春节的那些习俗

正月是农历新年的开始,人们往往将它看作是新的一年年运好坏的兆示期。所以,过年的时候“禁忌”特别多。当然,各个地方的风俗习惯不一样,过年的禁忌也是不一样的。

评论
0/200
表情 验证码:

slyang2005

  • 文章总数0
  • 画报总数0
  • 画报点击数0
  • 文章点击数0
个人排行
        博文分类
        日期归档