go读取大文件（GO编程读取文件）-爱玩科技

火客 2023-04-26 01:50:21 795

go读取大文件（GO编程读取文件）$ go run byLine.go /tmp/swtag.log /tmp/adobegc.log | wc 4761 88521 568402如下的命令会校验前述输出的精确性：func main() { flag.Parse() if len(flag.Args()) == 0 { fmt.Printf("usage: byLine <file1> [<file2> ...]\n") return } for _ file := range flag.Args() { err := lineByLine(file) if err != nil { fmt.Println(err) } }

go读取大文件（GO编程读取文件）(1)

文本文件是Unix系统中最常见的一种文件。在本节中，你将学习如何以三种方式读取文本文件：逐行读取、逐词读取、逐字符读取。如你所见，逐行读取是访问文本文件的最简单方法，而逐词读取是最困难的方法。

如果你仔细观察byLine.go、byWord.go、byCharacter.go程序，你会发现它们的Go代码有许多相似之处。首先，它们都是逐行读取输入文件。其次，除了main()函数的for循环中调用的函数不同之外，这三个实用程序都具有相同的main()函数。最后，除了函数的实现部分不同之外，处理输入文本文件的三个函数几乎是相同的。

逐行读取文本文件

逐行读取文本文件是最常用的方式。这也是我们首先介绍它的原因。byLine.go程序分为三部分，将帮助你理解这个技巧。

byLine.go第一部分代码如下：

package main import ( "bufio" "flag" "fmt" "io" "os" )

引入bufio包表示我们将使用缓冲区输入。

func lineByLine(file string) error { var err error f err := os.Open(file) if err != nil { return err } defer f.Close() r := bufio.NewReader(f) for { line err := r.ReadString('\n') if err == io.EOF { break } else if err != nil { fmt.Printf("error reading file %s" err) break } fmt.Printf(line) } return nil }

所有的实现都在lineByLine()函数中。在确保可以打开指定的文件名进行读取之后，你调用bufio.NewReader()创建一个新的读实例，然后你可以调用bufio.ReadString()逐行读取文件。行分隔符通过bufio.ReadString()参数指定，它指示bufio.ReadString()一直读取，直到碰到行分隔符为止。当参数是换行符时，不断调用bufio.ReadString()会逐行读取输入文件！注意，使用fmt.Print()而不是fmt.Println()输出读取行，说明每个输入行中都包含了换行符。

byLine.go第三部分代码如下：

func main() { flag.Parse() if len(flag.Args()) == 0 { fmt.Printf("usage: byLine <file1> [<file2> ...]\n") return } for _ file := range flag.Args() { err := lineByLine(file) if err != nil { fmt.Println(err) } } }

执行byLine.go，并使用wc(1)处理输出会产生如下的输出内容：

$ go run byLine.go /tmp/swtag.log /tmp/adobegc.log | wc 4761 88521 568402

如下的命令会校验前述输出的精确性：

$ wc /tmp/swtag.log /tmp/adobegc.log 131 693 8440 /tmp/swtag.log 4630 87828 559962 /tmp/adobegc.log 4761 88521 568402 total逐词读取文本文件

技术将通过byWord.go文件演示，它由四部分组成。正如你在Go代码中看到的，分隔一行中的单词可能比较棘手。程序的第一部分如下：

package main import ( "bufio" "flag" "fmt" "io" "os" "regexp" )

byWord.go的第二部分代码如下：

func wordByWord(file string) error { var err error f err := os.Open(file) if err != nil { return err } defer f.Close() r := bufio.NewReader(f) for { line err := r.ReadString('\n') if err == io.EOF { break } else if err != nil { fmt.Printf("error reading file %s" err) return err }

wordByWord()函数的这部分代码和byLine.go程序的lineByLine()函数一样。

byWord.go第三部分代码如下：

r := regexp.MustCompile("[^\\s] ") words := r.FindAllString(line -1) for i := 0; i < len(words); i { fmt.Printf(words[i]) } } return nil }

wordByWord()函数的剩余代码是全新的，并使用正则表达式对输入的每行进行单词分割。正则表达式regexp.MustCompile("[^\\s] ")使用空格分割单词。

byWord.go的最后一部分代码如下：

func main() { flag.Parse() if len(flag.Args()) == 0 { fmt.Printf("usage: byWord <file1> [<file2> ...]\n") return } for _ file := range flag.Args() { err := wordByWord(file) if err != nil { fmt.Println(err) } } }

执行byWord.go会产生如下的输出：

$ go run byWord.go /tmp/adobegc.log 01/08/18 20:25:09:669 | [INFO]

可以使用wc(1)验证byWord.go的正确性：

$ go run byWord.go /tmp/adobegc.log | wc 91591 91591 559005 $ wc /tmp/adobegc.log 4831 91591 583454 /tmp/adobegc.log

如你所见，wc(1)计算所得的单词数和byWord.go一致。

逐字符读取文本文件

学会如何逐字符读取文本文件，这是一个非常少见的需求，除非你想创建文本编辑器。相关的Go代码参考byCharacter.go，将分为四部分介绍。

byCharacter.go第一部分代码如下：

package main import ( "bufio" "flag" "fmt" "io" "os" )

如你所见，本程序不需要使用正则表达式。

byCharacter.go第二部分代码如下：

func charByChar(file string) error { var err error f err := os.Open(file) if err != nil { return err } defer f.Close() r := bufio.NewReader(f) for { line err := r.ReadString('\n') if err == io.EOF { break } else if err != nil { fmt.Printf("error reading file %s" err) return err }

byCharacter.go第三部分代码如下：

for _ x := range line { fmt.Println(string(x)) } } return nil }

此处，你读取每一行，并使用range分割。range返回两个值：丢弃第一个值，它是line变量中当前字符的位置，并使用第二个值。但是，该值不是字符-这就是为什么必须使用string()函数将其转换为字符的原因。

注意，由于fmt.Println(string(x))语句，每个字符都按行打印，这意味着程序的输出将很大。如果想要压缩输出，应该使用fmt.Print()函数。

byCharacter.go的最后一部分代码如下：

func main() { flag.Parse() if len(flag.Args()) == 0 { fmt.Printf("usage: byChar <file1> [<file2> ...]\n") return } for _ file := range flag.Args() { err := charByChar(file) if err != nil { fmt.Println(err) } } }

执行byCharacter.go会产生如下输出：

$ go run byCharacter.go /tmp/adobegc.log 0 1 / 0 8 / 1 8

注意，上述Go代码也能用来统计输入文件的字符个数，即是Go版本的wc(1)命令行实现。

从/dev/random中读取

学习如何从/dev/random系统设备读取数据。/dev/random系统设备的目的是生成随机数据，你可以使用这些数据来测试程序，或者，在本例中，你将为随机数生成器生成随机数种子。从/dev/random获取数据可能有些棘手，这也是要在这里特别讨论它的主要原因。

在macOS High Sierra机器上，/dev/random文件具有如下的权限：

$ ls -l /dev/random crw-rw-rw- 1 root wheel 14 0 Jan 8 20:24 /dev/random

同样，在Debian Linux机器上，/dev/random系统设备具有如下的Unix文件权限：

$ ls -l /dev/random crw-rw-rw- 1 root root 1 8 Jan 13 12:19 /dev/random

这意味着/dev/random文件在这两种Unix变体系统上具有类似的文件权限。惟一区别是它们的文件组权限不同，macOS是wheel，Debian Linux上是root。

本节主题的程序是devRandom.go，分为三部分。第一部分代码如下：

package main import ( "encoding/binary" "fmt" "os" )

为了从dev/random中读取数据，需要引入encoding/binary标准包，因为/dev/random返回二进制数据，需要解码。

devRandom.go第二部分代码如下：

func main() { f err := os.Open("/dev/random") defer f.Close() if err != nil { fmt.Println(err) return }

和以往一样，打开/dev/random，因为Unix中一切皆是文件。

devRandom.go最后一部分代码如下：

var seed int64 binary.Read(f binary.LittleEndian &seed) fmt.Println("Seed:" seed) }

调用binary.Read()函数从/dev/random系统设备中读取数据， binary.Read()函数需要三个参数：第二个参数(binary.LittleEndian)指定了小端字节序，另一个选项是binary.BigEndian，在计算机使用大端字节序时使用。

执行devRandom.go得到如下输出：

$ go run devRandom.go Seed: -2044736418491485077 $ go run devRandom.go Seed: -517485437251490328 $ go run devRandom.go Seed: 7702177874251412774从文件中读取所需的数据量

学习如何准确读取所需的数据量。这种技术在读取二进制文件时特别有用，在二进制文件中，必须以特定的方式解码读取的数据。不过，这种技术仍然适用于文本文件。

这种技术背后的逻辑并不难：创建一个所需大小的字节切片，并使用该字节切片进行读取。为了更有趣一点，我们将使用一个函数实现这个功能，这个函数具有两个参数。一个参数用于指定需要读取的数据量，另一个参数将使用*os.File文件类型，用于访问所需的文件。该函数的返回值将是所读取的数据。

本节的实现文件是readSize.go，分为四部分。程序接受一个简单的参数，为字节切片的大小。

当使用当前技术时，这个特定的程序可以帮助你使用所需的缓冲区大小复制任何文件。

readSize.go的第一部分代码如下：

package main import ( "fmt" "io" "os" "strconv" )

readSize.go的第二部分代码如下：

func readSize(f *os.File size int) []byte { buffer := make([]byte size) n err := f.Read(buffer) if err == io.EOF { return nil } if err != nil { fmt.Println(err) return nil } return buffer[0:n] }

这即是前面讨论的函数。尽管代码相当直接，但仍有一点需要解释。io.Reader.Read()方法返回两个参数：读取的字节数以及error变量。

readSize()函数的作用是：使用io.Read()的第一个返回值返回字节切片大小。虽然这是一个很小的细节，而且只有在到达文件末尾时才重要，但是它确保实用程序的输出与输入相同，并且不包含任何额外的字符。最后，还要检查io.EOF 表示已经到达文件的末尾。当发生错误时，函数返回。

代码的第三部分如下：

func main() { arguments := os.Args if len(arguments) != 3 { fmt.Println("<buffer size> <filename>") return } bufferSize err := strconv.Atoi(os.Args[1]) if err != nil { fmt.Println(err) return } file := os.Args[2] f err := os.Open(file) if err != nil { fmt.Println(err) return } defer f.Close()

readSize.go的最后一部分代码如下：

for { readData := readSize(f bufferSize) if readData != nil { fmt.Println(string(readData)) } else { break } } }

所以，你需要一直读取输入文件，直到返回错误或者nil。

执行readSize.go，传入处理的二进制文件，并使用wc(1)处理它的输出，来验证程序的正确性。

复制代码$ go run readSize.go 1000 /bin/ls | wc 80 1032 38688 $ wc /bin/ls 80 1032 38688 /bin/ls读取CSV文件

CSV文件是纯文本文件。在本节中，你将学习如何读取包含平面点的文本文件，这意味着每一行将包含一对坐标。此外，你还将使用一个名为Glot的外部Go库，它将帮助你创建从CSV文件中读取的点的图表。注意，Glot使用Gnuplot，这意味着你需要在Unix机器上安装Gnuplot才能使用Glot。

程序是CSVplot.go，分为五部分。第一部分代码如下：

package main import ( "encoding/csv" "fmt" "github.com/Arafatk/glot" "os" "strconv" )

CSVplot.go第二部分代码如下：

func main() { if len(os.Args) != 2 { fmt.Println("Need a data file!") return } file := os.Args[1] _ err := os.Stat(file) if err != nil { fmt.Println("Cannot stat" file) return }

在本部分中，你将看到一种使用强大的os.Stat()函数检查文件是否已经存在的技术。

CSVplot.go第三部分代码如下：

f err := os.Open(file) if err != nil { fmt.Println("Cannot open" file) fmt.Println(err) return } defer f.Close() reader := csv.NewReader(f) reader.FieldsPerRecord = -1 allRecords err := reader.ReadAll() if err != nil { fmt.Println(err) return }

CSVplot.go第四部分代码如下：

xP := []float64{} yP := []float64{} for _ rec := range allRecords { x _ := strconv.ParseFloat(rec[0] 64) y _ := strconv.ParseFloat(rec[1] 64) xP = append(xP x) yP = append(yP y) } points := [][]float64{} points = append(points xP) points = append(points yP) fmt.Println(points)

此处，你将字符串转为数字，并追加到二维切片points中。

CSVplot.go最后一部分代码如下：

dimensions := 2 persist := true debug := false plot _ := glot.NewPlot(dimensions persist debug) plot.SetTitle("Using Glot with CSV data") plot.SetXLabel("X-Axis") plot.SetYLabel("Y-Axis") style := "circle" plot.AddPointGroup("Circle:" style points) plot.SavePlot("output.png") }

在前面的go代码中，你了解了如何使用Glot库及其Glot.SavePlot()函数创建PNG文件。

可以猜到，在编译和执行CSVplot.go之前，需要下载Glot Go库，它需要从Unix shell执行以下命令：

$ go get github.com/Arafatk/glot

你可以通过查看~/go目录查看当前命令的执行结果:

$ ls -l ~/go/pkg/darwin_amd64/github.com/Arafatk/ total 240 -rw-r--r-- 1 mtsouk staff 119750 Jan 22 22:12 glot.a $ ls -l ~/go/src/github.com/Arafatk/glot/ total 120 -rw-r--r-- 1 mtsouk staff 1818 Jan 22 22:12 README.md -rw-r--r-- 1 mtsouk staff 6092 Jan 22 22:12 common.go -rw-r--r-- 1 mtsouk staff 552 Jan 22 22:12 common_test.go -rw-r--r-- 1 mtsouk staff 3162 Jan 22 22:12 core.go -rw-r--r-- 1 mtsouk staff 138 Jan 22 22:12 core_test.go -rw-r--r-- 1 mtsouk staff 3049 Jan 22 22:12 function.go -rw-r--r-- 1 mtsouk staff 511 Jan 22 22:12 function_test.go -rw-r--r-- 1 mtsouk staff 4955 Jan 22 22:12 glot.go -rw-r--r-- 1 mtsouk staff 220 Jan 22 22:12 glot_test.go -rw-r--r-- 1 mtsouk staff 10536 Jan 22 22:12 pointgroup.go -rw-r--r-- 1 mtsouk staff 378 Jan 22 22:12 pointgroup_test.go

包含要绘制的点的CSV数据文件具有以下格式：

$ cat /tmp/dataFile 1 2 2 3 3 3 4 4 5 8 6 5 -1 12 -2 10 -3 10 -4 10

执行CSVplot.go会产生如下的输出：

$ go run CSVplot.go /tmp/doesNoExits Cannot stat /tmp/doesNoExits $ go run CSVplot.gp /tmp/dataFile [[1 2 3 4 5 6 -1 -2 -3 -4] [2 3 3 4 8 5 12 10 10 10]]

网站首页

返回栏目

go读取大文件（GO编程读取文件）

猜您喜欢：

相关文章