首页 > 代码库 > 网络采集软件核心技术剖析系列(6)---将任意博主的全部博文下载到SQLite数据库中并通过Webbrower显示(将之前的内容综合到一起)
网络采集软件核心技术剖析系列(6)---将任意博主的全部博文下载到SQLite数据库中并通过Webbrower显示(将之前的内容综合到一起)
一 本系列随笔目录及本节代码下载
开发环境:VS2008
本节源码位置:https://github.com/songboriceboy/GatherAllStoreInDB
源码下载办法:安装SVN客户端(本文最后提供下载地址),然后checkout以下的地址:https://github.com/songboriceboy/GatherAllStoreInDB
系列文章提纲拟定如下:
2.如何使用C#语言获得博文的内容;
3.使用C#语言如何将html网页转换成pdf(html2pdf)
4.如何使用C#语言下载博文中的全部图片到本地并可以离线浏览
5.如何使用C#语言合成多个单个的pdf文件到一个pdf中,并生成目录
6.网易博客的链接如何使用C#语言获取到,网易博客的特殊性;
7.微信公众号文章如何使用C#语言下载;
8.如何获取任意一篇文章的全部图文
9.如何使用C#语言去掉html中的全部标签获取纯文本(html2txt)
10.如何使用C#语言将多个html文件编译成chm(html2chm)
11.如何使用C#语言远程发布文章到新浪博客
12.如何使用C#语言开发静态站点生成器
13.如何使用C#语言搭建程序框架(经典Winform界面,顶部菜单栏,工具栏,左边树形列表,右边多Tab界面)
14.如何使用C#语言实现网页编辑器(Winform)
二 第六节主要内容简介(将任意博主的全部博文下载到SQLite数据库中并通过Webbrower显示)
将任意博主的全部博文下载到SQLite数据库中并通过Webbrower显示的解决方案,演示demo如下图所示:可执行文件下载
与上节的demo不同在于,上节我们得到的某个博主的全部博文被保存在DataTable(内存)中,程序关闭后,全部下载下来的博文全都没了,下次还需要重新下载,这样明显不好。
这次我们将下载的博文存在sqlite数据库中,每新增一个博主,程序会自动在执行文件所在的文件夹下的WebSiteDB子目录中创建一个以博主ID命名的.db文件,该数据库是sqlite数据库。
程序加载的时候会自动去执行文件所在的文件夹下的WebSiteDB子目录扫描,在ComboBox下拉中列出扫描到数据库名字,点击某一个下拉项,程序自动加载该数据库中的文章表中的全部数据到DataGridView显示,点击DataGridView的某一项,可以在下部的WebBrower中浏览网页。
三 基本原理
我们为某个博主的全部博文定义了一张数据库表,表结构如下:
string m_strCreatTable = @"--1-2 层节点表(AU_LayerNode)drop table if exists [AU_LayerNode];CREATE TABLE AU_LayerNode( AU_LayerNodeID INT NOT NULL PRIMARY KEY, AU_ParentLayerNodeID INT NOT NULL DEFAULT 0, AU_UrlAddress VARCHAR(1000) NOT NULL DEFAULT ‘‘, AU_UrlTitle NVARCHAR(1000) NOT NULL DEFAULT ‘‘, AU_UrlContent NTEXT NOT NULL DEFAULT ‘‘, AU_UrlLayer INT NOT NULL DEFAULT 0, AU_IsVisit INT NOT NULL DEFAULT 0, AU_RemoveSameOffset1 INT NOT NULL DEFAULT 0, AU_RemoveSameOffset2 INT NOT NULL DEFAULT 0, AU_LastUpdateDate DATETIME NOT NULL DEFAULT ‘2012-01-01‘, AU_ReserveInt1 INT NOT NULL DEFAULT 0, AU_ReserveInt2 INT NOT NULL DEFAULT 0, AU_ReserveInt3 INT NOT NULL DEFAULT 0, AU_ReserveInt4 INT NOT NULL DEFAULT 0, AU_ReserveInt5 INT NOT NULL DEFAULT 0, AU_ReserveInt6 INT NOT NULL DEFAULT 0, AU_ReserveInt7 INT NOT NULL DEFAULT 0, AU_ReserveInt8 INT NOT NULL DEFAULT 0, AU_ReserveStr1 VARCHAR(1000) NOT NULL DEFAULT ‘‘, AU_ReserveStr2 VARCHAR(1000) NOT NULL DEFAULT ‘‘, AU_ReserveNStr1 NVARCHAR(1000) NOT NULL DEFAULT ‘‘, AU_ReserveNStr2 NVARCHAR(1000) NOT NULL DEFAULT ‘‘, AU_ReserveTEXT1 TEXT NOT NULL DEFAULT ‘‘, AU_ReserveTEXT2 TEXT NOT NULL DEFAULT ‘‘, AU_ReserveTEXT3 TEXT NOT NULL DEFAULT ‘‘, AU_ReserveNTEXT1 NTEXT NOT NULL DEFAULT ‘‘, AU_ReserveNTEXT2 NTEXT NOT NULL DEFAULT ‘‘, AU_ReserveNTEXT3 NTEXT NOT NULL DEFAULT ‘‘, AU_ReserveDateTime1 DATETIME NOT NULL DEFAULT ‘2012-01-01‘, AU_ReserveDateTime2 DATETIME NOT NULL DEFAULT ‘2012-01-01‘, AU_ReserveDateTime3 DATETIME NOT NULL DEFAULT ‘2012-01-01‘, AU_ReserveDateTime4 DATETIME NOT NULL DEFAULT ‘2012-01-01‘, AU_ReserveDecmial1 DECIMAL NOT NULL DEFAULT 0, AU_ReserveDecmial2 DECIMAL NOT NULL DEFAULT 0);";
其中最重要的是AU_UrlAddress,AU_UrlTitle,AU_UrlContent这3个字段,分别表示博文链接地址,博文标题,博文正文内容。
接下来,对比上节内容,我们在新增博主下载的功能函数中增加了以下几行代码:
private Cls_SqliteMng m_sqliteMng = new Cls_SqliteMng();
string m_connStr1 = @"Data Source=" + Application.StartupPath + @"\WebSiteDB\";string m_connStr2 = @";Initial Catalog=sqlite;Integrated Security=True;Max Pool Size=10";
private string m_strInsertTaskInitData = http://www.mamicode.com/@"insert into [AU_LayerNode] values(0, 0, ‘#^$BlogID$^#‘,‘‘, ‘‘, 0, 0, 0, 0
, ‘2012-01-01‘, 0, 0, 0, 0, 0, 1, 1, 0,‘‘, ‘‘,‘‘, ‘‘,‘‘, ‘‘,‘‘, ‘‘,‘‘, ‘‘, ‘2012-01-01‘, ‘2012-01-01‘, ‘2012-01-01‘, ‘2012-01-01‘, 1, 0)";
m_sqliteMng.CreateDB(m_strDBFolder + this.toolStripTextBox1.Text + ".db"); m_sqliteMng.ExecuteSql(m_strCreatTable , m_connStr1 + this.toolStripTextBox1.Text + ".db" + m_connStr2); string strInsertTaskInitData = http://www.mamicode.com/m_strInsertTaskInitData.Replace("#^$BlogID$^#", this.toolStripTextBox1.Text); m_sqliteMng.ExecuteSql(strInsertTaskInitData , m_connStr1 + this.toolStripTextBox1.Text + ".db" + m_connStr2);
m_sqliteMng.CreateDB(m_strDBFolder + this.toolStripTextBox1.Text + ".db");
上面这句是创建数据库;
m_sqliteMng.ExecuteSql(m_strCreatTable, m_connStr1 + this.toolStripTextBox1.Text + ".db" + m_connStr2);
上面这句是在数据库中创建数据库表;
m_sqliteMng.ExecuteSql(strInsertTaskInitData, m_connStr1 + this.toolStripTextBox1.Text + ".db" + m_connStr2);
上面这句是在数据库表中插入一条默认数据;
其中Cls_SqliteMng是封装的一个Sqlite操作类,代码如下:
class Cls_SqliteMng { //string m_DBName = ""; //string connStr = ""; //创建一个数据库文件,保存在当前目录下HyData文件夹下 // public void CreateDB(string dbName) { // string databaseFileName = System.Environment.CurrentDirectory + @"/HyData/" + dbName; SQLiteConnection.CreateFile(dbName); } //执行Sql语句 //创建一个表: ExecuteSql("create table HyTest(TestID TEXT)"); //插入些数据: ExecuteSql("insert into HyTest(TestID) values(‘1001‘)"); public void ExecuteSql(string sqlStr, string strConStr) { //connStr = connStr1 + m_DBName + connStr; using (DbConnection conn = new SQLiteConnection(strConStr)) { conn.Open(); DbCommand comm = conn.CreateCommand(); comm.CommandText = sqlStr; comm.CommandType = CommandType.Text; comm.ExecuteNonQuery(); } } }
对比上一节,另一个修改的地方是,在底层采集器获取到一篇博文回调界面的AddBlog(BlogGather.DelegatePara dp)函数:
private void AddBlog(BlogGather.DelegatePara dp) { if (this.InvokeRequired) { this.Invoke(new BlogGatherCnblogs.GreetingDelegate(this.AddBlog), dp); return; } try { string strWholeDbName = m_strDBConStringPath + this.toolStripTextBox1.Text + ".db"; DYH_DB.Model.AU_LayerNode modelAU_LayerNode = new DYH_DB.Model.AU_LayerNode(); modelAU_LayerNode.AU_ParentLayerNodeID = -1; modelAU_LayerNode.AU_LayerNodeID = m_bllAU_LayerNode.GetMaxId(strWholeDbName); modelAU_LayerNode.AU_UrlLayer = 0; modelAU_LayerNode.AU_UrlAddress = ""; string strTitle = Regex.Replace(dp.strTitle, @"[|/\;.‘:*?<>-]", "").ToString(); strTitle = Regex.Replace(strTitle, "[\"]", "").ToString(); strTitle = Regex.Replace(strTitle, @"\s", ""); modelAU_LayerNode.AU_UrlTitle = strTitle; modelAU_LayerNode.AU_UrlContent = dp.strContent; ; modelAU_LayerNode.AU_IsVisit = 0; modelAU_LayerNode.AU_RemoveSameOffset1 = 0; modelAU_LayerNode.AU_RemoveSameOffset2 = 0; modelAU_LayerNode.AU_LastUpdateDate = System.DateTime.Now.Date; m_bllAU_LayerNode.Add(strWholeDbName, modelAU_LayerNode); DataSet dsTemps = m_bllAU_LayerNode.GetList(strWholeDbName, ""); this.dataGridView1.DataSource = dsTemps.Tables[0]; this.dataGridView1.Columns[1].Visible = false; this.dataGridView1.Columns[0].Width = this.Width; } catch (Exception ex) { } }
这里,我们将采集到的博文保存到数据库中,其中用到了动软代码生成器的三层结构,具体代码请自行下载研究。
出处:http://www.cnblogs.com/ice-river/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文链接。
正在看本人博客的这位童鞋,我看你气度不凡,谈吐间隐隐有王者之气,日后必有一番作为!旁边有“推荐”二字,你就顺手把它点了吧,相得准,我分文不收;相不准,你也好回来找我!
网络采集软件核心技术剖析系列(6)---将任意博主的全部博文下载到SQLite数据库中并通过Webbrower显示(将之前的内容综合到一起)