Распарсиваем базу AOL. Пошаговое руководство.

Отвечая на коммент в предыдущей статье, сваял мануал:

Скачали 10 файлов баз и распаковали их в отдельную папку, у меня это E:\aol.


Переименуем их для простоты в 1.txt – 10.txt.

Запускаем Microsoft Access и создаем новую базу данных.


Называем базу “aol”

Идем в меню "Файл", "внешние данные", "связь с таблицами".


Выбираем тип файлов- "текстовые"

Выбираем первый файл 1.txt

И создаем с ним связь. Выбираем формат данных- с разделителями, нажимаем «Далее».

Разделителем ставим символ табуляции и ставим галочку "Первая строка содержит имена полей".

Теперь нужно выбрать поля для импорта. Нам нужно только второе поле "Query", а остальным полям ставим галочку "не импортировать (пропустить) поле".





Нажимаем "далее", имя связанной таблицы оставляем по умолчанию.

Нажимаем "Готово"- все связь установлена.

Получаем вот такую картину, теперь у нас появилась таблица "1":

Снова идем в меню "Файл", "внешние данные", "связь с таблицами". Выбираем следующий текстовый файл и повторяем процедуру подключения.

Таким образом подключаются все 10 файлов. В результате должно получиться вот что:

Теперь нужно создать запросы на выборку. Идем в "Запросы", "Создание запроса с помощью мастера".

Выбираем "Таблица 1", поле "Query".

Имя запроса оставляем по умолчанию. Нажимаем "Изменить макет запроса".

И попадаем вот сюда:

Идем в меню "Вид", "Режим "SQL".

Видим вот такой текст запроса:

Меняем его вот на такой запрос:


SELECT DISTINCT [1].[Query]
FROM 1
ORDER BY [1].[Query];


Сохраняем макет запроса и закрываем конструктор. Запускаем запрос и ждем пару минут...

Получаем следующую таблицу- результат выборки:

Не закрывая окно, идем в меню "Файл", "Экспорт".

Формат экспорта- "текстовые файлы":

Обзываем результирующий файл “b1.txt” и нажимаем "Сохранить все":

Далее запускается мастер экспорта, где выбираем формат экспорта- "с разделителями" и нажимаем кнопку "Дополнительно":

Ставим настройки как на рисунке и нажимаем "ОК".

Ждем несколько секунд, а может и минут и получаем вот такую картину:

Нажимаем "Далее".

И «Готово».

Файл “b1.txt” содержит только уникальные записи колонки “Query”.

Повторяем процедуру выборки из остальных подключенных таблиц. Можно создать еще 9 запросов, а можно редактировать первый, меняя имя таблицы "1" на "2"-"10".

В результате получим 10 файлов по 1.2 млн. уникальных запросов в каждом.

Кроме кейвордов в этих файлах содержится некоторое количество строк мусора, который желательно удалить из базы. Это можно сделать в каком-нибудь текстовом редакторе, удобнее всего, на мой взгляд, чистить базу в "TextPipePro". Но об этом в следующий раз.

Fast: [10] [20]
Page created in 0.03252 seconds Powered by LastoBlog